علم داده چیست؟
مهندسی صنایع// به چه چیزهایی نمی گوییم علم داده ؟
من حدود دو سال است که در زمینهی علم داده فعالیت میکنم. در اینجا برخی از نظراتم دربارهی اینکه علم داده چیست را ارائه میدهم همچنین میتوانیم از پاسخ به این سوال شروع کنیم که علم داده به چه چیزهایی گفته نمیشود.
اولا علم داده یک کار مهندسی نرمافزار نیست و این یعنی که علم داده مربوط به تولید محصول و یا ویژگیهای محصول یا هر چیز مطلوب دیگر نیست.
دوما علم داده یک کار تجسمی نیست. ایجاد یک تصور مناسب نه شروع کار و نه هدف نهایی یک دانشمند علم داده است. و نیازی به گفتن نیست که علم داده تولید اینفوگرافیکهای موثر نیست.
سوما، علم داده یک کار علمی نیست. به ویژه دانشمندان علم داده، در محیط آکادمیک کار نمیکنند و این علم نیاز مخصوص صنعت و بازارهای تجاری است. دانشمندان علم داده معمولا مقاله چاپ نمیکنند و همچنین چاپ مقاله و کتاب دغدغهی کاری هیچ یک دانشمندان علم داده نیست.
آخرین مورد، من با این نظر عمومی که علم داده در بیشتر اوقات، آمار است مخالفم. بهتر است داستان کوتاهی از خودم نقل کنم. زمانی از من خواسته شد که یک نفر را برای کمک در کارهایم استخدام کنم و در این راستا با افراد زیادی از طریق تلفن مصاحبه کردم.
بسیاری از متقاضیان از حیطههای تحلیل آماری میآمدند و بیشتر انها تمایل داشتند که بسیار با اعتماد به نفس به نظر برسند که بیشتر از آنچه که نیاز است برای این شغل مناسب هستند.
اگرچه من با هیچ یک از آنها بعدا تماس نگرفتم، چیزی که من در آن زمان متوجه شدم این بود که دانش آماری به تنهایی نمیتواند یک نفر را برای همکاری موثر با من زمینهای که در علم داده فعالیت دارم، به دلایلی که در ادامه ذکر میکنم، آماده کند.
علم داده:
حالا ما آماده هستیم تا در مورد اینکه علم داده چیست صحبت کنیم. علم داده جمع کاملی از مهارتهای برنامهنویسی، دانش آماری،برخی تکنیکهای تصویرسازی و مورد آخر مقدار زیادی شم تجاری میباشد. شم تجاریای که من به ویژه به ان اهمیت میدهم، تمایل به ترجمهی هر سوال در زمینهی تجارت به سوالی است که با دادههایی که یا موجود هستند یا در اینده در اختیار قرار میگیرند، قابل پاسخ دادن باشد. در حقیقت علم داده یک راه به خصوص را برای اتصال تمام نقاط در دنیای تصادفی پر از داده که بیشتر انها در وهلهی اول مفید به نظر نمیرسند، بهکار میگیرد.
یک دانشمند در حوزهی علم داده، براساس درک کنونی من، فردی است که بین جهان تجارت و جهان داده ارتباط برقرار میکند.
میخواهم در مورد تصور مشابهی که از علم داده در ذهن دارم برایتان صحبت کنم. فعالیت در حوزهی علم داده مانند تهیهی غذاست. این کار شامل دادهکاوی که شامل ETL (استخراج، انتقال و بارگذاری) میشود اما به انها محدود نیست، تمیزکاری داده و رفع نقص دادهها و … میباشد.
این مرحله مشابه مرحلهی امادهسازی غذاست که شما سبزیها و گوشت را تمیز میکنید و مواد غذایی را به قطعات با سایز مناسب ریز میکنید و انها را کنار قرار میدهید.
بعد از انجام این امور، شما امادهی طبخ مواد غذایی هستید که این مرحله، مرحلهی نظیر جستو جوی دادهها، ساخت ویژگیها و اجرای الگوریتمها و … میباشد. این مرحله همان مرحلهی طبخ گوشت و سبزیجات طبق یک دستور مرحله به مرحله و طبق زمانبندیست و سپس باید مواد خام را که تبدل به غذای آمادهی سرو میشوند نظاره کنید. مرحلهی اخر سرو غذا است.
وقتی که شما غذای طبخ شده را به صورت هنری تزیین میکنید و آن را به ترتیبی که سفارش داده شده سرو میکنید. این همان مرحله است که شما نتایج دادهکاوی خود را در یک تصویرسازی هنری آماده میکنید و گزارشهایی تهیه میکنید تا برای کاربرانی که اینکار را سفارش داده بودند ارسال میکنید.
به طور خلاصه، فرایند علم داده شامل دادهکاوی و ارائهی نتایج قابل بکارگیری میباشد. براساس تجربهی شخصیام، مجموعهی ابزاری که میتوان به کمک ان تمام یا بخشی از این فرایند را انجام داد شامل Python، R، Tableau، SQL و … میباشد.
پایتون ( Python) به عنوان یک ابزار مفید برای تمام اهداف و به ویژه برای آمادهسازی داده بکار میرود. این نرمافزار بهعلاوه میتواند برای دادهکاوی نیز استفاده شود (با کمک بستهی اموزشی scitik-learn). علاوه براین پایتون میتواند برای انتقال اطلاعات مورد استفاده قرار گیرد چرا که امکانات رسم گراف در ان روز به روز در حال رشد است.
نرم افزار R در زمینهی امادهسازی داده در مقایسه با Python اندکی ضعیف است. اما بهخاطر طبیعتش که تمام مفاهیم آماری که با آن سروکار داریم را شامل میشود. این نرمافزار را تبدیل به یک نرمافزار عالی برای جستوجو در دادهها و اجرای الگوریتمها برای پارامترهای مختلف و تولید پیشالگو برای علم داده میکند. R همچنین در تصویرسازی نیز بسیار قوی عمل میکند و میتواند یک فرایند تکراری دادهکاوی را به یک گزارش درخشنده تبدیل کند.
صحبت از تصویرسازی دادهها است، Tableau یکی از بهترین نرمافزارهای تجاری برای جستو جوی تصویری دادههاست. این نرمافزار به علاوه برای تولید گزارشهای تصویری واکنشپذیر نیز به کار میرود.
در کنار Python، R و Tableau یک نرمافزار دیگر در حوزهی علم داده وجود دارد که تمایل دارم قبل از اتمام این پست به معرفی ان بپردازم. SQL در حوزهی امادهسازی داده مانند زبان انگلیسی است. این زبان برنامهنویسی در یکپارچهسازی منابع مختلف داده بسیار قدرتمند است و همچنین در جستوجوی دادهها و عیبیابی انها بسیار مفید است.
امیدوارم که انچه گفته شد برای شما قابل درک باشد. من همچنان در حال اموزش هستم و در حال تعمیق بخشیدن به دانش خود در این زمینه میباشم.
نویسنده: Ji Li, data scientist
مترجم: تیم تولید محتوای کانال Data science
سلام من سال اول مهندسی صنایع هستم
میخاستم ببینم مهارت برنامه نویسی و تصویر سازی چه نقشی رو دارن و استفادشون چیه ؟!
سلام/این همه اول از خودت تعریف کردی بعد کلی توضیح دادی اخرش اصلا مفید نبود.