مقاله/ یادداشت

علم داده چیست؟

علم داده

علم داده چیست؟

مهندسی صنایع// به چه چیزهایی نمی گوییم علم داده ؟

من حدود دو سال است که در زمینه‌ی علم داده فعالیت می‌کنم. در اینجا برخی از نظراتم درباره‌ی اینکه علم داده چیست را ارائه می‌دهم هم‌چنین می‌توانیم از پاسخ به این سوال شروع کنیم که علم داده به چه چیزهایی گفته نمی‌شود.
اولا علم داده یک کار مهندسی نرم‌افزار نیست و این یعنی که علم داده مربوط به تولید محصول و  یا ویژگی‌های محصول یا هر چیز مطلوب دیگر نیست.
دوما علم داده یک کار تجسمی نیست. ایجاد یک تصور مناسب نه شروع کار و نه هدف نهایی یک دانشمند علم داده است. و نیازی به گفتن نیست که علم داده تولید اینفوگرافیک‌های موثر نیست.
سوما، علم داده یک کار علمی نیست. به ویژه دانشمندان علم داده، در محیط آکادمیک کار نمی‌کنند و این علم نیاز مخصوص صنعت و بازارهای تجاری است. دانشمندان علم داده معمولا مقاله چاپ نمی‌کنند و هم‌چنین چاپ مقاله و کتاب دغدغه‌ی کاری هیچ یک دانشمندان علم داده نیست.
آخرین مورد، من با این نظر عمومی که علم داده در بیشتر اوقات، آمار است مخالفم. بهتر است داستان کوتاهی از خودم نقل کنم. زمانی از من خواسته شد که یک نفر را برای کمک در کارهایم استخدام کنم و در این راستا با افراد زیادی از طریق تلفن مصاحبه کردم.
بسیاری از متقاضیان از حیطه‌های تحلیل آماری می‌آمدند و بیشتر ان‌ها تمایل داشتند که بسیار با اعتماد به نفس به نظر برسند که بیشتر از آنچه که نیاز است برای این شغل مناسب هستند.
اگرچه من با هیچ یک از آن‌ها بعدا تماس نگرفتم، چیزی که من در آن زمان متوجه شدم این بود که دانش آماری به تنهایی نمی‌تواند یک نفر را برای همکاری موثر با من زمینه‌ای که در علم داده فعالیت دارم، به دلایلی که در ادامه ذکر می‌کنم، آماده کند.

علم داده:

حالا ما آماده هستیم تا در مورد اینکه علم داده چیست صحبت کنیم. علم داده جمع کاملی از مهارت‌های برنامه‌نویسی، دانش آماری،برخی تکنیک‌های تصویرسازی و مورد آخر مقدار زیادی شم تجاری می‌باشد. شم تجاری‌ای که من به ویژه به ان اهمیت می‌دهم، تمایل به ترجمه‌ی هر سوال در زمینه‌ی تجارت به سوالی است که با داده‌هایی که یا موجود هستند یا در اینده در اختیار قرار می‌گیرند، قابل پاسخ دادن باشد. در حقیقت علم داده یک راه به خصوص را برای اتصال تمام نقاط در دنیای تصادفی پر از داده که بیشتر ان‌ها در وهله‌ی اول مفید به نظر نمی‌رسند، به‌کار می‌گیرد.
یک دانشمند در حوزه‌ی علم داده، براساس درک کنونی من، فردی است که بین جهان تجارت و جهان داده ارتباط برقرار می‌کند.
می‌خواهم در مورد تصور مشابهی که از علم داده در ذهن دارم برایتان صحبت کنم. فعالیت در حوزه‌ی علم داده مانند تهیه‌ی غذاست. این کار شامل داده‌کاوی که شامل ETL (استخراج، انتقال و بارگذاری) می‌شود اما به ان‌ها محدود نیست، تمیزکاری داده و رفع نقص داده‌ها و … می‌باشد.
این مرحله مشابه مرحله‌ی اماده‌سازی غذاست که شما سبزی‌ها و گوشت را تمیز می‌کنید و مواد غذایی را به قطعات با سایز مناسب ریز می‌کنید و ان‌ها را کنار قرار می‌دهید.
بعد از انجام این امور، شما اماده‌ی طبخ مواد غذایی هستید که این مرحله، مرحله‌ی نظیر جست‌و جوی داده‌ها، ساخت ویژگی‌ها و اجرای الگوریتم‌ها و … می‌باشد. این مرحله همان مرحله‌ی طبخ گوشت و سبزیجات طبق یک دستور مرحله به مرحله و طبق زمانبندیست و سپس باید مواد خام را که تبدل به غذای آماده‌ی سرو می‌شوند نظاره کنید. مرحله‌ی اخر سرو غذا است.
وقتی که شما غذای طبخ شده را به صورت هنری تزیین می‌کنید و آن را به ترتیبی که سفارش داده شده سرو می‌کنید. این همان مرحله است که شما نتایج داده‌کاوی خود را در یک تصویرسازی هنری آماده می‌کنید و گزارش‌هایی تهیه می‌کنید تا برای کاربرانی که اینکار را سفارش داده بودند ارسال می‌کنید.
به طور خلاصه، فرایند علم داده شامل داده‌کاوی و ارائه‌ی نتایج قابل بکارگیری می‌باشد. براساس تجربه‌ی شخصی‌ام، مجموعه‌ی ابزاری که می‌توان به کمک ان تمام یا بخشی از این فرایند را انجام داد شامل Python، R، Tableau، SQL و … می‌باشد.
 پایتون ( Python) به عنوان یک ابزار مفید برای تمام اهداف و به ویژه برای آماده‌سازی داده بکار  می‌رود. این نرم‌افزار به‌علاوه می‌تواند برای داده‌کاوی نیز استفاده شود (با کمک بسته‌ی اموزشی scitik-learn). علاوه براین پایتون می‌تواند برای انتقال اطلاعات مورد استفاده قرار گیرد چرا که امکانات رسم گراف در ان روز به روز در حال رشد است.
نرم افزار R در زمینه‌ی اماده‌سازی داده در مقایسه با Python اندکی ضعیف است. اما به‌خاطر طبیعتش که تمام مفاهیم آماری که با آن سروکار داریم را شامل می‌شود. این نرم‌افزار را تبدیل به یک نرم‌افزار عالی برای جست‌و‌جو در داده‌ها و  اجرای الگوریتم‌ها برای پارامترهای مختلف و تولید پیش‌الگو برای علم داده می‌کند. R هم‌چنین در تصویرسازی نیز بسیار قوی عمل می‌کند و می‌تواند یک فرایند تکراری داده‌کاوی را به یک گزارش درخشنده تبدیل کند.
صحبت از تصویرسازی داده‌ها است، Tableau یکی از بهترین نرم‌افزارهای تجاری برای جست‌و جوی تصویری داده‌هاست. این نرم‌افزار به علاوه برای تولید گزارش‌های تصویری واکنش‌پذیر نیز به کار می‌رود.
در کنار Python، R و Tableau یک نرم‌افزار دیگر در حوزه‌ی علم داده وجود دارد که تمایل دارم قبل از اتمام این پست به معرفی ان بپردازم. SQL در حوزه‌ی اماده‌سازی داده مانند زبان انگلیسی است.  این زبان برنامه‌نویسی در یکپارچه‌سازی منابع مختلف داده بسیار قدرتمند است و هم‌چنین در جست‌وجوی داده‌ها و عیب‌یابی ان‌ها بسیار مفید است.
امیدوارم که انچه گفته شد برای شما قابل درک باشد. من همچنان در حال اموزش هستم و در حال تعمیق بخشیدن به دانش خود در این زمینه می‌باشم.
نویسنده: Ji Li, data scientist
مترجم: تیم تولید محتوای کانال Data science

درباره نویسنده

فاطمه انتظار

فاطمه انتظار هستم، کارشناس ارشد مهندسی صنایع و سردبیر سایت sanaaie.ir. فعالیت اصلی من محتوانویسی و ویراستاری در زمینه‌های مختلف است. اما در این سایت هدفم این است که مطالب مفید و آموزشی مناسبی برای دانشجویان و فارغ‌التحصیلان رشتۀ صنایع انتشار دهم و مسیر موفقیت آن‌ها را با افزایش مهارت‌هایشان هموار کنم.

۲ نظر

ارسال دیدگاه