علم داده ترکیبی چند رشتهای از استنباط داده، توسعه الگوریتم و فناوری برای حل مشکلات پیچیده تحلیلی است.
مهمترین عنصر داده است. انبوهی از اطلاعات خام، جریان یافته و در انبارهای دادههای سازمانی ذخیره میشود. با استخراج آن چیزهای زیادی میتوان یاد گرفت و قابلیتهای پیشرفتهای ایجاد کرد. علم داده به معنی استفاده از این دادهها در روشهای خلاقانه برای تولید ارزش کسب و کار است:
علم داده: کشف بینش دادهها
این جنبه از علم داده در مورد کشف یافتهها از طریق دادهها است. برای استخراج و درک رفتارهای پیچیده، روندها و استنتاجها، اقیانوسی از دادهها بررسی میشوند. این کار میتواند به شرکتها برای تصمیمگیری دقیقتر در زمینه کسب و کار کمک کند.
برای مثال دادههای Netflix الگوهای مشاهده فیلم را برای درک آنچه اکثر کاربران به آن علاقه دارند، استخراج میکند و از این روش برای تصمیم گیری در مورد تولید سریهای اصلی Netflix استفاده میکند.
در ادامه پیشنهاد میکنیم مقاله “چگونه نتفلیکس با استفاده از بیگدیتا، سریال خانه پوشالی را ساخت؟” را نیز مطالعه کنید.
دانشمندان داده چگونه بینشها را استخراج میکنند؟ این کار با کاوش دادهها شروع میشود. هنگامی که یک سوال چالشبرانگیز مطرح میگردد، دانشمندان داده به کارآگاه تبدیل میشوند. آنها سرنخها را بررسی کرده و سعی میکنند الگو یا خصوصیات موجود در دادهها را درک کنند. این نیاز به مقدار زیادی خلاقیت تحلیلی دارد.
سپس در صورت لزوم، دانشمندان داده میتوانند از روش کمّی برای دستیابی به سطح عمیقتر استفاده کنند؛ مانند مدلهای استنباطی، تجزیه و تحلیل تقسیمبندی، پیشبینی سری زمانی و آزمایشهای کنترل مصنوعی. هدف این است که از نظر علمی دیدگاهی مانند پزشکی قانونی از آنچه دادهها واقعاً میگویند، جمع کنند.
این بینش دادهمحور در ارائه راهنماییهای استراتژیک نقش اساسی دارد. از این نظر دانشمندان داده به عنوان مشاور عمل میکنند و ذینفعان مشاغل را در مورد برداشتن گام بعدی بر اساس یافتهها راهنمایی میکنند.
علم داده: توسعه محصول داده
“محصول داده” یک دارایی فنی است که از دادهها به عنوان ورودی استفاده میکند و دادهها را برای بازگشت نتایج الگوریتمی پردازش میکند. نمونه کلاسیک محصول داده، موتور توصیه است که دادههای کاربر را بررسی میکند و براساس آن دادهها، توصیههای شخصی ارائه میدهد. در اینجا چند نمونه از محصولات داده وجود دارد:
موتورهای پیشنهادی آمازون مواردی را برای خرید به شما پیشنهاد میدهند که توسط الگوریتمهای آنها تعیین میشود. Netflix فیلمها را به شما پیشنهاد میکند. Spotify موسیقی مورد پسند شما را در اختیارتان قرار میدهد.
دید رایانهای که برای اتومبیلهای خودران استفاده میشود نیز محصول داده است؛ الگوریتمهای یادگیری ماشین قادر به تشخیص چراغهای راهنمایی، سایر اتومبیلهای موجود در جاده و عابران پیاده هستند.
این موضوع با بخش “بینش دادهها” در بالا تفاوت دارد، در حالی که نتیجه بینش داده ممکن است ارائه مشاوره به یک مدیر اجرایی برای تصمیمگیری دقیقتر در زمینه کسب و کار باشد، یک محصول داده قابلیتی فنی است که یک الگوریتم را محصور میکند و برای ورود مستقیم در برنامههای اصلی طراحی شده است. نمونههای مربوط به برنامههایی که محصول داده را در پشت صحنه استفاده میکنند: صفحه اصلی آمازون، صندوق ورودی Gmail و نرمافزار رانندگی مستقل.
دانشمندان داده نقش اصلی را در تولید محصول داده بازی میکنند. این شامل ساخت الگوریتمها و همچنین آزمایش، تصفیه و استقرار فنی در سیستمهای تولید است. از این نظر، دانشمندان داده به عنوان توسعهدهندگان فنی خدمت میکنند و داراییهایی را میسازند که میتوان از آنها در مقیاس گسترده استفاده کرد.
علم داده چیست: مجموعه مهارتهای لازم
علم داده ترکیبی از مهارتها در سه زمینه اصلی است:

ریاضیات
در قلب بینش داده و ساخت محصول داده، توانایی مشاهده دادهها از طریق لنز کمّی وجود دارد. بافت، ابعاد و همبستگی در دادهها وجود دارد که میتواند از طریق ریاضی بیان شود. یافتن راه حل با استفاده از دادهها به یک بازی فکری در زمینه روش اکتشافی و کمّی میماند. راه حلهای بسیاری که برای مشکلات کسب و کار تدبیر میشوند، شامل ساخت مدلهای تحلیلی هستند که در ریاضیات سخت بنا شده باشد، جایی که توانایی درک مکانیک این مدلها، در ساخت آنها نقشی کلیدی ایفا میکند.
یک تصور غلط این است که دانش داده کاملاً در مورد آمار است. در این علم آمار مهم است، اما تنها نوع ریاضی مورد استفاده نیست. دو شاخه آمار وجود دارد: آمار کلاسیک و آمار بایزی. بیشتر افراد عموماً به آمار کلاسیک مراجعه میکنند، اما شناخت هر دو نوع مفید است. علاوه بر این، بسیاری از تکنیکهای استنباطی و الگوریتمهای یادگیری ماشین به دانش جبر خطی متکی هستند. به عنوان مثال، یک روش محبوب برای کشف ویژگیهای پنهان در یک مجموعه داده، SVD است که در دسته ریاضیات ماتریسی قرار میگیرد و ارتباط زیادی با آمار کلاسیک ندارد. به طور کلی، داشتن دانش در مورد ریاضیات برای دانشمندان داده مفید است.