ویرگول
ورودثبت نام
DataDays 2021
DataDays 2021سومین دورۀ DataDays، رویداد علوم دادۀ دانشگاه صنعتی شریف
DataDays 2021
DataDays 2021
خواندن ۴ دقیقه·۵ سال پیش

دانشمند داده بودن

در کنار رشد علم داده در سال‌های اخیر در فضای کاری، بسیاری از دانشگاه‌های مطرح دنیا رشتۀ علم داده را در فضای آکادمیک ارائه می‌کنند. دانشگاه‌هایی مانند برکلی، میشیگان، ام‌آی‌تی و ... رشتۀ علم داده را ارائه می‌دهند. بسیاری از این دوره‌ها قدمت زیادی ندارند. مثلا دانشگاه میشیگان در سال 2015 با بودجۀ 100 میلیون دلار و به کارگیری 35 عضو هیئت علمی بخش مختص علم دادۀ خود را آغاز کرد.

این رشد پرسروصدا باعث ایجاد بحث‌هایی در فضای آکادمیک و به خصوص آماردان‌ها شده‌است. از آنجا که یکی از کارهای اصلی علم آمار کار با داده است، تعدادی از آماردان‌ها معتقدند که علم داده چیزی بیشتر از آمار نیست. مثلا در یک رویداد دربارۀ رابطۀ علم آمار و علم داده گفته‌شد که علم داده در اصل همان عرضۀ آمار در یک شکل و شمایل جدید است. به طور مشابه در سال 2013 ماری دیویدیان، آماردان برجسته و دبیر سابق انجمن آمار آمریکا این سوال را مطرح کرد که آیا ما (آمار) علم داده نیستیم؟

در پاسخ به این بحث‌ها پاسخ‌های مختلفی ارائه می‌شود. یکی از این پاسخ‌ها به موضوع کلان داده (big data) و ابزارهای کار با آن به عنوان وجه تمایز علم داده اشاره می‌کند در صورتی که موضوع کلان داده قبل‌تر از به وجود آمدن علم داده به شکلی که امروزه از آن نام برده می‌شود در ریاضیات و علم آمار مطرح شده‌است. در اصل افزایش کاربرد و استفاده از کلان‌داده بیش از آن که به خود علم داده مربوط باشد به افزایش قدرت محاسباتی کامپیوترها در سال‌های اخیر وابسته است.


نمای بصری از یک شبکۀ عصبی.
نمای بصری از یک شبکۀ عصبی.


پاسخ دیگر اما ریشۀ این بحث را در آنچه امروزه به عنوان علم داده مطرح شده و روی آن تاکید می‌شود می‌داند. لئو برایمن، آماردان و استاد دانشگاه برکلی در مقاله‌ای که در سال 2001 نوشت به موجی در کار با داده و تحلیل آن اشاره می‌کند که هدف اصلی آن استفاده از داده‌ها برای حداکثرسازی دقت پیش‌بینی یک متغیر هدف است. یکی از بزرگ‌ترین رویدادهایی که در این زمینه برگزار می‌شود مسابقات سایت kaggle است. در این مسابقات معمولا یک دادۀ نسبتا بزرگ دربارۀ یک موضوع به شرکت‌کننده‌ها داده شده و انتظار می‌رود الگوریتم‌هایی روی آن پیاده شود تا یک پیشبینی خوب از یک متغیر هدف ارائه شود. رشد استفاده از الگوریتم‌های پیچیده مانند شبکه‌های عصبی برای حل این مسائل نیز حرفی که برایمن در چندین سال قبل زده را تایید می‌کند.

جان چمبرز (سمت چپ) و ترور هستی (Trevor Hastie)، دو آماردان مطرح در دانشگاه استنفورد.
جان چمبرز (سمت چپ) و ترور هستی (Trevor Hastie)، دو آماردان مطرح در دانشگاه استنفورد.


در این شرایط برخی افراد سعی می‌کنند تصویر وسیع‌تری از علم داده ارائه دهند و آن را محدود به استفاده از الگوریتم‌ها و افزایش دقت پیشبینی نمی‌بینند. جان چمبرز، استاد دانشگاه استنفورد و یکی از بنیانگذاران زبان برنامه‌نویسی S که بعدها منجر به ایجاد زبان برنامه‌نویسی R شد مهارت‌هایی که یک دانشمند داده باید داشته‌باشد را این‌گونه ترسیم میکند:

  • آماده‌سازی و تحلیل اکتشافی داده‌ها: گفته می‌شود که فرایند مرتب کردن داده‌های خام و مدیریت ناسازگاری‌های موجود در آن حدود 80 درصد زمان کار با داده را در بر می‌گیرد. در این فرایند داده‌ها آماده شده و یک شناخت اولیه از آنها به دست می‌آید تا تحلیل‌های عمیق‌تر و مدلسازی روی آنها انجام شود.
  • کار با داده‌های مختلف و ایجاد ارتباط بین آنها: یک دانشمند داده ممکن است با انواع مختلف داده‌ها مانند عکس، صوت، متن یا نقشه‌های جغرافیایی روبه‌رو شود. داشتن آشنایی در کار با این داده‌ها و تبدیل آنها به ساختارهایی که امکان تحلیلشان وجود داشته‌باشد به دانشمند داده کمک می‌کند.
  • دانش برنامه‌نویسی و انجام عملیات روی داده: استفاده از زبان‌های برنامه‌نویسی مانند پایتون و R در انجام کارهای مختلف روی داده بسیار لازم است. از طرفی در فرایند انجام عملیات گاها به دلیل حجیم بودن داده‌ها برخی محدودیت‌های محاسباتی به وجود می‌آید که باید با اجرای راهکار‌هایی مثل تقسیم محاسبات بین چند پردازندۀ مختلف از آنها جلوگیری کرد.
  • مدلسازی داده: پیاده‌کردن الگوریتم‌ها و مدل‌های آماری برای پیشبینی و بررسی ارتباط بین متغیرهای مختلف در این بخش مطرح می‌شود.
  • بصریسازی و ارائۀ داده: دانشمندان داده با استفاده از نمودارهای مختلف و انتخاب روایت مناسب از اطلاعاتی که میتوان با داده ارائه داد سعی می‌کنند تحلیل‌های خود را توضیح داده و ارائه کنند.
  • شناخت آکادمیک از خود علم داده و ارتباط آن با بقیۀ علوم: روش‌های مختلفی برای بررسی کیفیت مدل‌ها و تحلیل‌ها و اعتبارسنجی داده‌ها وجود دارند که باید بررسی شوند. همچنین در علم داده امکان انجام پژوهش‌ها و بررسی‌های بین رشته‌ای نیز وجود دارد.


این گستردگی باعث می‌شود دانشمند داده از صرف کار با داده فراتر رفته به تعریفی که انجمن علوم داده از آن ارائه می‌دهد نزدیک‌تر شود.

‘‘Data Scientist" means a professional who uses scientific methods to liberate and create meaning from raw data.
Data Science Association’s “Professional Code of Conduct”

منابع:

David Donoho. 50 Years of Data Science, 2015

https://magazine.amstat.org/blog/2013/07/01/datascience/

https://www.datascienceassn.org/code-of-conduct.html








علم دادهدیتا ساینستحلیل داده
۲
۰
DataDays 2021
DataDays 2021
سومین دورۀ DataDays، رویداد علوم دادۀ دانشگاه صنعتی شریف
شاید از این پست‌ها خوشتان بیاید