در کنار رشد علم داده در سالهای اخیر در فضای کاری، بسیاری از دانشگاههای مطرح دنیا رشتۀ علم داده را در فضای آکادمیک ارائه میکنند. دانشگاههایی مانند برکلی، میشیگان، امآیتی و ... رشتۀ علم داده را ارائه میدهند. بسیاری از این دورهها قدمت زیادی ندارند. مثلا دانشگاه میشیگان در سال 2015 با بودجۀ 100 میلیون دلار و به کارگیری 35 عضو هیئت علمی بخش مختص علم دادۀ خود را آغاز کرد.
این رشد پرسروصدا باعث ایجاد بحثهایی در فضای آکادمیک و به خصوص آماردانها شدهاست. از آنجا که یکی از کارهای اصلی علم آمار کار با داده است، تعدادی از آماردانها معتقدند که علم داده چیزی بیشتر از آمار نیست. مثلا در یک رویداد دربارۀ رابطۀ علم آمار و علم داده گفتهشد که علم داده در اصل همان عرضۀ آمار در یک شکل و شمایل جدید است. به طور مشابه در سال 2013 ماری دیویدیان، آماردان برجسته و دبیر سابق انجمن آمار آمریکا این سوال را مطرح کرد که آیا ما (آمار) علم داده نیستیم؟
در پاسخ به این بحثها پاسخهای مختلفی ارائه میشود. یکی از این پاسخها به موضوع کلان داده (big data) و ابزارهای کار با آن به عنوان وجه تمایز علم داده اشاره میکند در صورتی که موضوع کلان داده قبلتر از به وجود آمدن علم داده به شکلی که امروزه از آن نام برده میشود در ریاضیات و علم آمار مطرح شدهاست. در اصل افزایش کاربرد و استفاده از کلانداده بیش از آن که به خود علم داده مربوط باشد به افزایش قدرت محاسباتی کامپیوترها در سالهای اخیر وابسته است.

پاسخ دیگر اما ریشۀ این بحث را در آنچه امروزه به عنوان علم داده مطرح شده و روی آن تاکید میشود میداند. لئو برایمن، آماردان و استاد دانشگاه برکلی در مقالهای که در سال 2001 نوشت به موجی در کار با داده و تحلیل آن اشاره میکند که هدف اصلی آن استفاده از دادهها برای حداکثرسازی دقت پیشبینی یک متغیر هدف است. یکی از بزرگترین رویدادهایی که در این زمینه برگزار میشود مسابقات سایت kaggle است. در این مسابقات معمولا یک دادۀ نسبتا بزرگ دربارۀ یک موضوع به شرکتکنندهها داده شده و انتظار میرود الگوریتمهایی روی آن پیاده شود تا یک پیشبینی خوب از یک متغیر هدف ارائه شود. رشد استفاده از الگوریتمهای پیچیده مانند شبکههای عصبی برای حل این مسائل نیز حرفی که برایمن در چندین سال قبل زده را تایید میکند.

در این شرایط برخی افراد سعی میکنند تصویر وسیعتری از علم داده ارائه دهند و آن را محدود به استفاده از الگوریتمها و افزایش دقت پیشبینی نمیبینند. جان چمبرز، استاد دانشگاه استنفورد و یکی از بنیانگذاران زبان برنامهنویسی S که بعدها منجر به ایجاد زبان برنامهنویسی R شد مهارتهایی که یک دانشمند داده باید داشتهباشد را اینگونه ترسیم میکند:

این گستردگی باعث میشود دانشمند داده از صرف کار با داده فراتر رفته به تعریفی که انجمن علوم داده از آن ارائه میدهد نزدیکتر شود.
‘‘Data Scientist" means a professional who uses scientific methods to liberate and create meaning from raw data.
Data Science Association’s “Professional Code of Conduct”
منابع:
David Donoho. 50 Years of Data Science, 2015
https://magazine.amstat.org/blog/2013/07/01/datascience/
https://www.datascienceassn.org/code-of-conduct.html