
اگر تصور میکنید علم داده و هوش مصنوعی یکی هستند، یا برعکس، دو رقیب جدیاند، بهتر است کمی در نگاهتان تجدید نظر کنید.
بیایید از یک حقیقت تاریخی شروع کنیم.
هوش مصنوعی پدیده جدیدی نیست. تولد رسمی آن به سال ۱۹۵۶ و کنفرانس دارتموث برمیگردد. از آن روز تا امروز، هوش مصنوعی فراز و نشیبهای زیادی را پشت سر گذاشته است.
اما علم داده داستان دیگری دارد.
علم داده بسیار جوانتر است. اوایل دهه ۲۰۰۰، وقتی حجم دادهها به طرز باورنکردنی افزایش پیدا کرد، دانشمندان به این نتیجه رسیدند که روشهای سنتی آماری و پایگاه داده دیگر جوابگو نیست.
به همین دلیل، یک رشته میانرشتهای متولد شد با نام «علم داده» یا Data Science.
بهترین تشبیه، رابطه «پدر و فرزند» نیست، بلکه رابطه «درخت و شاخه» است.
هوش مصنوعی درخت کهنسالی است که ریشههایش به دههها قبل میرسد. علم داده یکی از پرمایهترین و پربارترین شاخههای این درخت محسوب میشود. اما تفاوت اصلی در هدف این دو حوزه نهفته است.
هوش مصنوعی (به خصوص در تعریف کلاسیک خود) به دنبال شبیهسازی هوش انسانی است. میخواهد ماشینی بسازد که مثل انسان فکر کند، استدلال کند و تصمیم بگیرد.
اما علم داده چنین جاهطلبی ندارد.
علم داده صرفاً و صرفاً روی «داده» تمرکز میکند. هدف آن استخراج دانش، الگو و بینش از دادههای خام است. فرقی نمیکند از روشهای آماری ساده استفاده کند یا از الگوریتمهای پیچیده یادگیری ماشین.
مثال اول: فرض کنید یک فروشگاه آنلاین میخواهد بداند کدام محصول در ماه گذشته بیشترین فروش را داشته است.
جمعآوری این اطلاعات، تمیز کردن دادهها و رسم یک نمودار ساده، یک پروژه علم داده است. در اینجا هیچ هوش مصنوعی به کار نرفته است. صرفاً یک تحلیل توصیفی انجام شده.
مثال دوم: حالا فرض کنید همان فروشگاه میخواهد پیشبینی کند کدام مشتری در ماه آینده خرید خود را متوقف میکند.
در اینجا دانشمند داده از الگوریتمهای یادگیری ماشین (که خود زیرمجموعه هوش مصنوعی است) استفاده میکند تا مدلی بسازد. این مدل ساخته شده یک مصداق کوچک از هوش مصنوعی است.
هر دو مثال بالا، علم داده محسوب میشوند. اما مثال دوم، علم دادهای است که از ابزارهای هوش مصنوعی بهره گرفته است.
پس میتوان اینگونه جمعبندی کرد: تمام علم داده زیرمجموعه هوش مصنوعی نیست. اما علم داده مدرن که از یادگیری ماشین استفاده میکند، قطعاً یکی از شاخههای پرکاربرد هوش مصنوعی به شمار میرود.
حالا که این رابطه را درست فهمیدیم، بد نیست نگاهی به کاربردهای علم داده در دنیای واقعی بیندازیم.
سیستم پیشنهاد فیلم در نتفلیکس یا اسپاتیفای؟ پشت صحنه آن علم داده خوابیده است.
تشخیص تراکنشهای مشکوک بانکی و جلوگیری از کلاهبرداری؟ باز هم علم داده.
بهینهسازی مسیرهای ارسال مرسولات پستی در شرکتهای لجستیکی؟ علم داده جوابگو است.
پیشبینی قیمت سهام، تحلیل احساسات مشتریان در توییتر، تشخیص زودهنگام بیماریها از روی تصاویر پزشکی. همه و همه بدون علم داده تقریباً غیرممکن هستند.
اگر به این فکر میکنید که چطور وارد علم داده شوید، مسیر سختی پیش رو ندارید. کافی است با مفاهیم پایه آمار و احتمال شروع کنید. بعد سراغ یادگیری زبان پایتون بروید. پس از آن، کتابخانههایی مثل Pandas و NumPy را تمرین کنید.
و در نهایت، وقتی به مرحله مدلسازی رسیدید، دیگر عملاً وارد آن بخش از هوش مصنوعی شدهاید که به آن یادگیری ماشین میگوییم.
پس دیگر نگران نباشید. علم داده و هوش مصنوعی رقیب شما نیستند. آنها ابزارهای قدرتمندی در دست شما هستند. کافی است بدانید هر کدام چه کاری میتواند انجام دهد.
آینده از آنِ کسانی است که زبان داده را بلد باشند.
حتماً این سوال برایتان پیش آمده که یک دانشمند داده پشت میز کارش دقیقاً چه کاری انجام میدهد؟
آیا فقط کد مینویسد؟ یا با نمودارها و گزارشهای رنگی سر و کار دارد؟
واقعیت این است که وظایف علم داده بسیار متنوعتر و جذابتر از این حرفهاست.
قبل از هر خط کد، یک دانشمند داده باید بفهمد که کسبوکار واقعاً به چه چیزی نیاز دارد.
آیا مدیر فروشگاه میخواهد بداند چرا مشتریها ریزش کردهاند؟ یا میخواهد پیشبینی کند کدام کالاها برای ماه بعد پرتقاضا هستند؟
درک درست مسئله، نیمی از موفقیت است. بدون این مرحله، حتی پیچیدهترین الگوریتمها هم بیفایده خواهند بود.

حالا نوبت به پیدا کردن و جمعآوری داده میرسد.
داده میتواند از جایهای مختلفی بیاید: پایگاه داده فروشگاه، فایلهای اکسل، اطلاعات رفتار کاربران در وبسایت، حتی از سنسورهای کارخانه.
یک دانشمند داده باید بداند از کجا و چطور این دادهها را استخراج کند.
برای این کار معمولاً از زبان SQL استفاده میشود تا با پایگاههای داده ارتباط برقرار کند.

باور کنید این مرحله، زمانبرترین و در عین حال حیاتیترین بخش کار است.
دادههای خام همیشه نامرتب و کثیف هستند. مقادیر خالی، دادههای تکراری، فرمتهای اشتباه و خطاهای انسانی همه جا دیده میشوند.
اگر داده را پاکسازی نکنید، مدل شما خروجی اشتباه خواهد داد. به قول معروف: «Garbage in, garbage out».
در این مرحله، دانشمند داده ستونهای بیاستفاده را حذف میکند، مقادیر گمشده را مدیریت مینماید و دادهها را به فرمت یکسان تبدیل میکند.

حالا که داده تمیز شده، وقت کشف و شهود است.
در این مرحله، دانشمند داده با ابزارهای مصورسازی (مثل Matplotlib یا Seaborn در پایتون) شروع به رسم نمودارهای مختلف میکند.
میخواهد ببیند توزیع سنی مشتریان چگونه است؟ کدام محصول بیشترین فروش را دارد؟ آیا بین دو متغیر (مثلاً قیمت و میزان فروش) رابطهای وجود دارد؟
این مرحله مثل یک کارآگاهی است. شما با نگاه به نمودارها، الگوها، ناهنجاریها و داستان پشت داده را کشف میکنید.

این مرحله تا حد زیادی تعیین میکند که مدل نهایی شما چقدر دقیق خواهد بود.
داده خام به تنهایی برای مدل قابل استفاده نیست. شما باید «ویژگی» یا Feature بسازید.
مثلاً فرض کنید ستون «تاریخ خرید» دارید. یک دانشمند داده از روی این ستون، ویژگیهای جدیدی میسازد: روز هفته، ماه، فصل، یا تعداد روز از آخرین خرید.
این ویژگیهای جدید به مدل کمک میکنند تا الگوهای عمیقتری را یاد بگیرد.

حالا به قلب علم داده میرسیم. این جایی است که پای هوش مصنوعی و یادگیری ماشین به میان میآید.
دانشمند داده باید الگوریتم مناسب را انتخاب کند. بسته به مسئله، گزینههای مختلفی وجود دارد.
میخواهیم دستهبندی کنیم؟ از رگرسیون لجستیک یا جنگل تصادفی استفاده میکنیم. میخواهیم عددی را پیشبینی کنیم؟ رگرسیون خطی یا XGBoost جواب میدهد.
بعد از انتخاب، مدل را با دادههای موجود آموزش میدهد و سپس با دادههای جدید تست میکند تا مطمئن شود خروجی درستی تولید میکند.
یک مدل ساخته شده است، اما از کجا بدانیم خوب کار میکند؟
اینجا معیارهای ارزیابی وارد میشوند. مثلاً دقت (Accuracy)، معیار F1 یا خطای میانگین مربعات (MSE).
کار دانشمند داده این است که مدل را با معیارهای مختلف بسنجد و بهترین نسخه را انتخاب کند.
گاهی لازم است بارها و بارها مدل را تنظیم کند (به این کار Hyperparameter Tuning میگویند) تا به نتیجه مطلوب برسد.
آخرین و شاید مهمترین وظیفه: توضیح دادن نتایج به دیگران.
مدیران کسبوکار معمولاً کد پایتون نمیفهمند و به الگوریتمها کاری ندارند. آنها میخواهند بدانند «چه کاری باید انجام دهند».
دانشمند داده باید نتایج را به زبان ساده و با کمک نمودارهای جذاب توضیح دهد. مثلاً بگوید: «بر اساس مدل ما، اگر تخفیف ۲۰ درصدی روی محصول X بدهیم، فروش ۳۵ درصد افزایش مییابد.»
این مرحله به مهارت داستانسرایی (Storytelling) و ارتباط مؤثر نیاز دارد.
گاهی یک پروژه ساده فقط تا مرحله تحلیل اکتشافی پیش میرود و دیگر خبری از مدلسازی نیست.
گاهی هم مدل ساخته میشود، اما هیچوقت به مرحله اجرا نمیرسد.
مهم این است که بدانید علم داده فقط الگوریتم نوشتن نیست. ترکیبی از درک کسبوکار، مهارت برنامهنویسی، دانش آمار و توانایی ارتباط برقرار کردن است.
اگر از آن دسته افرادی هستید که عاشق حل مسئله هستید و از کار با داده خسته نمیشوید، احتمالاً علم داده همان مسیر شغلی است که دنبالش میگشتید.