ویرگول
ورودثبت نام
Ahmadreza Sezavar
Ahmadreza SezavarPhD in AI https://github.com/SezavarH
Ahmadreza Sezavar
Ahmadreza Sezavar
خواندن ۶ دقیقه·۱ روز پیش

علم داده و هوش مصنوعی: قلب تپنده دنیای فناوری

اگر تصور می‌کنید علم داده و هوش مصنوعی یکی هستند، یا برعکس، دو رقیب جدی‌اند، بهتر است کمی در نگاهتان تجدید نظر کنید.

بیایید از یک حقیقت تاریخی شروع کنیم.

هوش مصنوعی پدیده جدیدی نیست. تولد رسمی آن به سال ۱۹۵۶ و کنفرانس دارتموث برمی‌گردد. از آن روز تا امروز، هوش مصنوعی فراز و نشیب‌های زیادی را پشت سر گذاشته است.

اما علم داده داستان دیگری دارد.

علم داده بسیار جوان‌تر است. اوایل دهه ۲۰۰۰، وقتی حجم داده‌ها به طرز باورنکردنی افزایش پیدا کرد، دانشمندان به این نتیجه رسیدند که روش‌های سنتی آماری و پایگاه داده دیگر جوابگو نیست.

به همین دلیل، یک رشته میان‌رشته‌ای متولد شد با نام «علم داده» یا Data Science.

حالا سوال اصلی: نسبت علم داده با هوش مصنوعی چیست؟

بهترین تشبیه، رابطه «پدر و فرزند» نیست، بلکه رابطه «درخت و شاخه» است.

هوش مصنوعی درخت کهنسالی است که ریشه‌هایش به دهه‌ها قبل می‌رسد. علم داده یکی از پرمایه‌ترین و پربارترین شاخه‌های این درخت محسوب می‌شود. اما تفاوت اصلی در هدف این دو حوزه نهفته است.

هوش مصنوعی (به خصوص در تعریف کلاسیک خود) به دنبال شبیه‌سازی هوش انسانی است. می‌خواهد ماشینی بسازد که مثل انسان فکر کند، استدلال کند و تصمیم بگیرد.

اما علم داده چنین جاه‌طلبی ندارد.

علم داده صرفاً و صرفاً روی «داده» تمرکز می‌کند. هدف آن استخراج دانش، الگو و بینش از داده‌های خام است. فرقی نمی‌کند از روش‌های آماری ساده استفاده کند یا از الگوریتم‌های پیچیده یادگیری ماشین.

برای روشن‌تر شدن، به دو مثال ساده توجه کنید.

مثال اول: فرض کنید یک فروشگاه آنلاین می‌خواهد بداند کدام محصول در ماه گذشته بیشترین فروش را داشته است.

جمع‌آوری این اطلاعات، تمیز کردن داده‌ها و رسم یک نمودار ساده، یک پروژه علم داده است. در اینجا هیچ هوش مصنوعی به کار نرفته است. صرفاً یک تحلیل توصیفی انجام شده.

مثال دوم: حالا فرض کنید همان فروشگاه می‌خواهد پیش‌بینی کند کدام مشتری در ماه آینده خرید خود را متوقف می‌کند.

در اینجا دانشمند داده از الگوریتم‌های یادگیری ماشین (که خود زیرمجموعه هوش مصنوعی است) استفاده می‌کند تا مدلی بسازد. این مدل ساخته شده یک مصداق کوچک از هوش مصنوعی است.

هر دو مثال بالا، علم داده محسوب می‌شوند. اما مثال دوم، علم داده‌ای است که از ابزارهای هوش مصنوعی بهره گرفته است.

پس می‌توان اینگونه جمع‌بندی کرد: تمام علم داده زیرمجموعه هوش مصنوعی نیست. اما علم داده مدرن که از یادگیری ماشین استفاده می‌کند، قطعاً یکی از شاخه‌های پرکاربرد هوش مصنوعی به شمار می‌رود.

حالا که این رابطه را درست فهمیدیم، بد نیست نگاهی به کاربردهای علم داده در دنیای واقعی بیندازیم.

  • سیستم پیشنهاد فیلم در نتفلیکس یا اسپاتیفای؟ پشت صحنه آن علم داده خوابیده است.

  • تشخیص تراکنش‌های مشکوک بانکی و جلوگیری از کلاهبرداری؟ باز هم علم داده.

  • بهینه‌سازی مسیرهای ارسال مرسولات پستی در شرکت‌های لجستیکی؟ علم داده جوابگو است.

  • پیش‌بینی قیمت سهام، تحلیل احساسات مشتریان در توییتر، تشخیص زودهنگام بیماری‌ها از روی تصاویر پزشکی. همه و همه بدون علم داده تقریباً غیرممکن هستند.

اگر به این فکر می‌کنید که چطور وارد علم داده شوید، مسیر سختی پیش رو ندارید. کافی است با مفاهیم پایه آمار و احتمال شروع کنید. بعد سراغ یادگیری زبان پایتون بروید. پس از آن، کتابخانه‌هایی مثل Pandas و NumPy را تمرین کنید.

و در نهایت، وقتی به مرحله مدل‌سازی رسیدید، دیگر عملاً وارد آن بخش از هوش مصنوعی شده‌اید که به آن یادگیری ماشین می‌گوییم.

پس دیگر نگران نباشید. علم داده و هوش مصنوعی رقیب شما نیستند. آنها ابزارهای قدرتمندی در دست شما هستند. کافی است بدانید هر کدام چه کاری می‌تواند انجام دهد.

آینده از آنِ کسانی است که زبان داده را بلد باشند.

یک دانشمند داده چه کارهایی انجام می‌دهد؟ نگاهی به وظایف علم داده

حتماً این سوال برایتان پیش آمده که یک دانشمند داده پشت میز کارش دقیقاً چه کاری انجام می‌دهد؟

آیا فقط کد می‌نویسد؟ یا با نمودارها و گزارش‌های رنگی سر و کار دارد؟

واقعیت این است که وظایف علم داده بسیار متنوع‌تر و جذاب‌تر از این حرف‌هاست.

وظیفه اول: درک مسئله کسب‌وکار

قبل از هر خط کد، یک دانشمند داده باید بفهمد که کسب‌وکار واقعاً به چه چیزی نیاز دارد.

آیا مدیر فروشگاه می‌خواهد بداند چرا مشتری‌ها ریزش کرده‌اند؟ یا می‌خواهد پیش‌بینی کند کدام کالاها برای ماه بعد پرتقاضا هستند؟

درک درست مسئله، نیمی از موفقیت است. بدون این مرحله، حتی پیچیده‌ترین الگوریتم‌ها هم بی‌فایده خواهند بود.

وظیفه دوم: جمع‌آوری داده

حالا نوبت به پیدا کردن و جمع‌آوری داده می‌رسد.

داده می‌تواند از جای‌های مختلفی بیاید: پایگاه داده فروشگاه، فایل‌های اکسل، اطلاعات رفتار کاربران در وبسایت، حتی از سنسورهای کارخانه.

یک دانشمند داده باید بداند از کجا و چطور این داده‌ها را استخراج کند.

برای این کار معمولاً از زبان SQL استفاده می‌شود تا با پایگاه‌های داده ارتباط برقرار کند.

وظیفه سوم: پاکسازی داده (The Most Boring but Crucial Part)

باور کنید این مرحله، زمان‌برترین و در عین حال حیاتی‌ترین بخش کار است.

داده‌های خام همیشه نامرتب و کثیف هستند. مقادیر خالی، داده‌های تکراری، فرمت‌های اشتباه و خطاهای انسانی همه جا دیده می‌شوند.

اگر داده را پاکسازی نکنید، مدل شما خروجی اشتباه خواهد داد. به قول معروف: «Garbage in, garbage out».

در این مرحله، دانشمند داده ستون‌های بی‌استفاده را حذف می‌کند، مقادیر گمشده را مدیریت می‌نماید و داده‌ها را به فرمت یکسان تبدیل می‌کند.

وظیفه چهارم: اکتشاف و تحلیل داده (Exploratory Data Analysis)

حالا که داده تمیز شده، وقت کشف و شهود است.

در این مرحله، دانشمند داده با ابزارهای مصورسازی (مثل Matplotlib یا Seaborn در پایتون) شروع به رسم نمودارهای مختلف می‌کند.

می‌خواهد ببیند توزیع سنی مشتریان چگونه است؟ کدام محصول بیشترین فروش را دارد؟ آیا بین دو متغیر (مثلاً قیمت و میزان فروش) رابطه‌ای وجود دارد؟

این مرحله مثل یک کارآگاهی است. شما با نگاه به نمودارها، الگوها، ناهنجاری‌ها و داستان پشت داده را کشف می‌کنید.

وظیفه پنجم: مهندسی ویژگی (Feature Engineering)

این مرحله تا حد زیادی تعیین می‌کند که مدل نهایی شما چقدر دقیق خواهد بود.

داده خام به تنهایی برای مدل قابل استفاده نیست. شما باید «ویژگی» یا Feature بسازید.

مثلاً فرض کنید ستون «تاریخ خرید» دارید. یک دانشمند داده از روی این ستون، ویژگی‌های جدیدی می‌سازد: روز هفته، ماه، فصل، یا تعداد روز از آخرین خرید.

این ویژگی‌های جدید به مدل کمک می‌کنند تا الگوهای عمیق‌تری را یاد بگیرد.

وظیفه ششم: انتخاب و ساخت مدل

حالا به قلب علم داده می‌رسیم. این جایی است که پای هوش مصنوعی و یادگیری ماشین به میان می‌آید.

دانشمند داده باید الگوریتم مناسب را انتخاب کند. بسته به مسئله، گزینه‌های مختلفی وجود دارد.

می‌خواهیم دسته‌بندی کنیم؟ از رگرسیون لجستیک یا جنگل تصادفی استفاده می‌کنیم. می‌خواهیم عددی را پیش‌بینی کنیم؟ رگرسیون خطی یا XGBoost جواب می‌دهد.

بعد از انتخاب، مدل را با داده‌های موجود آموزش می‌دهد و سپس با داده‌های جدید تست می‌کند تا مطمئن شود خروجی درستی تولید می‌کند.

وظیفه هفتم: ارزیابی مدل

یک مدل ساخته شده است، اما از کجا بدانیم خوب کار می‌کند؟

اینجا معیارهای ارزیابی وارد می‌شوند. مثلاً دقت (Accuracy)، معیار F1 یا خطای میانگین مربعات (MSE).

کار دانشمند داده این است که مدل را با معیارهای مختلف بسنجد و بهترین نسخه را انتخاب کند.

گاهی لازم است بارها و بارها مدل را تنظیم کند (به این کار Hyperparameter Tuning می‌گویند) تا به نتیجه مطلوب برسد.

وظیفه هشتم: تفسیر و ارائه نتایج

آخرین و شاید مهم‌ترین وظیفه: توضیح دادن نتایج به دیگران.

مدیران کسب‌وکار معمولاً کد پایتون نمی‌فهمند و به الگوریتم‌ها کاری ندارند. آنها می‌خواهند بدانند «چه کاری باید انجام دهند».

دانشمند داده باید نتایج را به زبان ساده و با کمک نمودارهای جذاب توضیح دهد. مثلاً بگوید: «بر اساس مدل ما، اگر تخفیف ۲۰ درصدی روی محصول X بدهیم، فروش ۳۵ درصد افزایش می‌یابد.»

این مرحله به مهارت داستان‌سرایی (Storytelling) و ارتباط مؤثر نیاز دارد.

نکته مهم: همه پروژه‌ها به همه این مراحل نیاز ندارند.

گاهی یک پروژه ساده فقط تا مرحله تحلیل اکتشافی پیش می‌رود و دیگر خبری از مدل‌سازی نیست.

گاهی هم مدل ساخته می‌شود، اما هیچوقت به مرحله اجرا نمی‌رسد.

مهم این است که بدانید علم داده فقط الگوریتم نوشتن نیست. ترکیبی از درک کسب‌وکار، مهارت برنامه‌نویسی، دانش آمار و توانایی ارتباط برقرار کردن است.

اگر از آن دسته افرادی هستید که عاشق حل مسئله هستید و از کار با داده خسته نمی‌شوید، احتمالاً علم داده همان مسیر شغلی است که دنبالش می‌گشتید.

هوش مصنوعیعلم
۰
۰
Ahmadreza Sezavar
Ahmadreza Sezavar
PhD in AI https://github.com/SezavarH
شاید از این پست‌ها خوشتان بیاید