بررسی تفاوت علوم داده و یادگیری ماشینی

کلمات علوم داده و یادگیری ماشینی اغلب باهم بکار میروند. هرچند که اگر بخواهید در یکی از این موارد، حرفه‌ ای شوید، دانستن تفاوت میان آنها بسیار مهم است. قبل از بررسی تفاوت‌های علوم داده و یادگیری ماشینی، اصطلاحاتی مرتبط اما متفاوت از همدیگر وجود دارند که باید با آنها آشنا شویم.

AI مخفف Artificial intelligence به معنی هوش مصنوعی است و منظور از آن انتخاب‌ها و کارهای هوشمندانه میباشند که توسط ماشین‌ها مانند انسان ها، انجام میشود. علمی است که در آن ماشین‌ها را قادر میسازیم تا طریق تجربه یاد بگیرند و اندوخته‌ های خود را به اندازه کافی هوشمندانه و شبیه انسان انجام دهند.

Machine learning یا همان یادگیری ماشینی، در حقیقت یک زیر مجموعه از AI میباشد. همانطور که انسان از طریق تجربه یاد میگیرد، ماشین‌ها نیز میتوانند از طریق تجربه (داده) با پیروی از دستورات ساده یاد بگیرند. این همان یادگیری ماشینی است. در یادگیری ماشینی سه نوع الگوریتم مورد استفاده قرار میگیرند – unsupervised، supervised و reinforced.

Deep Learning یا همان یادگیری عمیق، بخشی از یادگیری ماشینی است که بر پایه شبکه‌های عصبی مصنوعی (مانند شبکه‌های عصبی که در انسان موجود است) میباشد. بر خلاف یادگیری ماشینی، Deep Learning از چندین طرح و ساختار و الگوریتم برای یادگیری استفاده میکند. طوری که شبکه‌های عصبی مصنوعی ساخته شدند که خودشان یاد میگیرند و کارهایی را با تصمیمات خود انجام میدهند.

Big Data به معنی کلان داده، مجموعه‌ای از داده‌های بزرگ هستند که میتوانند برای درک و پردازش الگوها و رفتارهای انسانی، توسط کامپیوتر مورد محاسبه و پردازش قرار بگیرند.

Data Science یا علوم داده – اما Big Data چگونه پردازش و مورد تحلیل قرار میگیرد؟ بسیار خب، ماشین با استفاده از الگوریتم‌های خاص یادگیری ماشینی که دارد، از طریق این داده‌ها خود به خود یاد میگیرد. اما چگونه؟ چه کسی ورودی‌های مهم را برای ساخت مدل‌ها و الگوریتم‌ها به ماشین میدهد؟ میتوان حدس زد که Data Science پاسخ این سوالات است. علوم داده از روشها، الگوریتم‌ها و پروسه‌هایی برای گرفتن خروجی و آنالیز داده استفاده میکند.

اگر بخواهیم رابطه میان مفاهیم و حرفه‌های بالا را با استفاده از یک دیاگرام مشاهده کنیم، به شکل زیر خواهد بود:

هوش مصنوعی (Artificial intelligence) شامل هر دو یادگیری ماشینی و علوم داده است. بنابراین علوم داده، محبوب ترین و مهم‌ترین بخش از هوش مصنوعی است. همانطور که در بالا مشاهده میکنیم، علوم داده و یادگیری ماشینی ارتباط نزدیکی دارند و بینش مفیدی را ارائه میدهند. در هر دو از متدهای supervised یادگیری از طریق دیتا ست های بزرگ استفاده میکنیم.

دیتا ساینس یا همان علوم داده، بخش گسترده‌تر ماجرا و مطالعه است که در آن از الگوریتم‌ها و مدلهای یادگیری ماشینی برای آنالیز و تحلیل و پردازش داده استفاده میشود. جدا از یادگیری، دیتا ساینس همچنین درگیر ادغام داده، مهندسی داده و تصمیمات تجاری است.

علوم داده و یادگیری ماشینی: تفاوت بر سر چیست؟

علوم داده، روی مهندسی و تجسم داده و ارائه بهتر داده تمرکز کرده است؛ این در حالی است که یادگیری ماشینی بیشتر روی الگوریتم‌های یادگیری و یادگیری از طریق تجربه و داده real-time متمرکز شده است. همیشه به یاد داشته باشید که Data (داده) هدف و تمرکز اصلی علوم داده و Learning (یادگیری) هدف و تمرکز اصلی یادگیری ماشینی است و در حقیقت تفاوت میان این دو حوزه مهم بر سر این میباشد.

برای درک بیشتر این تفاوت، میخواهیم به بررسی چگونگی کاربرد علوم داده و یادگیری ماشینی برای دستیابی به نتیجه که میخواهیم، بپردازیم. فرض کنیم میخواهید یک تلفن همراه از وبسایت digikala.com خریداری کنید و این اولین باری است که وارد سایت دیجیکالا میشوید و در میان تمامی مدلهای تلفن همراه از همه رنج ها مرور میکنید. شما فیلترهای مختلفی را برای یافتن چیزی که دوست دارید اعمال میکنید و از این طریق ۴ – ۵ تلفن مورد پسند شما قرار میگیرد و میخواهید از میان آنها یکی را انتخاب کنید.

هنگامی که مدل تلفن همراه را انتخاب کنید، پیشنهاداتی را برای محصولات مشابه از نظر خصوصیات یا قیمت هم مشاهده خواهید کرد. اما دیجیکالا اینکار را چگونه انجام میدهد و به شما پیشنهاداتی را ارسال میکند؟ درحالی که هیچ تاریحچه‌ای از شما ندارد و اولین باری است که از سایت بازدید میکنید! این به دلیل اطلاعاتی است که از میلیون‌ها کاربر که قبلا همان مدل تلفن همراه یا محصول مشابه آنرا خریداری، جستجو و .. کردند، بدست آمده است. سیستم از این داده‌ها استفاده میکند تا بصورت اتوماتیک پیشنهادات مناسب را برایتان ارسال کند.

به تمامی پروسه جمع آوری داده از کاربران، تمیز کردن و فیلتر کردن داده‌های مورد نیاز برای ارزیابی، ارزیابی داده‌های فیلتر شده برای ساخت الگوها، یافتن روندهای مشابه و ایجاد یک مدل برای پیشنهاد به سایر کاربران و نهایتا بهینه سازی – Data Science یا علوم داده گفته میشود.

با این حال، یادگیری ماشینی در کجای این پروسه قرار دارد؟ بسیار خب، ما از طریق الگوریتم‌های یادگیری ماشینی مدل میسازیم. بر اساس داده‌ای که بدست آوردیم و روندهایی که تولید شدند، ماشین درک میکند که کاربرانی مجصول خاصی را خریداری کردند، چه چیزهای دیگر را بررسی و جستجو کردند و حتی چه تجهیزات جانبی را برای محصولی که خریدند، سفارش دادند. از این رو براساس آنچه قبلاً تجربه کرده است، به شما پیشنهاد میدهد.

Modeling (یکی مانده به آخر در تصویر بالا) مهم ترین مرحله از علوم داده است چراکه در این مرحله، فرآیند کلی بهبود یافته و پیشرفت میکند و موجب درک رفتارهای انسان توسط ماشین میشود. اگر از مدل یادگیری ماشینی مناسب استفاده شده باشد، میتواند به معنی یادگیری بهتر و موفقیت ماشین برای مدل بیزینس یاشد. به این مرحله data modeling گفته میشود که اساسا بخش یادگیری ماشینی از علوم داده است.

چگونه در میان Data Science و Machine learning انتخاب کنیم؟

بسیار خب، شما نمیتوانید یکی از این حوزه‌ها را انتخاب کنید، زیرا هر دوی آنها بسیار نزدیک بهم هستند. ماشین‌ها نمیتوانند بدون وجود داده یاد بگیرند و همانطور که در بالا بررسی کردیم، دیتا ساینس با بهره مندی از یادگیری ماشینی بهتر صورت میگیرد. در آینده مهندسین Data Science برای ساخت مدل و پردازش Big Data، نیاز به حداقل درک از یادگیری ماشینی خواهند داشت.

https://codefriend.ir/2019/09/12/بررسی-تفاوت-علوم-داده-و-یادگیری-ماشینی/