باید توی مغز، طرز فکر ریخت نه اطلاعات، اطلاعات در گوگل هست. یک برنامه نویس و دانشجوی ارشد هوش مصنوعی
پنج نوع الگوریتم یادگیری ماشینی که باید بدانید
یادگیری ماشینی می تواند با مدل سازی سریع داده های بزرگ به شرکتها کمک کند.
انتخاب الگوریتم مناسب بستگی به نتیجه مطلوب و ترکیب تیم علوم داده شما دارد.
توسعه مدل یک برای همه به یک اندازه نیست - انواع مختلفی از الگوریتم های یادگیری ماشین برای اهداف و مجموعه های مختلف داده وجود دارد. هدایت و رتبه بندی الگوریتم های خاص به شدت به نقش کاربر در استفاده از الگوریتم و هدف مورد استفاده بستگی دارد. به عنوان مثال ، الگوریتم رگرسیون خطی ساده نسبت به سایر الگوریتم های یادگیری ماشین آسانتر است ، اما ممکن است در یک شرکت که به دنبال انجام پیش بینی های پیچیده تر است ، مناسب نباشد.
قبل از اینکه به برنامه نویسی پیچیده بپردازید ، شرکت ها باید درک کلی از انواع مدل و آنچه را که مدل ها انجام می دهند داشته باشند. پنج مدل زیر از نظر کاربر پسند بودن و پشتیبانی از اهداف مختلف مرتب شده اند، اما همه از محبوب ترین و رایج ترین ها در بین شرکت ها هستند.
1- رگرسیون خطی
اولین، و احتمالاً محبوب ترین نوع الگوریتم یادگیری ماشین ، رگرسیون خطی است. الگوریتم های رگرسیون خطی همبستگی های ساده بین دو متغیر را در یک مجموعه داده نشان می دهند. مجموعه ای از ورودی ها و خروجی متناظر آنها جهت نشان دادن رابطه بینشان مورد بررسی و اندازه گیری قرار میگیرند، از جمله اینکه چگونه تغییر یک متغیر روی دیگری تأثیر می گذارد. رگرسیون خطی از طریق یک خط روی نمودار ترسیم می شود.
محبوبیت رگرسیون خطی به دلیل سادگی آن است: این الگوریتم به راحتی قابل توضیح ، نسبتاً شفاف است و نیاز به تنظیم پارامتر کمی دارد. رگرسیون خطی اغلب در پیش بینی فروش و ارزیابی ریسک برای شرکتهایی که به دنبال تصمیم گیری در مورد تجارت بلند مدت هستند ، استفاده می شود.
"ومیوری" مدیر ارشد فناوری یک شرکت خدمات فناوری، مستقر در چندلر آریزونا میگوید رگرسیون خطی برای زمانی مناسب است که "شما به دنبال پیش بینی مقدار یا یک طبقه بندی هستید. یک مثال کامل امتیازدهی اعتباری است، یک دانش آموز یک کلاس درس را یا قبول میشود یا مردود- بیشتر جوابهایی که بسیاری از شرکت ها نیاز دارند که پیش بینی شود این است که ، آیا این اتفاق خواهد افتاد یا نه؟"
2- درخت تصمیم
یک الگوریتم درخت تصمیم ، داده ها را دریافت و به صورت شاخه ای (درختی) در آورده تا نتایج احتمالی انواع تصمیمات را نشان دهد. درختان تصمیم گیری متغیرهای پاسخ را طبقه بندی می کنند و متغیرهای پاسخ را بر اساس تصمیمات گذشته پیش بینی می کنند.
درخت تصمیم گیری روشی بصری و روش ارتباط آسان برداشت شده از تصمیمات و نتایج است و در دسترس دانشمندان داده های شهروندی است. آیا باید بتوانید تصمیمات را مرور کنید و ببینید که چگونه آنها در نتیجه نهایی تاثیر می گذارند؟ الگوریتم درخت تصمیم گیری میتواند این کار را برای شما انجام دهد و حتی می تواند با استفاده از تجزیه و تحلیل پیش بینی کننده خود از مجموعه داده های ناقص نیز استفاده کند.
درختان تصمیم گیری به دلیل دارا بودن تصاویر با دنباله بلند، برای مجموعه داده های کوچک ، تصمیم گیری هایی با تاثیر کم و متغیرهای به هم پیوسته و منسجم بهترین کارایی را دارند. به همین دلیل ، موارد رایج استفاده از درخت شامل افزایش قیمت گذاری موارد - از وام دهندگان وام برای طبقه بندی وام گیرندگان گرفته تا تیم های مدیریت محصول که پیش بینی تغییرات رخ داده در بازار را در صورت تغییر یک ماده اصلی تعیین می کنند.
"جف فراید" ،رئیس مدیریت محصول InterSystems، یک شرکت نرم افزاری مستقر در کمبریج ماساچوست میگوید "درخت تصمیم گیری محبوب است زیرا قادر به تشریح نتایج و آزمایش های متعدد بدون نیاز به دانشمندان داده است".
او میگوید "توسعه مدل مانند توسعه نرم افزار نیست. شما به ندرت مجبور می شوید یک مدل را دو بار استفاده کنید، زیرا عوامل دائما در حال تغییر هستند و اندازه گیری اینکه یک مدل واقعاً چه کاری را انجام می دهد ، بسیار سخت است ، اما آزمایش رگرسیون اینطور نیست."
3- ماشین های بردار پشتیبانی
ماشین های بردار پشتیبانی (Support vector machines) یا SVM یک الگوریتم یادگیری ماشین است که به صورت داخلی داده های موجود در یک کلاس را برای کمک به طبقه بندی های آینده تجزیه و تحلیل می کند. از نظر فنی، SVC خطی پیدا می کند تا داده های آموزش را به کلاس های خاص جدا کند و به منظور تعمیم داده های آینده به کلاس ها ، حاشیه های هر کلاس را به حداکثر می رساند.
این الگوریتم برای آموزش داده هایی که به روشنی با یک خط قابل تفکیک هستند ، همچنین به صورت ابر صفحه ، بهترین کارایی را دارد. داده های غیر خطی را میتوان با حالتی از SVM که به آن SVM غیر خطی میگویند برنامه ریزی کرد. اما ، با آموزش داده های کاملاً پیچیده مثل- چهره ها ، خصوصیات شخصیتی ، ژنومها و مواد ژنتیکی - سیستم های طبقه بندی کوچکتر شده و شناسایی آنها سخت تر می شوند و به کمی کمک انسانی نیاز دارند.
الگوریتم هایSVM به شدت در بخش مالی استفاده می شوند، زیرا در هر دو مجموعه داده فعلی و آینده دقت بالایی دارند. این الگوریتم ها می توانند برای مقایسه عملکرد نسبی مالی ، ارزش و سود سرمایه گذاری تقریبی مورد استفاده قرار گیرند.
4- خوشه بندی k میانگین (K-means clustering )
الگوریتم k میانگین یک روش تکرار شونده از مرتب سازی مجموعه داده ها از طریق تعیین خوشه (k) است و خوشه های مذکور را با داده های ورودی متصل و بخش بندی می کنید. مرتب سازی نتایج وب از کلمه civic منجر به تولید گروه هایی از نتایج جستجو از civic در معنای Honda Civic و Civic در معنای شهرداریها و مدنی و مفاهیم مشابه می شود.
خوشه بندی k میانگین به این شهرت دارن که دقیق هستند، پردازش ساده گروه بندی را در بازه زمانی کوتاه نسبت به بقیه الگوریتم ها دارند. خوشه بندی k میانگین در بین موتورهای جستجو که می تواند اطلاعات وابسته را تولید کند و نیز در بین شرکت هایی که به دنبال جستجوگر گروه ای هستند که به صورت مفهومی جستجو کند محبوب است.
5- الگوریتم آپریوری (Apriori)
الگوریتم آپریوری ، که بر اساس اصل آپریوری استوار است ، بیشتر در تجزیه و تحلیل سبد بازار جهت استخراج مجموعه اقلام و ایجاد قوانین وابستگی مورد استفاده قرار می گیرد. این الگوریتمها ارتباط بین A و B را در یک مجموعه داده بررسی می کنند تا یک همبستگی مثبت یا منفی بین محصولات ایجاد شود. الگوریتم Apriori برای تیم های فروش که در پی آن هستند که متوجه شوند مشتریان کدام محصولات بیشتر در ترکیب با سایر محصولات خریداری می کنند ، در اولویت قرار دارد. اگر درصد بالایی از مشتریانی که نان خریداری می کنند کره نیز خریداری میکنند، این الگوریتم می توانند نتیجه بگیرند که خرید A (نان) اغلب منجر به خرید B (کره) می شود. این امر می تواند در مجموعه داده ها و نسبت های خرید به صورت متقابل ارجاع شود.
الگوریتم های آپریوری همچنین می توانند تعیین کنند که خرید A (نان) تنها 10٪ احتمال دارد به خرید C (ذرت) منجر شود – بنابراین با این الگوریتم میتوان از اهداف بازاریابی و استراتژی های محل قرار دادن محصول در فروشگاه استفاده کرد.
علاوه بر کارکردهای فروش ، الگوریتم های آپریوری مورده علاقه غول های تجارت الکترونیکی مانند آمازون و علی بابا هستند، اما همچنین توسط سایت هایی مانند بینگ و گوگل برای قصد جستجوگر مورد استفاده قرار می گیرند تا با همبستگی کلمات مرتبط با آنها جستجو کنند.
مطلبی دیگر از این انتشارات
کتابخانههای برتر پایتون در حوزه علمداده
مطلبی دیگر از این انتشارات
مِهداده (کلان داده) چیست؟ (۱)
مطلبی دیگر از این انتشارات
سری های زمانی در پایتون