مهدی مشایخی هستم. برنامه نویس هوش مصنوعی و پایتون در زمینه یادگیری ماشینی و عمیق. به همه کمک میکنم تا با هم رشد کنیم! من در توییتر: https://twitter.com/Mashayekhi_AI
ریاضیات برای ماشین 2 | مهدی مشایخی
شما برای یادگیری ماشینی یا همون ماشین لرنینگ باید یکسری از مباحث ریاضیاتی که مرتبط با ماشین لرنینگ رو چه از نظر مفاهیم و تئوری یادبگیرد به این دلیل که کل مباحث ماشین بر اساس ریاضیات هست.
اگه قسمت اول این آموزش رو ندیدید میتونید از طریق این لینک مشاهده کنید تا مباحث پایه و ابتدایی رو بدونید و باهشون آشنا باشید حتما.
مفاهیم ریاضی مهم برای یادگیری ماشین :
- جبر خطی
- حساب دیفرانسیل و انتگرال
- نظریه احتمال
- ریاضیات گسسته
- آمار
شما باید مباحث بالا رو به خوبی بلد باشید ، که در ادامه این پست و پست های بعدی ما درمورد هرکدوم آموزش و صحبت میکنیم. در این بخش با مفاهیم آشنا میشیم!
چرا باید جبر خطی رو یادبگیریم؟
جبرخطی امروزه کاربرد زیادی در دنیای امروزی داره ، به عنوان مثال در مباحث یادگیری ماشین اگه بخوایم اشاره کنیم به عنوان مثال ما یک عکس دوچرخه رو نشون میدیم و شما باید بگید که چه عکسی رو میبینید که جواب آسانی داره ولی اگه بخوایم اون رو برای ماشین تجزیه و بفهمونیم خیلی کار سختیه و نیاز به درک مفاهیم جبر خطی داره!
ماشین ها یا کامپیوترها فقط اعداد را درک می کنند. و این اعداد باید به گونهای نمایش داده شوند و پردازش شوند که به ماشینها اجازه دهد به جای یادگیری از دستورالعملهای از پیش تعریفشده مانند برنامهنویسی با یادگیری از دادهها، مسائل را حل کنند.
اولین قدم برای یادگیری ریاضی برای ML یادگیری جبر خطی است.
برای شروع کار با ماشین چقدر باید جبر خطی بدانید؟
حال، سؤال مهم این است که چگونه می توانید این مفاهیم جبر خطی را یاد بگیرید. پاسخ این است که لازم نیست چرخ را دوباره اختراع کنید، فقط باید اصول جبر برداری را به صورت محاسباتی درک کنید و سپس یاد بگیرید که آن مفاهیم را با استفاده از NumPy برنامه ریزی کنید.
نامپای NumPy یک کتابخانه محاسباتی و علمی در پایتون است که به ما امکان دسترسی به تمام مفاهیم اساسی جبر خطی را می دهد. این کتابخانه بسیار سریع است زیرا کدهای C کامپایل شده را اجرا می کند و تعداد زیادی توابع ریاضی و علمی دارد که می توانیم از آنها استفاده کنیم.
شروع یادگیری ریاضیات برای یادگیری ماشینی
در تصویر زیر میتونید مفاهیم که قراره یادبگیرید و بدونید رو در یک تصویر به صورت کامل ببینید تا درکی کامل از این مباحث داشته باشید و دید وسیع تری به این موضوع داشته باشید. ابتدا در این پست به یادگیری مفاهیم میپردازیم
میانگین (Mean) : به عنوان مثال ما اگر یک تعداد عدد داشته باشیم مثل "25،23،56،12،45،35،26،24" برای اینکه میانگین این تعداد عداد رو بدست بیاریم کافیه که فقط تمامی این عداد رو باهم جمع کنیم که میشه 246 و سپس تقسیم بر تعداد همین عداد کنیم که تعداد برابر با 8 که در نهایت به عدد 30/75 میرسیم که این عدد میانگین این مجموعه عداد هست.
میانه (Median) : اگر ما مجموعه ای از عداد یا همون داده ها روداشته باشیم و ابتدا اونها رو به طور مرتب از عدد کمتر به بزرگ مرتب کنیم عددی که در وسط این مجموعه قرار گرفته میشود رو میانه گفته میشه ، در عداد فرد که مشخص هست عدد وسط کدوم هست ولی در عداد زوج چون دو عدد در وسط قرار میگیره میانگین اون دو عدد محاسبه میشه و عدد میانه گفته میشه.
مثال در تصویر بالا میانه همان میانگین عدد 72 و 76 هست ولی اگر تعداد عداد فرد بود لازم به میانگین نیست!
واریانس (Variance): واریانس معیاری برای تغییرپذیری است. با گرفتن میانگین مجذور انحرافات از میانگین محاسبه می شود. واریانس میزان پراکندگی مجموعه داده های شما را از میانگین داده ها به شما می گوید. هرچه پراکندگی داده ها بیشتر باشد، واریانس نسبت به میانگین بیشتر است.
شما میتونید واریانس رو به راحتی با کتابخانه NumPy یا سایر بسته های محاسباته محاسبه کنید ولی در ادامه نحوه این کار رو ذکر میکنیم.
مراحل محاسبه واریانس
ما در ابتدا یک مجموعه داده داریم که محاسبات رو اون انجام میشه.
مرحله 1 : گرفتن میانگین کل مجموعه
برای گرفتن میانگین ، تمام عداد را جمع کنید، سپس آنها را بر تعداد عددها تقسیم کنید.
مرحله 2 : انحراف هر نمره از میانگین را پیدا کنید.
میانگین را از هر نمره کم کنید تا انحرافات از میانگین بدست بیاد. از آنجایی که x = 50 است، از هر نمره 50 حذف کنید.
مرحله 3 : هر انحراف از میانگین را به توان 2 برسونید.
هر انحراف از میانگین را در خودش ضرب کنید. این منجر به اعداد مثبت می شود.
مرحله 4 : مجموع مربع ها را پیدا کنید
تمام انحرافات مربع را جمع کنید. این را مجموع مربعات می نامند.
مرحله 5: مجموع مربع ها را بر n – 1 یا N تقسیم کنید
مجموع مربع ها را بر n - 1 (برای یک نمونه) یا N (برای یک جامعه) تقسیم کنید.
از آنجایی که ما با یک نمونه کار می کنیم، از n – 1 استفاده می کنیم که در آن n = 6 است.
انحراف معیار (Standard deviation): انحراف استاندارد (معیار) مقدار متوسط تنوع در مجموعه داده شما است. به طور متوسط به شما می گوید که هر مقدار چقدر از میانگین فاصله دارد. انحراف استاندارد بالا به این معنی است که مقادیر به طور کلی از میانگین فاصله دارند، در حالی که انحراف استاندارد پایین نشان می دهد که مقادیر نزدیک به میانگین خوشه بندی شده اند.
مراحل محاسبه انحراف معیار
شش مرحله برای یافتن انحراف معیار وجود دارد که دقیقا مشابه محاسبه واریانس هست و برای جلوگیری در اتلاف وقت نذاشتم ولی با این تفاوت که باید جذر همون واریانس به دست آمده رو بگیریم. این مجموعه داده ما هست.
بعد از بدست آوردن واریانس این مجموعه مثل روش بالا که نحوه گرفتن واریانس بود بعد از اون کافیه فقط جذر بگیرید! به طور خلاصه برای واریانس گرفتن میشه گفت : میانگین مجموعه ، کم کردن تک تک مجموعه از میانگین ، به توان دوم رسوندن ، جمع مربعات و سپس تقسیم بر تعداد محموعه منهای عدد یک.
و برای یافتن انحراف معیار، جذر واریانس را می گیریم.
محدوده بین چارکی : در آمار توصیفی ، محدوده بین ربعی به شما می گوید که توزیع نیمه میانی شما چقدر است. ربع ها هر توزیعی را که از کم به زیاد مرتب شده اند به چهار قسمت مساوی تقسیم می کنند. محدوده بین چارکی (IQR) شامل ربع دوم و سوم یا نیمه میانی مجموعه داده شما است.
محاسبه بین چارکی
محدوده بین چارکی با کم کردن مقدار Q1 از مقدار Q3 بدست می آید:
مقدارQ1 مقداری است که زیر آن 25 درصد توزیع (داده)قرار دارد، در حالی که Q3 مقداری است که زیر آن 75 درصد توزیع (داده)قرار دارد. می توانید Q1 را به عنوان میانه نیمه اول و Q3 را به عنوان میانه نیمه دوم توزیع در نظر بگیرید.
این روش برای مجموعه های فرد هست ، شما برای مجموعه های زوج هم میتونید به راحتی اینکار رو انجام بدید با این تفاوت که باید میانگین بگیرید.
ضریب همبستگی (correlation coefficient) : ضریب همبستگی عددی بین 1- و 1 است که قدرت و جهت رابطه بین متغیرها را به شما می گوید. به عبارت دیگر، نشان می دهد که اندازه گیری دو یا چند متغیر در یک مجموعه داده چقدر شبیه است.
ضریب همبستگی به شما می گوید که داده های شما چقدر نزدیک به یک خط قرار می گیرند. اگر یک رابطه خطی دارید، یک خط مستقیم از بهترین تناسب را ترسیم خواهید کرد که تمام نقاط داده شما را در نمودار پراکنده در نظر می گیرد. هر چه نقاط شما به این خط نزدیکتر باشد، ضریب همبستگی قدر مطلق بالاتر و همبستگی خطی شما قوی تر می شود. اگر همه نقاط به طور کامل روی این خط باشند، شما یک همبستگی کامل دارید.
انواع ضرایب همبستگی :
شما می توانید از میان ضرایب همبستگی مختلف بر اساس خطی بودن رابطه، سطح اندازه گیری متغیرها و توزیع داده های خود انتخاب کنید.
خلاصه : ممنون که تا آخر این مقاله رو خوندی ، ما توی این پست با یکسری مفاهیم کلی که برای ماشین لرنینگ لازم دارید ، آشنا شدیم و در ادامه پست های بعدی سایر مفاهیم و توضیح هرکدوم به صورت دقیق و کامل میپردازیم. با لایک هاتون میتونید به ما انرژی بدید تا مقالات بعدی رو زودتر آماده کنیم!
لینک حمایت مالی برای ادامه راه : اینجا کلیک کنید.
آدرس لینکدین من و جواب به سوالات شما : اینجا کلیک کنید.
انجام پروژه های ماشین لرنینگ و یادگیری عمیق در تلگرام : Mashayekhi_Ai@
مطلبی دیگر از این انتشارات
رگرسیون خطی - Linear Regression - مهدی مشایخی
مطلبی دیگر از این انتشارات
شروع یک مسئله ماشین لرنینگ با داده های کم قسمت ۲
مطلبی دیگر از این انتشارات
بیوانفورماتیک چیست | What is Bioinformatics