نوشته های تازه کار

نوشته های تازه کار https://virgool.io/feed/@beginner عاشق هوش مصنوعی:) fa 2026-06-28 05:04:44 https://files.virgool.io/upload/users/134106/avatar/npU4wQ.png?height=120&width=120 تازه کار https://virgool.io/@beginner دوره Reinforcement Learning: مقدمه ۲ https://virgool.io/machine-learning/%D8%AF%D9%88%D8%B1%D9%87-reinforcement-learning-%D9%85%D9%82%D8%AF%D9%85%D9%87-%DB%B2-tet6bopdgqly قبلی: دوره Reinforcement learning: مقدمه ۱توی پست قبلی مختصر توضیحی راجب اینکه Reinforcement learning چیه و چه جاهایی کاربرد داره دادم. حالا بد نیست یه نگاهی به فرقش با سایر متدهای یادگیری ماشین داشته باشیم.برنامه ریزی (Planning):بازی Goبهینه سازی (Optimization)نتایج با تاخیر (Delayed consequences)× اکتشاف (Exploration)کلیت بخشی (Generalization)یه دسته مهم از مسائلی که هوش مصنوعی باهاش طرفه مسائل برنامه ریزیه. مثلا این که ایجنت ما چطور بتونه حریفش رو توی بازی Go شکست بده. توی اینگونه مسائل باز هم ایجنت باید سلسله از تصمیمات خوب بگیره با این تفاوت که ما از قبل مدلی بهش دادیم که مشخص میکنه تصمیماتش چگونه روی جهانش تاثیر میزاره (مدلی از نحوه‌ی عملکرد جهان رو داره). پس بخش اکتشاف رو شامل نمیشه. چون قوانین از قبل مشخصه و لازم نیست ایجنت برای پی بردن به قوانین کار خاصی بکنه (میشه گفت مسائل planning زیر مجموعه از RL هستند).یادگیری تحت نظارت (Supervised Learning):بهینه سازی (Optimization)× نتایج با تاخیر (Delayed consequences)× اکتشاف (Exploration)کلیت بخشی (Generalization)وظیفه سوپروایزد لرنینگ اینه که تابعی بسازه که برای یه سری ورودی، خروجی متناسب رو پیدا کنه. مثلا با دادن متراژ و تعداد اتاق‌های یه خونه بتونه حدس بزنه قیمت اون خونه چنده یا با دیدن یک عکس بتونه بگه که مربوط کدوم دسته هست (مثلا بگه عکسه سیبه یا هلو!). اولین تفاوتش با RL در اینه که فقط یک تصمیم میگیره نه سلسله از تصمیمات، پس نگران این نیست که در آینده تصمیم الآنش چه تاثیری خواهد گذاشت زیرا نتیجه هر تصمیم همون زمان مشخص میشه. دومین تفاوتش هم در اینه که احتیاجی به اکتشاف و تجربه کردن نداره چون تجربه توسط ما در اختیارش قرار میگیره و تنها وظیفه‌ای که داره اینه که از این تجربیات یاد بگیره (تجربه همون دیتاستی هست که مدل ما روی اون تِرین میشه).یادگیری بدون نظارت (Unsupervised Learning):مثالی از کاری که unsupervised learning انجام میدهبهینه سازی (Optimization)× نتایج با تاخیر (Delayed consequences)× اکتشاف (Exploration)کلیت بخشی (Generalization)وظیفه این بخش پیدا کردن الگو بین داده هاست. یعنی حجمی از داده ها رو میگیره و اون‌ها رو دسته بندی میکنه به نحوی که داده‌هایی که بیشترین شباهت رو دارن توی یک دسته قرار میگیرن. تفاوتش با سوپروایزد لرنینگ در اینه که داده‌ی که روی اون‌ها تِرین میشه لیبل مشخصی ندارن و میشه گفت توی سوپروایزد از قبل دسته بندی مشخصه اما توی این بخش خود برنامه‌س که باید دسته بندی رو پیدا کنه. مثله سوپروایزد لرنینگ نیازی نداره که نگران آینده باشه و همینطور احتیاجی به اکتشاف هم نداره چون دیتاستی که قراره روی اون ترین بشه توسط انسان بهش داده میشه.یادگیری تقویتی (‌گهگاهی از اسم فارسیش هم استفاده کنیم! البته دلیل اصلیش اینه که اگر مینوشتم RL چون اول خط بود چپ به راست مینوشت :d)‌ یه جورایی بین این حوزه و سوپروایزد لرنینگ قرار میگیره. چون توی سوپروایزد لرنینگ نتیجه تصمیمات مشخصه و توی آنسوپروایزد مشخص نیست. اما توی RL با اینکه نتیجه تصمیمات به طور حتم مشخص نیست اما با استفاده از احتمال میزان خوب یا بد بودنشون رو مشخص میکنیم.یادگیری با تقلید کردن (Imitation Learning):بهینه سازی (Optimization)نتایج با تاخیر (Delayed consequences)× اکتشاف (Exploration)کلیت بخشی (Generalization)این حوزه و Planning Learning جزو بخش سه حوزه اصلی ماشین لرنینگ نیستن (بخش های اصلی ماشین لرنینگ supervised learning و unsupervised learning و Reinforcement learning هستند). حقیقتش من نتوستم تعریف دقیق از این بخش پیدا کنم (توی ویکی پدیا الآن که من دارم این پست رو مینویسم که چیزی نبود!). اما خب بر اساس چیزی که من فهمیدم ایجنت ما توی این بخش به جای اینکه خودش تجربه کسب کنه از تجربیات یه ایجنت دیگه (مثلا انسان) استفاده میکنه و از اونا یاد میگیره. خب پس احتیاجی به اکتشاف نداره.یه نکته‌ای که بد نیست بگم اینه که یادگیری با تقلید توسط آقای Andrew Ng معروف شده که یکی از پرفسورهای دانشگاه استنفورد و همینطور یکی از چهره‌های سرشناس هوش مصنوعیه، و کورس خیلی خوبی هم توی کورسرا (Coursera) به اسم ماشین لرنینگ داره که شدیدا پیشنهاد میکنم اگه با ماشین لرنینگ آشنایی زیادی ندارید و تازه ابتدا کار هستید حتما ببینیدش:)اما نکته دیگه اینکه ظاهرا قرار با این بخش سروکار زیادی طی دوره داشته باشیم پس در ادامه احتمالا چیزای بیشری ازش می‌بینیم.خب این پست رو هم همین جا تموم میکنم. فقط فیدبک و لایک فراموش نشه:)) تازه کار تازه کار Wed, 29 Apr 2020 14:54:28 +0430 دوره Reinforcement Learning: مقدمه ۱ https://dataio.ir/دوره-reinforcement-learning-مقدمه-۱-ons7e7jnxizy قبلی: دوره Reinforcement Learning: بیاید شروع کنیماول از همه منابع اصلی:لکچر اول دوره CS234 رو میتونید از اینجا ببینیداینجا هم لینک اسلایدهای دورساین Reinforcement Learning چی هست اصلا؟مثل هر اصطلاح علمی دیگه ای برای این کلمه هم کلی تعریف ساده و پیچیده وجود داره که با سرچ کردن توی گوگل میتونید بعضی هاشون رو ببینید. تعریف ویکی پدیا که معمولا یکی از رسمی‌ترین تعریف هاست میگه:Reinforcement learning (RL) is an area of machine learning concerned with how software agents ought to take actions in an environment in order to maximize the notion of cumulative reward.ولی ما کاری به این تعریفا نداریم. از نظر ما RL اومده که به این سوال ما جواب بده:چگونه یک عامل میتواند یاد بگیرد که سلسله از تصمیمات خوب بگیرداول از همه من اینکه اگه اجازه بدید من دیگه کلمات رو تا این حد ترجمه نکنم. یک زبانم خوب نیست و دو اینکه خدایی agent خیلی بهتره از عامله!اما این تعریف ساده مفاهیمه خیلی مهمی رو توش داره. اول اینکه باید سلسله‌ای از تصمیمات رو بگیره و شاید بشه گفت یکی از مهم ترین وجه تمایزهاش با بخش‌های دیگه‌ی ماشین لرنینگ اینه (مثلا توی سوپروایزد لرنینگ شما یه عکس رو به برنامه نشون میدین و اون باید بگه که چه نوع حیونیه (فقط یک تصمیم میگیره) ولی توی RL باید مجموعه از تصمیمات متوالی گرفته بشه که مثلا بتونه توی شطرنج حریف مقابل رو شکست بده). کلیدواژه بعدی خوب بودنه تصمیماتی هست که میگیره. قطعا ما باید متدی داشته باشیم که ببینم این سلسله تصمیمات بهتر جواب میده یا فلان تصمیمات. و مفهوم بعدی هم یادگیریه؛ یعنی اینکه کسی وجود نداره که از قبل مشخص کرده باشه کدوم نوع تصمیماتی خوب هستن و باید گرفته بشن یا کدوم‌ها بد هستن، بلکه این خود ایجنته که باید با دنیای خودش تعامل داشته باشه، تجربه کسب کنه و در نهایت انتخاب کنه که کدام تصمیمات خوب هستند.یکی دیگه از چالش‌های اساسی که شاید توی تعریف بالا زیاد به چشم نخوره مفهوم عدم قطعیته. یعنی ایجنت باید تصمیمی بگیره که احتمالا از بقیه بهتره و لزوما اثباتی وجود نداره (در برخی موارد ممکنه وجود داشته باشه) که این تصمیم بهترین تصمیمه ممکنه (بیاین به ایجنت فقط به چشم یه برنامه نرم‌افزاری نگاه نکنیم. در واقع انسان هم نوعی ایجنته. و همونطور که قطعا میدونید ما توی زندگی اکثر (شاید همه) موارد مثل انتخاب رشته، شغل، مکان زندگی و ... تصمیماتی میگیرم که به نظرمون می تونن بیشترین منافع رو در حال و آینده بهمون برسونن ولی خب لزوما بهترین تصمیم نیستن و می‌بینید که خیلی از اوقات این تصمیمات غلطه!). این عدم قطعیت از این ناشی میشه که ما جهان رو تا حدی تصادفی (stochastic) بدونیم (بیاین قبول کنیم حرف‌های بور منطقی‌تر از حرف‌های انیشتینه!).کاربردهای RL چیه؟شاید کلی ترین جوابی که بشه به این سوال داد اینه که به ما کمک کنه که بتونیم چند مرحله به ساخت هوش مصنوعی با توانایی عملکرد مثل هوش انسانی نزدیک تر شیم.اما چند مورد از استفاده هایی که در حال حاضر داره رو مثال میزنم:بازی های ویدیویی: بازی های ویدئویی نمونه‌ای از کارهای پیچیده ای هستن که بازیکن (انسان) باید روی اونها وقت بزاره تا اونها رو یاد بگیره و باید دست کم اندکی تجربه داشته باشه (چون ما از قبل نمیدونیم یه بازیه خاص چجوریه). یک نمونه از پیشرفت هایی که توی ان حوزه بوده هوش مصنوعی دیپ ماینده که یاد میگیره آتاری بازی کنه، اونم از روی نگاه کردن به پیکسل‌ها! (این لینک رو ببینید جالبه). البته این پیشرفت سال ۲۰۱۵ هست و الآن خیلی جلوتریم. شدیدا پیشنهاد میکنم کارای شرکت‌های DeepMind و OpenAI رو دنبال کنید (الآن دیگه آتاری بچه بازیه، دارن رو بازی های مثل استارکرفت و دوتا کار میکنن:)‌).رباتیک: اینکه ربات بتونه یه چیزی رو برداره، لباس‌هارو تا کنه و ...سلامت، پردازش زبان طبیعی (NLP)، بینایی کامپیوتر و ...مهم‌ترین جنبه‌هایی که RL باهاشون درگیره چیاس؟به عنوان بخشی از ماشین لرنینگ، کلیدی‌ترین موضوعاتی که RL باهاشون درگیره رو میشه به چهار موضوع زیر تقسیم کرد:بهینه سازی (Optimization)نتایج با تاخیر (Delayed consequences)اکتشاف (Exploration)کلیت بخشی (Generalization)توضیح مختصری درباره‌ی هر کدوم میدم:بهینه سازی: همونطور که توی تعریف هم اومد ایجنت ما باید تلاش کنه که همواره تصمیماتش رو بهتر و بهتر کنه تا به مجموعه‌ای از تصمیمات بهینه برسه.نتایج با تاخیر: از اونجایی که ما توی RL دنبال این هستیم که در ازای تصمیماتمون به جای نتیجه آنی نتیجه کلی بهتری داشته باشیم و از طرفی با عدم قطعیت هم مواجه هستیم، باید جوری تصمیماتمون رو انتخاب کنیم که یه نوع آینده نگری هم داشته باشه و این یکی از سخترین چالش‌هایی هست که ما باهاش روبرو‌ ایم!اکتشاف: مسئله دیگه که ما با اون طرف هستیم اینه که ایجنت باید بتونه قوانین حاکم بر جهان رو پیدا کنه. اما نکته ای که وجود داره اینه که ما به همه‌ی دیتای جهان دسترسی نداریم و به ازای هر تصمیم مشخصی که میگیریم جهان به ما فیدبک متناظر با اون عمل رو میده و به این شکل فقط بخشی از دیتای خودش رو در اختیار ما قرار میده. پس ایجنت ما باید این توانایی رو داشته باشه که راه حل های جدید رو انتخاب و امتحان کنه و بر این اساس دید بهتری نسبت به جهان پیدا کنه که باعث تصمیم گیری بهتر بشه (درباره‌ی ما انسان‌ها هم این موضوع صادقه. ما همواره تلاش میکنیم از طریق آزمایش اطلاعات جدیدی از جهانمون بدست بیاریم).کلیت بخشی: هوش مصنوعی دیپ مایند که آتاری بازی میکرد رو در نظر بگیرید. فرض کنید این هوش فقط بتونه وقتی آتاری ابعاد ۲۰۰ * ۱۰۰ داره بازی کنه و اگه ما یه ذره ابعاد صفحه رو تغییر بدیم دیگه عملکرد خوبی نداشته باشه. ما واقعا از این ایجنت راضی نیستیم!! پس این هوش باید جوری باشه که بتونه با هر اندازه‌ی تصویری به خوبی کار کنه.بازی آتاریتوی این آموزش ها سعیم براینه که تا حد امکان پست‌ها کوتاه باشن که شما حوصله خوندنش رو داشته باشید. پس برای همین مقدمه رو چندین بخش میکنم. این بود بخش اولش:)این تجربه اول منه و با دادن فیدبک واقعا خوشحالم میکنید :))))بعدی: دوره‌ی Reinforcement Learning: مقدمه ۲ تازه کار تازه کار Wed, 15 Apr 2020 20:57:23 +0430 دوره Reinforcement Learning: بیاید شروع کنیم https://dataio.ir/دوره-reinforcement-learning-بیاید-شروع-کنیم-r5vzhlqhyz4v اولین دوره رو که میخوام یادگرفتنش رو با شماها به اشتراک بزارم دوره‌ی RL دانشگاه استنفورده.حالا چرا این؟حقیقتش من بعد از این همه سرک کشیدن توی فیلدهای مختلف کامپیوتر به این نتیجه رسیدم که AI از بقیه جالبتره (personal opinion). التبه دلیل اصلی‌ترش اینه که عاشق فیلم‌های آیرون منم و خب یکی از آرزوهام اینه که یه چیزی تو مایه‌های جارویس برای خودم داشته باشم‌!توی فیلدهای مختلف AI و ماشین لرنینگ هم به نظرم RL از بقیه باحالتره.منابع چیه؟منبع اصلی دوره RL داشنگاه استنفورده (CS234) که توی زمستون ۲۰۱۹ برگزار شدهاین لینک پلی لیست یوتیوب دوره:https://www.youtube.com/playlist?list=PLoROMvodv4rOSOPzutgyCTapiGlY2Nd8uاینم لینک دوره توی سایت دانشگاه استنفورد:http://web.stanford.edu/class/cs234/CS234Win2019/index.htmlمنبع خاص دیگه هم نیست جز یار همیشگی گوگل! (اگه طی دوره چیزی رو متوجه نشدم توی گوگل سرچش میکنم و اگه چیز مفیدی پیدا کردم قطعا لینکش رو میزارم)چه قدر طول میکشه؟اممم ... نمیدونم! ۱۵ تا لکچره که هر کدوم به طور میانگین یک ساعت ربع طول میکشه.حالا باید ببینیم من با چه ریتی اینا رو میبینم، با چه ریتی میفهمم و ...!خلاصه نمیدونم دیگه انشالله که با سرعت خوبی پیش بره:)بعدی: دوره Reinforcement Learning: مقدمه ۱ تازه کار تازه کار Fri, 10 Apr 2020 14:19:10 +0430 شروع! https://virgool.io/@beginner/%D8%B4%D8%B1%D9%88%D8%B9-bijyba7g7ul9 بسم الله :)واقعیتش من اونقدرها هم تازه کار نیستم. یادمه اوج هنرم توی کامپیوتر این بود که سی دی بازی رو بزارم و بعد هی next و next و next تا این که بازی نصب شه و بعدشم بازی کنم. اما یه روز زمانی که دوم راهنمایی بودم یکی از بچه سر کلاس گفت میتونه ویندوز عوض کنه و من واقعا برگام ریخته بود. آخه فکر میکردم که نصب کردن ویندوز یه کار خیلی خفنه و فقط و فقط کار خدمات کامپیوتری های حرفه ایه. و خیلی بهش حسودیم شد و تو دلم گفتم خب منم میرم یاد میگیرم. بعد از اینکه یه سری سرچ و اینا کردم (تازه نتمون هم دایال آپ بود:| ) دیدم که نصب کردن ویندوز همچینم کاری نداره و یه جورایی مثل همون بازیه. باید همش next بزنی البته با یه سری چیزای بیشتر (مثلا اینکه باید حواست باشه موقع انتخاب و فرمت پارتیشن نزنی اطلاعات درایوت رو بپرونی!).این شد که کم کم به بحث های کامپیوتری علاقه مند شدم و شروع کردم به یاد گرفتن چیزهای مختلف. یه چند جلسه کلاس فتوشاپ رفتم، یه مقدار وب کار کردم (در حد html و css ?) و ... . گذشت و اومدم دبیرستان. تونسته بودم توی یکی از مدارس سمپاد تهران قبول شم. یه روز اعلام کردن که قراره کلاس المپیاد کامپیوتر برگزار شه و منم گفتم شرکت میکنم. بعد کم کم با بقیه بچه‌هایی که میخواستن شرکت کنن آشنا شدم. اولین بار که دور هم جمع شده بودن هر کس داشت چیزایی که بلد بود رو میگفت. یکی میگفت ترکیبیاتش خوبه یکی برنامه نویسیش و ... . منم پیش خودم گفتم بد نیست یه اظهار وجودی بکنم. خیلی با اعتماد به نفس بالا گفتم منم فتوشاپم خوبه (جا داره که این رو هم ذکر کنم که فتوشاپم اصلا خوب نیست!). یه خرده خندیدن بعد بهم گفتن که این المپیاد بیشتر ریاضی و برنامه نویسیه. منم برای اینکه ضایع نشم گفتم که برنامه نویسی html و css هم بلدم و خب ... حقیقتش نمیدونم تو دلشون چه فکری درباره‌ی من کردن!اون سال زیاد موفق نشدم المپیاد کار کنم. هم درسا سخت بود و هم من به اون شرایط عادت نداشتم. سال بعدش بنا به یه سری دلایل برگشتم شهرستان (ربطی به درس و اینا نداشت. دلایلش یه خرده شخصی بود). با خودم فک کردم که باید المپیاد رو ادامه بدم و رفتم کلی کتاب ترکیبیات و گراف و اینا خریدم و روی برنامه نویسیم هم بیشتر کار کردم. اما اینا فقط برای یه مدت کوتاه بود (در حد دو سه ماه) و کم کم انگیزه‌م رو از دست دادم. شاید دلیلش این بود که استادی وجود نداشت که درس بده و بچه‌های شهرستان هم زیاد تو فاز المپیاد و این داستانا نبودن. البته قطعا اصلی‌ترین دلیلش تنبلیم بود. دوباره همه چی شد مثل قبل. توی زمینه‌های مختلف کامپیوتر سرک می کشیدم و اما کار خاصی نمی کردم. سال سوم از مدرسه غیرانتفایی رفتم مدرسه نمونه دولتی. اونجا یه دوست پیدا کردم که سال قبلش المپیاد ریاضی کار کرده و با اینکه موفق نشده بود مدال بیاره ولی انصافا خیلی خفن بود. با تشویق‌های اون من دوباره یه کمی المپیاد کار کردم و به مرحله دوم هم رسیدم اما اونجا دیگه تهش بود.سال کذایی کنکور هم که دیگه احتیاجی به توضیح نداره. کنکور مزخرف رو دادم و توی یکی از دانشگاه اصفهان رشته‌ی مهندسی کامپیوتر قبول شدم. الآن سال دومم. حتی این جا هم موفق نشدم هیچ چیزی رو درست تموم کنم. سال بالایی ها فیلدهای مختلفی رو معرفی میکردن و من توی اونا سرک میکشیدم اما هیچکدوم رو اونجوری که باید ادامه نمیدادم. مثلا توی وب از UI/UX تا دیپلوی کردن کردن رو امتحان کردم اما هنوز نمیتونم یه وب سایت ساده بالا بیارم، کورس ماشین لرنینگ coursera رو تا ویک ۷ بیشتر ندیدم، کدفورسز چند تا کانتست دادم که ای سی ام رو جدی دنبال کنم اما خب فعلا که ولش کردم و ... . شدم یه آدمی که کلی چیز میدونه اما نمیتونه هیچ پروژه‌ای رو انجام بده.بعد از همه اینا به این نتیجه رسیدم که باید یه کاری کنم که مجبور باشم چیزی رو که شروع میکنم تا آخرش برم. و خب اینم یه اصله که اگه چیزی رو که یاد میگیری به دیگران هم آموزش بدی یادگیریت چندین برابر میشه. برای همین تصمیم گرفتم که چیزایی جدیدی رو که شروع میکنم به یاد گرفتن شون با بقیه به اشتراک بزارم. این جوری هم احتمال اینکه وسطش ولش کنم کمتر میشه و هم مجبورم خوب یاد بگیرم تا بتونم اونارو توضیح بدم. امیدوارم که این یه کارو تا تهش پیش ببرم!!! تازه کار تازه کار Fri, 10 Apr 2020 03:01:49 +0430