نوشته های مهدی محمدی

نوشته های مهدی محمدی https://virgool.io/feed/@ciamnesh fa 2026-07-07 12:11:02 https://files.virgool.io/upload/users/2177768/avatar/snUCC5.jpg?height=120&width=120 مهدی محمدی https://virgool.io/@ciamnesh یادگیری ماشین: پاکسازی داده های عددی https://virgool.io/@ciamnesh/%DB%8C%D8%A7%D8%AF%DA%AF%DB%8C%D8%B1%DB%8C-%D9%85%D8%A7%D8%B4%DB%8C%D9%86-%D9%BE%D8%A7%DA%A9%D8%B3%D8%A7%D8%B2%DB%8C-%D8%AF%D8%A7%D8%AF%D9%87-%D9%87%D8%A7%DB%8C-%D8%B9%D8%AF%D8%AF%DB%8C-nar8gvaghgxb به عنوان یک مهندس یادگیری ماشین شما زمان زیادی را صرف حذف نمونه های بد و تمیز کردن نمونه های قابل نجات خواهید کرد. حتی چند نمونه بد میتواند مجموعه داده را خراب کند.دلایل شایع بد بودن یک مجموعه دادهحذف مقادیر: مثلا فرد پر کننده فرم سن فرد را ثبت نکرده باشدمثال های تکراری: مثلا سرور دو بار یک فرم را آپلود کرده باشدمثال خارج از رنج بودن مقادیر ویژگی: مثلا فردی به طور تصادفی یک عدد اضافی تایپ کندبرچسب های بد: مثلافردی به اشتباهی عکس یک درخت بلوط را به عنوان درخت افرا ثبت میکندمیتوان مثال های بد را با یک برنامه تنشخیص داد. به عنوان مثال مجموعه داده زیر ۶ مقدار تکراری دارد:یا مثلا فرض کنید رنج دما برای یک ویژگی باید بین ۱۰ تا ۳۰ درجه باشد. ولی به طور تصادفی اتفاق میافتد که دما به طور موقتی در برابر خورشید باشد که باعث ایجاد یک نمونه پرت میشود:ویژگی های یک داده عددی خوب به خوبی نام گذاری شده باشددرستی مقادیر چک شوند و موارد پرت حذف شوند. مثلا سن فرد ۲۲۵ سال باشد.مقادیر جادویی حذف شوند. مثلا استفاده از عدد -۱ برای ثبت عدم وجود مقدار در یک فیلد که باید برطرف شود. نمونه بد: watch_time_in_seconds: -1 نمونه خوب: watch_time_in_seconds: 4.82is_watch_time_in_seconds_defined=Truewatch_time_in_seconds: 0is_watch_time_in_seconds_defined=Falseداده‌های عددی: تبدیل‌های چندجمله‌ای مهدی محمدی مهدی محمدی Tue, 11 Feb 2025 07:53:31 +0330 کار با داده های عددی https://virgool.io/@ciamnesh/%DA%A9%D8%A7%D8%B1-%D8%A8%D8%A7-%D8%AF%D8%A7%D8%AF%D9%87-%D9%87%D8%A7%DB%8C-%D8%B9%D8%AF%D8%AF%DB%8C-hnmznkhjbkkk اهداف مقالهفهمیدن بردارهای ویژگیکاوش ویژگی های بالقوه مجموعه داده ها به طور تصویری و ریاضیاتیشناسایی نمونه های پرتدرک چهار تکنیک متفاوت برای نرمالایز کردن داده های عددیدرک سطل بندی کردن و توسعه استراتژی ها برای سطل بندی کردن داده های عددیدرک خصوصیات ویژگی های عددی پیوسته خوب افراد شاغل در یادگیری ماشین بیشتر زمان خود را صرف ارزیابی، تمیز کردن داده ها، و تغییر شکل دادن داده ها هستند تا ساخت مدل ها. داده بسیار با اهمیت است که این مقاله تمامی سه واحد زیر را به این موضوع اختصاص میدهد:کار کردن با داده های عددیکار کردن با داده های طبقه بندی شدهمجموعه داده ها، تعمیم، و یادگیری بیش از حداین بخش بر روی داده های عددی تمرکز میکند، به عبارت دیگه اعداد صحیح و یا اعشاری. این داده ها قابل جمع کردن، شمارش، مرتب کردن و غیره هستند. در بخش بعدی بر روی داده های طبقه بندی شده تمرکز میکنیم که شامل اعدادی هستند که مانند دسته ها رفتار میکنند. در بخش سوم بر روی اینکه چطور میتوانیم داده هایمان را اماده کنیم تا نتایج با کیفیت بالا بدست آوریم در موقع آموزش مدل و چگونگی ارزیابی مدل تمرکز میکنیم.امثال داده های عددی:دماوزنتعداد آهو هایی که زمستان را در یک منطقه در طبیعت هستنددر مقابل، کدپستی در امریکا، با وجود ۵ یا ۹ رقمی بودن، همانند اعداد رفتار نمیکند چرا که روابط ریاضی بر روی آنها اعمال نمیشود. کد پستی ۴۰۰۰۴ در کنتاکی دو برابر از لحاظ تعداد در مقایسه با کد پستی ۲۰۰۰۲ در واشنگتن دی سی نیست. این ارقام دسته بندی ها و نواحی جغرافیایی را نشان میدهند.داده های عددی: چگونه یک مدل داده ها را با استفاده از فیچر وکتور ها درک میکندفرض کنید یک مجموعه داده شامل ۵ ستون است ولی فقط ۲ تا از ستون ها به عنوان ویژگی در مدل هستند. مدل یک آرایه ای از اعداد اعشاری به نام بردار ویژگی را هزم میکند. یک بردار ویژگی یک نمونه را میسازد.بردارهای ویژگی به ندرت از مقادیر خام در مجموعه داده استفاده میکنند. معمولا مقادیر باید برای مدل بهینه شوند. بنابراین یک ویژگی واقع بینانه تر ممکن است به این شکل باشد:ولی آیا یک مدل با مقادیر واقعی در یک مجموعه داده پیش بینی های بهتری انجام نمیدهد؟ جواب خیر است. باید بهترین راه برای بهتر ارائه داده ویژگی ها برای روند آموزش مدل را پیدا کنید. به این پروسه مهندسی ویژگی گفته میشود و معمولا قسمت حیاتی یادگیری ماشین است. متداول ترین تکنیک های مهندسی ویژگی عبارتند از:نرمال سازی: تبدیل مقادیر عددی به یک بازه استانداردسطل بندی: تبدیل مقادیر عددی به محدوده ای از سطل هاداده های عددی: اولین قدم هاقبل از ساخت بردار های ویژگی توصیه میکنیم که داده های عددی را در دو طریق مطالعه کنید:داده ها را به تصویر و نمودار بکشیدآمارها راجع به داده هایتان را بیابیدبه تصویر کشیدن داده هاگراف ها میتوانند کمک کنند تا نمونه های غیر معمول یا الگو های مخفی در داده ها را بیابیم. بنابراین قبل از اینکه خیلی وارد تجزیه و تحلیل شویم نگاهی کنیم به داده ها به صورت تصویری مانند رسم نمودار یا هیستوگرام.بررسی آماری داده هاعلاوه بر بررسی تصویری توصیه میشود که ویژگی ها و برچسب ها به صورت ریاضیاتی ارزیابی شوند. موارد اماری ابتدایی همانند:میانگین و میانهانحراف معیارمقادیر تقسیمات چارکی. مانند صدک صفر ام، ۲۵ ام، ۵۰ام، ۷۵ام و صدم. یافتن موارد پرتیک مورد پرت مقداری دور از سایر مقادیر در یک ویژگی یا برچسب میباشد. موارد پرت اغلب باعث بروز مشکلات در یادگیری مدل میشوند بنابرین پیدا کردنشان بسیار با اهمیت است. وقتی که دلتا بین صدک صفرم و ۲۵ام بسیار تفاوت دارند با صدک بین ۷۵ ام و ۱۰۰ ام، احتمالا مجموعه داده شامل موارد پرت میباشد.پرت ها می توانند در هر یک از دسته های زیر قرار گیرند:- پرت ناشی از اشتباه است. به عنوان مثال، شاید یک آزمایشگر به اشتباه یک صفر اضافی را وارد کرده است، یا شاید ابزاری که داده ها را جمع آوری می کند دچار مشکل شده است. شما به طور کلی نمونه های حاوی خطاهای پرت را حذف خواهید کرد.- نقطه پرت یک نقطه داده مشروع است، نه یک اشتباه. در این صورت، آیا مدل آموزش‌دیده شما در نهایت نیاز به استنباط پیش‌بینی‌های خوب در مورد این نقاط پرت دارد؟اگر بله، این موارد پرت را در مجموعه آموزشی خود نگه دارید. به هر حال، نقاط پرت در برخی ویژگی‌ها، گاهی اوقات منعکس کننده موارد پرت در برچسب هستند، بنابراین نقاط پرت در واقع می‌توانند به مدل شما کمک کنند تا پیش‌بینی بهتری داشته باشد. مراقب باشید، پرت های شدید همچنان می تواند به مدل شما آسیب برساند.اگر نه، نقاط پرت را حذف کنید یا از تکنیک‌های مهندسی ویژگی‌های تهاجمی‌تر، مانند بریدن استفاده کنید.نرمال سازی اعدادپس از اینکه داده ها را از نظر آماری و بصیری بررسی کردیم باید داده ها را به شکلی تغییر شکل دهیم که به مدل کمک کند تا بهینه تر آموزش ببیند. برای مثل این دو ویژگی را در نظر بگیریدویژگی x یک رنج بین 154 تا 24,917,482 داردویژگی y رنج بین ۵ تا ۲۲ دارداین دو ویژگی میتوانند رنج های متفاوتی داشته باشند. نرمال سازی ممکن است ویژگی های x و y را به گونه ای تغییر دهد که رنج یکسانی داشته باشند. مثلا بین صفر و یک. نرمال سازی کمک میکند تامدل زودتر به همگرایی در طول آموزش برسد. وقتی که رنج ها متفاوت هستند گرادیان کاهشی ممکن است مانند توپ بالا پایین برود. با این وجود روش های پیشرفته تر مدل پیش بینی های بهتری کندمدل به تله NaN نیوفتدکمک میکند مدل وزن های مناسب را برای هر ویژگی یاد بگیرد. بدون مهندسی ویژگی مدل توجه زیادی میکند به ویژگی ها با بازه های بزرگ و توجه کمی میکند به ویژگی ها با بازه های کوچک.دو ویژگی زیر را در نظر بگیرید:کمترین مقدار ویژگی A 0.5- و بیشترین مقدار 0.5+ است.کمترین مقدار ویژگی B -5.0 و بالاترین +5.0 است.ویژگی A و ویژگی B دهانه های نسبتاً باریکی دارند. با این حال، دهانه ویژگی B 10 برابر بیشتر از دهانه ویژگی A است. بنابراین:در شروع آموزش، مدل فرض می‌کند که ویژگی B ده برابر «مهم‌تر» از ویژگی A است.آموزش بیش از آنچه باید طول بکشد.مدل حاصل ممکن است کمتر از حد بهینه باشد.آسیب کلی ناشی از عادی نشدن نسبتاً کوچک خواهد بود. با این حال، ما همچنان توصیه می کنیم که ویژگی A و ویژگی B را در یک مقیاس، شاید -1.0 تا +1.0 عادی کنید.اکنون دو ویژگی را با اختلاف دامنه بیشتر در نظر بگیرید:کمترین مقدار ویژگی C -1 و بیشترین مقدار 1+ است.کمترین مقدار ویژگی D 5000+ و بیشترین مقدار 1,000,000,000+ است.اگر ویژگی C و ویژگی D را عادی نکنید، مدل شما احتمالاً کمتر از حد مطلوب خواهد بود. علاوه بر این، آموزش خیلی بیشتر طول می کشد تا همگرا شوند یا حتی نتوانند به طور کامل همگرا شوند!این بخش سه روش عادی سازی رایج را پوشش می دهد:مقیاس بندی خطیمقیاس بندی Z-scoreمقیاس بندی ورود به سیستماین بخش علاوه بر این برش را پوشش می دهد. اگرچه یک تکنیک عادی سازی واقعی نیست، اما برش ویژگی های عددی سرکش را در محدوده هایی که مدل های بهتری تولید می کنند رام می کند.مقیاس بندی خطیمقیاس‌بندی خطی (که معمولاً کوتاه‌تر می‌شود) به معنای تبدیل مقادیر ممیز شناور از محدوده طبیعی آنها به یک محدوده استاندارد است - معمولاً 0 تا 1 یا -1 به +1.مقیاس خطی انتخاب خوبی است زمانی که تمام شرایط زیر برآورده شود:مرزهای پایین و بالای داده های شما در طول زمان تغییر چندانی نمی کند.این ویژگی حاوی مقادیر کمی است یا اصلاً وجود ندارد، و آن نقاط پرت شدید نیستند.این ویژگی تقریباً به طور یکنواخت در محدوده آن توزیع شده است. به این معنا که یک هیستوگرام تقریباً میله های یکنواخت را برای اکثر مقادیر نشان می دهد.فرض کنید سن انسان یک ویژگی است. مقیاس بندی خطی یک تکنیک نرمال سازی خوب برای سن است زیرا:کران پایین و بالایی تقریبی 0 تا 100 است.سن شامل درصد نسبتا کمی از نقاط پرت است. فقط حدود 0.3 درصد از جمعیت بالای 100 سال هستند.اگرچه سنین خاص تا حدودی بهتر از سایرین نمایش داده می شوند، یک مجموعه داده بزرگ باید شامل نمونه های کافی از همه سنین باشد.تمرین: درک خود را بررسی کنیدفرض کنید مدل شما دارای ویژگی به نام net_worth است که دارایی خالص افراد مختلف را در خود جای داده است. آیا مقیاس خطی یک تکنیک عادی سازی خوب برای net_worth خواهد بود؟ چرا یا چرا نه؟پاسخ: مقیاس‌بندی خطی انتخاب ضعیفی برای عادی‌سازی net_worth خواهد بود. این ویژگی حاوی مقادیر پرت بسیاری است و مقادیر به طور یکنواخت در محدوده اصلی آن توزیع نمی شوند. اکثر مردم در یک باند بسیار باریک از محدوده کلی فشرده می شوند.مقیاس بندی Z-scoreعدد Z-score تعداد انحرافات استاندارد یک مقدار از میانگین است. به عنوان مثال، مقداری که 2 انحراف استاندارد بیشتر از میانگین است دارای امتیاز Z 2.0+ است. مقداری که 1.5 انحراف استاندارد کمتر از میانگین است دارای امتیاز Z -1.5 است.امتیاز z-score زمانی که داده ها از توزیع نرمال یا توزیعی تا حدودی شبیه توزیع نرمال پیروی می کنند، انتخاب خوبی است.توجه داشته باشید که برخی توزیع‌ها ممکن است در بخش عمده دامنه خود نرمال باشند، اما همچنان شامل داده‌های پرت شدید باشند. برای مثال، تقریباً همه نقاط در یک ویژگی net_worth ممکن است به خوبی در ۳ انحراف استاندارد قرار بگیرند، اما چند نمونه از این ویژگی می‌توانند صدها انحراف استاندارد از میانگین فاصله داشته باشند. در این شرایط، می‌توانید مقیاس‌بندی Z-score را با شکل دیگری از نرمال‌سازی (معمولاً حذف مقادیر اضافی) ترکیب کنید تا این وضعیت را مدیریت کنید.درک خود را بررسی کنید فرض کنید مدل شما روی ویژگی به نام height که شامل قد بزرگسالان ده میلیون زن است، آموزش می‌بیند. آیا مقیاس‌بندی Z-score روش خوبی برای نرمال‌سازی height است؟ چرا؟پاسخ: مقیاس‌بندی Z-score روش خوبی برای نرمال‌سازی height خواهد بود زیرا این ویژگی با توزیع نرمال مطابقت دارد. ده میلیون نمونه حاکی از تعداد زیادی داده پرت است - احتمالاً داده پرت کافی برای یادگیری الگوها توسط مدل روی نمرات Z بسیار بالا یا بسیار پایین است.مقیاس‌بندی لگاریتمیمقیاس‌بندی لگاریتمی، لگاریتم مقدار خام را محاسبه می‌کند. در تئوری، لگاریتم می‌تواند هر پایه ای داشته باشد. در عمل، مقیاس‌بندی لگاریتمی معمولاً لگاریتم طبیعی (ln) را محاسبه می‌کند.مقیاس‌بندی لگاریتمی زمانی مفید است که داده‌ها با توزیع قانون توانی مطابقت داشته باشند. به زبان ساده، توزیع قانون توانی به صورت زیر است: مقادیر پایین X، مقادیر بسیار بالایی از Y دارند. همانطور که مقادیر X افزایش می‌یابند، مقادیر Y به سرعت کاهش می‌یابند. در نتیجه، مقادیر بالای X، مقادیر بسیار پایینی از Y دارند. امتیازدهی فیلم‌ها نمونه خوبی از توزیع قانون توانی است. در شکل زیر به موارد زیر توجه کنید: تعداد کمی از فیلم‌ها امتیازهای کاربری زیادی دارند. (مقادیر پایین X، مقادیر بالای Y دارند.) اکثر فیلم‌ها امتیازهای کاربری بسیار کمی دارند. (مقادیر بالای X، مقادیر پایین Y دارند.) مقیاس‌بندی لگاریتمی توزیع را تغییر می‌دهد که به آموزش مدلی که پیش‌بینی‌های بهتری انجام می‌دهد، کمک می‌کند.به عنوان مثال دوم، فروش کتاب با توزیع قانون توانی مطابقت دارد زیرا:- اکثر کتاب‌های منتشر شده تعداد کمی نسخه می‌فروشند، شاید یکی دو صد نسخه. - برخی از کتاب‌ها تعداد متوسطی نسخه می‌فروشند، در حد هزاران نسخه. - فقط تعداد کمی از پرفروش‌ترین‌ها بیش از یک میلیون نسخه خواهند فروخت. فرض کنید شما در حال آموزش یک مدل خطی برای یافتن رابطه، مثلاً بین جلد کتاب و فروش کتاب هستید. یک مدل خطی که روی مقادیر خام آموزش می‌بیند، باید چیزی در مورد جلد کتاب‌هایی که یک میلیون نسخه می‌فروشند پیدا کند که ۱۰ هزار برابر قوی‌تر از جلد کتاب‌هایی باشد که فقط ۱۰۰ نسخه می‌فروشند. با این حال، مقیاس‌بندی لگاریتمی همه ارقام فروش، این کار را بسیار امکان‌پذیرتر می‌کند. به عنوان مثال، لگاریتم ۱۰۰ برابر است با:~۴٫۶ = ln(۱۰۰) در حالی که لگاریتم ۱,۰۰۰,۰۰۰ برابر است با:~۱۳٫۸ = ln(۱,۰۰۰,۰۰۰) بنابراین، لگاریتم ۱,۰۰۰,۰۰۰ فقط حدود سه برابر بزرگتر از لگاریتم ۱۰۰ است. احتمالاً می‌توانید تصور کنید که جلد یک کتاب پرفروش حدود سه برابر قوی‌تر (به نوعی) از جلد یک کتاب با فروش بسیار کم باشد.حذف مقادیر اضافی (Clipping)حذف مقادیر اضافی تکنیکی برای به حداقل رساندن تأثیر داده‌های پرت شدید است. به طور خلاصه، حذف مقادیر اضافی معمولاً مقدار داده‌های پرت را به یک مقدار حداکثر خاص محدود (کاهش) می‌کند. حذف مقادیر اضافی ایده عجیبی است، اما در عین حال می‌تواند بسیار مؤثر باشد.برای مثال، مجموعه داده‌ای را تصور کنید که شامل ویژگی به نام roomsPerPerson است که نشان دهنده تعداد اتاق‌ها (کل اتاق‌ها تقسیم بر تعداد ساکنان) برای خانه‌های مختلف است. نمودار زیر نشان می‌دهد که بیش از ۹۹ درصد از مقادیر ویژگی با توزیع نرمال مطابقت دارند (تقریباً، میانگین ۱.۸ و انحراف استاندارد ۰.۷). با این حال، این ویژگی شامل چند داده پرت است که برخی از آنها شدید هستند:چگونه می‌توانید تأثیر آن داده‌های پرت شدید را به حداقل برسانید؟ خب، نمودار هیستوگرام نه یک توزیع یکنواخت، نه یک توزیع نرمال و نه یک توزیع قانون توانی است. اگر به سادگی مقدار حداکثر roomsPerPerson را در یک مقدار دلخواه، مثلاً ۴.۰،۱ محدود یا حذف کنید، چه؟محدود کردن مقدار ویژگی به ۴.۰ به این معنا نیست که مدل شما همه مقادیر بزرگتر از ۴.۰ را نادیده می‌گیرد. بلکه به این معناست که همه مقادیری که بزرگتر از ۴.۰ بودند، اکنون ۴.۰ می‌شوند. این موضوع، تپه عجیب در ۴.۰ را توضیح می‌دهد. علی‌رغم این تپه، مجموعه ویژگی مقیاس‌شده اکنون مفیدتر از داده‌های اصلی است.صبر کنید! آیا واقعاً می‌توانید هر مقدار پرت را به یک آستانه بالایی دلخواه کاهش دهید؟ هنگام آموزش یک مدل، بله.همچنین می‌توانید مقادیر را پس از اعمال اشکال دیگر نرمال‌سازی محدود کنید. برای مثال، فرض کنید از مقیاس‌دهی Z-score استفاده می‌کنید، اما چند داده پرت، مقادیر مطلقی بسیار بزرگتر از ۳ دارند. در این صورت، می‌توانید:مقدار Z-scoreهای بزرگتر از ۳ را محدود کنید تا دقیقاً ۳ شوند.مقدار Z-scoreهای کمتر از ۳- را محدود کنید تا دقیقاً ۳- شوند.محدود کردن، از بیش از حد نمایه شدن مدل شما روی داده‌های بی‌اهمیت جلوگیری می‌کند. با این حال، برخی از داده‌های پرت در واقع مهم هستند، بنابراین مقادیر را با دقت محدود کنید.خلاصه ای از تکنیک های نرمال سازی مهدی محمدی مهدی محمدی Mon, 10 Feb 2025 04:59:01 +0330 یادگیری ماشین: طبقه بندی https://virgool.io/@ciamnesh/%DB%8C%D8%A7%D8%AF%DA%AF%DB%8C%D8%B1%DB%8C-%D9%85%D8%A7%D8%B4%DB%8C%D9%86-%D8%B7%D8%A8%D9%82%D9%87-%D8%A8%D9%86%D8%AF%DB%8C-igyr14ukkjrv اهداف مقاله:تعیین آستانه مناسب برای یک مدل طبقه بندی باینریمحاسبه و انتخاب اندازه های مناسب برای ارزیابی یک مدل طبقه بندی باینریتفسیر ROC و AUCدر رگرسیون لجستیک یاد گرفتیم که چطور تابع سیگموید را استفاده کنیم تا خروجی خام مدل را به یک عدد بین صفر و یک تبدیل کنیم تا بتوانیم پیشبینی های احتمالی انجام بدهیم. برای مثال پیشبینی این که یک ایمیل ۷۵٪ احتمال اسپم بودن داشته باشد.اما اگر هدف خروجی احتمالی نباشد و یک برچسب مثلا اسپم - غیراسپم باشد چطور؟طبقه بندی به وظیفه پیشبینی این که کدام مجموعه از طبقات یک نمونه به آن تعلق دارم میپردازد. آستانه و ماتریس سردگمیفرض کنیم که یک مدل رگرسیون لجستیک برای تشخیص ایمیل اسپم داریم که یک مقدار بین ۰ و ۱ پیشبینی میکند که ایا یک ایمیل اسپم است یا خیر. یک پیشبینی ۰.۵ به این معنی است که ۵۰٪ احتمال اسپم بودن وجود دارد.ممکن است بخواهیم این مدل را برای یک برنامه ایمیل پیاده سازی کنیم بنابرین نیاز داریم خروجی مدل مثلا ۰.۷۵ را به اسپم یا غیر اسپم تبدیل کنیم.برای انجام این تبدیل نیاز داریم یک آستانه احتمالی انتخاب کنیم به نام آستانه طبقه بندی. مثلا فرض کنیم که مدل امتیاز یک ایمیل را ۰.۹۹ پیشبینی میکند که بیانگر ۹۹٪ احتمال اسپم بودن ایمیل را دارد و ایمیل دیگری ۵۱٪ احتمالا اسپم بودن را دارد. اگر که آستانه را به ۰.۹۵ تنظیم کنیم تنها ایمیل های دارای امتیاز ۰.۹۹ به عنوان اسپم طبقه بندی میشوند.در حالیکه ۰.۵ ممکن است به نظر یک آستانه مشهود بنظر بیاید با این حال این ایده خوبی نیست که هزینه یک طبقه بندی اشتباه بیشتر از دیگری باشد یا اگر طبقه ها نامتعادل باشند. اگر تنها ۰.۰۱٪ ایمیل ها اسپم بشوند و یا اگر ارسال نادرست ایمیل‌های قانونی بدتر از ورود هرزنامه به صندوق اصلی است، برچسب زدن هر چیزی که مدل حداقل 50 درصد احتمال می‌دهد که هرزنامه باشد به عنوان هرزنامه، نتایج نامطلوبی ایجاد می‌کند. ماتریس سردگمیجواب احتمالی واقعیت نیست. این چهار احتمال اتفاق برای هر خروجی یک طبقه بندی کننده باینری است. برای طبقه بندی نمونه اسپم اگر جواب را سطر و شرایط را ستون در نظر بگیریم به جدولی میرسیم به نام ماتریس سردرگمی. مهدی محمدی مهدی محمدی Fri, 07 Feb 2025 18:19:32 +0330 رگرسیون لجستیک: زیان و منظم سازی https://virgool.io/@ciamnesh/%D8%B1%DA%AF%D8%B1%D8%B3%DB%8C%D9%88%D9%86-%D9%84%D8%AC%D8%B3%D8%AA%DB%8C%DA%A9-%D8%B2%DB%8C%D8%A7%D9%86-%D9%88-%D9%85%D9%86%D8%B8%D9%85-%D8%B3%D8%A7%D8%B2%DB%8C-dkwfiunpuk9a مدل های رگرسیون لجستیک همانند مدل های رگرسیون خطی آموزش داده میشوند با ۲ تفاوت اصلی:مدل های رگرسیون لجستیک از لگاریتم زیان به عنوان تابع زیان به جای مربع زیان استفاده میکنند.منظم سازی برای جلوگیری از برازش بیش از حد ضروری است.لگاریتم زیاندر رگرسیون خطی از زیان مربع به عنوان تابع زیان استفاده میشود. مربع زیان به خوبی برای یک مدل خطی کار میکند چراکه نرخ تغییر مقادیر خروجی یکسان است. به عنوان مثال در معادله خطی y' = b + 3x1 هر بار که میزان ورودی x1 را به مقدار ۱ افزایش میدهید خروجی y' به مقدار ۳ واحد افزایش پیدا میکند.با این حال نرخ تغییر یک مدل رگرسیون لجستیک ثابت نیست. منحنی سیگموید مانند یک S میباشد نه یک خط. زمانی که مقدار لگاریتم فردها به صفر نزدیک تر باشد افزایش کوچکی در نتیجه z باعث تفاوت های بسیار بزرگتری به y. میشود. مهدی محمدی مهدی محمدی Fri, 07 Feb 2025 08:08:13 +0330 یادگیری ماشین: رگرسیون لجستیک https://virgool.io/@ciamnesh/%DB%8C%D8%A7%D8%AF%DA%AF%DB%8C%D8%B1%DB%8C-%D9%85%D8%A7%D8%B4%DB%8C%D9%86-%D8%B1%DA%AF%D8%B1%D8%B3%DB%8C%D9%88%D9%86-%D9%84%D8%AC%D8%B3%D8%AA%DB%8C%DA%A9-isewkzw3iue6 اهداف این مقالهشناسایی کاربردهای انجام رگرسیون لجستیک توضیح اینکه چگونه مدل های رگرسیون لجستیک از تابع سیگموید استفاده میکنند تا احتمالات را محاسبه کنندمقایسه رگرسیون خطی و رگرسیون لجستیکتوضیح اینکه چرا رگرسیون لجستیک از لگاریتم زیان به جای مربع زیان استفاده میکندتوضیح اهمیت منظم سازی موقع آموزش مدل های رگرسیون لجستیکمحاسبه یک احتمال با تابع سیگمویدمسائل زیادی نیاز دارند که احتمال یک خروجی را پیش بینی کنند. رگرسیون لجستیک یک مکانیزم بسیار بهینه برای محاسبه احتمالات است. در عمل، شما میتوانید از احتمال برگشت داده شده به دو طریق استفاده کنید:مقدار را استفاده کنید. به عنوان مثال اگر یک مدل احتمال اسپم یک ایمیل را به عنوان ورودی بگیرد و خروجی مقدار ۰.۹۳۲ باشد این نشان میدهد که ۹۳.۲٪ احتمال وجود دارد که ایمیل اسپم باشد.مقدار را به یک باینری تبدیل کنید مثلا صحیح یا غلط. اسپم یا غیر اسپم.تابع سیگمویدممکن است با خود فکر کنید که یک مدل رگرسیون لجستیک چطور میتواند مطمعن شود که خروجی اش یک احتمال را نشان میدهد و همیشه مقداری بین ۰ و ۱ باز میگرداند. یک سری توابع وجود دارند به نام توابع لجستیک که خروجیشان این قابلیت را دارد. یک تابع استاندارد لجستیک شناخته شده وجود دارد به نام تابع سیگموید (تابع S شکل) که این فرمول را دارد:تبدیل خروجی خطی با استفاده از تابع سیگموئیدمعادله زیر مؤلفه خطی یک مدل رگرسیون لجستیک را نشان می دهد:مقدار z خروجی معادله خطی است که به log odds شناخته میشودمقدار b تعصب معادله استمقادیر w وزن های یادگیری مدل هستندمقادیر x معادل مقادیر ویژگی های یک نمونه میباشدبرای به دست آورد پیشبینی رگرسیون لجستیک، مقدار z به تابع سیگموید داده میشود، این امر یک مقدار (یک احتمال) تولید میکند که بین صفر و یک خواهد بود.مقدار y' خروجی مدل رگرسیون لجستیک استمقدار z خروجی خطی است که در معادله پیشین محاسبه شد مهدی محمدی مهدی محمدی Fri, 07 Feb 2025 07:03:50 +0330 رگرسیون خطی:‌ گرادیان نزولی https://virgool.io/@ciamnesh/%D8%B1%DA%AF%D8%B1%D8%B3%DB%8C%D9%88%D9%86-%D8%AE%D8%B7%DB%8C-%DA%AF%D8%B1%D8%A7%D8%AF%DB%8C%D8%A7%D9%86-%D9%86%D8%B2%D9%88%D9%84%DB%8C-gpaod3xld83n گرادیان نزولی یک روش ریاضی است که به صورت تکرار شونده مقادیر وزن ها و تعصب که مدل را تولید میکنند پیدا مکند با حداقل مقدار میزان زیان.مدل آموزش را با وزن ها و تعصب های نزدیک به صفر شروع میکند و سپس موارد زیر را تکرار میکند: محاسبه میزان زیان با وزن و تعصب فعلیمشخص کردن جهت برای تغییر وزن ها و تعصب به جهت کاهش زیانتغییر وزن و تعصبب به یک میزان کمتر در جهتی که باعث کاش زیان شودبرگرشت به قدم اول و تکرار پروسه تا زمانی که مدل نتواند میزان زیان را کاهش دهد.طرح زیر مراحل تکرارشونده گرادیان نزول که باعث پیدا کردن وزن ها و میزان تعصب با کمترین میزان زیان میشود را نمایش میدهد: مهدی محمدی مهدی محمدی Thu, 06 Feb 2025 22:11:25 +0330 یادگیری ماشین:‌ رگرسیون خطی https://virgool.io/@ciamnesh/%DB%8C%D8%A7%D8%AF%DA%AF%DB%8C%D8%B1%DB%8C-%D9%85%D8%A7%D8%B4%DB%8C%D9%86-%D8%B1%DA%AF%D8%B1%D8%B3%DB%8C%D9%88%D9%86-%D8%AE%D8%B7%DB%8C-annwmcp2j4io این مقاله مفاهیم رگرسیون خطی را معرفی میکند.اهداف مقاله:توضیح تابع زیان (Loss function)تعریف و توضیح اینکه گرادیان کاهشی چگونه پارامتر های بهینه یک مدل را پیدا میکند.توضیح اینکه چگونه فراپارامترها تنظیم کنیم برای آموزش بهینه‌تر یک مدل خطی.رگرسیون خطی یک تکنیک آماری است برای پیدا کردن رابطه بین متغیرها. در یادگیری ماشین، رگرسیون خطی رابطه بین ویژگی ها و برچسب یک نمونه را پیدا میکند.به عنوان مثال، فرض کنید میخواهیم قیمت راندمان سوخت خود رو را بر اساس این که ماشین چقدر سنگین است بدست بیاوریم. فرض کنید مجموعه داده زیر را داریم:اگر این نقاط را ترسیم کنیم:میتوانیم مدل خودمان را با ترسیم بهترین خط در میان نقاط بدست اوریم: معادله رگرسیون خطیدر جبر، مدل به صورت y=mx + bتعریف میشود بطوریکه:حرف y مصرف بر حسب مایل بر گالون است - مقداری که میخواهیم پیشبینی کنیمحرف m شیب خط استحرف x وزن به پاوند است - مقدار ورودیحرف b فاصله از مرکز خط در محور y استدر یادگیری ماشین، ما معادله یک مدل رگرسیون خطی را به اینگونه تعریف میکنیم:y' = b + w1x1بطوریکه- حرف y' مقدار پیشبینی است- حرف b تعصب مدل است. جهت گیری همان مفهوم فاصله از مرکز y در معادلی جبری برای یک خط است. در یادگیری ماشین، تعصب گاهی به عنوان w0 نیز ارجاع داده میشود. تعصب یک پارامتر مدل است و در طول آموزش مدل محاسبه میشود.حرف w1. وزن ویژگی است. وزن همان مفهوم مانند شیب در معادله جبری برای یک خط است. وزن یک پارامتر مدل است که در طول آموزش مدل محاسبه میشود.حرف x1 نیز یک ویژگی است که ورودی ما است.در طول یادگیری، مدل وزن و تعصب را محاسبه میکند که باعث تولید بهترین مدل میشود.در مثال ما ما وزن و تعصب را از خطی که کشیدیم حساب کردیم. تعصب معادل است با ۳۰ (جاییکه خط با محور y مجاورت میکند) و وزن -3.6 است (شیب خط). این مدل به اینگونه تعریف میشود:y' = 30 + (-3.6)(x1)و ما میتوانیم استفاده کنیم از این خط برای انجام پیشبینی. به عنوان مثال با استفاده از این مدل یک ماشین با 4هزار پاوند وزن احتمالا بهروری سوخت معادل با 15.6 مایل به ازای هر گالون خواهد داشت.مدل با چندین ویژگیبا وجود این که در مثال این بخش فقط از یک ویژگی استفاده میکنیم - سنگینی ماشین - یک مدل پیچیده تر ممکن است بر چندین ویژگی اتکا کند که هرکدام یک وزن متفاوت داشته باشند. برای مثال یک مدل که بر ۵ ویژگی متکی است به اسن صورت نوشته میشود:y' = b + w1x1 + w2x2 + w3x3 + w4x4 + w5x5به عنوان مثال یک مدل که پیشبینی میکند مصرف بنزین رو ممکن است این ویژگی ها را داشته باشد:وزنحجم موتورشتابتعداد سیلندر هااسب بخاراین معادله به این صورت نوشته میشود:با رسم برخی از این ویژگی ها میتوانیم ببینیم که این ویژگی ها نیز یک رابطه خطی با برچسب دارند:حجم موتور بر حسب سانتیمتر مکعبحجم ماشین در سانتیمتر مکعب و مصرف هر مایل به ازای هر گالون را در تصویر بالا میتوانید ببینید. موتور ماشین که بزرگتر میشود میزان مایل به ازاه هر گالون کاهش میابدشتاب یک ماشین و مایل به ازای هر گالون را در تصویر بالا مشاهده میکند. همانطور که شتاب یک ماشین طولانی تر میشود میزان مصرفی مایل به ازای هر گالون افزایش میابد. مهدی محمدی مهدی محمدی Thu, 06 Feb 2025 19:12:00 +0330 یادگیری ماشین: یادگیری نظارت شده https://virgool.io/@ciamnesh/%DB%8C%D8%A7%D8%AF%DA%AF%DB%8C%D8%B1%DB%8C-%D9%85%D8%A7%D8%B4%DB%8C%D9%86-%DB%8C%D8%A7%D8%AF%DA%AF%DB%8C%D8%B1%DB%8C-%D9%86%D8%B8%D8%A7%D8%B1%D8%AA-%D8%B4%D8%AF%D9%87-igekth9bfdcp وظایف مدل های یادگیری نظارت شده کاملا مشخص هستند و میتوانند به سنواریو های متفاوتی اعمال شوند، مانند شناسایی هرزنامه ها و یا پیشبینی بارش باران. مفاهیم بنیادی یادگیری نظارت شدهیادگیری نظارت شده بر اساس مفاهیم زیر بنا شده است:دادهمدلآموزشارزیابیاستنتاجدادهداده ها نیروی محرکه مدل های یادگیری ماشین هستند. داده ها در شکل کلمات و اعداد ذخیره شده در جداول و یا به صورت پیکسل هایی از یک تصویر و یا امواجی از صداها میایند. ما داده های مرتبط را در مجموعه داده ها ذخیره میکنیم. مثال هایی از مجموعه داده ها:تصاویر گربهقیمت های خانهوضعیت هواییمجموعه داده ها از یکسری نمونه ها که شامل ویژگی ها و یک برچسب میباشند ساخته شده اند. به عنوان مثال یک نمونه را میتوان به یک سطر در یک فایل اکسل تشبیه کرد. ویژگی ها مقادیری هستند که یک مدل نظارت شده استفاده میکند تا برچسب را پیش‌بینی کند. برچسب را میتوان به عنوان پاسخ در نظر گرفت و یا جوابی که از مدل انتظار داریم تا برای ما پیش‌بینی کند. در یک مدل هواشناسی که بارش باران را پیش‌بینی میکند، ویژگی ها میتوانند طول و عرض جرافیایی، دما، رطوبت، پوشش ابر، جهت باد و فشار اتمسفر باشند. نمونه هایی که شامل هر دوی ویژگی ها و یک برچسب باشند را نمونه های برچسب‌دار مینامند. دو نمونه برچسب‌داردر مقابل، نمونه هایی که برچسب ندارند ولی فقط ویژگی ها را دارند نمونه های بدون‌برچسب مینامند. دو نمونه بدون برچسبویژگی های مجموعه دادهیک مجموعه داده بر اساس اندازه و تنوع آن شناخته میشود. اندازه، به تعداد نمونه ها گفته میشود. تنوع نشان دهنده محدوده ای که نمونه ها پوشش میدهند. یک مجموعه داده خوب هم بزرگ است و هم تنوع زیادی دارد. برخی از مجومه داده ها هم بزرگ و هم متنوع هستند. با این حال، برخی مجموعه داده ها بزرگ هستند ولی تنوع کمی دارند. برخی کوچک ولی تنوع زیادی دارند. به عبارت دیگر، یک مجموعه داده الزاما تنوع داده را تضمین نمیکند. همچینین ک مجموعه داده متنوع میزان کافی نمونه را تضمین نمیکند. به عنوان مثال، یک مجموعه داده ممکن است شامل ۱۰۰ سال ارزش داده باشد ولی تنها برای ماه شهریور. استفاده از این مجموعه داده برای پیش بینی ریزش باران در ماه اسفند ممکن است پیش بینی ضعیفی کند. در مقابل، یک مجموعه داده ممکن است تنها چند سال را شامل باشد ولی تمامی ماه ها را شامل باشد. این مجموعه داده نیز ممکن است پیش بینی های خوبی ندهد چرا که به اندازه کافی سال های متفاوت را شامل نمیشود. سوال: ویژگی‌های یک مجموعه داده ایده‌آل برای یادگیری ماشین چیست؟اندازه کوچک و تنوع زیاداندازه بزرگ و تنوع زیاداندازه بزرگ و تنوع کماندازه کم و تنوع زیادتعداد زیادی مثال که انواع موارد استفاده را پوشش می‌دهند برای سیستم یادگیری ماشینی برای درک الگوهای اساسی در داده‌ها ضروری است. یک مدل آموزش‌دیده بر روی این نوع مجموعه داده‌ها احتمالاً پیش‌بینی‌های خوبی روی داده‌های جدید انجام می‌دهد.مدلدر یادگیری نظارت شده، یک مدل مجموعه پیچیده ای از اعداد است که رابطه ای ریاضی از الگوهای مشخص خاص به مقادیر برچسب خروجی خاص تعریف می کند. مدل این الگو ها را از طریق آموزش کشف میکند.آموزشقبل از اینکه یک مدل تحت نظارت بتواند پیش بینی کند، باید آموزش داده شود. برای آموزش یک مدل، به مدل مجموعه داده ای با نمونه های برچسب دار می دهیم. هدف این مدل یافتن بهترین راه‌حل برای پیش‌بینی برچسب‌ها از روی ویژگی‌ها است. مدل با مقایسه مقدار پیش بینی شده خود با مقدار واقعی برچسب بهترین راه حل را پیدا می کند. بر اساس تفاوت بین مقادیر پیش بینی شده و واقعی - که به عنوان ضرر تعریف می شود - مدل به تدریج راه حل خود را به روز می کند. به عبارت دیگر، مدل رابطه ریاضی بین ویژگی ها و برچسب را یاد می گیرد تا بتواند بهترین پیش بینی ها را روی داده های دیده نشده انجام دهد.به عنوان مثال اگر مدل مقدار ۱.۱۵سانتیمتر باران را پیشبینیکند ولی مقدار واقعی ۰.۷۵ باشد بنابراین مدل راه حل خود را طوری تغییر میدهد که جواب نزدیکتر به ۰.۷۵ باشد. سپس مدل به هر نمونه در مجموعه داده نگاه میکند - و در برخی مواقع چندین بار - تا به راه حلی برسد که بهترین پیشبینی ها را به طور میانگین برای هر نمونه بتواند بکند. در ادامه نحوه آموزش یک مدل نمایش داده شده است: مدل یک نمونه برچسب گذاری شده میگیرد و یک جواب پیشبینی میکند. مدل یادگیری ماشین یک پیش بینی بر اساس یک نمونه برچسب گذاری شده میکند۲. مدل مقدار پیشبینی شده را با مقدار واقعی مقایسه میکند و راه حل خود را به روزرسانی میکند. مدل پیشبینی خود را با جواب نمونه مقایسه میکند و راه حل خود را بروزرسانی میکند۳. مدل این روند را برای هر نمونه برچسب گذاری شده در مجموعه داده انجام میدهد.یک مدل یادگیری ماشین مقادیر پیشبینی هایش را برای هر نمونه برچسب گذاری شده در مجموعه داده آموزشی بروزرسانی میکند.به این ترتیب، مدل به تدریج یاد میگیرد که به درستی رابطه بین ویژگی ها و برچسب را دریابد. این فهم تدریجی همچنین دلیل بر این است که یک مجموعه داده بزرگ و متنوع باعث ایجاد یک مدل بهتر میشود. ارزیابیما یک مدل آموزش دیده را ارزیابی میکنیم تا ببینیم چطور بازدهی ای دارد. وقتی که یک مدل را ارزیابی میکنیم ما از یک داده برچسب دار استفاده میکنیم ولی فقط ویژگی ها را به مدل میدهیم و سپس پیش بینی های مدل را با جواب های واقعی مقایسه میکنیم. موقع ارزیابی یک مدل پیش‌بینی‌هایش با مقادیر اصلی مقایسه میشونداستنتاجپس از اینکه از نتیجه ارزیابی مدل راضی شدیم میتوانیم از مدل استفاده کنیم تا پیش بینی بر روی داده های برچسب گذاری نشده برایمان انجام دهد. در مثال هواشناسی، میتوانیم ویژگی های هوا را به مدل بدهیم و این مدل برای ما میزان بارش را پیشبینی کند. مهدی محمدی مهدی محمدی Mon, 03 Feb 2025 06:18:50 +0330 هوش مصنوعی مولد https://virgool.io/@ciamnesh/%D9%87%D9%88%D8%B4-%D9%85%D8%B5%D9%86%D9%88%D8%B9%DB%8C-%D9%85%D9%88%D9%84%D8%AF-auvtosxtx192 هوش مصنوعی مولد به مدل هایی گفته میشود که از ورودی کاربر محتوا تولید میکنند. برای مثل هوش مصنوعی مولد میتواند تصاویر منحصربفرد بسازد، موسیقی بسازد، جک بگوید، میتواند مقالات را خلاصه کند، توضیح دهد چطور یک کار انجام بشود و یا تصویر ویرایش کند.هوش مصنوعی مولد میتواند ورودی های متنوعی بگیرد و خروجی های متنوعی داشته باشد، ماتنند متن، تصویر، صدا، فیلم و یا ترکیبی از این‌ها. میتوانیم در مورد مدل های هوش مصنوعی مولد صحبت کنیم با در نظر گرفتن ورودی ها و خروجی هایشان. به طور معمول به صورت ورودی هایی از یک نوع به نوعی دیگر. به عنوان مثال:متن به متنمتن به تصویرمتن به فیلممتن به کدمتن به صداتصویر و متن به تصویرهوش مصنوعی مولد چطور کار میکند؟ هوش مصنوعی مولد الگوهای موجود در داده را یاد میگیرد با این هدف که خروجی جدید اما مشابه داشته باشد. برای تولید خروجی منحصربفرد و خلاقانه، مدل های مولد در ابتدا با استفاده از روش های یادگیری بدون نظارت آموزش داده میشوند. بطوریکه مدل یاد میگیرد چطور داده ها را تقلید کند. مدل گاها بعدا به صورت یادگیری با نظارت و یا یادگیری تقویتی بر روی داده های خاص آموزش داده میشود بر اساس وظایفی که مدل باید انجام بدهد مانند خلاصه کردن یک مقاله و یا ویرایش تصویر. هوش مصنوعی مولد یک تکنولوژی با سرعت رشد بالاست که در حال کشف میباشد. به عنوان مثال مدل های مولد دارند کمک میکنند تا کسب و کار ها بتواند تصاویر محصولاتشان را به صورت خودکار ویرایش کنند و یا کیفیت را افزایش بدهند. منبعhttps://developers.google.com/machine-learning/intro-to-ml/what-is-ml مهدی محمدی مهدی محمدی Sun, 02 Feb 2025 04:17:32 +0330 یادگیری تقویتی https://virgool.io/@ciamnesh/%DB%8C%D8%A7%D8%AF%DA%AF%DB%8C%D8%B1%DB%8C-%D8%AA%D9%82%D9%88%DB%8C%D8%AA%DB%8C-xc1csngqilbl مدل های یادگیری تقویتی بر اساس پاداش یا جریمه در ازای اقدامات انجام شده پیشبینی انجام میدهند. سیستم های یادگیری تقویتی دستورالعمل هایی تولید میکنند که شامل بهترین استراتژی برای گرفتن بیشترین جایزه است. سیستم های یادگیری تقویتی برای آموزش ربات ها به جهت انجام بهتر وظایف استفاده میشوند. مانند راه رفتن اطراف یک اتاق و یا مانند نرم افزار AlphaGo که بازی سنتی Go را بازی میکند. مهدی محمدی مهدی محمدی Sun, 02 Feb 2025 04:04:24 +0330 یادگیری ماشین چیست؟ https://virgool.io/@ciamnesh/%DB%8C%D8%A7%D8%AF%DA%AF%DB%8C%D8%B1%DB%8C-%D9%85%D8%A7%D8%B4%DB%8C%D9%86-%DA%86%DB%8C%D8%B3%D8%AA-o3hlv2fv67qs امروزه یادگیری ماشین مهمترین تکنولوژی هایی که استفاده میکنیم را ممکن میسازد. از برنامه های مترجم گرفته تا ماشین های خودران. در این مقاله برخی از مفاهیم بنیادی پشت یادگیری ماشین را بررسی میکنیم. یادگیری ماشین راه حل جدیدی را برای حل مسائل، پاسخ دادن به سوالات پیچیده و تولید محتوای جدید ارائه میکند. یادگیری ماشین میتواند هوا را پیشبینی کند، زمان مسافرت را تخمین بزند، آهنگ توصیه کند، جملات را تکمیل کند، مقالات را خلاصه کند، و تصاویری خلاقانه ای تولید کند.به زبان ساده، یادگیری ماشین روند آموزش یک نرم افزار، به نام مدل، برای انجام پیشبینی یا تولید محتوا از داده است.برای مثال، فرض کنید میخواهیم نرم افزاری بسازیم که بارندگی را پیش بینی کند. برای این کار میتوانیم از یک روش سنتی یا یک روش یادگیری ماشین استفاده کنیم. روش سنتی متشکل از ساخت یک نمونه فیزیکی از اتمسفر و سطح زمین است با فرمول های بزرگی برای محاسبه میزان حجیمی از معادلات دینامیک ماده. مشخصا این روش بسیار پیچیده می‌باشد.با استفاده از روش یادگیری ماشین ما میتوانیم به یک مدل یادگیری ماشین حجم انبوهی از داده های هواشناسی را بدهیم تا زمانی که مدل نهایتا روابط ریاضی بین الگوهای وضعیت هوا که باعث بارندگی میشود را یاد بگیرد. پس از یادگیری، ما به مدل وضعیت کنونی هوا را میدهیم و مدل به ما پیشبینی میزان بارندگی را میدهد.سوال:‌ منظور از "مدل" در یادگیری ماشین چیست؟ یک قسمت از سخت افزاریک نمونه کوچیکتر از چیزی که میخوانیمیک رابطه ریاضی استنتاج شده از داده هایی که یک سیستم یادگیری ماشین استفاده میکند برای انجام پیش‌بینی.پاسخ صحیح گزینه سوم میباشدانواع سیستم های یادگیری ماشینسیستم های یادگیری ماشین بر اساس نحوه یادگیریشان برای انجام پیشبینی ها به چهار دسته تقسیم میشوند:یادگیری با نظارتیادگیری بدون نظارتیادگیری تقویتیهوش مصنوعی مولدیادگیری با نظارتمدل های یادگیری با نظارت میتوانند پس از دیدن مقادیر زیادی از داده ها با جواب های صحیح پیشبینی انجام دهند و سپس ارتباط عناصر موجود در داده را طوری کشف کنند که منجر به ساخت جواب صحیح بشود. همانند دانشجویی که یک موضوع جدید را با مطالعه امتحان های قبلی که شامل سوال و جواب هستند یاد میگیرد. پس از اینکه دانشجو به اندازه کافی از امتحان های قبلی آموزش دیده شد، آماده است تا یک امتحان جدید را پاسخ دهد. این نوع از سیستم های یادگیری ماشین "نظارت شده" نام دارند چرا که یک فرد به سیستم یادگیری ماشین پاسخ های درست را میدهد.دو مدل از خروجی سیستم های یادگیری با نظارت عنوان هستند از:مدل رگرسیون خطیمدل طبقه بندیمدل رگرسیون خطیمدل رگرسیون خطی مقادیر عددی را پیشبینی میکنند. به عنوان مثال، یک مدل هواشناسی که میزان بارندگی را پیشبینی میکند (مثلا خروجی میلیمتر). چند نمونه دیگر:پیشبینی قیمت خانه+‌ داده ورودی: متراژ مربع، کد پستی، تعداد اتاق خواب و حمام، اندازه زمین، نرخ بهره وام مسکن، نرخ مالیات بر دارایی، هزینه های ساخت و ساز، و تعداد خانه های برای فروش در منطقه.+ داده خروجی: قیمت خانه.پیشبینی زمان رانندگی+ داده ورودی: شرایط ترافیکی تاریخی (جمع آوری شده از تلفن های هوشمند، حسگرهای ترافیک، سواری-تگرگ و سایر برنامه های ناوبری)، فاصله از مقصد، و شرایط آب و هوایی.+‌داده خروجی: زمان رسیدن به مقصد بر حسب دقیقه و ثانیه.سوال: چه مدل یادگیری ماشین برای پیشبینی میزان مصرف انرژی ساختمان های تجاربی بهتر است؟طبقه بندیرگرسیون خطیمصرف انرژی بر حسب کیلووات ساعت (کیلووات ساعت) اندازه گیری می شود که یک عدد است، بنابراین شما می خواهید از یک مدل رگرسیون استفاده کنید. بنابرین پاسخ دو صحیح است. یادگیری بدون نظارتمدل های یادگیری بدون نظارت براساس داده های ورودی که هیچ پاسخ صحیحی ندارند پیشبینی انجام میدهند. هدف یک مدل یادگیری بدون نظارت شناسایی الگوها در داده هاست. به عبارت دیگر، مدل هیچ ایده ای در رابطه با نحوه دسته بندی قسمت های مختلف داده ندارد ولی میتواند خودش پی ببرد.یک نحوه شایع یادگیری بدون نظارت تکنیک خوشه بندی است. مدل نقاطی در داده را پیدا میکند که گروه ها را مرزبندی میکند. شکل ۱: یک مدل یادگیری ماشین که داده های مشابه را خوشه بندی میکند. شکل ۲: گروهی از خوشه ها با مرزبندی های طبیعیخوشه بندی با طبقه بندی متفاوت است چرا که دسته بندی ها توسط شما انجام نشده است. به عنوان مثال یک مدل بدون نظارت ممکن است داده های هواشناسی را بر اساس دما خوشه بندی کند که باعث آشکار شدن فصل ها میشود. حال شما ممکن است سعی کنید که این خوشه ها را بر اساس درکتان از داده نام گذاری کنید. شکل ۳: یک مدل یادگیری ماشین در حال خوشه بندی کردن الگوهای مشابه در هوا. شکل ۴: خوشه هایی از الگو های هوا که به ترتیب، برفی، تگرگی، بارانی و غیربارانی خوشه بندی شده اند.سوال: چه چیزی یک روش یادگیری ماشین با نظارت را از بدون نظارت متمایز میکند؟داده ها در روش با نظارت شامل پاسخ صحیح هستنددر روش بدون نظارت سیستم میداند چگونه خوشه های داده را برچسب گذاری کندروش با نظارت معمولا از خوشه بندی استفاده میکندگزینه اول صحیح میباشد. در روش یادگیری با نظارت داده ها شامل پاسخ صحیح هستند. وظیفه مدل پیدا کردن ارتباطات در داده هاست به نحوی که منجر به تولید پاسخ صحیح بشود. در روش بدون نظارت داده ها بدون پاسخ صحیح به سیستم داده میشوند و وظیفه سیستم پیدا کردن گروه بندی ها در داده است.منبع: https://developers.google.com/machine-learning/intro-to-ml مهدی محمدی مهدی محمدی Sat, 01 Feb 2025 19:21:36 +0330 ربات ChatGPT فارسی - Giti.ai https://virgool.io/@ciamnesh/%D8%B1%D8%A8%D8%A7%D8%AA-chatgpt-%D9%81%D8%A7%D8%B1%D8%B3%DB%8C-gitiai-gpwyrplgpwqr ربات هوش مصنوعی ChatGPT ممکن است بهترین نوآوری این دهه باشد و ما خوش شانس هستیم که در این زمان هیجان انگیز زندگی می کنیم. با این حال بسیاری در ایران برای دسترسی به این ابزار با مشکل مواجه شده اند. در این نوشته به معرفی یک وبسایت بر پایه ChatGPT میپردازیم که این محدودیت ها رفع میکند و امکان دسترسی به ربات ChatGPT برای کاربران ایرانی فراهم میکند.ربات ChatGPT فوق العاده قدرتمند است و به راحتی در زبان های پرمخاطب مثل انگلیسی، اسپانیایی یا فرانسوی مکالمه می کند. با این حال نتایج بسیار ضعیفی در زبان هایی مانند فارسی، عبری و عربی و احتمالاً بسیاری از زبان های دیگر تولید می کند. از سوی دیگر، مدل‌های هوش مصنوعی مانند گوگل ترنسلیت را داریم که سال‌ها آموزش و آزمایش شده‌اند و امروزه بسیار خوب کار می‌کنند.وبسایتی اخیرا اقدام به ادغام این دو ابزار کرده و این امکان را فراهم اورده که مردم با زبان های مختلف بتوانند با ربات ChatGPT مکالمه داشته باشند. این وبسایت اکنون برای عموم در دسترس است و می توانید از آدرس زیر به نسخه فارسی آن دسترسی داشته باشید:https://www.giti.ai/fa/ نمونه مکالمه با Giti:چت با ربات هوش مصنوعی ChatGPT سایت giti.ai مهدی محمدی مهدی محمدی Fri, 10 Feb 2023 21:27:07 +0330