نوشته های Robotictechnolpgy

نوشته های Robotictechnolpgy https://virgool.io/feed/@saba_1 اخبار جدید حوزه رباتیک و تکنولوژی fa 2026-07-06 13:40:31 https://files.virgool.io/upload/users/36326/avatar/OyCSic.png?height=120&width=120 Robotictechnolpgy https://virgool.io/@saba_1 ایجاد کردن،خواندن و نوشتن https://virgool.io/@saba_1/%D8%A7%DB%8C%D8%AC%D8%A7%D8%AF-%DA%A9%D8%B1%D8%AF%D9%86%D8%AE%D9%88%D8%A7%D9%86%D8%AF%D9%86-%D9%88-%D9%86%D9%88%D8%B4%D8%AA%D9%86-dqa0kkdfwlz2 توی این میکرو کورس قراره همه چیز رو در باره pandas یاد بگیریم ،محبوب ترین کتابخونه پایتون برای برای انالیز داده.در این اموزش نحوه ایجاد داده و همچنین کار کردن روی داده های از قبل موجود رو یاد میگیریم.شروعدر ابتدا کتابخونه pandas رو اضافه میکنیم:دو آبجکت اصلی در pandas وجود داره که به اونها دیتافریم(DataFrame) و سری(Series) گفته میشه.DataFrameدیتافریم یک جدوله که شامل ورودی های مجزاست که هر کدوم ارزش خاص خودشون و دارن .هر ورودی مربوط به یک ردیف (یا رکورد) و یک ستون است .برای مثال این یتافریم ساده زیر رو در نظر بگیرید:در دیتافریمی که در بالا ایجاد کردیم ورودی 0 مربوط به ستون yes مقدار 50 رو داره. ورودی های دیتافریم ها به نوع داده عددی محدود نیستن و میتوننن مقدار bool و str هم داشته باشن.همینطوری که در مثال بالا دیدید ما از () pd.DataFrame برای ایجاد یک دیتافریم استفاده کردیم و از دیکشنری (نوعی دیتا تایپ در پایتون) برای تعریفغ مقادریر جدول استفاده کردیم که کلید های این دیکشنری اسم ستون ها و مقادیر آن ورودی های دیتافریم ما هستن.دیکشنری مقادیری را به برچسب‌های ستون اختصاص می‌دهد، اما فقط از یک شمارش صعودی از 0 (0، 1، 2، 3، ...) برای برچسب‌های ردیف استفاده می‌کند. گاهی اوقات این مشکلی ندارد، اما اغلب اوقات ما خودمان می خواهیم این برچسب ها را اختصاص دهیم.لیستی از برچسب‌های ردیفی که در DataFrame استفاده می‌شوند به عنوان Index شناخته می‌شوند. ما می توانیم با استفاده از یک پارامتر شاخص در سازنده خود مقادیری را به آن اختصاص دهیم:Seriesدر مقابل، یک سری، دنباله ای از مقادیر داده است. اگر یک DataFrame یک جدول باشد، یک سری یک لیست است. یک سری، در اصل، یک ستون واحد از یک DataFrame است. بنابراین می‌توانید با استفاده از یک پارامتر شاخص، برچسب‌های ردیف را به همان روش قبلی به سری اختصاص دهید. با این حال، یک سری نام ستون ندارد، فقط یک نام کلی دارد:سری و DataFrame ارتباط نزدیکی با هم دارند. این مفیده که یک DataFrame را در واقع فقط دسته‌ای از سری «چسبیده به هم» بدانیم. در بخش بعدی این آموزش بیشتر در این مورد خواهیم دید.خواندن فایل های داده ایجاد یک DataFrame یا Series با دست بسیار مفید است. اما، بیشتر اوقات، ما در واقع داده های خود را با دست ایجاد نمی کنیم. در عوض، ما با داده‌هایی که از قبل وجود دارد کار خواهیم کرد.داده ها را می توان در هر یک از اشکال و فرمت های مختلف ذخیره کرد. تا حد زیادی اساسی ترین آنها فایل CSV فروتن است. هنگامی که یک فایل CSV را باز می کنید، چیزی شبیه این دریافت می کنید:بنابراین یک فایل CSV جدولی از مقادیر است که با کاما از هم جدا شده اند. از این رو نام: 'Comma-Separated Values' یا CSV بهش داده شده .بیایید اکنون مجموعه داده های اسباب بازی خود را کنار بگذاریم و ببینیم که یک مجموعه داده واقعی زمانی که آن را در DataFrame می خوانیم چگونه به نظر می رسد. ما از تابع ()pd.read_csv برای خواندن داده ها در یک DataFrame استفاده می کنیم. این به این ترتیب است:ما می توانیم از ویژگی shape برای بررسی بزرگی DataFrame استفاده کنیم:بنابراین DataFrame جدید ما دارای 130000 رکورد است که در 14 ستون مختلف تقسیم شده اند. این تقریباً 2 میلیون ورودی است!می‌توانیم محتویات DataFrame حاصل را با استفاده از دستور ()head بررسی کنیم که پنج ردیف اول را می‌گیرد:تابع ()pd.read_csv دارای بیش از 30 پارامتر اختیاری است که می توانید مشخص کنید. به عنوان مثال، در این مجموعه داده می توانید ببینید که فایل CSV دارای یک فهرست داخلی است که pandas به طور خودکار آن را دریافت نمی کنند. برای اینکه pandas از آن ستون برای ایندکس استفاده کنند (به جای ایجاد یک ستون جدید از ابتدا)، می توانیم یک index_col را مشخص کنیم.آموزش اصلی رو میتونید از اینجا ببینید. Robotictechnolpgy Robotictechnolpgy Fri, 26 May 2023 18:01:09 +0330 Random Forests https://virgool.io/@saba_1/random-forests-acm6oltpjkci درخت تصمیم گیری شما رو با یک تصمیم سخت رو به رو میکنه .یک درخت عمیق با تعداد برگ های زیاد overfit میشه چون هر پیش بینی ناشی از تعداد کمی خونه که در اون برگ وجود دارن انجام میشه اما در مقابل یک درخت با تعداد برگ های کم نیز باعث میشه پیش بینی درستی نداشته باشید چون نمیتونه بین داده های خام الگو خاصی رو پیدا کنه وتمایز قائل بشه.حتی امروزه هم خیلی از تکنیک های مدلسازی با تنش بین overfitting و underfitting مواجهه میشن .ولی بعضی از مدل ها ایده های خلاقانه ای برای برطرف کردن این مشکل دارند.به عنوان مثال ما به جنگل تصادفی نگاهی می اندازیم.جنگل تصادفی از تعداد زیادی درخت استفاده میکنه و پیش بینی رو بر اساس میانگین گرفتن از نتایج به دست اومده از پیش بینی های این درخت ها استخراج میکنه و به طور کلی دقت و پیش بینی بهتری نسبت به درخت تصمیم گیری داره و با پارامتر های پیش فرض به خوبی کار میکنه اگه به مدلسازی ادامه بدید میتونید مدل های بیشتر با عملکرد بهتر یاد بگیرید اما بسیاری از این مدل ها به دریافت پارامتر مناسب حساسن.مثالشما تا الان کد های زیاد ی رو برای لود کردن دیتا دیدید. در پایان هر بار لود کردن دیتا شما متغییر های زیر رو داید :train_Xtrain_yval_Xval_yما جنگل تصادفیمون رو به همون روشی که درخت تصمیم گیری رو ساختیم میسازیم و در اینجا هم از کتابخونه scikit-learn استفاده میکنیم.میتونید آموزش اصلی رو از اینجا ببینید . Robotictechnolpgy Robotictechnolpgy Fri, 12 May 2023 10:29:25 +0330 Underfitting and Overfitting https://virgool.io/@saba_1/underfitting-and-overfitting-rsczrfkwkezo در انتهای این آموزش با مفهوم underfitting و overfitting آشنا میشویم و یاد میگیریم چطور ازشون برای افزایش دقت مدلمون استفاده کنیم.آزمایش با مدل های مختلف الان که یک راه حل برای اندازه گیری دقت مدلمون یاد گرفتیم، میتونیم مدل های دیگه هم آزمایش کنیم و ببینیم کدوم برای ما پیش بینی بهتری میکند.اما چه مدل های جایگزینی داریم؟با نگاه کردن داکیومنت های sckit-learn متوجه میشید که مدل درخت تصمیم گیری ویژگی های زیادی داره (بیشتر از چیزی که شما نیاز دارید) مهترین ویژگی تعیین عمقه.با یاد آوری دروس قبلی میفهمیم که عمق یعنی درخت ما چند بار به دسته های مختلف تقسیم شده (یا شکافته شده ؟!) مثلا این درخت یک درخت کم عمق محسوب میشه.در واقع داشتن 10 تقسیم بندی بین سطح بالایی (همه خانه ها ) و یک برگ غیر معمول نیس با عمیق تر شدن درخت مجموعه داده های ما به برگ هایی با تعداد خونه های کمتر تقسیم میشن. اگر درختی فقط یک تقسیم داشته باشه داده ها رو به دو گروه تقسیم میکنه ،اگر هر گروه دوبار تقسیم شوند 4 گروه خانه میگیریم و با تقسیم مجدد آنها به 8 گروه خانه میرسیم.اگر تعداد گروه ها را با اضافه کردن تقسیم بیشتر در هر سطح دو برابر کنیم تا زمانی که به سطح دهم میرسیم 1024 برگ و 210 گروه خانه داریم.وقتی خانه ها را به چندین برگ تقسیم میکنیم، خانه های کمتری نیز در هر برگ داریم برگ هایی که خانه های بسیار کمی دارن پیش بینی های میکنند ک کاملا به مقادیر واقعی آن خانه نزدیک است ،اما ممکنه پیش بینی های غیر قابل اعتمادی برای داده های جدید انجام دهند( زیرا هر پیش بینی فقط براساس چند خانه است).این پدیده ای است که بهش میگیم overfitting زمانی که مدل با داده های تمرینی به صورت کامل مچ میشه ولی رو داده های ارزیابی معمولا خراب میکنه! اگه درخت ما خیلی خیلی کم عمق باشه خانه ها به گره های خیلی مجزا تقسیم نمیشن .اگه خانه ها رو به 3 یا 4 گروه تقسیم کنیم باز هم با خانه های بسیار متنوعی طرف هستیم. نتایج پیش بینی ممکنه بسیار دور از انتظار باشه حتی تو داده های تمرینی هم ممکنه نتیجه خوبی نگیریم و در نهایت رو داده های ارزیابی هم نتیجه افتضاحی میگیریم.زمانی که مدل نتونه تمایز بین الگو های مهم توی داده ها رو ثبت کنه در داده های آموزشی هم ضعیف عمل میکنه به این حالت میگیم underfitting .از اونجایی که ما به دقت توی پیش بینی هامون که از داده های ارزیابی تخین زدیم اهمیت زیادی میدیم میخوایم یه نقطه دوست داشتنی بین underfitting و overfitting پیدا کنیم . یعنی ما در شکل زیر دنبال نقطه پایین نمودار قرمز هستیم.چند راه کار برای کنترل عمق درخت وجود دارد و بعضی از این راهکار ها اجازه میدهند بعضی از مسیر های درخت نسبت به بقیه عمق بیشتری داشته باشند. ولی آرگومان max_leaf_nodes یک راهکار معقولبرای کنترل overfitting وunderfitting ارائه میده.هرچه به مدل اجازه بدهیم تعداد برگ های بیشتری داشته باشه از ناحیه underfitting در گراف بالایی به سمت ناحیه overfitting حرکت میکنیم.ما میتونیم از یه تابع ابزار برای کمک به مقایسه امتیازات mea از مقادیر مختلف برای max_leaf_nodes استفاده کنیم:داده ها توی متغییر های train_X ,train_y,val_X و val_y ذخیره شدند . ما میتونیم یه حلقه for ایجاد کنیم تا دقت مدل های ساخته شده با مقادیر مختلف max_leaf_nodes رو با هم مقایسه کنیم.تو لیست بالا مقدار 500 مقار بهینه برای تعدا برگ هاست .یک نکته مهم اینه که مدلها ممکنه از موارد زیر هم رنج ببرن:overfitting: گرفتن الگوی جعلی که در آینده تکرار نخواهد شد و منجر به پیش بینی های کمتر دقیق میشودunderfitting :ناتوانی در درک الگو های مرتبط که باز هم منجر به دقت کمتر میشودما از داده های ارزیابی استفاده میکنیم که در آموزش استفاده نمیشهتا دقت مدل مورد نظر و اندازه بگیریم، این به ما این امکان را میدهد بسیاری از مدل های کاندید را انتخاب کنیم و بهترین و پیدا کنیم.آموزش اصلی رو میتونید از اینجا ببینید. Robotictechnolpgy Robotictechnolpgy Thu, 11 May 2023 21:27:39 +0330 اعتبار سنجی مدل https://virgool.io/@saba_1/%D8%A7%D8%B9%D8%AA%D8%A8%D8%A7%D8%B1-%D8%B3%D9%86%D8%AC%DB%8C-%D9%85%D8%AF%D9%84-tkgvaqnjtd4z الان شما یه مدل ساختید ولی از کجا میدونید مدلتون خوبه؟اعتبار سنجی مدل یا Model Validation چیهما میخوایم هر مدلی رو که میسازیم رو ارزیابی کنیم تو اکثر برنامه ها (نه همشون)معیار ارزیابی رو دقت پیش بینی (accuracy )در نظر میگیریم. به عبارتی داریم چک میکنیم پیش بینی ها ی انجام شده به چیزی نزدیک هست یا نه ؟خیلی ها هنگام بررسی دقت پیش بینی شون اشتباه بزرگی میکنن اونا با داده های آموزشیشون پیش بینی میکنن و پیش بینی رو با مقادیر هدف در داده های آموزشی مقایسه میکنن توی این آموزش مشکل این رویکرد و نحوه حلش رو خواهیم دید، ولی قبلش بیاید به این فکر کنیم که چطور باید اینکارو انجام بدیم؟اول باید کیفیت مدل به روش قابل فهمی خلاصه کنید .اگر ارزش پیش بینی شده برای قیمت 10000 خانه را بررسی کنید احتمالا ترکیبی از پیش بینی های خوب و بد رو مشاهده میکنید. فقط با نگا کردن بین پیش بینی ها و داده ها نمیشه تصمیم درستی گرفت و باید این اطلاعات رو در یک پارمتر متریک خلاصه کنیم.معیار های زیادی برای خلاصه کردن کیفیت مدل در یک پارامتر وجود دارد ولی اینجا فقط به میانگین خطای مطلق (Mean Absolute Error) که به اختصار میشه MAE اشاره میکنیم.بیاید با کلمه آخر این معیار یعنی خطا یا Error شروع کنیم.Error = actual - predاiction این یعنی اگه خونه 150000 دلار ارزش واقعیش باشه و مدل ما مقدار 100000 دلار و براش پیش بینی کرده باشه یعنی ما 50000 دلار خطا داریم .با متریک MAE قدر مطلق خطا را میگیریم ،یعنی هر خطا را به عدد مثبت تبدیل میکنیم و از کل این مقادیر میانگین میگیریم و این معیاری برای سنجش کیفیت مدل ماست .به طور متوسط پیش بینی های ما حدود X کاهش یافته است.برای محاسبه MAE اول نیاز به یک مدل داریم که در زیر اون رو میسازیم:وقتی مدل را ایجاد کردیم به محاسبه MAE میپردازیم.The Problem with "In-Sample" Scoresچیزی که ما الان محاسبه کردیم رو میشه in-sample" score " نامید (نمیدونم ترجمه دقیقش چیه! نمره در نمونه؟!) ما از یک نمونه واحد هم برای ساختن مدل و هم برای ارزیابی اون استفاده کردیم و این دلیل بد بودنی بود که قرار بود بهش اشاره کنیم.تصور کنید در یک مارکت واقعی خونه رنگ در اصلا تاثیری روی قیمت خونه نداشته باشه . ولی توی داده ها شما مدلی رو ساختید که در اون همه خونه ها با در سبز خیلی گرونترن. کار مدل اینه که یک الگو رو تشخیص بده تا با اون بتونه قیمت خونه ها رو تخمین بزنه و این مدل ما همیشه برای خونه های در سبز قیمت بالایی رو پیش بینی میکنه .از اونجایی که این مدل با داده های تمرینی (training data) پیش رفته روی این داده ها دقت بالایی هم نشون میده (یعنی دقتش رو داده های تمرینی بالاست).اما این مدل در مواجهه با داده های جدید دقت بسیار پایینی داره .از اونجایی که ارزش عملی مدل ها از پیش بینی داده های جدید حاصل میشن ما باید عملکرد مدلمون رو رو ی داده هایی که برای train یا آموزش استفاده نشده اندازه گیری کنیم. ساده ترین راه برای انجام اینکار اینه برخی داده ها رو از فرایند های مدلسازی حذف کنیم و اون ها رو برای سنجش میزان دقت مدل بر روی داده هایی که قبلا ندیده استفاده کنیم. این داده ها داده های اعتبار سنجی (validation data) نامیده میشن.Coding it کتابخونه scikit-kearn فانکشن train_test_split رو برای تقسیم داده ها به دو قسمت در خودش داره .ما از قسمتی از داده ها برای فیت کردن مدل استفاده میکنیم و از قسمت دیگه برای validation یا اعتبار سنجی داده ها برای محاسبه mean_abslute_error .میانگین خطای مطلق توی داده های in-sample حدود 500 دلار بود و توی داده های out-of-sample چیزی حدود 250000 دلار شد.این تفاوت یک مدل که تقریبا درست پیش بینی میکنه و یک مدل بی کاربرده. با توجه به رفرنس میتونیم ببینیم که میانگین قیمت خونه ها 1.1 میلیون دلاره و خطایی که رو داده های تست داشتیم حدود یک چهارم این مبلغ که اصلا قابل چشم پوشی نیس.روش های مختلفی برا بهبود این مدل وجود داره مثل کسب تجربه توی پیدا کردن ویژگی های بهتر برای برازش مدل(fit) و یا استفاده از مدل های دیگه .میتونید آموزش اصلی رو از اینجا ببینید. Robotictechnolpgy Robotictechnolpgy Fri, 28 Apr 2023 16:56:13 +0330 مدل ها چگونه کار میکنند https://virgool.io/@saba_1/%D9%85%D8%AF%D9%84-%D9%87%D8%A7-%DA%86%DA%AF%D9%88%D9%86%D9%87-%DA%A9%D8%A7%D8%B1-%D9%85%DB%8C%DA%A9%D9%86%D9%86%D8%AF-necvvcslbzyy مقدمهما با یک بررسی کلی در مورد اینکه مدل های یادگیری ماشین چیه و چگونه استفاده میشن شروع میکنیم. این یکم ابتدایی به نظر میاد اگه شما قبلا مدل های آماری یا یادگیری ماشین رو قبلا شروع کرده باشید. نگران نباشید ما به زودی یه مدل پیشرفته رو با هم جلو میبریم .این آموزش از شما میخواهد طبق سناریوی زیر جلو برید:فرض کنید پسر عموتون (اگه دارید) میلیون ها تومن از مشاور املاکی بودنش در آمد داره و میاد به شما پیشنهاد میده که شریک تجاریش بشید چرا؟ چون شما به علم داده یا (دیتا ساینس ) علاقه دارید.اون به شما پول میده و شما باید یه مدل بسازید که بتونه ارزش خونه های مختلف رو پیش بینی کنه (مسئله پایه تو یادگیری ماشین).شما از پسر عموتون میپرسید خوب خودت قبلا چجوری این کار و میکردی ؟ و اون بهتون میگه قبلا به صورت شهودی و با تجربه ای که داشته این کارو انجام میداده .ولی بعد که ازش بیشتر سوال میکنید میفهمید اون قدرت جادوییش الکیه و از روی هوا نمیتونه قیمت تعیین کنه بلکه از قیمت خونه هایی که قبل دیده بوده پیش بینی میکنه و یک الگو داره که از اون برای پیش بینی خونه های جدیدی که میبینه استفاده میکنه .یادگیری ماشین هم دقیقا به همین روش عمل میکنه .ما به یه مدل که بهش درخت تصمیم گیری (Decision Tree) گفته میشه شروع میکنیم.مدل های باکلاس تر دیگه ای هم هست که دقت بیشتری بهمون میده ولی درخت تصمیم گیری برای یاد گیری خیلی آسونه و یکی از بلوک های اساسی بعضی از بهترین مدل ها در دیتا ساینس محسوب میشه.برای ساده سازی ما از ساده ترین درخت تصمیم گیری موجود در این مدل استفاده میکنیم .که فقط به دودسته تقسیم میشه .قیمت پیش بینی شده برای هر خانه که در نظر گرفته میشه میانگین تاریخی قیمت های خانه های همان دسته است.ما از داده ها استفاده میکنیم که چطور خونه ها رو به دسته بشکنیم و مجدد قیمت پیش بینی شده هر گروه رو تعیین کنیم این مرحله از گرفتن الگو ها برازش(fitting) یا آموزش مدل(training) نامیده میشه. داده ها مورد استفاده برای برازش داده ها داده های آموزشی نامیده میشوند.جزییات اینکه چطوری داده ها جدا سازی میشن به اندازه کافی پیچیده است و بعدا در موردش صحبت میکنیم.بعد از اینکه مدل فیت شد میتونید اونو روی داده های جدید اعمال کنید تا قیمت خونه های جدید رو پیش بینی کنید.بهبود درخت تصمیم گیریکدوم یک از دوتا درخت تصمیم گیری زیر بیشتر شبیه نتیجه بدست امده از برازش داده های اموزشیه؟درخت تصمیم گیری چپی بنظر منطقی تر میاد چون داره به ما نشون میده خونه هایی که اتاق خوابای بیشتری دارن احتمالا قیمت بالا تری هم دارن. ولی بدی این مدل اینه که ویژگی های دیگه که ممکنه رو قیمت خونه تاثیر بزار مثل تعداد حموم دسشویی ها و موقعیت مکانی خونه و ... رو دخیل نکرده .میتونید فاکتور های بیشتری رو توی درختتون استفاده کنید به این میگن درختان عمیق تر یا ( deeper trees) یه درخت تصمیم گیری که سایز کلی خونه رو هم در نظر گرفته شبیه چیزی شبیه درخت زیریه:شما قیمت هر خونه رو از طریق درخت تصمیم گیری پیش بینی میکنید و همیشه مسیر مربوطه به ویژگی های ان خانه رو انتخاب میکنید. قیمت پیش بینی شده برا خانه در انتهای این درخت است .به نقطه پایانی که پیش بینی میکنیم برگ گفته میشه.لینک اصلی آموزش رو میتونید از اینجا ببینید. Robotictechnolpgy Robotictechnolpgy Fri, 28 Apr 2023 13:12:56 +0330 اولین مدل ماشین لرنینگ شما https://virgool.io/@saba_1/%D9%85%D8%AF%D9%84-%D9%87%D8%A7-%DA%86%DA%AF%D9%88%D9%86%D9%87-%DA%A9%D8%A7%D8%B1-%D9%85%DB%8C%DA%A9%D9%86%D9%86%D8%AF-afoqu8ygtfdg انتخاب داده برای مدلسازیداده های ما دارای متغییر های زیادی بود و نمیتوانیم همه داده ها را بررسی کنیم یا چاپ کنیم تا بفهمیم چه اتفاقی داره میفته چطوری این حجم عظیم داده رو به چیزی ک میتونیم درک کنیم کاهش بدهیم ؟ما با انتخاب چند متغییر به صورت شهودی شروع میکنیم و بعدا یاد میگیریم تا از تکنیک های آماری برای اولویت بندی خودکار متغییر ها استفاده کنیم .برای انتخاب متغیر ها /ستون ها باید فهرستی از تمامی ستون های داده ببینیم این کار با کد زیر انجام میشه :برای هندل کردن missing value از خط کد بالا استفاده میکنیم و با این کار داده های na رو به عنوان not available در نظر میگیریم .راه های زیادی برای انتخاب یه subset از دیتای اصلی وجود دارد ولی دو راه که ما روشون تمرکز میکنیم این ها هستن:1- نماد نقطه که ما ازش برای انتخاب هدف پیش بینی استفاده میکنیم ( prediction target )2- انتخاب یک لیست ستونی ک از ان برای انتخاب ویژگی ها استفاده میکنیم ( features)انتخاب prediction targetمیتوان یک متغییر را با علامت نقطه بیرون کشید این ستون در یک سری ذخیره میشه که شبیه یک دیتا فریم با تنها یک ستون است .ما از نماد دات یا نقطه برای انتخاب ستونی که میخواهیم پیش بینی کنیم استفاده میکنیم که به آن هدف پیش بینی میگن .طبق قرار داده هدف پیش بینی y نامیده میشه .بنابرین کدی که برای پیش بینی قیمت خانه در ملبورن نیاز داریم اینه :انتخاب featuresستون هایی که به مدل ما اضافه شدن و ما از اونها برای پیش بیینی استفاده میکنیم فیچر نامیده میشن توی این مثال ما میشه ستون هایی که برای پیش بینی قیمت خونه داریم ازشون استفاده میکنیم .بعضی وقتا از همه ستون ها بجز ستون تارگت استفاده میکنیم بعضی وقت هام بهتره از فیچر های کمتری استفاده کنیم.الان ما یک مدل را با تعداد کمی ستون میسازیم بعدا یاد میگیرید چطوری نحوه تکرار و مدل های ساخته شده با ویژگی های مختلف رو مقایسه کنید .ما فیچر های مختلف رو با اسم ستون ها و قرار دادنشون تو براکت انتخاب کردیم هر آیتم توی براکت باید رشته باشه و توی دابل کوئت قرار بگیره .طبق قرار داد این داده ها رو X مینامیم:یک نگاه سریع به داده های که میخواهیم برای پیش بینی استفاده کنیم می اندازیم :چک کردن داده ها با این دستورات یکی از مهمترین بخش های دیتاساینس بودنه .شما غالبا شگفتی هایی را در داده ها پیدا میکنید که سزاوار بررسی بیشتر هستن.ساختن مدل خودتونشما باید از کتابخانه scikit-learn برای ساخت مدل خودتون استفاده کنید.بعدا متوجه خواهید شد که این کتابخانه بهترین نوع برای مدلسازی داده ایی است ک توی قالب دیتا فریم ذخیره شدن .قدم هایی که باید برای ساختن مدل و استفاده از اون بر دارید عبارتند از : Define: چه نوع مدلی داریم؟درخت تصمیم گیری؟مدل های دیگر؟برخی از پارامتر های دیگر از نوع مدل هم مشخص شدند Fit :یافتن الگو از داده های ارائه شده این قسمت قلب مدلسازی شماست Predict:دقیقا معنی همین کلمه رو میده Evaluate:مشخص کردن اینکه مدل پیش بینی شدمون چقد دقیقه اینم یه مثال از تعریف مدل درخت تصمیم گیری با sckit-learn و یافتن الگو (fitting) روی متغییر های هدف:بسیاری از مدل های یادگیر ماشین اجازه میدن آموزش مدل تا حدی تصادفی باشه (هر بار که کد رو ران کنید ممکنه درصد متفاوتی ببینید)تعیین یک عدد برای random_state تضمین میکند که نتایج یکسانی و تو هر بار اجرای کدتون داشته باشید.حالا ما یک مدل داریم که برازش شده و میتونیم ازش برای پیش بینی استفاده کنیم.در عمل ما میخواهیم برای خونه های جدیدی که به بازار میاد پیش بینی رو انجام بدیم نه خونه های قدیمی که قمیتشون و داریم اما برای چند ردیف اول داده ها پیش بینی رو انجام میدیم تا ببینیم عملکردمون چطوریه. لینک آموزش اصلی رو میتونید از اینجا ببینید. Robotictechnolpgy Robotictechnolpgy Fri, 28 Apr 2023 12:21:23 +0330 استفاده از pandas برای آشنایی با داده ها https://virgool.io/@saba_1/%D8%A7%D8%B3%D8%AA%D9%81%D8%A7%D8%AF%D9%87-%D8%A7%D8%B2-pandas-%D8%A8%D8%B1%D8%A7%DB%8C-%D8%A2%D8%B4%D9%86%D8%A7%DB%8C%DB%8C-%D8%A8%D8%A7-%D8%AF%D8%A7%D8%AF%D9%87-%D9%87%D8%A7-tohuci5vqpwn اولین قدم در هر پروژه یادگیری ماشینی آشنایی خودتون با داده هاست.برای این کار شما از کتابخونه pandasاستفاده میکنید . این کتابخونه یه ابزار اصلی در علم داده برای کاوش و دستکاری داده هاست.بیشتر مردم pandas رو توی کد هاشون به صورت خلاصه به کار میبرن و بهش میگن pd .مهمترین بخش توی این کتابخونه DataFrame هست.دیتافریم ها انواع داده ها را به صورت یک جدول نگه داری میکنن و ساختارشون شبیه sheet درexcel هست. این کتابخونه متد های قدرتمندی داره که تقریبا هرکاری بخواهید با داده ها بکنید رو براتون انجام میده .برای مثال ما دنبال داده ای مربوط به قیمت خونه تو ملبورن استرالیا(این دیتاست یه دیتاست معروفه که برای شروع یادگیری ماشین معمولا ازش استفاده میکنن) هستیم :تفسیر data descriptionنتیجه کد بالا برا ی هر ستون 8 عدد رو نشون میدهد .ستون اول count نشون میده چنتا سطر داده از دست رفته ای ندارن .داده های از دست رفته (missing value)رو بعدا مفصلا در موردشون صحبت میکنیم ولی مثلا تو این دیتا ست ما یک خونه یک خوابه داریم و داده متراژ اتاق خواب دوم بی معنیه پس خالیش میزاریم.داده دوم میانگین یا mean هست و بعدی std که مخفف (standard deviation) که نشون دهنده پراکندگی عددی مقادیرمون هست .برای مقادیر 70%, 50%,25% و min , max فرض کنید داده ا را از کوچیک به بزرگ مرتب کنیم اولین داده یعنی کوچکترینش میشه min اخرین داده یعنی بزرگترینش max و اگه یک چهارم رو داده ها جلو بریم به عددی میرسیم که از 25% داده ها بزرگتره و برای دوتای دیگه هم به صورت مشابه تعریف میکنیم.لینک اصلی رو میتونید از اینجا بخونید. Robotictechnolpgy Robotictechnolpgy Fri, 28 Apr 2023 12:04:56 +0330