جزییات بیشتر راجع به کارهای من را میتوانید اینجا بخوانید: saeedmirshekari.com
چهار قدم یادگیری ماشینی با پایتون و پیکان پنجاه وهفت
این نوشته برای فارسی زبانانی است که میخواهند «یادگیری ماشینی» و «تحلیل دادهها» و مراحل کلی حل یک مساله را در غالب مثالی ساده مرور کنند و ممکن است هنوز تجربهی تخصصی زیادی از مباحث ریاضی و برنامهنویسی لازم در این زمینه نداشته باشند. عدهی زیادی هم هستند که ممکن است راجع به یادگیری ماشینی چیزهایی شنیده باشند و حدس میزنند این روش ها به همراه تکنولوژیهای زیرساختی جدید در دنیای بزرگ دیجیتال دادههای امروز میتواند به رشد کسب و کار آنها در آینده کمک کند. مرور کاربردهای قدرتمند تکنیکهای یادگیری ماشین و نتیجههای سریع و باکیفیت آن در غالب یک مثال ملموس میتواند کمکی به این افراد نیز باشد. این مطالب میتواند به سایت دیوار و کسب و کارهای مرتبط با این دادهها نیز کمک مستقیم بکند.
امروز سایت کافهبازار «دیتاست»ی (مجموعهای مرتب از دادهها) از آگهیهای خرید و فروش در سایت دیوار را منتشر کرد. در این نوشته روی این دیتاست متمرکز خواهیم شد.
توییت : اولین دیتاست #دیوار به امید پر کردن جای خالی یه دیتاست ایرانی در فضای آکادمیک کشور ریلیز شد. این دیتاست شامل حدوداً یک میلیون پست در دیوار هستش. اگر کار جالبی روش انجام دادید بگید که ما هم استفاده کنیم. — Amin Moghaddam (@_m30m) January 31, 2019
اولین قدم، دیتا : چه داریم؟
اولین قدم در هر مسالهی «تحلیل داده» این است که بررسی کنیم چه دادههایی داریم و سعی کنیم تا جایی که امکان دارد آن را از وجوه مختلف بررسی کنیم و بشناسیم. این مرحله در تمام مراحل بعدی علیالخصوص اینکه اصولا چه سوالی میتوان پرسید و چه سوالی جالب\مهم است پرسیده شود و از طریق «تحلیلدادهها» و «یادگیری ماشینی» پاسخ داده شود، اهمیت ویژه دارد. هر چقدر بیشتر روی این قسمت وقت بگذارید در قدمهای بعدی راحتتر و با آگاهی بیشتر حرکت خواهید کرد. ممکن است در مراحل بعدی حل مساله مجبور شوید دوباره و چند باره به این قدم برگردید. این اصلا غیر طبیعی نیست و در بسیاری موارد لازم است.
این دیتاست حاوی اطلاعات نزدیک به یک میلیون آگهی خرید و فروش سایت دیوار است. در هر آگهی اطلاعات زیر بصورت مجزا و تکبهتک قابل دسترسی میباشد.
با نگاهی کلی به این مجموعه و طبقهبندی های محصولات در آن بهسرعت میتوان توزیع نوع محصولاتی که در مورد آنها آگهیشده را بصورت زیر نمایش داد:
همانطور که در نمودار بالا مشخص است بیشترین تعداد آگهیها مربوط به «لوازم خانه»(شاخهی مبل و وسائل تزئینی منزل: رنگ سبز) و «وسايل نقلیه» (شاخهی ماشین: رنگ خاکستری) میباشد.
اگر به دسته بندی جزئیتر آنها نیز نگاهی بیاندازیم (تصویر زیر) متوجه میشویم دستهی «ماشینهای سبک» (رنگ قرمز در تصویر پایینی) تعداد زیادی از آگهیهای این سایت را بهخود اختصاص داده است (بیشتر از همهی شاخههای دیگر) . ضمن آنکه از جدول بالا نیز میدانیم اطلاعات بیشتری از این دسته آگهی جمعآوری شده است، مانند سال تولید (عمر خودرو) و مسافت طی شده (کیلومتر، مایلج) که در مورد دستههای دیگر موجود نیست. بنابراین به عنوان مثال روی این دسته از آگهیها متمرکز میشویم.
قدم اول را در اینجا متوقف میکنیم اما همانطور که اشاره شد این مرحله، مرحلهی بسیار مهمی است و جای کنکاش بسیار بیشتری دارد (همانند همهی مراحل بعدی).
قدم دوم: مساله: چه میخواهیم؟
بعد از اینکه دادههایی که در دسترس داریم را شناختیم و تا حدودی مطالعه کردیم نوبت به آن میرسد که بپرسیم چه میخواهیم؟ و به دنبال پاسخ دادن به چه پرسش یا تولید کردن چه سرویسی و در جهت چه نیازی هستیم. معمولا حتی با داشتن دادههایی محدود مانند مثال دادههای این یادداشت (آگهیهای سایت دیوار)، سوالهای بیشماری از تحلیلهای توصیفی (اینکه چه اتفاقی افتاده؟) گرفته تا واکاوی (اینکه چرا چنین اتفاقی افتاده؟) و پیشبینی (چه اتفاقیخواهد افتاد؟) و توصیهگر (چه کار باید کرد؟) به ذهن میآید که اتفاقا برای هرکدام تعداد زیادی الگوریتم و روشهای تحلیلی در یادگیری ماشینی و تحلیل دادهها وجود دارد که پرداختن به همهی آنها از حوصلهی این یادداشت خارج است. یک تمرین بسیار جالب حتی میتواند تحلیل توضیحات متنی آگهیها از طریق روشهای زبانهای طبیعی و دادههای ترتیبی باشد.
در این مرحله باتوجه به شرایط، سوالهای مهم تر را پیدا کرده و در اولویت قرار میدهیم. در این یادداشت من سعی کرده ام بدانم آیا میتوانم با داشتن مسافت طی شده ماشین و سال تولید و شهری که آگهی در آن منتشر شده، قیمت ماشین را با تقریب خوبی تخمین بزنم یا خیر؟
اگر بتوان با دادههای موجود مدلی ساخت که با آن بتوان با دقت قابل قبولی این قیمت ماشین را تخمین زد، این یکی از سرویسهای دادهمحوری است که میتواند بلافاصله در سایت دیوار یا سایتهای مشابه جهت کمک به خریداران و فروشندگان جهت قیمتگذاری استفاده شود.
قدم سوم: حل مساله:چگونه مساله را حل کنیم؟
این مرحله قسمت اصلی کار و در عین حال یکی از سریعترین مراحل کار است که معمولا از قسمت های دیگر کمتر طول میکشد (گول عریض طویل تر بودن این بخش را نخورید!) و ممکن است برای بسیاری جای سوال و تعجب باشد. این به دلیل آن است که بسیاری از الگوریتمهایی که به حل مسالهی ما کمک میکند به راحتی از طریق کتابخانههای زبانهای برنامهنویسی مانند آر و پایتون در دسترس همگان است. اگر نیازی نداشته باشید تغییر بنیادینی در این الگوریتم ها بدهید یا الگوریتم کاملا جدیدی را برنامهنویسی کنید، استفاده از این کتابخانه ها بسیار راحت و سریع است. نکتهی قابل تاکید این است که اگرچه این الگوریتم ها به آسانی و سرعت قابل دسترس و استفاده است اما بدون فهمیدن و درک عمیقی از چگونگی کارکرد آنها، به احتمال خیلی زیاد به سرعت دچار مشکل خواهید شد. بنابراین نکته اساسی این است که مطمئن شوید منطق الگوریتمی که استفاده میکنید را فهمیده اید.
برای این مسالهی خاص من از الگوریتم بسیار معروفی بنام «رندوم فارست» از یک کتابخانهی پایتون بسیار معروفتر بنام «اس-کی-لرن» استفاده کردهام. توجه کنید که من برای هر برند ماشین یک مدل جداگانه درست میکنم که منطقی هم به نظر میرسد. در مراحل زیر توضیح داده ام چگونه این کار را در پایتون انجام دادهام. شما برای دنبال کردن و اجرا کردن کُدهای زیر نیاز دارید پایتون را روی ماشین خود نصب کنید که اتفاقا رایگان و بسیار راحت است. با یک جستجوی ساده در اینترنت میتوانید مراحل کار را در بیاورید.
قدم سوم خود شامل پنج مرحلهی کوچکتر میشود:
یک- خواندن دیتا:
دیتا در قالبهای بیشماری میآید، اما در قالب این یادداشت، با تقریبِ خوبی، همهی آنها را میتوان به فرمت سادهی یک (یا چندین) فایل به فرمت سی-اس-وی تبدیل کرد، مانند همین مثال که به همین فرمت است
masterData = pd.read_csv('./Downloads/divar_posts_dataset.csv', index_col=0)
دو- تمیزکاری دیتا:
#code
تعریف تابعی برای تبدیل «سال تولید» به فرمت عددی مطلوب:
def get_numeric(x):
res = np.nan
if(x=='<1366'):
return(1350)
elif(not pd.isnull(x)):
res = int(float(x))
return(res)
masterData.loc[:,'year'] = masterData.year.apply(get_numeric)
masterData.loc[:,'mileage'] = masterData.mileage.apply(get_numeric)
برش دیتا به اندازهی مورد نیاز از دادهي اولیه:
( در اینجا فقط آگهی های مربوط به ماشین های سبک و یک برند مورد نظر)
carBrand = 'پژو ۲۰۶::Peugeot 206'
myBrand = masterData.loc[
(masterData.brand == carBrand) &
(masterData.cat2 == 'cars') &
(masterData.cat3 == 'light'),:]
دور انداختن اطلاعات به درد نخور یا اشتباه:
mask_price = myBrand.price.isin({1, 0,-1})
mask_mileage = myBrand.mileage.isin({1})
mask = mask_price | mask_mileage
myBrand = myBrand[~mask]
نگه داشتن تنها ستونهایی از دیتا که تصمیم داریم در مدل استفاده کنیم:
myBrand = myBrand.loc[:,['year', 'mileage', 'price', 'city']]
سه- دستکاری کردن ستونهای دیتا (فیچر انجینیرینگ):
در بسیاری موارد ممکن است بخواهید یا لازم باشد تغییراتی در شکل دادههای ورودی به مدلی که میخواهید بسازید و استفاده کنید انجام دهید یا حتی آنها را با هم به شکل خاصی ترکیب کنید و ستونهای جدیدی بسازید که قبلا وجود نداشت.
در این مثال چون من میخواهم از تابعی استفاده کنم که ورودی به شکل کتگوریکال (غیرعددی) نمیپذیرد از ترفند معروفی استفاده میکنم که برای هر شهر (که طبیعتا متغیر غیرعددی است) ستون جدیدی میسازد و اگر آگهی در آن شهر بود برای ستونِ آن شهر مقدار عددی غیر صفر قرار میدهد:
#code
:صدا کردن تابعی که دستورالعملی که در بالا توضیح داده شد را اجرا میکند
from sklearn.preprocessing import LabelBinarizer
lb_style = LabelBinarizer()
lb_results = lb_style.fit_transform(myBrand["city"])
cityCats = pd.DataFrame(lb_results, columns=lb_style.classes_)
:چسباندن ستونهای جدید به ستونهای قدیمی
myBrand = pd.merge(myBrand, cityCats, on = myBrand.index)
چهار- دسته بندی دیتا به دو دستهی یادگیری و آزمایش:
در این مرحله داده ها را بصورت تصادفی به دو دسته تقسیم میکنم، یکی دسته ی بزرگتر (معمولا حدود هفتاد تا هشتاد درصد از کل دادههای موجود) برای استفاده در «یادگیری» ماشین و دیگری قسمت کوچتری (بیست تا سی درصد باقیمانده) ( را که مدل با آن آموزش ندیده و بنابراین هرگز ندیده و دادهی تازه محسوب میشود) به منظور «آزمایش» و تعیین دقت مدل آموزش داده شده در شرایط جدید:
# Import train_test_split function
from sklearn.model_selection import train_test_split
جدا کردن ستونهای ورودی و ستون خروجی (یعنی آن ستونی که قرار است آن را تخمین بزنیم) که در این مثال قیمت خودرو است:
X=myBrand[list(set(myBrand.columns) - {'price', 'city', 'key_0'})] # Features
y=myBrand['price'] # Labels
# Split dataset into training set and test set
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3) # 70% training and 30% test
پنج- اجرا کردن الگوریتم یادگیری ماشینی:
در اینجا الگوریتم معروف «رندوم فارست» با پارامترهای پیشفرض:
from sklearn.ensemble import RandomForestRegressor
rf = RandomForestRegressor(n_estimators=500, oob_score=True, random_state=0)
rf.fit(X_train, y_train)
در این مرحله مدل ما آماده است! ورودی این مدل همانطور که دیدیم «مسافت طی شده» و «سال تولید» و «شهر انتشار آگهی» است و خروجی مدل «قیمت تخمینی خودرو» است. جدول زیر چند نمونه از تخمین قیمت خودرو پژو ۲۰۶ توسط این مدل را نشان میدهد.
توجه کنید که قیمت های تخمینی بالا برای مقایسه با دادههای خارج از این دیتاست علیالخصوص برای مقایسه قیمت روزِ خودرو دربازار، مقایسهی مناسبی نیست به علت آنکه قیمت خودرو در طیسال گذشته تغییرات عمده داشته است که به دلیل آنکه در این دیتاست تاریخ و سال آگهیها دردسترس نیست، این مورد قابل تمایز و تصحیح نیست.
قدم چهارم- آزمایش و اعتبارسنجی مدل
درست است که ما مدل را در مرحلهی قبل ساختیم و اکنون مُدلی داریم که میتوانیم به وسیلهی آن قیمت خودرو را تخمین بزنیم، اما نمیدانیم این مدل تا چه اندازه دقیق و بنابراین تا چه اندازه قابل اعتماد است. آیا این مدل، مدل خوبی است، یا خیر؟ و اگر خوب است، چقدر خوب است؟ برای این کار از دستهی کوچکتر دادهها که قبلا آماده کردیم (ولی تا اینجا استفاده نکردیم) کمک میگیریم (دستهی آزمایش). به این ترتیب که ورودی های آن دسته را به مدل میدهیم (خروجی را که قیمت باشد پیش خودمان نگه میداریم و به مدل نشان نمیدهیم، بنابراین مدل هیچ اطلاع قبلی از قیمت این خودروهای جدیدی که تا بحال ندیده ندارد) و از مدل میخواهیم که برای همهی خودرو های موجود در دستهی آزمایش قیمتی پیشبینی کند، سپس نتیجه را با قیمتهای واقعیای که از قبل میدانیم مقایسه میکنیم.
نتیجه برای مثال بالا به شکل زیر است. پیشبینیهای مدلی که ساختیم با قیمتهای واقعی که در سایت آگهی شده بیشتر از ۸۵ درصد همبستگی دارد که عدد نسبتا بالایی است. برای بازسازی نتایج این مرحله میتوانید کد زیر را اجرا کنید:
from sklearn.metrics import r2_score
from scipy.stats import spearmanr, pearsonr
predicted_train = rf.predict(X_train)
predicted_test = rf.predict(X_test)
test_score = r2_score(y_test, predicted_test)
spearman = spearmanr(y_test, predicted_test)
pearson = pearsonr(y_test, predicted_test)
print(f'Out-of-bag R-2 score estimate: {rf.oob_score_:>5.3}')
print(f'Test data R-2 score: {test_score:>5.3}')
print(f'Test data Spearman correlation: {spearman[0]:.3}')
print(f'Test data Pearson correlation: {pearson[0]:.3}')
در نمودار زیر میتوانید میزان اهمیت هریک از پارامترهایی که در مدلمان استفاده کردیم را نیز ببینید. همانطور که مشخص است فاکتور اصلی در نرخ خودروها «سال تولید» و پس از آن «مسافت طی شده» (یا همان «مایلج») است. در ضمن اینکه شهر محل انتشار آگهی (شهر محل معامله) نقش بسیار تعیینکنندهای در قیمت خودرو ندارد.
توجه داشته باشید مدل بالا را برای پژو ۲۰۶ ساختیم، که دقت نسبتا خوبی هم داشت. در زیر نمودار همبستگی مشابه آنچه برای پژو ۲۰۶ توضیح داده شد را به ترتیب برای پیکان و پراید صندوقدار و پراید هاچ بک ببینید.
پیکان ظاهرا برای تخمین قیمت، هنوز ماشین سختی است! :)))
دادهها از: کافهبازار
تماس: smirshekari
مطلبی دیگر از این انتشارات
زبان ۳
مطلبی دیگر از این انتشارات
تحولات عمده تکنولوژی در 150 سال گذشته
مطلبی دیگر از این انتشارات
Supervised Learning - قسمت دوم