محمد گنجی نژاد
محمد گنجی نژاد
خواندن ۴ دقیقه·۴ سال پیش

یک روز کاری با دیتاساینس - ماجرای یک چالش


این داستان ترجمه ای از صحبت های دکتر مرتضی حیدر است که در مدرسه مدیریتی تدراجرز به عنوان دانشیار فعالیت می کند. حساب لینکدین این بزرگوار

در شهر تورنتو (شهری در کانادا)، ترانزیت عمومی توسط کمیسیون ترانزیت تورنتو انجام می شود. ما آنها را TTC (مخفف عبارت Toronto Transit Commission به معنی کمیسیون ترانزیت تورنتو) می نامیم. این یکی از بزرگترین مقامات ترانزیت منطقه ، در آمریکای شمالی است. آن سازمان یک روز با من تماس گرفتند و گفتند: "ما مشکل داریم." و من گفتم ، "خوب ، مشکلی چیست؟" آنها گفتند: "خب ، ما شکایات زیادی در این منطقه داریم و می خواهیم آن را تجزیه و تحلیل کنیم ولی به کمک شما احتیاج داریم."

گفتم: "خب خوش حال می شوم به شما کمک کنم، چند شکایت دارید؟"

گفتند: "خیلی زیاد"

گفتم: "چندتا؟"

گفتند: "شاید نیم میلیون شکایت در همین یک سال !"

گفتم: "خب ، بیایید کار رو شروع کنیم"

بنابراین من داده ها را گرفتم و شروع به تجزیه و تحلیل کردم.


در ابتدا نگاه من به ساختار داده هایی بود که به عنوان شکایت ثبت شده بود و اساساً، آنها کار بزرگی را برای نگه داشتن برخی از داده ها در قالب جدولی که داده های بدون ساختار بودند انجام داده اند.

در پرانتز (داده های ساختار یافته به داده هایی گفته می شود که دارای فرمت خاصی هستند مثل تاریخ، ولی داده های ساختار نیافته از قالب فرمتی خاصی پیروی نمی کنند، همچون داده های متنی مثل نظرات کاربران)

در این حالت، جدول شامل داده های زمان شکایت، چه کسی آن را دریافت کرده ، نوع شکایت چیست، نتیجه ی شکایت، مقصر کیست؟ و در بخش بدون ساختار آن متن پاسخ ایمیل و پاسخ نمابر بود. بنابراین، تصور کنید که چطور نیم میلیون ایمیل رو بررسی کنیم و پاسخی برای سوالاتی که در ذهن داریم برسیم.

دید کلی از چند سطر اطلاعاتی که بایستی تحلیل شود
دید کلی از چند سطر اطلاعاتی که بایستی تحلیل شود



بنابراین من شروع به کار با آن کردم. اولین چیزی که می خواستم بدونم این بود که چرا مردم شکایت می کنند و آیا الگویی وجود داره یا اینکه آیا برخی از روزها شکایات بیشتری نسبت به سایرین وجود داره؟
من به داده ها نگاه کردم و آن را در همه قالب های مختلف مورد تجزیه و تحلیل قرار دادم.

ولی در نهایت متوجه انگیزه ای که تعداد شکایت در یک روز خاص رو بالاتر از بقیه ی روز ها یا حتی ماه های دیگه میبره، نشدم!!

پاسخ سوالاتی که از این داده ها باید استخراج میشن چی هستش، قبلش سوالات رو دوباره بپرسیم

• چرا مردم شکایت می کنند؟
آیا الگویی وجود دارد یا اینکه آیا برخی روزها شکایت بیشتری نسبت به سایرین وجود دارد؟


پس از آن ، یک روز در حال پیاده شدن از اتوبوس در تورنتو بودم و عمیقا به فکر حل آن مسئله بودم و بدون اینکه روی زمین را نگاه کنم ، بیرون رفتم و در یک گودال آب افتادم و قوزک پایم در آب فرو رفت ولی پای دیگرم کامل خشک بود.
از این اتفاق کاملا اذیت شدم بعد از آن در حال پیاده روی بودم که ایده ای به ذهنم خطور کرد؛
با خودم گفتم : "خوب ، یک ثانیه صبر کن. امروز باران غیر منتظره ای بارید و من برای آن آماده نبودم از این رو خیس شدم و اشتیاقی به این نداشتم، آیا رابطه ای بین آب و هوای شدید و نوع شکایاتی که TTC دریافت
می کند، وجود دارد؟
بنابراین به وب سایت آب و هوای کانادا رفتم و داده هایی از باران و بارندگی، باد و نور دریافت کردم و در آنجا ، چیز جالبی پیدا کردم.
10 روز که بیشترین شکایت در آن ثبت شده بود با آب و هوای آن روز ها مقایسه شد و باران غیر منتظره، درجه حرارت شدید، برف خیلی زیاد و روزی که باد در آن شدید بود.


بنابراین برگشتم و به مدیران TTC گفتم: "من خبرهای خوب و بدی برای شما دارم"

خبر خوب این است که می دانم چرا مردم در روزهای معین شکایت بیش از حد می کنند، من دلیل آن را می دانم. خبر بد این است که شما هیچ کاری در مورد آن نمی توانید انجام دهید.


</ اتمام مصاحبه >


در آخر خوش حالم میشم، بزرگوارانی که تجربه های این چنین دارند به اشتراک بزارید.
نوشته شده با ❤️


data scientistدانشمند دادهمصاحبهعلوم دادهتحلیل داده
برنامه نویس | توسعه دهنده .NET
شاید از این پست‌ها خوشتان بیاید