گردش کار(workflow) در تیم‌های یادگیری ماشین و داده‌کاوی


در کنار فراگرفتن مهارت‌های فنی، آشنایی با روند کاری یا گردش کار تیم‌های مختلف هوش مصنوعی برای طیف مختلف علاقه‌مندان به هوش مصنوعی ضروری است. در این مقاله با استفاده از مثال‌هایی سعی می‌کنیم گردش کار در تیم‌های یادگیری ماشین و داده‌کاوی را توضیح دهیم. در تهیه این مطلب از دوره هوش مصنوعی برای همه اندرو ان جی استفاده شده است.

اگر اندکی با هوش مصنوعی آشنا باشید حتماً نام اندرو ان جی را شنیده‌اید. ان جی در شرکت‌های بزرگی مثل گوگل، بایدو و چند شرکت دیگر تیم‌های هوش مصنوعی و یادگیری ماشین را رهبری کرده است. بنابراین توضیحاتی که او درباره گردش کار در تیم‌های مختلف هوش مصنوعی می‌دهد می‌تواند برای بسیاری از شرکت‌ها و علاقه‌مندان این حوزه مفید باشد.

گردش کار در تیم‌های یادگیری ماشین

الگوریتم‌های یادگیری ماشین می‌توانند نحوه رسیدن از ورودی به خروجی یا از A تا B را بیاموزند. اما این فرایند چگونه در یک پروژه یادگیری ماشین طی می‌شود؟

برای درک بهتر مسئله بگذارید از همان ابتدا بحث را با یک مثال پیش ببریم. فرض کنید می‌خواهیم محصولی را با استفاده از یادگیری ماشین تولید کنیم. مثلاً محصول تولیدی ما مربوط به فناوری تشخیص گفتار است.

محصولاتی مثل الکسای آمازون، گوگل هوم، سیری اپل مثال‌هایی از این فناوری هستند.

مراحل اساسی در یک پروژه ماشین لرنینگ

به نظر شما در تولید الکسا چه فرایندی طی شده است؟

-جمع‌آوری داده

اولین مرحله در پروژه‌های هوش مصنوعی و یادگیری ماشین جمع‌آوری داده است.

مثلاً درمورد الکسا شما باید صداها و لهجه‌های مختلفی را جمع‌آوری کنید که در آن بگویند «الکسا». همچنین نیاز دارید افراد دیگری باشند که واژه های دیگری را بگویند مانند «سلام» یا خیلی از واژه‌های دیگر.

-آموزش مدل

حال که مقدار زیادی داده صوتی جمع کردید که در آن افراد الکسا را صدا می‌زنند یا از کلمات دیگر استفاده می‌کنند نوبت به آموزش دادن مدل می‌رسد. این مرحله بدین معناست که ما از الگوریتم‌های یادگیری ماشین استفاده می‌کنیم تا ماشین فرایند رسیدن از ورودی به خروجی را بیاموزد.

در اینجا ورودی ما فایل صوتی است که کسی می‌گوید الکسا و خروجی ما این است که سیستم می‌آموزد بگوید الکسا.

وقتی که تیم هوش مصنوعی فرایند یادگیری را شروع می‌کنند، طبیعی است که تلاش‌های اولیه کیفیت لازم را نداشته باشد. بنابراین تیم باید چند بار این مسیر را طی کند تا به نتیجه مطلوب برسد.

جاسازی و به‌کارگیری مدل

در این بخش مدلی که طراحی کرده‌ایم را درون یک اسپیکر هوشمند واقعی قرار می‌دهیم. و به‌صورت آزمایشی به تعدادی از کاربران می‌دهیم. معمولاً اتفاقی که در این مرحله می‌افتد این است که با استفاده ای که این کاربران از مدل می‌کنند داده‌های جدیدی وارد مدل می‌شود و عملکرد سیستم بهبود می‌یابد.

برای مثال فرض کنید شما یک سیستم بازشناسی گفتار دارید که با داده‌های صوتی انگلیسی با لهجه آمریکایی آموزش داده‌اید. حال این محصول را در اختیار تعداد محدودی از کاربران با لهجه انگلیسی بریتانیایی هم قرار می‌دهید. چه اتفاقی می‌افتد؟ احتمالا سیستمتان با لهجه بریتانیایی خیلی خوب کار نمی‌کند. اما شما این داده‌ها را جمع می‌کنید و مدل را به‌روزرسانی می‌کنید.

نکته‌ای که باید در نظر داشت این است که این مراحل خطی نیستند و بارها و بارها در طول تولید محصول به مراحل مختلف بازمی‌گردیم و با دانسته‌های جدید بهبود می‌بخشیمشان.

این مراحل اصلی تقریباً در بقیه پروژه‌های یادگیری ماشین نیز تکرار می‌شود. برای مثال بگذارید نگاهی بیندازیم به مراحل اصلی استفاده از یادگیری ماشین در تولید ماشین‌های خودران.

برای استفاده از یادگیری ماشین در خودروهای خودران مانند مثال قبل باید ابتدا به این سوال پاسخ دهیم که ورودی و خروجی ما چه خواهد بود؟ در اینجا ورودی ما تصاویر خودروهاست و خروجی ما سیستمی است که می‌تواند خودروها را در موقعیت‌های مختلف تشخیص دهد. در اینجا نیز دوباره اولین قدم جمع‌آوری داده‌هاست.

ما به تصاویر متعددی نیاز داریم که در آن انواع خودروها را در موقعیت‌های مختلف نشان دهد.

پس از آن نوبت به آموزش مدل می‌رسد. در این مرحله سیستمی که ساخته‌ایم باید بتواند با استفاده از الگوریتم‌های یادگیری ماشین خودروها را تشخیص دهد. و در آخر نوبت به جایگذاری و استفاده از این فناوری می‌رسد. این محصول را به‌صورت آزمایشی در اختیار کاربران قرار می‌دهیم و از طریق داده‌های جدیدی که این خودروها حین استفاده جمع می‌کنند دوباره وارد چرخه گردش‌ کاری یادگیری ماشین می‌شویم.

گردش کار در پروژه‌های داده‌کاوی

برخلاف پروژه یادگیری ماشین، برون‌داد پروژه در علوم داده مجموعه‌ای از بینش‌های عملیاتی است. بینش‌هایی که ممکن است باعث شود ما عملکردهایمان را تغییر دهیم. با توجه به این هدف متفاوت، گردش کار در پروژه‌های داده‌کاوی هم از پروژه‌های یادگیری ماشین متفاوت است.

همانند یادگیری ماشین بگذارید در اینجا هم بحث را با مثالی پیش ببریم. فرض کنیم که شما فروشگاه اینترنتی دارید که کارش فروختن ماگ است. خریداران برای خریدن ماگ از شما مراحلی را طی می‌کنند. ابتدا وارد سایت شما می‌شوند و نگاهی به محصولاتتان می‌اندازند، بعد احتمالاً محصولی را انتخاب می‌کنند، به صفحه محصول موردنظر می‌روند و آن را در سبد خرید خود قرار می‌دهند و سپس پرداخت را انجام می‌دهند و فرایند تمام می‌شود. علم داده در این فرایند چه کمکی می‌تواند به شما بکند؟

گام‌های اساسی در یک پروژه علم داده

- جمع‌آوری داده

همان‌طور که پیش از این گفتیم جمع‌آوری داده نقطه شروع اغلب پروژه‌های هوش مصنوعی است. در همین مثال فروشگاه، ما می‌توانیم مجموعه‌داده‌ای بسازیم از نام کاربری، IPهای وارد شده، زمان ورود، میزان خرید و مواردی از این دست

- تحلیل داده‌ها

در این مرحله تیم داده‌کاوی ایده‌ها و تحلیل‌های زیادی را از داده‌ها بیرون می‌کشند.

برای مثال با در نظر گرفتن IP‌های که وارد سایت شده می‌توان فهمید برخی از کاربران که از کشورهای دیگر وارد سایت شده‌اند تا صفحه خرید محصول رفته‌اند اما به‌خاطر هزینه‌های زیاد خرید محصول از خارج از کشور از خرید منصرف شده‌اند. یا مثلاً ازطریق تحلیل داده ها الگویی به دست می‌آید که نشان می‌دهد در روزهای تعطیل خریدها افزایش یا کاهش داشته است. کشف نقاط اوج و نزول خرید می‌تواند در سیاست‌های تبلیغاتی شرکت هم اثرگذار باشد و تبلیغات اثرگذارتر پیش برود و از صرف هزینه‌های بیهوده پیشگیری می‌شود.

یک گروه تحلیل داده‌ خوب ایده‌های زیادی دارد و همه ایده‌ها را به‌صورت مستمر بررسی می‌کند. بنابراین در این مرحله ما با فرایندهای تکراری و بررسی‌های چندباره یک ایده مواجهیم.

- پیشنهاد فرضیه‌ها/ اقدامات

در مرحله آخر تیم تحلیل داده از دل بررسی و آزمون ایده‌های زیادی که دارد به چند فرضیه و اقدامات موثر در راستای آن فرضیه‌ها می‌رسد.

با به‌کارگیری استراتژی‌ها و بینش‌های جدیدی که از دل تحلیل داده‌ها درآمده دوباره داده‌های جدیدی تولید می‌شود. تیم داده‌کاوی دوباره این داده‌ها را تحلیل می‌کند و همان مراحل قبلی را طی می‌کند. اینجاست که چرخه گردش کاری یک تیم تحلیل داده شکل می‌گیرد.

برای اینکه درک بهتری از این چرخه داشته باشید، یک مثال دیگر می‌زنیم.

فرض کنیم می‌خواهیم با استفاده از علم داده پیشنهادهایی برای بهبود کار خط تولید یک کارخانه ارائه دهیم. بگذارید با همان مثال قبلی‌مان، یعنی ماگ، پیش برویم. قدم اول در تولید ماگ ترکیب خاک و دیگر مواد اولیه با هم است. مرحله دوم به شکل ماگ درآوردن این مواد اولیه است. در مرحله دوم حاصل کار مراحل قبلی رنگ‌آمیزی می‌شود و لعاب داده می‌شود. حال ماگ‌های ساخته شده به حرارت نیاز دارند، بنابراین آن‌ها را در کوره می‌گذاریم تا حرارت لازم را ببینند. مرحله آخر فرایند تولید ماگ هم تشخیص ماگ‌های سالم و غیر سالم و بدون کیفیت است.

بالا بردن بهره‌وری در خط تولید همواره از دغدغه‌های اصلی کارخانه‌های تولیدی بوده است. در اینجا هم تلاش برای به حداقل رساندن ماگ‌های معیوب و ناقص می‌تواند مسئله مهمی برای کارفرما باشد.

حال اگر به مراحل انجام پروژه داده‌کاوی بازگردیم، مرحله اول جمع‌آوری داده‌ است. در این مثال می‌توان اطلاعات بسیار زیادی جمع‌آوری کرد. از درصد استفاده از مواد اولیه صرف‌شده برای هر دسته ماگ تا مدت زمان ماندن در کوره، دمای کوره تا میزان محصولات نامرغوب در هر دسته از ماگ‌های تولید شده.

در اینجا هم تیم داده‌کاوی داده‌ها را بارها و بارها تحلیل می‌کند و به هم ربط می‌دهد و ایده‌های زیادی از داده‌ها بیرون می‌کشد. تیم پس از غربال کردن ایده‌ها و تحلیل‌هایش به تعداد اندکی ایده و راهنمای عمل مشخص می‌رسد.

این راهنمای عمل و استراتژی جدید در خط تولید به کار گرفته می‌شود، داده‌های جدید تولید می‌شود و این داده‌ها دوباره نیاز به تحلیل دارد و این چرخه ادامه پیدا می‌کند.

جمع‌بندی

بسته به اینکه پروژه‌ها در چه حوزه‌ای از هوش مصنوعی تعریف شوند، گردش کاری آن‌ها نیز متفاوت خواهد بود. در این مطلب با استفاده از مثال‌های مختلف گردش کار در پروژه‌های یادگیری ماشین و داده‌کاوی را بررسی کردیم. لازمه هر نوع فعالیت در بازار هوش مصنوعی، چه در بخش سرمایه‌گذاری و چه به‌عنوان نیروی متخصص، آشنایی با روندی است که در هر پروژه هوش مصنوعی طی می‌شود.

جدیدترین اخبار هوش مصنوعی ایران و جهان را با هوشیو دنبال کنید.

منبع: هوشیو