هوش مصنوعی نباید داده‌های ساخت‌یافته را کنار بگذارد!

هوش مصنوعی و یادگیری عمیق در برخورد با داده‌های بدون ساختار، از درک زبان طبیعی و ساخت پایگاه دانش خودکار تا طبقه‌بندی و تولید تصاویر و ویدئوها، می‌درخشد. با این حال، داده‌های ساختمند، که در کاربردهای کسب‌وکار مانند مخازن محصول، نمودارهای تراکنش، سیستم‌های ERP و CRM به دام افتاده‌اند، پشت سر گذاشته می‌شوند! داده‌های جدولی هنوز هم توسط نسل قدیمی تکنیک‌های علم داده مانند سیستم‌های قاعده محور یا درخت‌های تصمیم‌گیری پردازش می‌شوند. این روش‌ها از ویژگی‌های دستی استفاده می‌کنند، حفظ آن‌ها خسته‌کننده است، و به داده‌های با برچسب دستی زیادی نیاز دارند.

در حالی که پیشرفت اخیر هوش مصنوعی به استخراج ارزش عظیمی از داده‌های بدون ساختار اجازه می‌دهد، دیگر توجه یکسانی به ارزش داده‌های ساختار یافته در هدایت تجارت، درآمدها، سلامت، امنیت و حتی حاکمیت نمی‌کند. یکی از چالش‌های اصلی در داده‌های ساختار یافته، در مقایسه با داده‌های ساختار نیافته، حساسیت بالای کاربردهای مصرفی به کیفیت داده است. احتمالا هنوز هم می‌توانیم یک ویدئو با قدرت تفکیک ناقص تماشا کنیم یا اشیا را در یک تصویر کمی درهم شکسته شناسایی کنیم. با این حال، خطاها در اندازه، قیمت و ویژگی‌های کمی که محصولات را در یک شرکت بزرگ یا شرکت داروسازی توصیف می‌کنند، می‌توانند نتایج فاجعه باری داشته باشند، و کیفیت داده را مانعی در رها کردن ارزش دارایی‌های داده ساختار یافته می‌سازند. در حالی که جامعه مدیریت داده دهه‌ها در تلاش برای حل این مشکل بوده‌است، پیشرفت کمی صورت‌گرفته است. این مساله در درجه اول به دلیل پیچیدگی مساله، محدودیت شدید قوانین و سیستم‌های منطقی برای رسیدگی به آن، و هزینه بسیار بالای تلاش برای درگیر کردن انسان‌ها در چرخه پاک‌سازی و آماده‌سازی داده است. اکنون، واضح است که تنها یک راه‌حل خودکار با تعامل کم یا هیچ، انسانی، تنها راه‌حل قابل دوام و مقیاس پذیر برای این مشکل است.

به همین دلیل است که مشکل خود را به یک راه‌حل یادگیری ماشین می‌دهد که قادر به گرفتن زمینه‌های نامتجانس توصیف داده‌های شرکت و یادگیری از مجموعه بزرگی از مدل‌های مجموعه داده است که می‌تواند کیفیت داده‌ها را پیش‌بینی کند و حتی پیشنهاد می‌کند که اصلاح داده‌ها آن را تقویت کند. یک راه‌حل یادگیری ماشین برای آماده‌سازی و پاک‌سازی داده‌ها مشکلات طولانی‌مدت برای داده‌های ساختار یافته را حل خواهد کرد:

  • می‌تواند تمام سیگنال‌ها و زمینه‌ها از جمله قوانین کسب‌وکار، محدودیت‌هایی مانند وابستگی‌های عملکردی و کلیدها، و ویژگی‌های آماری داده‌ها را ترکیب کند.
  • از انفجار قوانین برای پوشش دادن موارد لبه اجتناب می‌کند. در بسیاری از موارد مدیریت این قوانین می‌تواند چالش برانگیزتر و گران‌تر از مدیریت داده‌های نویزی باشد که آن‌ها سعی در تمیز کردن آن دارند؛ و در نهایت،
  • می‌تواند مفهوم "اعتماد" را با پیش‌بینی‌های ارایه‌شده که باید توسط فرایندهای تضمین کیفیت درست به کار گرفته شوند، یا کمک کند تا به طور عاقلانه فقط برای موارد "سخت"، انسان‌ها را به حلقه بیاورند.

با این حال، ایجاد یک راه‌حل یادگیری ماشین به دلیل ماهیت این داده‌ها (پراکندگی، ناهمگنی، معناشناسی غنی و دانش دامنه) واضح نیست. از جنبه مثبت، مصنوعات مانند طرح (نام‌های ستون، انواع، دامنه‌ها، و محدودیت‌های یکپارچگی مختلف) اطلاعات مهمی را در مورد معنا شناسی و تعاملات احتمالی بین تکه‌های مختلف داده کدگذاری می‌کنند؛ ما نمی‌توانیم دو نفر را در کد پستی مشابه داشته باشیم، اما در دو شهر مختلف، و کل بودجه پروژه نمی‌تواند از هزینه‌های برنامه‌ریزی‌شده فراتر رود، محدودیت‌هایی هستند که می‌توانند به وضوح ارائه شوند. این "ساختار" ارزش داده‌ها را فراتر از ویژگی‌های آماری می‌برد که می‌توانند استخراج شوند و توسط مدل‌های یادگیری ماشین مورد استفاده قرار گیرند.

از جنبه چالش برانگیز، داده‌های ساختاری می‌توانند ترکیب اطلاعات از حوزه‌های مختلف مانند متن، مطلق، عددی و حتی داده‌های تصویر باشند. همچنین می‌تواند بسیار پراکنده باشد. یک جدول با ۱۰۰ ستون را تصور کنید، که هر کدام مقادیر را از دامنه‌های بین ۱۰ تا ۱۰۰۰ ارزش ممکن (مانند نوع تولید کننده، اندازه، قیمت، و غیره)و چند میلیون ردیف که محصولات یک شرکت را توصیف می‌کنند می‌گیرند. می‌توان تصور کرد که چگونه فضای ترکیبات ممکن "تهی" است، تنها بخش کوچکی از ترکیبات معتبر هستند. بدون هر گونه ساختار، دانش دامنه، محدودیت‌ها، یادگیری خیلی سخت است که این داده‌ها چگونه تولید شده‌اند، یا چقدر دقیق هستند. از این رو، ما سه چالش اصلی را برای ساخت یک راه‌حل مقیاس پذیر یادگیری ماشین برای تمیز کردن و آماده‌سازی داده‌های ساختار یافته می‌بینیم:

  • چگونه دانش پس‌زمینه باید به عنوان ورودی‌های مدل برای کمک به پراکندگی و ناهمگنی داده نشان داده شود؟ برای مثال، چگونه می‌توانیم با محدودیت‌های کلیدی، وابستگی‌های کارکردی، محدودیت‌های انکار، و دیگر منطق یکپارچگی پیچیده به مدل ML ارتباط برقرار کنیم که باید در حین پیش‌بینی ارزش در یک ستون خاص در نظر گرفته شود؟
  • چگونه از داده‌های آموزشی محدود (یا بدون داده) و مشاهدات پرنویز و کثیف درس بگیریم؟ به عنوان مثال یک مدل "تشخیص خطا" را در نظر بگیرید، که قرار است خطاهای مختلفی از جمله خطاهای املایی، مقدار گم‌شده، مقادیر نادرست، حقایق متناقض، داده‌های تغییر یافته و غیره را پیدا کند. آموزش چنین مدلی با نمونه‌های خطای محدود موجود و وجود این خطاها در داده‌های موجود، چالشی برای غلبه بر آن است.
  • چگونه میتوان به میلیون ها متغیر تصادفی رسید؟ یک مدل ساده از مساله به عنوان یک توزیع مشترک گسترده از امکانات در میان تمام داده‌های برهمکنش کننده شکست خواهد خورد!

ما یک بستر هوش مصنوعی برای داده‌های ساختاری ساختیم که به طور خاص برای ساخت مدل‌هایی که توصیف می‌کنند چگونه داده‌ها تولید شده‌اند، و اینکه چگونه می‌تواند "آلوده" باشد. این مدل‌ها سپس در انواع خدمات مانند تشخیص خطا، تصحیح خطا پیش‌بینی مقادیر گم‌شده، غنی‌سازی با ستون‌های اضافی، و استفاده از تکه‌های داده مورد استفاده قرار می‌گیرند. Inductiv بر روی پروژه دانشگاهی منبع باز هالوکلین (www.holocicul.io) ساخته شده‌است، که ما آن را در سال ۲۰۱۷ به عنوان هم‌کاری بین دانشگاه واترلو، دانشگاه ویسکانسین - مدیسون و دانشگاه استنفورد آغاز کردیم.

تمیز کردن داده‌ها به عنوان یک مشکل هوش مصنوعی

هالوپاک مدل کانال پر نویز شناخته‌شده را اتخاذ کرد تا توضیح دهد که چگونه داده‌ها تولید شدند و چگونه "آلوده" شدند. مقاله تحقیقی کامل را می توان در اینجا یافت. هولوپاک سپس اهرم‌ها تمام دانش دامنه شناخته‌شده (قوانین)، اطلاعات آماری در داده‌ها و منابع مورد اعتماد موجود برای ساخت مدل‌های پیچیده تولید داده و خطا. سپس از این مدل‌ها برای تشخیص خطاها و پیشنهاد محتمل‌ترین مقادیر برای جایگزینی به عنوان یک تعمیر استفاده می‌شود.

شکل ۱: داده‌ها با توجه به فرآیند مولد، تمیز تولید می‌شوند، ما نسخه آلوده را مشاهده می‌کنیم.
شکل ۱: داده‌ها با توجه به فرآیند مولد، تمیز تولید می‌شوند، ما نسخه آلوده را مشاهده می‌کنیم.


مدلسازی و پارامتری کردن این فرآیندها به ما این امکان را می‌دهد که تمیز کردن را به عنوان یک مساله استنباطی بیان کنیم. در حالی که این مدل با فرموله کردن پاک‌سازی و تشخیص به عنوان مسایل استنباطی کمک می‌کند، ارایه راه‌حل‌های مقیاس پذیر با مدل‌های به اندازه کافی گویای، چالش‌های واقعی هستند.

ایجاد یک راه‌حل تشخیص خطا

ما در مقاله خود در مورد چگونگی شناسایی خطاها با استفاده از چند مثال، به برخی از چالش‌های ذکر شده قبلی می‌پردازیم:

  • مدل: ناهمگنی خطاها و اثرات جانبی آن‌ها، شناسایی ویژگی‌های آماری و یکپارچگی مناسب داده‌ها را که باید توسط یک مدل به منظور تمایز بین سلول‌های اشتباه و صحیح گرفته شود، به چالش می‌کشد. این ویژگی‌ها مربوط به ویژگی‌های سطح ویژگی، سطح چند گانه و سطح مجموعه داده‌ها هستند که توزیع حاکم بر مجموعه داده‌ها را توصیف می‌کنند. مدل شرح‌داده‌شده در شکل ۲ یک لایه نمایشی را یاد می‌گیرد که این ویژگی‌های چند سطحی را برای یادگیری طبقه‌بندی کننده تشخیص خطای دودویی بدست می‌آورد.
  • عدم توازن داده‌ها. از آنجا که خطاها نادر هستند و انواع مختلفی دارند، الگوریتم های یادگیری ماشین هنگامی که با مجموعه داده‌های نامتعادل مواجه می‌شوند، معمولا طبقه‌بندی کننده‌های نامناسبی تولید می‌کنند. ویژگی‌های طبقه اقلیت به عنوان نویز در نظر گرفته می‌شوند و اغلب نادیده گرفته می‌شوند. بنابراین، احتمال بالایی برای طبقه‌بندی نادرست کلاس اقلیت در مقایسه با کلاس اکثریت وجود دارد. بخشی از مدل پیشنهادی یک فرآیند "افزایش داده" است (شکل ۳)که بسیاری از خطاهای «جعلی» را با توجه به سیاست تولید خطای آموخته‌شده تولید می‌کند. پارامترهای سیاست با استفاده از چند مثال خطا یاد گرفته می‌شوند. در حالی که این تعداد محدود از مثال‌ها برای آموزش یک طبقه‌بندی کننده تشخیص خطا کافی نیستند، برای یادگیری یک توزیع از خطاهای احتمالی کافی هستند.
شکل ۲: مدل تشخیص خطا با ویژگی‌های چند سطحی
شکل ۲: مدل تشخیص خطا با ویژگی‌های چند سطحی
شکل ۳: سیاست‌هایی برای ایجاد مثال خطا برای حل مشکل عدم تعادل کلاس داده آموزشی استفاده می‌شوند.
شکل ۳: سیاست‌هایی برای ایجاد مثال خطا برای حل مشکل عدم تعادل کلاس داده آموزشی استفاده می‌شوند.

موتور القایی: هوش مصنوعی مدرن برای داده‌های ساختیافته

می توان به سرعت درک کرد که مشکلات داده‌ای مانند آماده‌سازی، پاک‌سازی، تشخیص خطا، و انتقال ارزش از دست رفته همگی کاربردهای یک موتور استنتاج مقیاس پذیر و یکپارچه هستند که قادر به مدلسازی چگونگی تولید داده‌های «ساختاری» و چگونگی معرفی خطاها هستند. مهم‌تر از آن، به دلایل مختلفی که ما در این پست و صحبت همراه ذکر کردیم، این هسته نیاز به ترکیب اصول یادگیری ماشین مدرن مانند:

  • افزایش داده و برنامه‌ریزی داده برای آموزش تولید داده
  • نمایش بدست‌آمده از زمینه‌های مختلف درگیر در مدل‌سازی ستون / مقدار هدف، مانند فضاهای آموزشی تعبیه برای انواع داده‌های ناهمگن
  • نظارت بر خود در هر زمان که ممکن باشد برای استفاده از تمام داده‌ها، با استفاده از تکنیک‌هایی مانند بازسازی برخی از مقادیر مشاهده‌شده داده با استفاده از مقادیر دیگر
  • راه‌هایی برای ادغام دانش دامنه و قوانین برای یک نمایش گسترده که به مدل‌های بیانی وارد می‌شود.
  • بهینه‌سازی سبک سیستم برای پارتیشن بندی داده‌ها و مدل‌های محلی یادگیری اجازه گسترش مقیاس پذیر و انطباق مجموعه داده‌ها با توزیع‌های داده چندگانه را می‌دهد.

موتور القایی همه نتایج قبلی ما را در یک هسته واحد هوش مصنوعی ادغام می‌کند. پیش‌بینی‌های تولید شده توسط این موتور می‌تواند توسط انواع مختلفی از خدمات آماده‌سازی داده مصرف شود. شکل ۴ این اجزای اصلی هسته را نشان می‌دهد که اصول مذکور را پوشش می‌دهد، از جمله مکانیسم نمایش متنی مبتنی بر توجه، یادگیری توزیع‌شده، برش داده، و نظارت بر خود با یادگیری چند وظیفه‌ای برای مقابله با انواع مختلف داده‌ها (به عنوان مثال، رگرسیون برای داده‌های عددی و طبقه‌بندی برای داده‌های قطعی). ما در مقاله MLSys ۲۰۲۰ یک معماری یادگیری مبتنی بر توجه را برای انتقال ارزش از دست رفته در داده‌های ساختار یافته با انواع مختلف ارایه کردیم (شکل ۵).

شکل ۴: مولفه‌های اصلی در موتور استنتاج یکپارچه
شکل ۴: مولفه‌های اصلی در موتور استنتاج یکپارچه
شکل ۵: مثال معماری با نمایش متنی مبتنی بر توجه و یادگیری چند وظیفه‌ای
شکل ۵: مثال معماری با نمایش متنی مبتنی بر توجه و یادگیری چند وظیفه‌ای

نتیجه‌گیری

بخش قابل‌توجهی از داده‌های مهم امروزی ساخت‌یافته‌اند اما از مشکلات کیفی جدی رنج می‌برند که ارزش آن را به خطر می‌اندازد. اصول هوش مصنوعی مدرن به ما کمک می‌کند تا با این مشکل با کیفیت بد به عنوان یک وظیفه پیش‌بینی یکپارچه، با مجموعه جدیدی از چالش‌ها در مقیاس، ناهمگنی، پراکندگی و ترکیب معناشناسی و دانش دامنه شناخته‌شده برخورد کنیم. ما با این چالش‌ها در ساخت موتور القایی، اولین هوش مصنوعی مقیاس پذیر برای داده‌های ساختاری، مقابله می‌کنیم.


منتشرشده در: مجله towardsdatascience به تاریخ ۱۴ فوریه ۲۰۲۰
نویسنده: Ihab Ilyas
لینک مقاله اصلی:https://towardsdatascience.com/ai-should-not-leave-structured-data-behind-33474f9cd07a

این مقاله توسط مترجم هوشمند مقالات تخصصی و به صورت خودکار ترجمه و به صورت محدود مورد بازبینی شده است.