هوش مصنوعی و یادگیری عمیق در برخورد با دادههای بدون ساختار، از درک زبان طبیعی و ساخت پایگاه دانش خودکار تا طبقهبندی و تولید تصاویر و ویدئوها، میدرخشد. با این حال، دادههای ساختمند، که در کاربردهای کسبوکار مانند مخازن محصول، نمودارهای تراکنش، سیستمهای ERP و CRM به دام افتادهاند، پشت سر گذاشته میشوند! دادههای جدولی هنوز هم توسط نسل قدیمی تکنیکهای علم داده مانند سیستمهای قاعده محور یا درختهای تصمیمگیری پردازش میشوند. این روشها از ویژگیهای دستی استفاده میکنند، حفظ آنها خستهکننده است، و به دادههای با برچسب دستی زیادی نیاز دارند.
در حالی که پیشرفت اخیر هوش مصنوعی به استخراج ارزش عظیمی از دادههای بدون ساختار اجازه میدهد، دیگر توجه یکسانی به ارزش دادههای ساختار یافته در هدایت تجارت، درآمدها، سلامت، امنیت و حتی حاکمیت نمیکند. یکی از چالشهای اصلی در دادههای ساختار یافته، در مقایسه با دادههای ساختار نیافته، حساسیت بالای کاربردهای مصرفی به کیفیت داده است. احتمالا هنوز هم میتوانیم یک ویدئو با قدرت تفکیک ناقص تماشا کنیم یا اشیا را در یک تصویر کمی درهم شکسته شناسایی کنیم. با این حال، خطاها در اندازه، قیمت و ویژگیهای کمی که محصولات را در یک شرکت بزرگ یا شرکت داروسازی توصیف میکنند، میتوانند نتایج فاجعه باری داشته باشند، و کیفیت داده را مانعی در رها کردن ارزش داراییهای داده ساختار یافته میسازند. در حالی که جامعه مدیریت داده دههها در تلاش برای حل این مشکل بودهاست، پیشرفت کمی صورتگرفته است. این مساله در درجه اول به دلیل پیچیدگی مساله، محدودیت شدید قوانین و سیستمهای منطقی برای رسیدگی به آن، و هزینه بسیار بالای تلاش برای درگیر کردن انسانها در چرخه پاکسازی و آمادهسازی داده است. اکنون، واضح است که تنها یک راهحل خودکار با تعامل کم یا هیچ، انسانی، تنها راهحل قابل دوام و مقیاس پذیر برای این مشکل است.
به همین دلیل است که مشکل خود را به یک راهحل یادگیری ماشین میدهد که قادر به گرفتن زمینههای نامتجانس توصیف دادههای شرکت و یادگیری از مجموعه بزرگی از مدلهای مجموعه داده است که میتواند کیفیت دادهها را پیشبینی کند و حتی پیشنهاد میکند که اصلاح دادهها آن را تقویت کند. یک راهحل یادگیری ماشین برای آمادهسازی و پاکسازی دادهها مشکلات طولانیمدت برای دادههای ساختار یافته را حل خواهد کرد:
با این حال، ایجاد یک راهحل یادگیری ماشین به دلیل ماهیت این دادهها (پراکندگی، ناهمگنی، معناشناسی غنی و دانش دامنه) واضح نیست. از جنبه مثبت، مصنوعات مانند طرح (نامهای ستون، انواع، دامنهها، و محدودیتهای یکپارچگی مختلف) اطلاعات مهمی را در مورد معنا شناسی و تعاملات احتمالی بین تکههای مختلف داده کدگذاری میکنند؛ ما نمیتوانیم دو نفر را در کد پستی مشابه داشته باشیم، اما در دو شهر مختلف، و کل بودجه پروژه نمیتواند از هزینههای برنامهریزیشده فراتر رود، محدودیتهایی هستند که میتوانند به وضوح ارائه شوند. این "ساختار" ارزش دادهها را فراتر از ویژگیهای آماری میبرد که میتوانند استخراج شوند و توسط مدلهای یادگیری ماشین مورد استفاده قرار گیرند.
از جنبه چالش برانگیز، دادههای ساختاری میتوانند ترکیب اطلاعات از حوزههای مختلف مانند متن، مطلق، عددی و حتی دادههای تصویر باشند. همچنین میتواند بسیار پراکنده باشد. یک جدول با ۱۰۰ ستون را تصور کنید، که هر کدام مقادیر را از دامنههای بین ۱۰ تا ۱۰۰۰ ارزش ممکن (مانند نوع تولید کننده، اندازه، قیمت، و غیره)و چند میلیون ردیف که محصولات یک شرکت را توصیف میکنند میگیرند. میتوان تصور کرد که چگونه فضای ترکیبات ممکن "تهی" است، تنها بخش کوچکی از ترکیبات معتبر هستند. بدون هر گونه ساختار، دانش دامنه، محدودیتها، یادگیری خیلی سخت است که این دادهها چگونه تولید شدهاند، یا چقدر دقیق هستند. از این رو، ما سه چالش اصلی را برای ساخت یک راهحل مقیاس پذیر یادگیری ماشین برای تمیز کردن و آمادهسازی دادههای ساختار یافته میبینیم:
ما یک بستر هوش مصنوعی برای دادههای ساختاری ساختیم که به طور خاص برای ساخت مدلهایی که توصیف میکنند چگونه دادهها تولید شدهاند، و اینکه چگونه میتواند "آلوده" باشد. این مدلها سپس در انواع خدمات مانند تشخیص خطا، تصحیح خطا پیشبینی مقادیر گمشده، غنیسازی با ستونهای اضافی، و استفاده از تکههای داده مورد استفاده قرار میگیرند. Inductiv بر روی پروژه دانشگاهی منبع باز هالوکلین (www.holocicul.io) ساخته شدهاست، که ما آن را در سال ۲۰۱۷ به عنوان همکاری بین دانشگاه واترلو، دانشگاه ویسکانسین - مدیسون و دانشگاه استنفورد آغاز کردیم.
هالوپاک مدل کانال پر نویز شناختهشده را اتخاذ کرد تا توضیح دهد که چگونه دادهها تولید شدند و چگونه "آلوده" شدند. مقاله تحقیقی کامل را می توان در اینجا یافت. هولوپاک سپس اهرمها تمام دانش دامنه شناختهشده (قوانین)، اطلاعات آماری در دادهها و منابع مورد اعتماد موجود برای ساخت مدلهای پیچیده تولید داده و خطا. سپس از این مدلها برای تشخیص خطاها و پیشنهاد محتملترین مقادیر برای جایگزینی به عنوان یک تعمیر استفاده میشود.
مدلسازی و پارامتری کردن این فرآیندها به ما این امکان را میدهد که تمیز کردن را به عنوان یک مساله استنباطی بیان کنیم. در حالی که این مدل با فرموله کردن پاکسازی و تشخیص به عنوان مسایل استنباطی کمک میکند، ارایه راهحلهای مقیاس پذیر با مدلهای به اندازه کافی گویای، چالشهای واقعی هستند.
ما در مقاله خود در مورد چگونگی شناسایی خطاها با استفاده از چند مثال، به برخی از چالشهای ذکر شده قبلی میپردازیم:
می توان به سرعت درک کرد که مشکلات دادهای مانند آمادهسازی، پاکسازی، تشخیص خطا، و انتقال ارزش از دست رفته همگی کاربردهای یک موتور استنتاج مقیاس پذیر و یکپارچه هستند که قادر به مدلسازی چگونگی تولید دادههای «ساختاری» و چگونگی معرفی خطاها هستند. مهمتر از آن، به دلایل مختلفی که ما در این پست و صحبت همراه ذکر کردیم، این هسته نیاز به ترکیب اصول یادگیری ماشین مدرن مانند:
موتور القایی همه نتایج قبلی ما را در یک هسته واحد هوش مصنوعی ادغام میکند. پیشبینیهای تولید شده توسط این موتور میتواند توسط انواع مختلفی از خدمات آمادهسازی داده مصرف شود. شکل ۴ این اجزای اصلی هسته را نشان میدهد که اصول مذکور را پوشش میدهد، از جمله مکانیسم نمایش متنی مبتنی بر توجه، یادگیری توزیعشده، برش داده، و نظارت بر خود با یادگیری چند وظیفهای برای مقابله با انواع مختلف دادهها (به عنوان مثال، رگرسیون برای دادههای عددی و طبقهبندی برای دادههای قطعی). ما در مقاله MLSys ۲۰۲۰ یک معماری یادگیری مبتنی بر توجه را برای انتقال ارزش از دست رفته در دادههای ساختار یافته با انواع مختلف ارایه کردیم (شکل ۵).
بخش قابلتوجهی از دادههای مهم امروزی ساختیافتهاند اما از مشکلات کیفی جدی رنج میبرند که ارزش آن را به خطر میاندازد. اصول هوش مصنوعی مدرن به ما کمک میکند تا با این مشکل با کیفیت بد به عنوان یک وظیفه پیشبینی یکپارچه، با مجموعه جدیدی از چالشها در مقیاس، ناهمگنی، پراکندگی و ترکیب معناشناسی و دانش دامنه شناختهشده برخورد کنیم. ما با این چالشها در ساخت موتور القایی، اولین هوش مصنوعی مقیاس پذیر برای دادههای ساختاری، مقابله میکنیم.
About me: https://redl.ink/C8Nl8
spacify platform: https://www.spacify.ir
anchor podcasts: https://anchor.fm/aryia-behroziuan
spotify: https://open.spotify.com/show/18tbZGHEJqziUHXqsNXBi7
youtube channel: https://www.youtube.com/channel/UCBRi1oF9Gf-h1rFJNagvFOg