من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
هوش مصنوعی نباید دادههای ساختیافته را کنار بگذارد!
هوش مصنوعی و یادگیری عمیق در برخورد با دادههای بدون ساختار، از درک زبان طبیعی و ساخت پایگاه دانش خودکار تا طبقهبندی و تولید تصاویر و ویدئوها، میدرخشد. با این حال، دادههای ساختمند، که در کاربردهای کسبوکار مانند مخازن محصول، نمودارهای تراکنش، سیستمهای ERP و CRM به دام افتادهاند، پشت سر گذاشته میشوند! دادههای جدولی هنوز هم توسط نسل قدیمی تکنیکهای علم داده مانند سیستمهای قاعده محور یا درختهای تصمیمگیری پردازش میشوند. این روشها از ویژگیهای دستی استفاده میکنند، حفظ آنها خستهکننده است، و به دادههای با برچسب دستی زیادی نیاز دارند.
در حالی که پیشرفت اخیر هوش مصنوعی به استخراج ارزش عظیمی از دادههای بدون ساختار اجازه میدهد، دیگر توجه یکسانی به ارزش دادههای ساختار یافته در هدایت تجارت، درآمدها، سلامت، امنیت و حتی حاکمیت نمیکند. یکی از چالشهای اصلی در دادههای ساختار یافته، در مقایسه با دادههای ساختار نیافته، حساسیت بالای کاربردهای مصرفی به کیفیت داده است. احتمالا هنوز هم میتوانیم یک ویدئو با قدرت تفکیک ناقص تماشا کنیم یا اشیا را در یک تصویر کمی درهم شکسته شناسایی کنیم. با این حال، خطاها در اندازه، قیمت و ویژگیهای کمی که محصولات را در یک شرکت بزرگ یا شرکت داروسازی توصیف میکنند، میتوانند نتایج فاجعه باری داشته باشند، و کیفیت داده را مانعی در رها کردن ارزش داراییهای داده ساختار یافته میسازند. در حالی که جامعه مدیریت داده دههها در تلاش برای حل این مشکل بودهاست، پیشرفت کمی صورتگرفته است. این مساله در درجه اول به دلیل پیچیدگی مساله، محدودیت شدید قوانین و سیستمهای منطقی برای رسیدگی به آن، و هزینه بسیار بالای تلاش برای درگیر کردن انسانها در چرخه پاکسازی و آمادهسازی داده است. اکنون، واضح است که تنها یک راهحل خودکار با تعامل کم یا هیچ، انسانی، تنها راهحل قابل دوام و مقیاس پذیر برای این مشکل است.
به همین دلیل است که مشکل خود را به یک راهحل یادگیری ماشین میدهد که قادر به گرفتن زمینههای نامتجانس توصیف دادههای شرکت و یادگیری از مجموعه بزرگی از مدلهای مجموعه داده است که میتواند کیفیت دادهها را پیشبینی کند و حتی پیشنهاد میکند که اصلاح دادهها آن را تقویت کند. یک راهحل یادگیری ماشین برای آمادهسازی و پاکسازی دادهها مشکلات طولانیمدت برای دادههای ساختار یافته را حل خواهد کرد:
- میتواند تمام سیگنالها و زمینهها از جمله قوانین کسبوکار، محدودیتهایی مانند وابستگیهای عملکردی و کلیدها، و ویژگیهای آماری دادهها را ترکیب کند.
- از انفجار قوانین برای پوشش دادن موارد لبه اجتناب میکند. در بسیاری از موارد مدیریت این قوانین میتواند چالش برانگیزتر و گرانتر از مدیریت دادههای نویزی باشد که آنها سعی در تمیز کردن آن دارند؛ و در نهایت،
- میتواند مفهوم "اعتماد" را با پیشبینیهای ارایهشده که باید توسط فرایندهای تضمین کیفیت درست به کار گرفته شوند، یا کمک کند تا به طور عاقلانه فقط برای موارد "سخت"، انسانها را به حلقه بیاورند.
با این حال، ایجاد یک راهحل یادگیری ماشین به دلیل ماهیت این دادهها (پراکندگی، ناهمگنی، معناشناسی غنی و دانش دامنه) واضح نیست. از جنبه مثبت، مصنوعات مانند طرح (نامهای ستون، انواع، دامنهها، و محدودیتهای یکپارچگی مختلف) اطلاعات مهمی را در مورد معنا شناسی و تعاملات احتمالی بین تکههای مختلف داده کدگذاری میکنند؛ ما نمیتوانیم دو نفر را در کد پستی مشابه داشته باشیم، اما در دو شهر مختلف، و کل بودجه پروژه نمیتواند از هزینههای برنامهریزیشده فراتر رود، محدودیتهایی هستند که میتوانند به وضوح ارائه شوند. این "ساختار" ارزش دادهها را فراتر از ویژگیهای آماری میبرد که میتوانند استخراج شوند و توسط مدلهای یادگیری ماشین مورد استفاده قرار گیرند.
از جنبه چالش برانگیز، دادههای ساختاری میتوانند ترکیب اطلاعات از حوزههای مختلف مانند متن، مطلق، عددی و حتی دادههای تصویر باشند. همچنین میتواند بسیار پراکنده باشد. یک جدول با ۱۰۰ ستون را تصور کنید، که هر کدام مقادیر را از دامنههای بین ۱۰ تا ۱۰۰۰ ارزش ممکن (مانند نوع تولید کننده، اندازه، قیمت، و غیره)و چند میلیون ردیف که محصولات یک شرکت را توصیف میکنند میگیرند. میتوان تصور کرد که چگونه فضای ترکیبات ممکن "تهی" است، تنها بخش کوچکی از ترکیبات معتبر هستند. بدون هر گونه ساختار، دانش دامنه، محدودیتها، یادگیری خیلی سخت است که این دادهها چگونه تولید شدهاند، یا چقدر دقیق هستند. از این رو، ما سه چالش اصلی را برای ساخت یک راهحل مقیاس پذیر یادگیری ماشین برای تمیز کردن و آمادهسازی دادههای ساختار یافته میبینیم:
- چگونه دانش پسزمینه باید به عنوان ورودیهای مدل برای کمک به پراکندگی و ناهمگنی داده نشان داده شود؟ برای مثال، چگونه میتوانیم با محدودیتهای کلیدی، وابستگیهای کارکردی، محدودیتهای انکار، و دیگر منطق یکپارچگی پیچیده به مدل ML ارتباط برقرار کنیم که باید در حین پیشبینی ارزش در یک ستون خاص در نظر گرفته شود؟
- چگونه از دادههای آموزشی محدود (یا بدون داده) و مشاهدات پرنویز و کثیف درس بگیریم؟ به عنوان مثال یک مدل "تشخیص خطا" را در نظر بگیرید، که قرار است خطاهای مختلفی از جمله خطاهای املایی، مقدار گمشده، مقادیر نادرست، حقایق متناقض، دادههای تغییر یافته و غیره را پیدا کند. آموزش چنین مدلی با نمونههای خطای محدود موجود و وجود این خطاها در دادههای موجود، چالشی برای غلبه بر آن است.
- چگونه میتوان به میلیون ها متغیر تصادفی رسید؟ یک مدل ساده از مساله به عنوان یک توزیع مشترک گسترده از امکانات در میان تمام دادههای برهمکنش کننده شکست خواهد خورد!
ما یک بستر هوش مصنوعی برای دادههای ساختاری ساختیم که به طور خاص برای ساخت مدلهایی که توصیف میکنند چگونه دادهها تولید شدهاند، و اینکه چگونه میتواند "آلوده" باشد. این مدلها سپس در انواع خدمات مانند تشخیص خطا، تصحیح خطا پیشبینی مقادیر گمشده، غنیسازی با ستونهای اضافی، و استفاده از تکههای داده مورد استفاده قرار میگیرند. Inductiv بر روی پروژه دانشگاهی منبع باز هالوکلین (www.holocicul.io) ساخته شدهاست، که ما آن را در سال ۲۰۱۷ به عنوان همکاری بین دانشگاه واترلو، دانشگاه ویسکانسین - مدیسون و دانشگاه استنفورد آغاز کردیم.
تمیز کردن دادهها به عنوان یک مشکل هوش مصنوعی
هالوپاک مدل کانال پر نویز شناختهشده را اتخاذ کرد تا توضیح دهد که چگونه دادهها تولید شدند و چگونه "آلوده" شدند. مقاله تحقیقی کامل را می توان در اینجا یافت. هولوپاک سپس اهرمها تمام دانش دامنه شناختهشده (قوانین)، اطلاعات آماری در دادهها و منابع مورد اعتماد موجود برای ساخت مدلهای پیچیده تولید داده و خطا. سپس از این مدلها برای تشخیص خطاها و پیشنهاد محتملترین مقادیر برای جایگزینی به عنوان یک تعمیر استفاده میشود.
مدلسازی و پارامتری کردن این فرآیندها به ما این امکان را میدهد که تمیز کردن را به عنوان یک مساله استنباطی بیان کنیم. در حالی که این مدل با فرموله کردن پاکسازی و تشخیص به عنوان مسایل استنباطی کمک میکند، ارایه راهحلهای مقیاس پذیر با مدلهای به اندازه کافی گویای، چالشهای واقعی هستند.
ایجاد یک راهحل تشخیص خطا
ما در مقاله خود در مورد چگونگی شناسایی خطاها با استفاده از چند مثال، به برخی از چالشهای ذکر شده قبلی میپردازیم:
- مدل: ناهمگنی خطاها و اثرات جانبی آنها، شناسایی ویژگیهای آماری و یکپارچگی مناسب دادهها را که باید توسط یک مدل به منظور تمایز بین سلولهای اشتباه و صحیح گرفته شود، به چالش میکشد. این ویژگیها مربوط به ویژگیهای سطح ویژگی، سطح چند گانه و سطح مجموعه دادهها هستند که توزیع حاکم بر مجموعه دادهها را توصیف میکنند. مدل شرحدادهشده در شکل ۲ یک لایه نمایشی را یاد میگیرد که این ویژگیهای چند سطحی را برای یادگیری طبقهبندی کننده تشخیص خطای دودویی بدست میآورد.
- عدم توازن دادهها. از آنجا که خطاها نادر هستند و انواع مختلفی دارند، الگوریتم های یادگیری ماشین هنگامی که با مجموعه دادههای نامتعادل مواجه میشوند، معمولا طبقهبندی کنندههای نامناسبی تولید میکنند. ویژگیهای طبقه اقلیت به عنوان نویز در نظر گرفته میشوند و اغلب نادیده گرفته میشوند. بنابراین، احتمال بالایی برای طبقهبندی نادرست کلاس اقلیت در مقایسه با کلاس اکثریت وجود دارد. بخشی از مدل پیشنهادی یک فرآیند "افزایش داده" است (شکل ۳)که بسیاری از خطاهای «جعلی» را با توجه به سیاست تولید خطای آموختهشده تولید میکند. پارامترهای سیاست با استفاده از چند مثال خطا یاد گرفته میشوند. در حالی که این تعداد محدود از مثالها برای آموزش یک طبقهبندی کننده تشخیص خطا کافی نیستند، برای یادگیری یک توزیع از خطاهای احتمالی کافی هستند.
موتور القایی: هوش مصنوعی مدرن برای دادههای ساختیافته
می توان به سرعت درک کرد که مشکلات دادهای مانند آمادهسازی، پاکسازی، تشخیص خطا، و انتقال ارزش از دست رفته همگی کاربردهای یک موتور استنتاج مقیاس پذیر و یکپارچه هستند که قادر به مدلسازی چگونگی تولید دادههای «ساختاری» و چگونگی معرفی خطاها هستند. مهمتر از آن، به دلایل مختلفی که ما در این پست و صحبت همراه ذکر کردیم، این هسته نیاز به ترکیب اصول یادگیری ماشین مدرن مانند:
- افزایش داده و برنامهریزی داده برای آموزش تولید داده
- نمایش بدستآمده از زمینههای مختلف درگیر در مدلسازی ستون / مقدار هدف، مانند فضاهای آموزشی تعبیه برای انواع دادههای ناهمگن
- نظارت بر خود در هر زمان که ممکن باشد برای استفاده از تمام دادهها، با استفاده از تکنیکهایی مانند بازسازی برخی از مقادیر مشاهدهشده داده با استفاده از مقادیر دیگر
- راههایی برای ادغام دانش دامنه و قوانین برای یک نمایش گسترده که به مدلهای بیانی وارد میشود.
- بهینهسازی سبک سیستم برای پارتیشن بندی دادهها و مدلهای محلی یادگیری اجازه گسترش مقیاس پذیر و انطباق مجموعه دادهها با توزیعهای داده چندگانه را میدهد.
موتور القایی همه نتایج قبلی ما را در یک هسته واحد هوش مصنوعی ادغام میکند. پیشبینیهای تولید شده توسط این موتور میتواند توسط انواع مختلفی از خدمات آمادهسازی داده مصرف شود. شکل ۴ این اجزای اصلی هسته را نشان میدهد که اصول مذکور را پوشش میدهد، از جمله مکانیسم نمایش متنی مبتنی بر توجه، یادگیری توزیعشده، برش داده، و نظارت بر خود با یادگیری چند وظیفهای برای مقابله با انواع مختلف دادهها (به عنوان مثال، رگرسیون برای دادههای عددی و طبقهبندی برای دادههای قطعی). ما در مقاله MLSys ۲۰۲۰ یک معماری یادگیری مبتنی بر توجه را برای انتقال ارزش از دست رفته در دادههای ساختار یافته با انواع مختلف ارایه کردیم (شکل ۵).
نتیجهگیری
بخش قابلتوجهی از دادههای مهم امروزی ساختیافتهاند اما از مشکلات کیفی جدی رنج میبرند که ارزش آن را به خطر میاندازد. اصول هوش مصنوعی مدرن به ما کمک میکند تا با این مشکل با کیفیت بد به عنوان یک وظیفه پیشبینی یکپارچه، با مجموعه جدیدی از چالشها در مقیاس، ناهمگنی، پراکندگی و ترکیب معناشناسی و دانش دامنه شناختهشده برخورد کنیم. ما با این چالشها در ساخت موتور القایی، اولین هوش مصنوعی مقیاس پذیر برای دادههای ساختاری، مقابله میکنیم.
منتشرشده در: مجله towardsdatascience به تاریخ ۱۴ فوریه ۲۰۲۰
نویسنده: Ihab Ilyas
لینک مقاله اصلی:https://towardsdatascience.com/ai-should-not-leave-structured-data-behind-33474f9cd07a
این مقاله توسط مترجم هوشمند مقالات تخصصی و به صورت خودکار ترجمه و به صورت محدود مورد بازبینی شده است.
مطلبی دیگر از این انتشارات
واقعیتهای جدید 5G
مطلبی دیگر از این انتشارات
گاز طبیعی برای گرمایش و پختوپز حاوی سطوح بالایی از مواد سرطانزا و آلایندههای خطرناک هوا است
مطلبی دیگر از این انتشارات
ایلان در حال آماده شدن برای بدشانسی در معامله توییتر است! فروش سهام ۶.۹ میلیارد دلاری تسلا