دادهها عنصر محوری یادگیری ماشین هستند و ماشینها از دادهها یاد میگیرند، به این صورت که ما دادهها را به عنوان ورودی به الگوریتم میدهیم تا خروجی مورد نیازمان را دریافت کنیم.داده، در نتیجه مشاهدات و اندازهگیریها شکل میگیرد و توصیف این وضعیت مشاهده شده به شمار میآید. این توصیف میتواند اشکال گوناگونی داشته باشد.
انواع داده
دادهای که پردازش زبان طبیعی با آن کار میکند، جملات و کلمات تولید شده توسط انسانها هستند، که ممکن است به صورت نوشتاری یا صوت در اختیار الگورتیمهای کامپیوتری قرار بگیرد. برخی از کاربردهای این حوزه عبارتند از:
از میان حوزههای مختلف یادگیری ماشین، بینایی ماشین پیشرفت خیرهکنندهای را در سالهای اخیر داشته و در تکنولوژیهای روزمره به صورت گسترده استفاده میشود. دادهای که در این قسمت با آن سر و کار داریم تصاویر ثبت شده توسط دوربینهای مختلف عکسبرداری یا فیلمبرداری هستند.
این نوع داده در بسیاری از سیستمهای نرمافزاری یافت میشود. برای مثال یک بانک را در نظر بگیرید که نام و کدملی افراد، موجودی حسابهای آنها، مجموع مبلغ وامهایی که تا به حال دریافت کردهاند را در جدولی مشابه جدول زیر نگهداری میکند. بانک میتواند با کمک یادگیری ماشین از روی این دادهها پیشبینی کند که درخواست وام یک مشتری را قبول یا رد کند.
در مورد بعضی از انواع داده، تغییرات آن و در نتیجه مقدار آن در طول زماناهمیت ویژهای دارد. ماشین میتواند با دیدن تغییرات ویژگی مشخصی از یک داده در طول زمان، الگوی تغییرات آن را یاد بگیرد و به مسائلی که برحسب زماناند، مثل پیشبینی مقدار آن ویژگی در یک زمان مشخص پاسخ دهد. برای مثال اگر ارزش یک سهم در بازار بورس را در یک بازه زمانی در نظر بگیریم، اطلاعات بیشتری داریم که الگوی تغییرات آن را نیز در بر میگیرد.