سلام . عرض ادب و احترام.
اگر مقاله های مرتبط با ماشین لرنینگ و Accuracy متد ها و مدل های این مقاله ها رو بررسی کرده باشید ( مثلا Matching Net , Proto Net و ... ) دو دیتاست اکثرا برای تست از اونها استفاده شده و میتونین برای مقایسه ی مدل های مختلف استفاده کنین، Omniglot و mini-Image Net هستند . این دیتاست ها عموما برای few shot learning بکار گرفته میشود. دیتاست Image Net اما یک دیتاست بسیار بزرگ و جامع است که در ادامه بررسی خواهیم کرد.
اول یک اصطلاح رو بررسی کنیم و سپس به سراغ معرفی بریم :
دیتاست چیست و آیا تفاوتی با دیتابیس دارد ؟
در لغت database به معنای مجموعه ای داده های سازمان یافته هست و dataset به معنای دیتای ذخیره شده به صورت سطر و ستون و ساختار یافته هست.
اما در مفهوم ، دیتاست به مجموعه داده ها مثلا ، مجموعه ای دسته بندی شده از تصاویر ۱۰۰ عکس اسب و ۱۰۰ عکس سگ ، گفته میشود اما دیتابیس برای ذخیره دیتاست ها به صورت سازماندهی شده هست که تحت یک DBMS یا همان سیستم مدیریت database کار میکنه که میتونه permission تعیین کنه ،trigger بذاره و ... بنابراین ، برای اینکه یک تصویری از دیتاست توی ذهن داشته باشید ،یک folder در نظر بگیرید که درون اون تعدادی مثلا تصویر ( یا درهم یا به صورت چندتا فولدر تحت عنوان تصویر اسب،سگ و...) هست، این یعنی شما میتونید دیتاست رو که دانلود کردید باز کنید روی ویندوز و تک تک تصاویر رو ببینید بدون اینکه نیاز به برنامه ی اضافه تری داشته باشید. اما دیتابیس یک فایل با پسوند sql یا mdb یا ... هست که باید حتما با یک نرم افزار مدیریت این دیتابیس ها مثلا Mysql باز کنید و اونجا داده ها تون رو مشاهده و عملیات های مختلف روش انجام بدید.
خب بریم برای معرفی !
۱) معرفی Omniglot :
دیتاست Omniglot یک دیتاست مربوط به الفبای زبان های مختلف برای تشخیص متن هست که به صورت دست نویس توسط افراد مختلف نوشته شده. این دیتاست حاوی ۱۶۲۳ کاراکتر ( یا همون کلاس ، مثلا A خودش یک کلاس هست ) از ۵۰ الفبای زبان های مختلف در جهان هست.
هر کلاس یا همون هر کاراکتر حاوی ۲۰ نمونه هست که توسط افراد مختلف نوشته شده. حجم این دیتاست کمتر از ۳۰ مگابایت است.
۲) دیتاست Image Net :
یکی از بزرگترین و جامع ترین دیتاست های موجود ، Image Net هست که دارای 1000 کلاس مختلف حاوری ۱ میلیون و ۲۸۱ هزار و ۱۶۷ تصویر برای train ، حاوی ۵۰ هزار تصویر برای برای validation و نیز 100 هزار تصویر برای برای test هست یعنی چیزی در حدود ۱.۵ میلیون تصویر !
این دیتاست حجمی در حدود ۱۵۰ گیگابایت دارد.
۳) معرفی mini Image Net :
این دیتاست حاوی ۶۰ هزار تصویر رنگی با ۱۰۰ کلاس است یعنی هر کلاس حاوی ۶۰۰ نمونه است. این دیتاست نسبت به دیتا ست اصلی Image Net دارای پیچیدگی بیشتر اما تعداد سمپل کمتر هست که از نظر محاسباتی به منابع کمتری برای اجرا نیاز دارد .
سایز هر تصویر ۸۴*۸۴ است . این دیتابیس به سه دسته ی ترین با ۶۴ ، ولیدیشن با ۱۶ و تست با ۲۰ کلاس تقسیم شده است . حجم این دیتاست حدود ۷ گیگابایت است.
منتظر نظرات ، پیشنهادات و انتقادات شما هستم. تشکر