امروز می خواهم درباره ی یکی از چالش هایی که در هنگام نوشتن پایان نامه ام با آن مواجه شدم توضیح دهم. موضوع پایان نامه ام "ارزیابی ریسک در محیط پیرامون کاربر از طریق طبقهبندی دادههای حسگرهای صوتی و تلفن همراه هوشمند" بود. لازم بود که من برای ارائه ایده خودم الگوریتم های مختلفی از یادگیری ماشین را اجرا کنم و با مقایسه عملکرد و دقتشان بهترین را انتخاب کنم و نتایج آن را به عنوان نتایج تحقیقاتم ارائه دهم.
ولی من تنها دانشجویی نبودم که با این چالش رو به رو بودم بلکه بسیاری دیگر از دانشجویان نیز حتی از دانشکدههای دیگر با این مشکل مواجه بودند.
این موضوع چیزی نبود جز داده، بله درسته داده!
جمع آوری داده یکی از مسائل اساسی و مهم در کار با ابزارهای هوش مصنوعی است. من برای پایان نامه ام نیاز به صوت خودروهایی با سرعت ها و کلاسهای مختلف داشتم که دادهی مد نظر من وجود نداشت. به همین دلیل من مجبور بودم خیلی از وقت ها کنار خیابان و اتوبان صدای انواع ماشینها را ضبط کنم، از ماشین سبک گرفته تا سنگین، از کم سرعت گرفته تا پرسرعت. همچنین این داده ها خام بودند و من نیاز داشتم که برچسب داشته باشند و بعد از ضبط صداها و آماده کردنشان در فرمت مد نظرم تازه نوبت میرسید به برچسب گذاشتن روی صوتها و بعد از آن می توانستم از الگوریتم های هوش مصنوعی روی دادهها استفاده کنم.
جمع کردن داده چالش های خاص خودش را برایم داشت. درست است که آن زمان جمعآوری داده برایم کمی سخت بود ولی الان که به آن فکر میکنم، این موضوع تبدیل به خاطرات جالبی شده که همیشه در ذهنم خواهد ماند.
این موضوع را گفتم تا شما را از اهمیت داده آگاه کنم، بحث داده و جمع آوری یک مجموعه داده خوب همواره از مهمترین موضوعات در هوش مصنوعی است. موضوع جمعآوری داده در شرکتهای بزرگ یک چالش اساسی میباشد. به همین دلیل مفهومی به نام حاکمیت داده (data governance) به وجود آمد که سعی میکند با اعمال قوانینی، چالشهای این مسئله را کاهش دهد.