یکی از مهم ترین کارها در حوزه داده های حجیم, تحلیل داده و رسیدن به یک بینش عمیق از داده ها جهت تصمیم گیری و یا پیش بینی در کاربردهای مختلف می باشد. امروزه با فراگیر شدن و افزایش داده های EHR در حوزه پزشکی, نیاز به تحلیل و استخراج اطلاعات از این گونه داده ها بسیار مهم شده است. در این مقاله میخواهیم مدل های پرکاربرد یادگیری عمیق برای تحلیل و کارهایی که میتوان بر روی داده های EHR انجام داد را توضیح دهیم. مدل های پرکاربرد در این زمینه شامل شبکه عصبی پیچشی, شبکه های عصبی بازگشتی, خودرمزگذار و ماشین بولتزمن می باشد وکارهایی که میتوان با تحلیل برروی داده های EHR انجام داد شامل استخراج اطلاعات, بازنمایی یادگیری, پیش بینی نتایج, فنوتایپینگ و تعیین هویت موارد شناسایی نشده می باشد.
EHR (Electronic health record)
جمع آوری داده ها بخصوص در مطالعات گذشته نگر نیازمند زمان و منابع بسیاری می باشد. بسیاری از سیستم های اطلاعات پزشكی امروزی می توانند پایگاه اطلاعاتی خاصی را تهیه كنند كه سیستم های گزارش دهی پزشكی، سیستم های مدیریت مالی، و تحقیقات تشخیصی خاصی را حمایت كند. در آینده نزدیك، سیستم ذخیره اتوماتیك اطلاعات پزشكی، اطلاعات گسترده ای را در اختیار كاربران متفاوت قرار خواهد داد كه این كاربران عبارتند از: مدیران بیمارستانی، پزشكان، محققین پزشكی، شركتهای بیمه ای. یك سیستم اطلاعات پزشكی موفق تمامی تكنیك های اطلاعاتی جدید را شامل می شود. عقیده بسیاری بر این است كه قابل دسترس بودن این سیستم برای كلیه كاربران یكی از رموز موفقیت این سیستم می باشد. استخراج دادهها در سیستم اطلاعات پزشكی همواره جهت اهداف بالینی مانند تشخیص و درمان كاربرد دارد.
در چندسال گذشته تحلیل برروی داده های EHR با الگوریتم یادگیری ماشین و تکنیک های آماری صورت می گرفت که دارای معایبی همچون استخراج دستی ویژگی ها از داده ها, کارایی پایین روی داده های حجیم که امروزه برروی داده های حجیم که دارای میلیون های ویژگی هستند اصلا مناسب نیست و در چند سال اخیر محقیقین برای تحلیل داده های حجیم همچون EHR از مدل های یادگیری عمیق استفاده می کنند.
مزایایی که یادگیری عمیق دارد شامل مواردی همچون : 1) استخراج ویژگی ها ویادگیری در زمان برابر 2) کاربردهای بسیار در متن, تصویرو صدا 3) استخراج خودکار ویژگی ها 4) کارایی و دقت برای داده های حجیم 5) انتقال مدل یادگیری
پرونده الکترونیک سلامت یا بیمار
درواقع دادههای EHR دربرگیرنده کلیه اطلاعات پزشکی و سلامت هرفرد میباشد. درگذشته این اطلاعات در چارتهای کاغذی ذخیره میشدند اما بخاطر محدودیتهای استفاده و نگهداری از دادههای کاغذی، داده بصورت الکترونیکی و تحت عنوان EHR ذخیره میگردد. از مزایای این نوع دادهها میتوان به موارد زیر اشاره کرد:
• حفظ اطلاعات کاغذی و جلوگیری از ازبین رفتن آن
• دسترسی آسان و سریع
• تضمین اطلاعات دقیق و خوانا
• ازبین بردن دادههای تکراری
کمتر شدن خطاهای پزشکی
• یکپارچه سازی روند مراجعه، تشخیص و درمان بیماران
• ارتباط موثر با تیم درمانی
داده EHR از منابع متعددی مانند تاریخچه پزشکی، جزئیات بیمار، صورتحسابهای بیمار، یادداشتهای کلینیک، نتایج آزمایشات، اطلاعات بیمهای، تصاویر اسکنشده و داده تولیدی توسط سنسورها تولید میشوند.
دربحث الکترونیکی کردن دادههای سلامت، مفهوم EMR نیز مطرح میشود اما یک سطح پایینتر از دادهای EHR تعریف میشوند. این نوع دادهها توسط یک مرکز درمانی تولید شده و صرفا توسط همان مرکز قابل استفاده است و پرونده بیمار توسط مراکز دیگر قابل مشاهده و استفاده نیست.
یادگیری عمیق
یادگیری عمیق زیر شاخهای از یادگیری ماشین و بر مبنای مجموعهای از الگوریتمها است که مفاهیم انتزاعی سطح بالا در دادگان را مدل میکند و این فرایند را با استفاده از یک گراف عمیق مدل میکند که خود دارای چندین لایه پردازشی متشکل از چندین لایه تبدیلات خطی و غیر خطی است. در یادگیری عمیق برخلاف یادگیری ماشین استخراج ویژگی از داده ها و یادگیری در زمان یکسان و در لایه های میانی انجام می شود.
مدل های یادگیری عمیق
در شکل زیر مدل های مهم یادگیری عمیق که بیشتر در چند سال اخیر برای تحلیل داده های EHR استفاده شده است آورده شده است.
کاربردهای تحلیل EHR با یادگیری عمیق
در این بخش خلاصه ای از کارهایی که میتوان با استفاده از تحلیل بر روی داده های EHR با مدل های یادگیری عمیق انجام داد, اشاره خواهیم کرد و درمورد هر کدام از کارهای به طور مختصر توضیح خواهیم داد . در شکل زیر خلاصه ای از کارها را میتوانید مشاهده کنید.
1 - استخراج اطلاعات
یکی از اصلی ترین اهداف تحلیل داده استخراج اطلاعات مفید و کاربردی از مجموعه از داده های ساخت یافته و غیر ساخت یافته می باشد. مجموعه ای کارهایی که میتوان انجام داده شامل
1) استخراج مفهموم تکی: در این بخش ما میخواهیم یک مفهموم خاصی از متن های پزشکی با استفاده از مدل های یادگیری عمیق استخراج کنیم مثل نام دارو, نام بیماری ها, نام بیمار , عوارض جانبی دارو و غیره
2) استخراج زمان رخداد: هر رخداد پزشکی یه برچسب زمان دارد که نشان می دهد این رخداد در چه زمانی اتفاق افتاده است. در این
بخش میخواهیم با مدل یادگیری یک رخداد پزشکی را همراه با زمان وقوعش برای کاربردهای خاص استخراج کنیم. مثلا استخراج بیماران سرطانی در فلان روز فلان ساعت و غیره
3) استخراج رابطه: در متون و داده های پزشکی ممکن است بین برخی کلمات با یکدیگر ارتباط معنایی دارد در این بخش ارتباط بین کلمات در متون پزشکی را استخراج می کنیم. مثلا نتیجه آزمایش x بیماری عفونت معده را نشان می دهد .
4) بسط اختصارات: در متون و داده های پزشکی کلمات اختصاری زیادی وجود دارد که نشان دهنده مفهموم خاصی از علم پزشکی است که قبل از اینکه بخواهیم مفهمومی را به درستی از داده های پزشکی استخراج کنیم باید این نوع کلمات را بسط بدهیم. مثلا کلمه RF یعنی نارسایی قلبی یا کلمه AKI یعنی مشکل شدید کلیوی
2- بازنمایی یادگیری
بطور کلی نیاز هست از روی داده ها حجیم ویژگی های نهفته شده داخل آن داده ها را با الگوریتم های یادگیری ویژگی ها آن ها را استخراج کرد که می تواند شامل میلیون ها ویژگی باشد. با استفاده از تکنیک بازنمایی یادگیری میتوان ویژگی داده ها را به صورت خودکار کشف و استخراج کرد.مثلا در دیتاست Medical Code که شامل هزاران کد پزشکی هست که هر کدی نشان دهنده مفهمومی از علم پزشکی است و پزشکان در متون پزشکی بسیار استفاده می کنند. با استفاده از تکنیک بازنمایی یادگیری می خواهیم اینگونه ویژگی نهفته در داده ها را بازنمایی و کشف کنیم که در استخراج مفاهیم پزشکی و پیش بینی وضعیت بیمار کاربردهای زیادی دارد کارهایی که میتواند با این تکنیک انجام داد شامل:1) بازنمایی مفهوم 2) بازنمایی بیمار
3- پیش بینی نتایج
هدف نهایی سیستم های Deep HER پیش بینی نتایج بیمار می باشد به عبارت دیگر سیستم ما باید از روی شواهد و رکوردهای بیمار بتواند تحلیلی انجام دهد تا وضعیت فعلی بیمار را پیش بینی یا تشخیص دهد که با این کار کمک بزرگی به پزشک در راستای درمان بیمار خواهد شد. 2 نوع پیش بینی وجود دارد
1) پیش بینی استاتیک: پیش بینی نتایج بیماران براساس شواهد و نتایج موجود وبدون درنظر گرفتن مدت زمان . به عبارت دیگر در یک زمان نتیجه بیمار را پیش بینی کنی کنیم. مثلا براساس آزمایش X و شواهد موجود پیش بینی کنیم بیمار Y بیماری دیابت یا نارسایی قلبی دارد .
2) پیش بینی زمانی: در این پیش بینی زمان برای ما حائز اهمیت است یعنی پیش بینی ما براساس داده های جمع آوری شده از بیمار توسط سنسور یا هر دستگاه دیگر که بصورت سری های زمانی هستند انجام می شود . مثلا وضعیت یک بیمار را به مدت 2 ماه تحت نظر میگیریم و بصورت وضعیت بیمار را بصورت داده های سری زمانی درمیاریم و با استفاده از مدل های یادگیری عمیق مثل LSTM پیش بینی روی داده های سری زمانی انجام می دهیم که نتیجه آن میتواند پیش بینی سالم بودن بیمار یا دچارشدن به بیماری خاص باشد. مثال پیش بینی مشکل روانی افراد در بازه زمانی 3 ماهه
4 - فنوتایپنگ
فنوتایپینگ یعنی ویژگی ها و صفات خاصی که درون موجودات زنده همچون انسان و حیوان وجود دارد مانند رنگ چشم, رنگ پوست و غیره. با استفاده از تکنیک های یادگیری عمیق میتوان برخی از ویژگی ها جدیدی که مجودات زنده دارنند ولی هنوز توسط کسی کشف نشده اند را کشف کرد یا اگر فنوتایپ هایی از قبل وجود داشته میتوان برای بهبود آنها از مدل های یادگیری عمیق استفاده کرد. برای کاربردهای همچون پیدا کردن توالی ژن ها, کشف علل برخی بیماری ها و غیره
مرجع :
A Survey of Recent Advances in Deep Learning Techniques for Electronic Health Record (EHR) Analysis