مطالعه ۸ مورد هیجان‌انگیز از کاربردهای یادگیری ماشینی در علوم زندگی و بیوتکنولوژی

شکل ۱. یادگیری ماشینی در بیوتکنولوژی
شکل ۱. یادگیری ماشینی در بیوتکنولوژی
منتشر‌شده در: towardsdatascience به تاریخ ۲۶ آوریل ۲۰۲۱
لینک منبع: 8 Exciting Case Studies of Machine Learning Applications in Life Sciences and Biotechnology

بیماری COVID19 ما را بر روی علوم زندگی و صنعت بیوتکنولوژی متمرکز و امیدوار کرد. سلامتی گرانبهاترین دارایی ماست و ما از هیچ هزینه‌ای برای سالم ماندن دریغ نمی‌کنیم. بنابراین، علوم زندگی و صنعت بیوتکنولوژی بسیار عظیم و متنوع با بسیاری از زیربخش‌ها است. شناخته‌شده‌ترین حوزه‌ها کشف و تولید دارو، درمان، تشخیص، ژنومیک و پروتئومیکس، علوم زیستی دامپزشکی و همچنین لوازم آرایشی، تکنولوژی پزشکی، و توزیع دارو هستند. مقدار زیادی از داده‌ها اجاره این صنعت است.

داده‌ها از آزمایش‌های بالینی، دارو، درمان، تشخیص، ژنومیک، ارائه‌دهندگان مراقبت‌های بهداشتی، و با افزایش همه پوشیدنی‌ها، همه داده‌های تناسب فردی در دسترس هستند. علوم زندگی و بیوتکنولوژی در بسیاری از زمینه‌ها یک صنعت داده بزرگ است. از سوی دیگر، هزینه‌های توسعه درمان‌های جدید، داروها یا واکسن‌ها از تقریبا یک میلیارد دلار آمریکا و دو میلیارد دلار آمریکا برای بیماری‌های نادر شروع می‌شود. برای مقایسه، بیونتک و مدرنا، هر شرکت تقریبا ۱ میلیارد دلار سرمایه‌گذاری خارجی برای توسعه واکسن دریافت کرد.

هزینه‌های کلی توسعه، عمومی نیستند اما چندین مورد از آن‌ها در نظر گرفته می‌شوند. این‌ها مبالغ هنگفتی از سرمایه‌گذاری‌ها هستند، و صنعت تمام تلاش خود را می‌کند تا هزینه‌ها و قیمت‌ها را کاهش داده و درمان را سریع‌تر در دسترس قرار دهد. بنابراین، این صنعت به عنوان صنعت فناوری داده محور می‌شود. بنابراین، علوم زندگی و صنعت بیوتکنولوژی، بهشتی برای دانشمندان داده است.

بازیکنان مقادیر زیادی داده دارند و یک دانشمند داده روزانه در حوزه کلان داده کار می‌کند. بسیاری از دانشمندان داده با این صنعت آشنا نیستند. اول، مانع ورودی، دانش بسیار تخصصی مورد نیاز برای درک موضوعات و کار در زمینه‌های مربوطه است. دوم، علیت و دقت بالاترین اهمیت را دارند و نیاز به بسیاری از زمینه‌های آماری (زیستی) و ریاضی عمیق دارند. اگر یک الگوریتم منجر به یک آگهی اشتباه نمایش‌داده‌شده به کاربر خدمات یکی از شرکت‌های فن‌آوری بزرگ شود، هیچ اتفاقی نمی‌افتد.

اگر یک الگوریتم منجر به یک تصمیم اشتباه در توسعه دارو شود، می‌تواند منجر به یک زیان عظیم در سرمایه‌گذاری یا حتی مرگ یک فرد شود. بنده سال‌ها به عنوان مشاور علم داده در علوم زندگی و صنعت بیوتکنولوژی کار کردم. و من عاشق آن بودم زیرا در آنجا همیشه پیچیده‌ترین و هیجان‌انگیزترین مشکلات را داشتم که باید حل می‌کردم. برای ایجاد بینش در این صنعت هیجان‌انگیز، من ۸ مورد استفاده علم داده در دنیای واقعی را ارائه می‌دهم.

این کار به شما دیدی از برنامه‌ها داده و شما را با دانش ضروری کسب‌وکار در این زمینه آشنا می‌کند. فقدان دانشمندان داده در داروسازی، علوم زندگی و بیوتکنولوژی وجود دارد. در نهایت، من می‌توانم به شما انگیزه دهم که وارد این صنعت هیجان‌انگیز شوید، با سطح حقوق بالا به اندازه صنعت فناوری اما حتی با رکود اقتصادی بیشتر.

۱. توسعه بیودرمان‌های میکروبیولوژیکی

همه ژن‌های میکروبیوتا به عنوان میکروبیوم شناخته می‌شوند. تعداد این ژن‌ها تریلیون‌هاست و برای مثال باکتری‌ها در بدن انسان، بیش از ۱۰۰ برابر ژن‌های منحصر به فرد بیشتری نسبت به انسان‌ها دارند. میکروبیوتا تاثیر زیادی بر سلامت انسان دارد و عدم تعادل باعث اختلالات زیادی مانند بیماری پارکینسون و یا بیماری التهابی روده می‌شود. همچنین این فرض وجود دارد که چنین عدم تعادل‌هایی باعث چندین بیماری خود ایمنی می‌شوند. بنابراین، تحقیق میکروبیوم یک حوزه تحقیقاتی بسیار مرسوم است.

برای تاثیر‌گذاری بر میکروارگانیسم‌های هم‌زیست و بیماری‌زا و توسعه درمان‌های زیستی میکروبیولوژیکی برای معکوس کردن بیماری‌ها، نیاز به درک ژن‌های میکروبیوتا و تأثیر آن بر بدن ما است. امروزه با تمام امکانات تعیین توالی ژن، ترابایت داده‌ در دسترس هستند اما هنوز بررسی نشده‌اند.

برای توسعه درمان‌های هدفمند میکروبیوم و پیش‌بینی تداخلات دارویی میکروبیوم، ابتدا باید چنین وابستگی‌های متقابل را بشناسید. و اینجاست که یادگیری ماشینی وارد عمل می‌شود.

اولین قدم یافتن الگوها است. برای مثال، عدم تعادل میکروبیوتای روده که باعث بیماری‌های نورون حرکتی می‌شود، همچنین اختلالاتی که سلول‌ها را برای فعالیت‌های عضله اسکلتی تخریب می‌کنند، و مثال دیگر عدم کنترل و حرکت ماهیچه‌ها است. معمولا، بیش از ۱۰۰۰ پارامتر فردی افراد در نظر گرفته می‌شوند. نظارت بر ML و یادگیری تقویت الگوریتم‌های اصلی در آن مرحله هستند.

باید صدها عامل مانند شکل دوز، حلالیت دارو، پایداری دارو، و مصرف و ساخت دارو را برای طراحی درمان درنظر گرفت. به طور مثال،

در اغلب موارد از جنگل تصادفی در سوالات مربوط به پایداری دارو استفاده می‌شود. آخرین قدم شخصی‌سازی درمان‌ها است. برای این کار، فرد باید پاسخ و تعامل میکروبیوم و دارو را پیش‌بینی کند. تجزیه‌و‌تحلیل مولفه‌های اصلی و به دنبال آن الگوریتم‌های یادگیری تحت نظارت، تکنیک‌های استاندارد هستند.

بزرگ‌ترین چالش در این مرحله، فقدان پایگاه‌های داده بزرگ برای آموزش مدل‌ها است.

مطالعه مقاله ۲۰ تارنمای برتر برای علم داده و یادگیری ماشینی در سال ۲۰۲۰ توصیه می‌شود.

۲. طب دقیق بسیار موفق برای آرتریت روماتوئید

پرفروش‌ترین داروی بسیار محبوب است که حداقل درآمد سالیانه بیش از ۱ میلیارد دلار را تولید می‌کند. این داروی موفق و پرفروش، بیماری‌های مشترکی مانند دیابت، فشار خون بالا، انواع سرطان رایج و یا آسم را مورد خطاب قرار می‌دهد. معمولا محصولات رقیب زیادی در بازار وجود دارند.

"داروی دقیق" به این معنی است که این یک درمان برای گروهی از افراد است که ویژگی‌های خاصی را به اشتراک گذاشته و به درمان خاصی واکنش نشان می‌دهند (شکل ۲( را ببینید. برای یک تمایز بهتر، به عنوان مثال، تمایز با سایر داروها، و برای هدف‌گیری و بازاریابی خاص‌تر از محصول، گروه‌های بیمار که نسبت به سرکوب بیماری خود واکنش بالاتری نشان می دهند، تعیین می‌شوند. هدف همانند هر پروژه، تجزیه‌و‌تحلیل بازاریابی است.

داده‌های مورد استفاده، داده‌های دنیای واقعی (RWD) نامیده می‌شوند، یعنی داده‌های بیماران تحت درمان و نه از آزمایشات بالینی. روش‌های اصلی روش‌های یادگیری تحت نظارت هستند زیرا مقدار خروجی مطلوبی داریم. درکنار روش‌های رایج رگرسیون / رگرسیون لجستیک، ماشین‌های بردار پشتیبان و جنگل تصادفی، امروزه با مقادیر بیشتری از داده‌ها، الگوریتم‌های یادگیری عمیق مانند شبکه‌های عصبی کانولوشن (سی‌ان‌ان) به کار می‌روند.

شکل ۲. طب دارویی دقیق
شکل ۲. طب دارویی دقیق

۳. پیش‌بینی نارسایی قلبی در سلامت متحرک

نارسایی قلبی معمولا منجر به اورژانس یا بستری در بیمارستان می‌شود. و با افزایش سن، انتظار می‌رود که درصد نارسایی قلبی در جمعیت افزایش یابد. افرادی که از نارسایی قلبی رنج می‌برند معمولا بیماری‌های از پیش موجود دارند. بنابراین، غیر‌معمول نیست که از سیستم‌های پزشکی از راه دور برای نظارت و مشاوره با بیمار استفاده شود، و داده‌های سلامت متحرک مانند فشار خون، وزن بدن، و یا ضربان قلب جمع‌آوری و منتقل شوند.

بیشتر سیستم‌های پیش‌بینی و پیشگیری بر اساس قوانین ثابت هستند، به عنوان مثال، زمانی که اندازه‌گیری‌های خاص فراتر از آستانه از پیش تعریف‌شده هستند، به بیمار هشدار داده می‌شود. این خود توضیحی است که چنین سیستم پیش‌بینی دارای تعداد زیادی هشدارهای غلط، یعنی، مثبت‌های کاذب، است.

از آنجا که یک هشدار اغلب منجر به بستری شدن در بیمارستان می‌شود، بسیاری از هشدارهای اشتباه منجر به افزایش هزینه‌های سلامتی و از بین رفتن اعتماد بیمار به پیش‌بینی می‌شوند. در نهایت، او پیگیری توصیه برای کمک‌پزشکی را متوقف خواهد کرد. بنابراین، بر اساس اطلاعات پایه بیمار مانند سن، جنس، فرد سیگاری یا غیر‌سیگاری، ضربان ساز بودن یا نبودن، اندازه‌گیری غلظت سدیم، پتاسیم یا هموگلوبین در خون و بررسی ویژگی‌هایی مانند ضربان قلب، وزن بدن، فشار خون (سیستولیک و دیاستولیک) و یا پرسشنامه در مورد سلامتی یا فعالیت‌های فیزیکی، یک طبقه‌بندی بر اساس Naive Bayes در نهایت ایجاد شده است.

هشدارهای اشتباه تا ۷۳٪ کاهش یافت و AUC (سطح زیر منحنی) حدود ۷۰٪ بود.

۴. پیش‌بینی، تشخیص و درمان بیماری‌های روانی

تخمین زده می‌شود که حداقل ۱۰ درصد از جمعیت جهان یک اختلال روانی دارند. مجموع خسارات اقتصادی ناشی از بیماری‌های روانی به حدود ۱۰ تریلیون دلار می‌رسد. اختلالات روانی شامل اضطراب، افسردگی، اختلال مصرف مواد مخدر، اختلال دو قطبی، اسکیزوفرنی یا اختلالات خوردن هستند.

بنابراین، تشخیص اختلالات روانی و مداخله در اسرع وقت ضروری است. دو رویکرد اصلی وجود دارد: برنامه‌های کاربردی برای مصرف‌کنندگانی که بیماری‌ها و ابزارهایی را برای روان‌پزشکان تشخیص می‌دهند تا از تشخیص بیماری‌ها حمایت کنند. برنامه‌های کاربردی برای مصرف‌کنندگان معمولا بات‌های محاوره‌ای هستند که با الگوریتم‌های یادگیری ماشینی افزایش می‌یابند. این برنامه کاربردی زبان شفاهی مصرف‌کننده را تجزیه‌و‌تحلیل می‌کند و توصیه‌هایی برای کمک ارائه می‌شود. از آنجا که توصیه‌ها باید بر اساس شواهد علمی می‌باشند، تعامل و واکنش پیشنهادها و الگوی زبان فردی باید تا حد امکان به دقت پیش‌بینی شود.

روش‌های به کار رفته متفاوت هستند. گام اول تقریبا همیشه تحلیل احساسی است. در مدل‌های ساده‌تر، جنگل تصادفی و Naive Bayes مورد استفاده قرار می‌گیرند. این مدل‌ها توسط شبکه‌های عصبی با بیش از سه‌لایه مخفی به طور فوق‌العاده‌ای عملکرد بهتری دارند.

۵. تحقیق در مورد انتشار و اسکن پایگاه‌داده برای نشانگرهای زیستی سکته مغزی

سکته مغزی یکی از دلایل اصلی ناتوانی و مرگ است. خطر طول عمر یک فرد بالغ در حدود ۲۵٪ از داشتن یک سکته مغزی است. اما سکته مغزی یک اختلال بسیار ناهمگن است. بنابراین، داشتن مراقبت‌های فردی قبل و بعد از سکته مغزی برای موفقیت درمان حائز اهمیت است.

برای تعیین این مراقبت فردی، فنوتیپ فرد، یعنی ویژگی‌های قابل‌مشاهده یک فرد باید انتخاب شود. و این معمولا توسط بیومارکرها به دست می‌آید. یک به اصطلاح نشانگر زیستی، یک نقطه داده قابل‌اندازه‌گیری است به طوری که بیماران می‌توانند طبقه‌بندی شوند. به عنوان مثال می‌توان به نمره شدت بیماری، ویژگی‌های سبک زندگی یا خصوصیات ژنومی اشاره کرد.

بسیاری از بیومارکرهای شناخته‌شده در حال حاضر منتشر شده یا در پایگاه‌های داده قرار گرفته‌اند. همچنین، روزانه صدها مقاله علمی در مورد تشخیص بیومارکرها برای تمام بیماری‌های مختلف وجود دارد. تحقیقات بسیار گران بوده و برای جلوگیری از اختلال حائز اهمیت هستند. بنابراین، شرکت‌های بیوتکنولوژی باید موثرترین و کارآمدترین بیومارکرهای متناظر را برای یک بیماری خاص درک کنند. مقدار اطلاعات به قدری زیاد است که نمی‌توان این کار را به صورت دستی انجام داد.

علم داده به توسعه الگوریتم‌های پیچیده NLP برای یافتن بیومارکرهای مربوطه در پایگاه‌داده‌ها و انتشارات کمک می‌کند. علاوه بر درک مطلب، اگر چنین نشانگر زیستی برای نوع خاصی از سکته مغزی مرتبط باشد، باید در مورد کیفیت نتایج منتشر شده نیز قضاوت کرد. در کل این یک وظیفه بسیار پیچیده است.

ممکن است علاقه‌مند به مطالعه ابزار جدید IBM به توسعه‌دهندگان امکان اضافه کردن قدرت محاسبات کوانتومی به یادگیری ماشینی را می‌دهد، باشید.

۶. چاپ زیستی سه بعدی

زیست چاپ یکی دیگر از موضوعات داغ در زمینه بیوتکنولوژی است. بر اساس یک طرح دیجیتال، چاپگر از سلول‌ها و مواد زیستی طبیعی یا مصنوعی-که به آن‌ها جوهرهای زیستی نیز گفته می‌شود- برای چاپ بافت‌های زنده لایه‌به‌لایه مانند پوست، اندام‌ها، رگ‌های خونی، یا استخوان‌ها استفاده می‌کند.

به جای وابستگی به اهدای اعضای بدن، آن‌ها را می‌توان در چاپگرها، اخلاقی‌تر و مقرون‌به‌صرفه تولید کرد. همچنین، آزمایشات دارویی بر روی بافت ساخته‌شده مصنوعی به جای آزمایشات حیوانی یا انسانی انجام می‌شود. کل تکنولوژی به دلیل پیچیدگی بالا هنوز در مرحله بلوغ است. یکی از ضروری‌ترین بخش‌ها برای مقابله با این پیچیدگی چاپ، علم داده است.

فرآیند چاپ و کیفیت به عوامل متعددی مانند ویژگی‌های جوهر زیستی بستگی دارد که دارای تغییرپذیری ذاتی یا پارامترهای چاپ مختلف هستند. به عنوان مثال، برای افزایش موفقیت به دست آوردن خروجی قابل‌استفاده و در نتیجه بهینه‌سازی فرآیند چاپ، بهینه‌سازی Bayesian اعمال می‌شود.

سرعت چاپ یک مولفه کلیدی در این فرآیند است. مدل‌های شبکه Siamese ، برای تعیین سرعت بهینه، گسترش داده شده‌اند. برای تشخیص مواد، یعنی نقایص بافتی، شبکه‌های عصبی کانولوشن بر روی تصاویر لایه به لایه بافت اعمال می‌شوند. کاربردهای زیادی در طول فرآیند پیش از تولید، حین تولید و پس از تولید وجود دارد، اما این سه مثال پیچیدگی و مدل‌های پیشرفته مورد نیاز را نشان می‌دهند. به نظر من، این زمینه یکی از هیجان‌انگیزترین حوزه‌ها در بیوتکنولوژی برای دانشمندان داده است.

۷. درمان شخصی سرطان تخمدان

"شخصی‌سازی" به این معنی است که یک درمان منطبق با نیازهای فردی به کار می‌رود. درمان‌های پزشکی بیشتر بر اساس ویژگی‌های فردی بیمار هستند. این ویژگی‌ها، انواع مختلف بیماری، خطرات شخصی بیمار، پیش‌آگهی سلامت، و بیومارکرهای مولکولی و رفتاری هستند. ما در بالا دیدیم که بیومارکر، یک نقطه داده قابل‌اندازه‌گیری است به طوری که بیماران بتوانند طبقه‌بندی شوند. بر اساس این داده‌ها، بهترین درمان فردی برای یک بیمار مشخص می‌شود.

برای یک بیمار مبتلا به سرطان تخمدان، شیمی‌درمانی معمول موثر نبود. بنابراین، یکی از آن‌ها تصمیم گرفت که توالی ژنوم را انجام دهد تا پایگاه‌های نوکلئوتیدی که باعث این سرطان می‌شوند را پیدا کند. با استفاده از تجزیه‌و‌تحلیل داده‌های بزرگ، اصلاحات موجود در میان ۳ میلیارد جفت پایه یک انسان مشاهده شد که مربوط به تعداد ۷۷۹۸ کتاب از کتاب «سنگ فیلسوف» هری پاتر است.

روش‌های به کار رفته معمولا مدل‌های کوواریانس نامیده می‌شوند که اغلب با یک طبقه‌بندی کننده مانند جنگل تصادفی ترکیب می‌شوند. جالب توجه است که این تغییر از سرطان ریه شناخته شده است، که در آن یک دارو وجود دارد، نه از سرطان تخمدان. بنابراین، درمان سرطان ریه به کار گرفته شد و بیمار بهبود یافت.

شکل ۳. شخصی‌سازی درمان
شکل ۳. شخصی‌سازی درمان

۸. بهینه‌سازی زنجیره تامین

تولید دارو به زمان نیاز دارد، به ویژه درمان‌های پیشرفته امروزی که بر اساس مواد خاص و روش‌های تولید هستند. همچنین، کل فرایندها به مراحل مختلفی تقسیم شده و چندین مورد از آن‌ها به ارائه‌کنندگان متخصص برون‌سپاری می‌شوند. این مسئله را در حال حاضر با تولید واکسن COVID19 می‌بینیم. مخترعان واکسن طرح اولیه را تحویل می‌دهند و تولید آن در کارخانه‌های تخصصی تولید استریل است. این واکسن در تانک‌هایی به شرکت‌هایی تحویل داده می‌شود که تحت شرایط بالینی، پر کردن را با دوزهای کم انجام دهند و در نهایت، یک شرکت دیگر تامین آن را انجام می‌دهد.

علاوه بر این، داروها را می‌توان تنها برای یک زمان محدود و اغلب تحت شرایط خاص ذخیره‌سازی، به عنوان مثال، در یک اتاق ذخیره‌سازی سرد ذخیره کرد.کل برنامه‌ریزی، از داشتن مواد ورودی مناسب در زمان مناسب، داشتن ظرفیت تولید مناسب و در نهایت، مقدار مناسب داروهایی که برای تأمین نیاز ذخیره می‌شوند، یک سیستم کاملاً پیچیده است. و این باید برای صدها و هزاران درمان مدیریت شود، که هر کدام شرایط خاص خود را دارند.

روش‌های محاسباتی برای مدیریت این پیچیدگی ضروری هستند. به عنوان مثال، انتخاب شرکت‌های شریک بهینه در فرآیند تولید با یادگیری نظارت‌شده مانند ماشین‌های بردار پشتیبانی انجام می‌شود. پیش‌بینی پویای تقاضا، اغلب به اصطلاح رگرسیون بردار پشتیبان وابسته است، و بهینه‌سازی تولید خود شبکه‌های عصبی را گسترش می‌دهد.

نتیجه‌گیری

این مسئله بسیار شگفت‌انگیز است که تکنولوژی و علم مدرن امروزه به چه چیزی دست می‌یابد. این روش بیش‌ترین مقدار قابل‌توجه را در ترکیب با علم داده آشکار می‌کند. از نظر روش، می‌بینیم که روش‌های یادگیری نظارت شده جنگل تصادفی، Naive Bayes و ماشین‌های بردار پشتیبانی اغلب استفاده می‌شوند و یادگیری تقویتی، NLP، و یادگیری عمیق غالب هستند.

علاوه بر این، روش‌های محاسباتی برای مقابله با داده‌های ابعادی بالا و جستجو مانند تحلیل مولفه‌های اصلی و مدل‌های کوواریانس مورد نیاز است. کار بر روی مرز نوآوری نیازمند دانش در موضوعات خاصی مانند بهینه‌سازی Bayesian، شبکه‌های عصبی کانولوشن، یا شبکه‌های Siamese می‌باشد.

مهم‌ترین مانع ورودی به این زمینه، دانش خاص موضوع است، بنابراین داده‌های (خام) را درک می‌کنیم. سریع‌ترین مسیری که با آن آشنا می‌شود، خواندن نشریات علمی و هر عبارتی است که با پشتکار برای جستجوی بالا شناخته نشده است. زمانی که در این زمینه کار می‌کنید، باید به زبان کارشناسان صحبت کنید.

تنها در این صورت است که شما می‌توانید تاثیر زیادی به عنوان یک دانشمند داده داشته باشید. اما این بهترین جنبه نیز هست. من هرگز بیشتر از صنعت علوم زیستی و بیوتکنولوژی نمی‌توانم در کار خود تأثیر بگذارم.

این متن با استفاده از ربات ترجمه مقاله بیوتکنولوژی ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه می‌تواند دارای برخی اشکالات ترجمه باشد.
مقالات لینک‌شده در این متن می‌توانند به صورت رایگان با استفاده از مقاله‌خوان ترجمیار به فارسی مطالعه شوند.