در پزشکی شخصی، توسعه مجموعه داده مستلزم گسترش سطوح متغیرهای اسمی است. ما رویکرد داده کاوی اسمی برای کشف اطلاعات بیشتر و به طور خاص، نحوه استفاده از آن برای توصیه درمان ترکیبی موثر برای بیماران AML را معرفی کردیم.
این پست ترجمه بلاگ پستی است که در سایت انتشارات نیچر به مناسبت انتشار مقاله "Bipartite network models to design combination therapies in acute myeloid leukaemia" در مجله Nature Communications، در کانال Nature Portfolio Cancer Community تحت عنوان Behind the Paper منتشر شده است. Behind the Paper عنوان مجموعه بلاگ پست هایی است که محققان به داستان های واقعی در پشت پرده آخرین مقالات تحقیقاتی شون می پردازند تا از شکل گیری ایده کار تا انتشار مقاله و بالا و پایین های پروژه تحقیقاتی صحبت کنند.
تصور کنید در یک هوای معتدل و نسبتا شرجی، روی سکوهای چوبی در حال تماشای نمایش یک نبرد شوالیه های قرون وسطایی در قلعه ویشاگراد نشستید که ناگهان چراغی در مورد شبکه های چندبخشی در ذهن تان روشن می شود. این نمایش بخشی از برنامه روز دوم کارگاه بین رشته ای سینگنالینگ (ISW2017) در کشور مجارستان در سال ۲۰۱۷ بود که با نشستن و تماشا کردن به اتمام نرسید (در مورد این کنفرانس قبلا در ویرگول به طور مفصل نوشته ام که خواندن و مرور گالری تصاویرش خالی از لطف نیست). تماشاچی ها (شرکت کنندگان کنفرانس) هم عضوی از شوالیه های قرون وسطی شدند و در گروه های ده نفره ، با نیزه، شمشیر و ... در مهارت های جنگاوری رقابت کردند. در میان دیگر فرصت های شبکه سازی به یادماندنی در این کنفرانس (که به خاطر شرایط کرونا لزومشان را بیشتر احساس می کنم)، این فرصتی بود تا من ایده خودم را با دوستانی دانشمند که دیگر نه تنها نامشان را حفظ شده بودم، با هم خندیده بودیم، به هیجان آمده بودیم و برای یک هدف تمرینی تلاش کرده بودیم به اشتراک بگذارم و اولین بازخوردها را بگیرم. اولین خاطره ای که از شکل گیری ایده دارم در اینجا بود که به تدریج پخته تر شد تا اینکه یک سال و نیم بعد یعنی در اکتبر ۲۰۱۸ به دانشگاه هلسینکی کشور فنلاند به عنوان محقق ارشد مهاجرت کردم. اگرچه از پیشنهاد نوشتن پروپوزال برای جذب گرنت در بدو ورود متعجب شدم اما دیتاست هایی (۱) در موسسه وجود داشت که دقیقا حاوی ویژگی های بود که برای پیاده سازی ایده ام لازم داشتم یعنی دیتاست هایی با متغیرهای اسمی چند سطحی مبتنی بر بیماران. اینجا بود که احساس کردم ارائه پروپوزالی بر مبنای این ایده در مکان مناسب و زمان مناسب هست. یک سال روی پروپوزال کار کردم و موفق شدم گرنت ۴ ساله تحت عنوان شبکه های چندبخشی برای پزشکی شخصی شده را بگیرم. این مقاله ، اولین خروجی از این پروژه است که به صورت یک مطالعه پایلوت بر روی دیتاستی مشابه انجام شده است (۲).
طراحی این مطالعه همانطور که از شکل یک این مقاله مشخص است برمبنای پارادایم زیست شناسی سامانه ای شکل گرفته است. یعنی پارادایم تغییر-اندازه گیری-داده کاوی-مدلسازی (۳) که همراه با تاییدیه پیش بینی مدل بوده است. دیتاست های پاسخ دارو که از تعداد قابل توجهی بیمار و دارو ایجاد شده، بعد از پیش پردازش برای ساخت شبکه های دوبخشی مورد استفاده قرار گرفته و بوسیله خوشه بندی بیماران و داروها، مقدمات پیشنهاد ترکیب های دارویی کارآمد فراهم گردید. با استفاده از دانش قبلی، برای صحت پیش بینی ها شواهد دیگر بررسی شده و نهایتا در محیط آزمایشگاهی شواهد حمایت کننده بیشتری جمع آوری گردید.
پس می توان به این تحقیق، یک مطالعه زیست شناسی سامانه گرای تیپیک اطلاق کرد که شامل ماژول های محاسباتی و آزمایشگاهی مفصل در راستای هم، همراه با نگاه کل نگر و لحاظ اندرکنش های بین موجودیت هاست. در این قبیل مطالعات نکته کلیدی استفاده از زبان مشترک و برقراری ارتباط بین محققین چندرشته ای است تا بتوان نتایج قابل قبول و مرتبط بدست آورد. این قبیل مطالعات، اغلب براساس مسئله ای از میان زیست-پزشکی آغاز می گردند و با راه حل هایی از دیگر رشته ها مثل کامپیوتر، ریاضیات و آمار ادامه می یابند. اگر محققین با پس زمینه های مختلف، به هر بخش مطالعه مثل یک جعبه سیاه نگاه کنند، فقط به خروجی هر بخش توجه کنند و تا حدودی از جزییات آنالیزها مطلع نباشند، به نظر من، تعامل لازم در جهت بهبود کار ایجاد نمی گردد. وجود افرادی که پس زمینه چندرشته ای دارند در یک تیم برای ایجاد ارتباطی موثر، همیشه یک تجربه موفق بوده است. به عنوان مثال همانطور که در شکل دو مقاله نمایش داده شده، قبل از استفاده از معیار های متداول پاسخ دارو یعنی AUC و IC50 امکان استفاده از آنها با هدف مقایسه بهتر قدرت های دارویی مورد بررسی دقیقتر قرار گرفت . با توجه به مشکلاتی که این دو معیار دارند و در مقاله توضیح داده شده است، نهایتا با انتخاب میانه زنده ماندن سلول، مدل را توسعه دادیم.
از دو منظر می توان به اهمیت این مطالعه تاکید کرد، منظر رویکرد مدلسازی و منظر درمانی. در ابتدای شروع مطالعه تمرکز اصلی روی استخراج بیشتر اطلاعات از بیماران بر اساس پاسخ نمونه های آزمایشگاهی آنها به داروهای مختلف بود تا بتوان بهترین ترکیب های دارویی را برای بیماران پیشنهاد کرد. در واقع بیشتر به این مسئله تمرکز کرده بودیم که چون پاسخ دارو، اطلاعاتی در سطح فنوتیپ سلولی هست بهتر بازتاب دهنده وقایع سیگنالینگ سلول در آزمایشگاه و متعاقبا در بیمار خواهد بود (۴). اما در حین بدست آمدن نتایج امیدوارکننده در مورد شباهت اعضای خوشه ها با شواهد مستقل بعد از خوشه بندی بیماران و داروها، ماهیت داده دوباره توجه ما را جلب کرد. منظورم ماهیت اسمی بودن داده هایی بود که ما بر آن اساس مدل را ایجاد و آنالیز کرده بودم. متوجه شدم که در واقع من در حال داده کاوی اسمی هستم و این رویکرد می تونه الهام بخش استخراج اطلاعات از دیگر مجموعه های داده حاوی حداقل دو داده اسمی با چندین سطح باشد. از طرفی دیگر، برخی از شباهت های ارائه شده بین داروها و بیماران در این مطالعه بسیار قابل توجه است و می تواند منشا انجام مطالعات مستقلی باشد. به عنوان مثال به شکل پنچم این مقاله که شواهد مستقل به منظور تایید همگنی اعضای خوشه ها آورده شده است توجه کنید. اینکه مشاهده شد تعداد زیادی دارو که عملکرد بسیار مشابه دارند (اکثرا مهارکننده کیناز) و بر اساس پاسخشون فقط در یک نوع بیماری خوشه بندی شده اند، از لحاظ ساختار شیمیایی یا پروتئین های هدف به دو دسته متمایز از گروه بندی تصادفی تقسیم بندی می شوند، از نظر نگارنده حائز اهمیت است. از لحاظ درمانی هم روش پیشنهاد ترکیب دارویی در این مطالعه، در شرایطی که به صورت تصاعدی حالت مختلف برای ترکیب داروها وجود دارد، امیدبخش است. این رویکرد ضمن لحاظ ناهمگونی بیماران، ترکیب هایی را پیشنهاد می کند که می تواند در اکثر نمونه های بیماران موثر عمل کند (نتایج آزمایشگاهی روی نمونه های بیماران مرحله بعد پروژه ماست که هنوز منتشر نشده است). خصوصا در شرایطی که به کمک فنآوری های خودکار کنترل مایعات برای آزمایش تعداد زیادی ترکیب دارویی در زمان کوتاه، اضافه شدن چند آزمایش بر اساس ترکیب های دارویی پیشنهادی، از لحاظ عملیاتی زحمت زیادی ندارد.
ما خوشحال میشم اگر شما از خواندن این مقاله لذت برده و از رویکرد پیشنهاد شده برای دیتاست های مشابه مورد استفاده قرار بدید.خصوصا اینکه پکیج محاسباتی برای آزمون این رویکرد که توسط گروه ما توسعه داده شده است، به نام NIMAA در مخزن CRAN در دسترس هست (۵). در پایان، دوست دارم از تمامی همکاران و دوستانی که در به نتیجه رسیدن این مقاله سهیم بودند قدردانی کنم.
References:
1. Malani, D. et al. Implementing a functional precision medicine tumor board for acute myeloid leukemia. Cancer Discovery, candisc.0410.2021, doi:10.1158/2159-8290.CD-21-0410 (2021).
2. Tyner, J.W., Tognon, C.E., Bottomly, D. et al. Functional genomic landscape of acute myeloid leukaemia. Nature 562, 526–531 (2018).
3. Aldridge, Bree B., John M. Burke, Douglas A. Lauffenburger and Peter K. Sorger. “Physicochemical modelling of cell signalling pathways.” Nature Cell Biology 8 (2006): 1195-1203.
4. Yaffe MB. Why geneticists stole cancer research even though cancer is primarily a signaling disease. Sci Signal. 2019 Jan 22;12(565):eaaw3483.
5. Jafari, M., Chen, C., Mirzaie, M. & Tang, J. NIMAA: an R/CRAN package to accomplish NomInal data Mining AnAlysis. bioRxiv, 2022.2001.2013.475835, (2022).