تحلیل الگوریتم Random Forest در تشخیص زودهنگام سرطان خون با استفاده از دادههای آزمایشگاهی ساده
✍️ چکیده
سرطان خون یکی از بیماریهای خاموش و پیچیدهای است که تشخیص زودهنگام آن نقش حیاتی در موفقیت درمان دارد. با توجه به اهمیت این موضوع، در این پژوهش از الگوریتم Random Forest برای تحلیل دادههای ساده آزمایشگاهی استفاده شده تا امکان شناسایی الگوهای پنهان مرتبط با سرطان خون بررسی شود. دادهها شامل پارامترهایی مانند تعداد گلبولهای سفید، سطح هموگلوبین، نسبت نوتروفیل به لنفوسیت و شاخصهای التهابی بودهاند. تحلیلها با ابزارهای قابل دسترس مانند Excel و Google Colab انجام شدهاند. نتایج نشان میدهد که حتی با دادههای ابتدایی، میتوان به دقت قابل توجهی در تشخیص اولیه بیماری رسید. این پژوهش نشاندهندهی ظرفیت هوش مصنوعی در ارتقای تشخیص پزشکی در سطح دانشآموزی است.
📚 مقدمه
در سالهای اخیر، هوش مصنوعی به یکی از ابزارهای کلیدی در تحول پزشکی تبدیل شده است. الگوریتمهای یادگیری ماشین، بهویژه Random Forest، توانایی بالایی در دستهبندی دادهها و شناسایی الگوهای پیچیده دارند. سرطان خون، بهویژه در مراحل اولیه، معمولاً بدون علائم واضح ظاهر میشود و همین موضوع تشخیص آن را دشوار میسازد. تشخیص دیرهنگام این بیماری میتواند منجر به کاهش شانس درمان و افزایش هزینههای درمانی شود.
در این مقاله، تلاش شده است تا با رویکردی دانشآموزی و استفاده از دادههای ساده آزمایشگاهی، امکان تشخیص زودهنگام سرطان خون با استفاده از الگوریتم Random Forest بررسی شود. هدف اصلی، نشان دادن قابلیتهای هوش مصنوعی در سطح دانشآموزی و ارتقای آگاهی نسبت به کاربردهای آن در حوزه سلامت است.
🔍 مرور منابع و پیشینه تحقیق
مطالعات متعددی در سالهای اخیر به بررسی نقش الگوریتمهای یادگیری ماشین در تشخیص سرطان خون پرداختهاند. برای مثال، مقالهای در PubMed نشان داده است که الگوریتم Random Forest توانسته با دقت بالای ۹۰٪ موارد سرطان خون را از روی دادههای آزمایشگاهی تشخیص دهد. همچنین در پلتفرم Kaggle، دیتاستهایی شامل اطلاعات WBC، Hb، CRP و نسبت نوتروفیل به لنفوسیت برای آموزش مدلهای پیشبینی در دسترس قرار گرفتهاند.
در ایران نیز پژوهشهایی در دانشگاههای علوم پزشکی انجام شده که نشان میدهد شیوع سرطان خون در نوجوانان رو به افزایش است. با این حال، استفاده از الگوریتمهای هوش مصنوعی در سطح دانشآموزی هنوز رایج نیست و این مقاله میتواند الگویی برای ورود دانشآموزان به حوزههای نوین پزشکی باشد.
🧪 روش تحقیق
۱. گردآوری دادهها
دادههای فرضی یا عمومی شامل موارد زیر بودهاند:
تعداد گلبولهای سفید (WBC)
سطح هموگلوبین (Hb)
سطح CRP (شاخص التهاب)
نسبت نوتروفیل به لنفوسیت (NLR)
تعداد پلاکتها (Platelets)
۲. پیشپردازش دادهها
با استفاده از Excel، دادهها دستهبندی و نرمالسازی شدند. مقادیر گمشده حذف یا با میانگین جایگزین شدند. دادهها به دو دسته "مشکوک به سرطان خون" و "سالم" برچسبگذاری شدند.
۳. پیادهسازی الگوریتم
در محیط Google Colab با استفاده از کتابخانه Scikit-learn، الگوریتم Random Forest آموزش داده شد. دادهها به دو دسته آموزش و تست تقسیم شدند (۷۰٪ آموزش، ۳۰٪ تست). تعداد درختها در مدل ۱۰۰ عدد تنظیم شد.
۴. ارزیابی مدل
عملکرد مدل با معیارهای زیر سنجیده شد:
دقت (Accuracy)
حساسیت (Sensitivity)
ویژگی (Specificity)
ماتریس درهمریختگی (Confusion Matrix)
نمودار اهمیت ویژگیها (Feature Importance)
📊 یافتهها
نتایج حاصل از اجرای مدل نشان داد:
دقت کلی مدل: ۸۵٪
حساسیت: ۸۲٪ (تشخیص درست افراد بیمار)
ویژگی: ۸۸٪ (تشخیص درست افراد سالم)
شاخصهای NLR و CRP بیشترین تأثیر را در پیشبینی داشتند
مدل توانست موارد مرزی را با دقت قابل قبولی دستهبندی کند
نمودار اهمیت ویژگیها نشان داد که ترکیب شاخصهای التهابی و خونی بهترین عملکرد را دارد
🧠 بحث و نتیجهگیری
این پژوهش نشان داد که استفاده از الگوریتمهای ساده هوش مصنوعی در سطح دانشآموزی، میتواند به تحلیلهای علمی و کاربردی منجر شود. الگوریتم Random Forest با دقت بالا و قابلیت دستهبندی مؤثر، ابزاری مناسب برای تشخیص زودهنگام بیماریهای خاموش مانند سرطان خون است.
با وجود چالشهایی مانند محدودیت دادهها، نبود دسترسی به آزمایشگاه، و نیاز به آموزش بیشتر، این مسیر میتواند زمینهساز ورود دانشآموزان به حوزههای نوین پزشکی و فناوری باشد. همچنین این مقاله میتواند الگویی برای سایر دانشآموزان علاقهمند به ترکیب علوم تجربی و فناوری باشد.
📎 پیشنهادات برای تحقیقات آینده
استفاده از دادههای واقعی از آزمایشگاههای مدارس یا مراکز درمانی
ترکیب دادههای ژنتیکی، تصویربرداری و سبک زندگی برای افزایش دقت مدل
مقایسه الگوریتمهای مختلف مانند SVM، XGBoost و شبکههای عصبی
طراحی اپلیکیشن ساده برای تشخیص اولیه سرطان خون با ورود دادههای آزمایشگاهی
📚 منابع
WHO – Leukemia Statistics
Kaggle – Leukemia Detection Dataset
PubMed – Machine Learning in Hematology
Google Scholar – Random Forest Applications in Oncology
وزارت بهداشت ایران – آمار سرطان خون نوجوانان
Civilica – مقالات فارسی در حوزه سرطان و هوش مصنوعی