درخت فیلوژنتیک (Phylogenetic tree) یک نمایش بصری از رابطه بین ارگانیسمهای مختلف است که مسیر تکامل آنها از یک جد مشترک تا نسلهای مختلف را در طول زمان نشان میدهد.
شباهتها و واگرایی میان توالیهای بیولوژیکی مرتبط که با همترازی توالی آشکار میشوند، اغلب باید در حوزه درختان فیلوژنتیکی بیان شده و تجسم یابند. بنابراین، فیلوژنتیک مولکولی (Molecular phylogenetics) یک جنبه اساسی در بیوانفورماتیک (Bioinformatics) است.
فیلوژنتیک مولکولی شاخهای از فیلوژنی (Phylogeny) است که به آنالیز تفاوتهای مولکولی ژنتیکی و ارثی، عمدتاً در توالیهای DNA، برای به دست آوردن اطلاعاتی در مورد روابط تکاملی یک ارگانیسم میپردازد.
شباهت کارکردهای بیولوژیکی و مکانیسمهای مولکولی در ارگانیسمهای زنده قویاً نشان میدهد که این گونهها از یک جد مشترک به وجود آمدهاند. فیلوژنتیک مولکولی از ساختار و کارکرد مولکولها و نحوه تغییر آنها در طول زمان برای پی بردن به این روابط تکاملی، استفاده میکند.
از این تجزیه و تحلیلها، میتوان فرآیندهایی را که به وسیله آنها تنوع در میان گونهها به دست آمده است، مشخص کرد. نتیجه آنالیز فیلوژنتیک مولکولی در یک درخت فیلوژنتیک بیان میشود.
آنالیز فیلوژنتیک و نقش بیوانفورماتیک
دادههای مولکولی که به شکل توالیهای DNA یا پروتئین هستند نیز میتوانند دیدگاههای تکاملی بسیار مفیدی را در مورد ارگانیسمهای موجود ارائه دهند، زیرا با تکامل ارگانیسمها، مواد ژنتیکی جهشهایی را در طول زمان اضافه میکنند و باعث ایجاد تغییرات فنوتیپی (Phenotypic) میشوند.
از آنجایی که ژنها محیطی برای ثبت جهشهای اضافه شده هستند، میتوانند به عنوان فسیلهای مولکولی (Molecular fossil) عمل کنند. از طریق آنالیز مقایسهای (Comparative analysis) فسیلهای مولکولی تعدادی از ارگانیسمهای مرتبط، تاریخچه تکاملی ژنها و حتی ارگانیسمها را میتوان آشکار کرد.
با این حال، استنتاج فیلوژنی به طور آشکار تلاشهای بسیار دشواری است، زیرا تعداد جوابها با تعداد گونهها و تعداد عظیمی از سؤالات جدید در زیستشناسی تکاملی که میتوانند از طریق استفاده از نمونههای تاکسونی (Taxon) بزرگتر بررسی شوند، به شدت افزایش مییابد.
اما با توسعه و استفاده از محاسبات و مجموعهای از ابزارهای بیوانفورماتیک، توانایی آنالیز مجموعه دادههای بزرگ در زمانهای محاسباتی عملی و ارائه جوابهای بهینه یا نزدیک به بهینه با احتمال بالا، امکان پذیر شده است. در پاسخ به این روند، بسیاری از تحقیقات فعلی در حوزه فیلوانفورماتیک (Phyloinformatics) (به عنوان مثال، فیلوژنتیک محاسباتی (Computational phylogenetics)) بر توسعه رویکردهای ابتکاری (Heuristic) کارآمدتر متمرکز است.
مراحل آنالیز فیلوژنتیک
مراحل اساسی در هر آنالیز فیلوژنتیکی عبارتند از:
یک مجموعه داده را جمعآوری و همتراز کنید.
اولین مرحله شامل شناسایی یک پروتئین یا توالی DNA هدف و جمعآوری مجموعه دادهای متشکل از سایر توالیهای مرتبط است.
توالیهای DNA هدف را میتوان با استفاده از NCBI BLAST یا ابزارهای جستجوی مشابه، بازیابی کرد.
هنگامی که توالیها انتخاب و بازیابی شدند، همترازسازی چند توالی (Multiple Sequence Alignment) ایجاد میشود.
این امر شامل مرتب کردن مجموعهای از توالیها در یک ماتریس برای شناسایی مناطق همسانی است.
وبسایتها و برنامههای نرمافزاری زیادی مانند ClustalW، MSA، MAFFT و T-Coffee وجود دارند که برای انجام همترازسازی چند توالی بر روی یک مجموعه از دادههای مولکولی طراحی شدهاند.
ساخت (تخمین) درختان فیلوژنتیک از توالیها با استفاده از روشهای محاسباتی و مدلهای تصادفی
برای ساخت درختان فیلوژنتیک، از روشهای آماری برای تعیین توپولوژی (Topology) درخت و محاسبه طول شاخهها استفاده میشود که روابط فیلوژنتیکی توالیهای همتراز شده در یک مجموعه داده را به بهترین شکل توصیف میکند.
رایجترین روشهای محاسباتی مورد استفاده شامل روشهای ماتریس فاصله، و روشهای دادههای گسسته، مانند بیشترین بهینگی (Maximum parsimony) و حداکثر درستنمایی (Maximum likelihood) است.
پکیجهای نرمافزاری متعددی مانند Paup، PAML، PHYLIP وجود دارند که از این روشهای بسیار محبوب استفاده میکنند.
درختان تخمین زده شده را به صورت آماری آزمایش و ارزیابی کنید.
الگوریتمهای تخمین درخت یک یا چند درخت بهینه تولید میکنند.
این مجموعه از درختان ممکن، تحت یک سری آزمایشهای آماری قرار میگیرند تا ارزیابی شوند که آیا یک درخت بهتر از دیگری میباشد یا نه و آیا فیلوژنی پیشنهادی منطقی است.
روشهای متداول برای ارزیابی درختان شامل روشهای نمونهبرداری مجدد Bootstrap و Jackknife و روشهای تحلیلی مانند حداکثر بهینگی، فاصله و درستنمایی است.
📷
ابزارهای بیوانفورماتیک برای آنالیز فیلوژنتیک
چندین ابزار بیوانفورماتیک و پایگاه داده وجود دارد که میتوان از آنها برای آنالیز فیلوژنتیک استفاده کرد.
این ابزارها عبارتند از PANTHER، P-Pod، PFam، TreeFam، و دایرهالمعارف فیلوژنومیک ساختاری PhyloFacts.
هر یک از این پایگاههای اطلاعاتی از الگوریتمهای متفاوتی استفاده میکنند و از منابع مختلفی در مورد اطلاعات توالی استفاده میکنند، و بنابراین درختهای تخمین زدهشده توسط PANTHER، برای مثال ممکن است به طور قابلتوجهی با درختهای تولید شده توسط P-Pod یا PFam متفاوت باشند.
مانند تمام ابزارهای بیوانفورماتیک از این نوع، آزمایش روشهای مختلف، مقایسه نتایج، سپس تعیین اینکه کدام پایگاه داده (بر اساس نتایج اجماع) برای مطالعات شامل انواع مختلف مجموعه دادهها، بهتر کار میکند، مهم است.