نوشته های Hesam Korki

نوشته های Hesam Korki https://virgool.io/feed/@hesam.korki دانشمند داده @ پیام‌رسان بله | محقق و دانشجوی هوش مصنوعی fa 2024-11-05 18:12:34 https://files.virgool.io/upload/users/251363/avatar/avatar.png?height=120&width=120 Hesam Korki https://virgool.io/@hesam.korki برت - BERT https://virgool.io/baleacademy/bert-k2cvhzesbphu برت چیست؟برت نوعی مدل زبانی (language model) برای حل چالش‌های به‌روز در زمینۀ پردازش زبان‌های طبیعی (NLP) است. این مدل حاصل مقاله‌ای از محققان گوگل است که اولین بار در سال ۲۰۱۸ به چاپ رسید و در سال ۲۰۱۹ بازبینی شد. نتایج به‌دست‌آمدۀ برت در معیار‌های پردازش و فهم زبان‌های طبیعی به‌قدری خوب بود که توجه زیادی به خود جلب کرد.نو‌آوری فنی کلیدی برت که آن را متمایز می‌سازد پیاده‌سازی آموزش دوطرفه روی معماری ترنسفورمر‌ها (نوعی معماری یادگیری عمیق با استفاده از مکانیزم توجه) برای مدل‌سازی زبان‌هاست. تلاش‌های قبل از این دنبالۀ متون را یا از چپ به راست یا از راست به چپ بررسی می‌کردند. نتایج مقالۀ برت نشان می‌دهد که رویکرد دوطرفه باعث می‌شود مدل طراحی‌شده ازنظر فهم زمینه (context) و جریان کلمات (flow)، در مقایسه با مدل‌های یک‌طرفه، زبان را عمیق‌تر درک کند. در این مقاله، تکنیکی با عنوان MLM یا Masked Language Model معرفی می‌شود که آموزش دوطرفه را ممکن می‌سازد.پیش‌زمینهچندین سال است که دانشمندان از مفهوم یادگیری انتقالی (Transfer Learning) در حوزۀ بینایی ماشین استفاده می‌کنند. یادگیری انتقالی به این معناست که شبکه‌ای عصبی را روی دادگان بسیار زیادی به‌صورت بدون نظارت برای انجام کار مشخصی آموزش دهید (مثل ImageNet). سپس از این مدل به‌عنوان لایه‌های پایه‌ای برای تنظیم دقیق (fine-tune) روی داده‌های محدود به کار خود استفاده کنید (Dog/Cat Classification).در سال‌های اخیر، محققان نشان داده‌اند که همین تکنیک در بسیاری از تسک‌های پردازش زبان طبیعی مفید واقع می‌شود. ترنسفورمر‌ها (Transformers)، که پیش از این به آن‌ها اشاره شد، در واقع تلاشی برای پیاده‌سازی این مفهوم در زمینۀ پردازش زبان‌های طبیعی هستند که از مکانیزم توجه (Attention Mechanism) بهره می‌برند.عملکرد برتبرت از مکانیزم توجه ترنسفورمر‌ها استفاده می‌کند که رابطۀ‌ بین کلمات را در زمینه‌های مختلف یاد می‌گیرد. در ساده‌ترین شکل خود، ترنسفورمر شامل دو مکانیزم جداست: یک کدگذار (Encoder) که متن ورودی را می‌خواند و یک کدگشا (Decoder) که پیش‌بینی محتمل را برای تسک مشخص‌شده بیان می‌کند. مثال استفاده از ترنسفورمر در تسک ترجمه‌ی ماشینی از آنجا که هدف برت ساختن نوعی مدل زبانی است که متون را می‌فهمد، تنها استفاده از لایه‌های کدگذار (Encoder) ضروری است.برعکس مدل‌های قبلی (RNNs و LSTM) که متن ورودی را به‌ترتیب از چپ به راست یا از راست به چپ می‌خواند، لایۀ کدگذار ترنسفورمر‌ها دنباله‌ای از کلمات ورودی را به‌صورت یکجا می‌خواند. این خصوصیت باعث می‌شود که مدل مدنظر زمینۀ (context)‌ یک کلمه را بر اساس کلمه‌های نزدیکش (چپ یا راست) یاد بگیرد.معماری برتدو اندازه برای مدل برت معرفی شده است:برت پایه (BERTBASE): متشکل از ۱۲ لایۀ کدگذار است. تعداد کل پارامتر‌های شبکه ۱۱۰ میلیون است.برت بزرگ (BERTLARGE): متشکل از ۲۴ لایۀ کدگذار که طبیعتاً تعداد پارامتر‌ها ۳۴۰ میلیون است و حجم بیشتری دارد. همچنین سرعت آموزش آن کمتر است، ولی نسبت به مدل پایه دقت بیشتر و عملکرد بهتری دارد.اندازه‌های مختلف مدل برتاین دو از دیگر جنبه‌ها نیز متفاوت هستند: برت پایه ۷۶۸ لایۀ پنهان (hidden layer) در شبکۀ خود دارد؛ این در حالی است که برت بزرگ ۱۰۲۴ لایۀ پنهان دارد.ورودی/خروجی برتبرای اینکه بتوان از برت در تسک‌های نهایی مختلف‌ (دسته‌بندی، پاسخ به پرسش، آنالیز احساسات و...) استفاده کرد، می‌توان ورودی را در شکل‌های مختلفی به مدل داد.نحوه دریافت ورودی توسط برتورودی مدل ممکن است یک دنباله شامل حداکثر ۵۱۲ توکن باشد‌ (این عدد را می‌شود تنظیم کرد) که با توکن [CLS] شروع می‌شود و دنباله‌ها با توکن [SEP] از هم جدا می‌شوند. هر المان خروجی یک بردار با اندازۀ لایه‌های پنهانی است که برای مدل پایه، بردار‌هایی به طول ۷۶۸ است. برای مثال، از این بردار می‌توان در ورودی یک شبکۀ یک‌لایه برای دسته‌بندی استفاده کرد.مثالی از خروجی برت برای تسک دسته‌بندیاگر دسته‌بندی شما بیشتر از دو حالت باشد (multi class classification)، تنها کافی است لایۀ softmax را طوری تغییر دهید که تعداد خروجی به‌ اندازۀ کلاس‌های مدنظر شما شود. Hesam Korki Hesam Korki Wed, 16 Jun 2021 13:20:31 +0430 پاسخگویی دامنه باز چیست https://virgool.io/@hesam.korki/odqa-zexdjlgvh40v پاسخگویی دامنه باز (ODQA) یا همان Open-Domain Question Answering یکی از چالش‌های پردازش زبان طبیعی (NLP) می‌باشد که در آن مدلی آموزش می‌بیند که بر اساس دانش حقیقی به سوالات مربوطه پاسخ دهد. پاسخ درست بر خلاف چالش های تولید متن مشخص است، پس ارزیابی مدل امری آسان می‌باشد.به عنوان مثال:سوال: نرخ سود سپرده کوتاه‌مدت عادی (کارت‌های بانکی) در سال ۱۴۰۰ چقدر است؟جواب: ۱۰ درصددامنه-باز بودن این چالش از آن جهت می‌باشد که پیش‌زمینه مرتبطی (context) برای پاسخگویی به سوال ارائه نمی‌شود. در مثال بالا، مدل تنها با یک سوال به عنوان ورودی مواجه می‌شود. بر خلاف چالش درک مطلب (Reading Comprehension) که متنی که حاوی جواب مناسب باشد نیز باید به عنوان پیش‌زمینه به ورودی مدل داده شود.معماری سیستمبه طور کلی، کار‌های انجام شده در این زمینه را می‌توان به ۳ نوع معماری دسته‌بندی کرد [1].۱) مدلی که به درستی می‌تواند پاسخ سوال‌های مشابه با سوال‌های زمان آموزش خود را با استفاده از یک دانش خارجی به دست آورد۲) مدلی که می‌تواند با استفاده از یک دانش خارجی در زمان آموزش، جواب‌های نوین برای سوالات نوین تولید کند۳) مدلی که به سوالات نوین، جواب نوینی بدون نیاز به دانش خارجی تولید می‌کندشکل ۱ - به ترتیب از چپ موارد ۱ تا ۳ که شرح داده شد پیاده سازیمولفه بازیابی اطلاعات (Retriever): وظیفه بازیابی context مناسب که جواب سوال را شامل می‌شود دارد. برای پیاده سازی این مولفه سیستم‌های زیر قابل استفاده هستند:روش‌های آماری: TF-IDF و BM25استفاده از مدل‌های بر پایه Transformer ها: Dot Product of BERT embeddings و Intent Recognition یا multi label classificationمولفه دانا (Reader): وظیفه فهم سوال و پیدا کردن پاسخ کوتاه دقیق و مشخص از context به دست آمده از مولفه بازیابی اطلاعات را بر عهده دارد. برای پیاده سازی این مولفه سیستم‌های زیر قابل استفاده هستند:مدل‌های یادگیری عمیق: Bidirectional LSTMاستفاده از مدل‌های بر پایه Transformer Encoders ها: BERT-RC و T5مولفه مولد (Generator): وظیفه فهم سوال و تولید پاسخ مرتبط و مشخص کوتاه از context به دست آمده از مولفه بازیابی اطلاعات را بر عهده دارد.استفاده از مدل‌های بر پایه Transformer Decoders ها: GPTمراجع[1] Question and Answer Test-Train Overlap in Open-Domain Question Answering Datasets, Patrick Lewis, Pontus Stenetorp, Sebastian Riedel, https://arxiv.org/abs/2008.02637[2] Reading Wikipedia to Answer Open-Domain Questions, Danqi Chen, Adam Fisch, Jason Weston, Antoine Bordes, https://arxiv.org/abs/1704.00051[3] How to Build an Open-Domain Question Answering System, Weng, Lilian, 2020 Hesam Korki Hesam Korki Wed, 19 May 2021 13:28:47 +0430