پاسخگویی دامنه باز (ODQA) یا همان Open-Domain Question Answering یکی از چالشهای پردازش زبان طبیعی (NLP) میباشد که در آن مدلی آموزش میبیند که بر اساس دانش حقیقی به سوالات مربوطه پاسخ دهد. پاسخ درست بر خلاف چالش های تولید متن مشخص است، پس ارزیابی مدل امری آسان میباشد.
به عنوان مثال:
سوال: نرخ سود سپرده کوتاهمدت عادی (کارتهای بانکی) در سال ۱۴۰۰ چقدر است؟
جواب: ۱۰ درصد
دامنه-باز بودن این چالش از آن جهت میباشد که پیشزمینه مرتبطی (context) برای پاسخگویی به سوال ارائه نمیشود. در مثال بالا، مدل تنها با یک سوال به عنوان ورودی مواجه میشود. بر خلاف چالش درک مطلب (Reading Comprehension) که متنی که حاوی جواب مناسب باشد نیز باید به عنوان پیشزمینه به ورودی مدل داده شود.
به طور کلی، کارهای انجام شده در این زمینه را میتوان به ۳ نوع معماری دستهبندی کرد [1].
۱) مدلی که به درستی میتواند پاسخ سوالهای مشابه با سوالهای زمان آموزش خود را با استفاده از یک دانش خارجی به دست آورد
۲) مدلی که میتواند با استفاده از یک دانش خارجی در زمان آموزش، جوابهای نوین برای سوالات نوین تولید کند
۳) مدلی که به سوالات نوین، جواب نوینی بدون نیاز به دانش خارجی تولید میکند
مولفه بازیابی اطلاعات (Retriever): وظیفه بازیابی context مناسب که جواب سوال را شامل میشود دارد. برای پیاده سازی این مولفه سیستمهای زیر قابل استفاده هستند:
مولفه دانا (Reader): وظیفه فهم سوال و پیدا کردن پاسخ کوتاه دقیق و مشخص از context به دست آمده از مولفه بازیابی اطلاعات را بر عهده دارد. برای پیاده سازی این مولفه سیستمهای زیر قابل استفاده هستند:
مولفه مولد (Generator): وظیفه فهم سوال و تولید پاسخ مرتبط و مشخص کوتاه از context به دست آمده از مولفه بازیابی اطلاعات را بر عهده دارد.
[1] Question and Answer Test-Train Overlap in Open-Domain Question Answering Datasets, Patrick Lewis, Pontus Stenetorp, Sebastian Riedel, https://arxiv.org/abs/2008.02637
[2] Reading Wikipedia to Answer Open-Domain Questions, Danqi Chen, Adam Fisch, Jason Weston, Antoine Bordes, https://arxiv.org/abs/1704.00051
[3] How to Build an Open-Domain Question Answering System, Weng, Lilian, 2020