
NLI (مخفف Natural Language Inference) یا استنتاج زبان طبیعی TE (مخفف textual entailment ) یکی از وظایف اساسی و مهم در حوزه پردازش زبان طبیعی (NLP) است. هدف اصلی NLI این است که بفهمیم آیا یک جمله (به نام فرضیه) از روی یک جمله دیگر (به نام پیشفرض) نتیجهگیری میشود، تناقض دارد یا بیارتباط است. به عبارت سادهتر، NLI به مدلهای یادگیری ماشین کمک میکند تا رابطه منطقی بین دو جمله را تشخیص دهند.
در NLI، معمولاً سه نوع رابطه اصلی بین دو جمله در نظر گرفته میشود:
Entailment (استنتاج / نتیجهگیری):
جمله دوم (فرضیه) به طور منطقی از جمله اول (پیشفرض) نتیجه میشود.
پیشفرض: علی به کتابخانه رفت.
فرضیه: علی از خانه بیرون رفت.
نتیجه: Entailment (فرضیه از پیشفرض نتیجه میشود).
Contradiction (تناقض):
پیشفرض: علی به کتابخانه رفت.
فرضیه: علی در خانه ماند.
نتیجه: Contradiction (فرضیه با پیشفرض در تناقض است).
Neutral (خنثی / بیارتباط):
پیشفرض: علی به کتابخانه رفت.
فرضیه: علی برای خرید به فروشگاه رفت.
نتیجه: Neutral (فرضیه هیچ ارتباط منطقی با پیشفرض ندارد).
نمونه دیتاست ها با ساختار های دیگه : pair, pair-class, pair-score, triplet
from sentence_transformers import CrossEncoder model = CrossEncoder("cross-encoder/nli-deberta-v3-base") scores = model.predict([ ("A man is eating pizza", "A man eats something"), ("A black race car starts up in front of a crowd of people.", "A man is driving down a lonely road."), ]) # Convert scores to labels label_mapping = ["contradiction", "entailment", "neutral"] labels = [label_mapping[score_max] for score_max in scores.argmax(axis=1)] # => ['entailment', 'contradiction']

SNLI یکی از اولین و معروفترین مجموعهدادهها برای وظیفه NLI است. این مجموعه داده توسط دانشگاه استنفورد ساخته شده و به صورت گستردهای در تحقیقات اولیه NLI استفاده شده است.
MNLI نسخه پیشرفتهتر SNLI است که شامل دادههایی از حوزهها (ژانرهای) مختلف است. این مجموعه برای بررسی عملکرد مدلها در شرایط مختلف و دادههای متنوعتر طراحی شده است.
ANLI یک مجموعه داده پیشرفتهتر است که برای چالشبرانگیزتر کردن وظیفه NLI طراحی شده است. این مجموعه به صورت ادورسری (Adversarial) ساخته شده است، به این معنا که جملاتی طراحی شدهاند که مدلهای NLI موجود را به چالش بکشند.
XNLI نسخه چندزبانه از وظیفه NLI است. این مجموعه داده برای بررسی توانایی مدلها در انجام استنتاج زبان طبیعی در زبانهای مختلف طراحی شده است.
ویژگیها: