سرویسهای متنکاوی و پردازش متن فارسییار
مفاهیم اولیه پردازش زبان طبیعی
مقدمه و تعاریف
پردازش زبان طبیعی (Natural Language Processing) یکی از زیرشاخههای با اهمیت در حوزه گسترده هوش مصنوعی و دانش زبانشناسی است. تلاش عمده در این زمینه، ماشینی کردن فرایند درک و برداشت مفاهیم بیان شده توسط یک زبان طبیعی انسانی است. به تعریف دقیقتر پردازش زبانهای طبیعی استفاده از رایانه به منظور پردازش و درک زبان گفتاری و نوشتاری انسانها است. پردازش زبانها و مکالمات طبیعی یکی از اموری است که با ورود فناوری رایانهای به زندگی بشر مورد توجه بسیاری از دانشمندان قرار گرفته است. حتی اندیشهای که تورینگ از ماشین هوشمند خود و تعریفی که او از هوش مصنوعی داشت، در مرحله اول مربوط به پردازش زبان طبیعی میشد.
پردازش زبان طبیعی رهیافت بسیار جذابی برای ارتباط بین انسان و ماشین به شمار میآید و در صورت عملی شدنش به طور کامل میتواند تحولات شگفتانگیزی را در پی داشته باشد. مسئله پردازش زبان طبیعی یکی از مسائل اصلی هوش مصنوعی به شمار میآید، چرا که محقق شدن آن به طور کامل، مستلزم سطح بالایی از درک جهان خارج و حالات انسان برای ماشین است.
هدف اصلی در پردازش زبان طبیعی، ایجاد تئوریهای محاسباتی از زبان، با استفاده از الگوریتمها و ساختارهای دادهای موجود در علوم رایانهای است. بدیهی است که در راستای تحقق این هدف، نیاز به دانشی وسیع از زبان است و علاوه بر محققان علوم رایانهای، نیاز به دانش زبان شناسان نیز در این حوزه میباشد.
حوزههای پردازش زبان طبیعی
کاربردهای پردازش زبان طبیعی به دو دسته کلی، کاربردهای نوشتاری (پردازش متن یا متن کاوی) و کاربردهای گفتاری قابل تقسیم است. از کاربردهای نوشتاری آن میتوان به استخراج اطلاعاتی خاص از یک متن، ترجمه یک متن به زبانی دیگر و یا یافتن مستنداتی خاص در یک پایگاه داده نوشتاری (مثلا یافتن کتابهای مرتبط به هم در یک کتابخانه) اشاره نمود. نمونههایی از کاربردهای گفتاری پردازش زبان عبارتند از: سیستمهای پرسش و پاسخ انسان با رایانه، سرویسهای اتوماتیک ارتباط با مشتری از طریق تلفن و یا سیستمهای کنترلی توسط فرامین صوتی. در سالهای اخیر این حوزه تحقیقاتی توجه دانشمندان را به خود جلب کرده است و تحقیقات قابل ملاحظهای در این زمینه صورت گرفته است. برای کسب اطلاعات بیشتر درباره کاربردهای پردازش زبان طبیعی میتوانید به این مقاله مراجعه بفرمایید.
بر همین مبنا الگوریتمهای بسیاری برای رسیدن به برنامههایی هوشمندتر توسط دانشمندان و متخصصین علوم رایانه، زبانشناسی و ریاضیدانان، طراحی و پیشنهاد شده است. به عنوان مثال الگوریتمهای الگوی مارکوف و الگوی مخفی مارکوف و نیز تلاشهای چندین ساله نوام چامسکی در این راه، نمونه خوبی برای این امور است. روز به روز بر پیشرفتهای دانشمندان در این امر افزوده میشود و دانشمندان در سراسر دنیا سعی بر بهبود روشها و پیاده سازی این روشها در زبانهای بومی خودشان هستند.
سطوح (ردههای) پردازش زبان طبیعی
اطلاعات و دانشی که در پردازش زبان طبیعی از آنها استفاده میشود به هفت سطح (رده) مختلف تقسیمبندی میشوند:
- آوا شناسی (Phonetics) که به تشخیص آواها و صداها و بازشناسی گفتار میپردازد.
- واجشناسی (Phonology) که به بررسی واج یا هجا (بخش)ها در کلمات میپردازد.
- ریخت شناسی (Morphology) که به ساختارهای کلمات و ریشهیابی واژگان میپردازد.
- نحو (Syntax) که به ارتباط کلمات به همدیگر و مباحث دستوری آنها در گروهها و جملات میپردازد.
- معناشناسی (Semantics) که به ارتباطات معنایی اصلی کلمات در متن و ابهامزدایی مفاهیم میپردازد.
- عملگرایی (Pragmatics) که کاربردهای زبان برای رساندن یک مطلب به مخاطب یا مخاطبان، در حالت عملی و یا در نوشتار و گفتار طبیعی میپردازد.
- گفتمان یا مباحثه (Discourse) که به ارتباطات کلی یک زبان فرای یک یا چند جمله خاص میپردازد.
برای کسب اطلاعات بیشتر درباره سطوح زبان طبیعی میتوانید به این مقاله مراجعه بفرمایید.
زبان فارسی از دیدگاه ریختشناسی
در زبان فارسی، هر فعل شامل زمان، تعداد و شخص است. به عنوان مثال، فعل «میخوانم» یک فعل زمان حال متشکل از سه واژک است: پسوند «م» نشانگر اول شخص مفرد، «خوان» ریشه زمان حال فعل و پیشوند «می» حاکی از تداوم است. اگر فعل دارای ضمیر مفعولی باشد، این ضمیر به انتهای فعل متصل میشود، مانند: «میخوانمش» که در آن «ش» ضمیر مفعولی نامیده میشود. همچنین، شکل منفی فعل با افزودن «ن» به ابتدای آن تشکیل میشود. به عنوان مثال، «نمیخوانم» شکل منفی فعل «میخوانم» است.
اسمها بیش از سایر واژهها در زبان فارسی چالش برانگیز هستند. دستورات متعددی برای اسمها گردآوری شد که توضیح یکی از این موارد در این بخش ارائه میشود. شکل جمع اسم با افزودن پسوندهای (ها، ان، ات، ون، ین) تشکیل میشود. «ها» برای تمام واژهها بکار برده میشود. «ان» برای انسان، حیوان و هر موجود زنده قابل کاربرد است. همچنین، «ات، و، ین» برای برخی واژههای عاریه گرفته شده از زبان عربی و برخی واژههای فارسی استفاده میشود. شکل جمع دیگری در زبان فارسی وجود دارد که جمع مکسر نامیده میشود که شکل جمع اشتقاقی (اشکال نامنظم در زبان فارسی) است.
دستورات نوشتاری نیز وجود دارد که اثرات افزودن و همراهی پیشوند و پسوند به واژه را نشان میدهد. به عنوان مثال، دو بخش از یک واژه را در نظر بگیرید: A و B به صورت BA بکار برده میشوند. اگر حرف آخر A و حرف اول B به صورت «ا» باشند، حرف «ی» بین آنها اضافه میشود. فرض کنید A «دانا» و B “ان” است، همراهی این دو بخش «دانایان» را بدست میدهد.
بررسی مختصر ساختارشناسی زبان فارسی
زبان فارسی یک زبان SOV (Subject–object–verb) تصریفی و دارای ترتیب واژگانی نسبتاً ثابت است که به شاخه غرب ایران در زبانهای هندو اروپایی تعلق دارد. دامنه گویش این زبان حدوداً ۲۰۰ میلیون نفر، به ویژه در ایران، افغانستان و تاجیکستان و ازبکستان، و همچنین در پاکستان، بحرین، عراق، قزاقستان و اقوام ایران را دربرمیگیرد. در ایران، جای که زبان فارسی به منزله زبان رسمی بکار برده میشود، اغلب دری، پارسی نیز نامیده میشود.
واژههای غیرفعل
در زبان فارسی دو مشخصه عددی، مفرد و جمع مشاهده میشود که شکل جمع تنها با پسوند «ها» (برای تمام اسامی قابل شمارش)، یا صرفاً برای برخی اسامی جاندار پسوندهای «ان» یا یکی از علائم جمع عربی «ات»، «ون»، «ین» و غیره مشخص میشود که این علائم فقط به واژههای عاریهای عربی متصل میشود. تعداد کلمات اندکی بصورت جمع فارسی مکسر نیز در زبان فارسی وجود دارد که به طور مستقیم ریشه در واژههای عاریهای عربی دارد. لیکن، هیچ تغییری در این ساختار در خصوص چنین اسامی جمع صورت نمیگیرد. همچنین، حرف ویژهای (ی) برای تعین اسامی تغییریافته وجود دارد که اضافه نامیده میشود. اسم معین و یا عبارات اسمی کامل به صورت مؤلفه اصلاحی مشخص میگردد.
علاوه بر این، علامت «ای» وجود دارد که اشکال را از نظر مفرد و جمع جدا نمیسازد؛ اگر این علامت به اسم تغییریافته از صفت متصل شود، بلافاصله یک اسم یا صفت بعد از آن جای میگیرد. در حالت اول، اسم حرف اضافه نمیپذیرد، در حالی که در مورد دوم، حرف اضافه بکار برده میشود. سایر علائم اعرابی شامل «ای» همراه با علامت نسبی «ک»، علامت معین دلخواه «ه»، و ضمیر صفت ساز «را» است. صفتها تنها از نظر پذیرش پسوند «تر» برای شکل نسبی و «ترین» برای شکل عالی از یکدیگر متفاوت هستند. لیکن، صفات حرف اضافه را به دنبال اسم تغییریافته یا در صورت وجود یا نبود صفت میپذیرند. این مسأله به ویژه در خصوص صفات مشتق از شکل فعلی مصداق مییابد.
واژههای فعل
با توجه به رده فعلی (فعلها)، زبان فارسی مانند بیشتر زبانهای ایرانی دارای حجم بسیار محدودی از واژههای فعلی است. این دامنه شامل حدود ۲۰۰ واژه است. بیشتر معانی فعلی که از بیشتر زبانهای هندواروپایی گسترش یافته شناخته شدهاند از طریق گزارههای فعلی پیچیده بیان میشوند که از فعل ساده و مؤلفه گزارهای تشکیل شده است. این مؤلفه اسم یا صفت است.
ساختار شناختی فعلی تقریباً پیچیده است، اما الگوی نسبتاً سادهای را دنبال میکند. توضیحات ساختار شناختی زبان فارسی معمولاً حاکی از وجود دو ریشه فعلی جدا است، یکی برای شکل زمان حال فعل و دیگری برای شکل زمان گذشته. زمان حال در شکل امری و ساده بکار برده میشود، در حالیکه در زمانهای گذشته، گذشته کامل مورد استفاده قرار میگیرد. زمانهای مرکب و نیز وجه مجهول از گذشته کامل مشتق میشود.
استفاده از این مقاله با ذکر منبع (سامانه متن کاوی فارسییار)، بلامانع است.
مطلبی دیگر از این انتشارات
معرفی بهترین کتابخانههای پردازش متن - بخش پنجم (GATE, RapidMiner, MALLET, FreeLing)
مطلبی دیگر از این انتشارات
فراخوان مشارکت عمومی برای کمک به زبان فارسی
مطلبی دیگر از این انتشارات
کاربردهای پردازش زبان طبیعی