رایانک مالشی یا زبانشناسی رایانشی؟

اگر جزو آدم‌هایی باشید که دو تا عبارت بالا رو برای خنده با هم ترکیب می‌کنن و می‌خندن، یا اگر این عنوان کاملا براتون جدید و غریبه یا اگر درگیر دودلی‌های مربوط به انتخاب رشته ارشد هستید این یادداشت برای شما مناسبه.

اگر فیلم 2013 Her رو دیدید بهش فکر کنید. اما اگرندیدید دنیایی رو تصور کنید که توش میشه با کامپیوترها صحبت کرد یا براشون چیزی نوشت. فرض کنید بتونن معنی و مفهوم صحبت یا نوشته‌های ما رو بفهمن و تحلیل کنن. حتی بشه باهاشون درددل کرد و ازشون خواست کاری که میخوایم رو انجام بدن. هدف زبانشناسی رایانشی هرچه قوی‌تر و ماهرتر کردن ماشین‌ها برای ساختن چنین دنیاییه.

زبانشناسی رایانشی یه رشته بین رشته ایه که در بازارکار، به خصوص در بازارکار ایران، بیشتر با عنوان پردازش زبان طبیعی شناخته میشه. جایی که علم داده، علم زبانشناسی، هوش مصنوعی و علوم کامپیوتر و چند تا چیز دیگه به هم میرسند. اما اگر از من بپرسید و بخواهید اسم دلخواه خودم رو روش بگذارم، میگم مهندسی زبان. زبان نه به عنوان مرسومی که برای زبان انگلیسی به کار می‌بریم. زبان به عنوان آنچه که بهش می‌گیم زبان. همین ابزار تفکر یا ابزار برقراری ارتباط که ازش استفاده می‌کنیم. فارسی، عربی، اسپانیایی، یا هر زبان دیگه.

از بین معروف‌ترین و شناخته شده ترین کاربردهای این رشته که خیلی‌هامون با خیلی‌هاشون تقریبا هرروز سروکار داریم میشه به دستیار صوتی شرکت اپل، Siri، دستیار صوتی گوگل، مترجم ماشینی Google Translate، اپلیکیشن‌های تصحیح گرامر یا اصلاح املا مثل Grammarly یا ورژن فارسی اون‌ها مثل ترگمان یا ویراستیار اشاره کرد. شاید براتون جالب باشه که بدونین در مورد تبدیل متن به گفتار یا گفتار به متن فارسی هم کارهایی شده و میشه که ربات آریانا یه نمونه از اون‌هاست.

مهم‌ترین مهارت‌ها و علایق موردنیاز برای ادامه تحصیل و موفقیت در این رشته در درجه اول برنامه‌نویسی، تفکر الگوریتمی، ریاضیات (خصوصا آمار و احتمالات) است و در درجه دوم و سوم، زبانشناسی و تسلط به زبانی که دوست دارید کارهای تحقیقاتی یا پروژه‌هاتون رو بر مبنای اون انجام بدید. مثلا فارسی یا انگلیسی. به عبارت دیگه، بهترین و مرتبط‌‌‌ترین رشته کارشناسی برای کسی که میخواد در این رشته ادامه تحصیل بده، علوم کامپیوتر یا مهندسی نرم‌افزاره. اما شما با هر پیشینه دیگری هم می‌تونید وارد این رشته بشید.

اگر تا اینجا این یادداشت رو برای آشنایی با این رشته به منظور انتخاب رشته خوندین، بقیه‌اش براتون مهم‌تر خواهد بود و حتما بخونین. در غیر این صورت میتونین خوندن رو متوقف کنید.

  • نکته اول: اگر به علت عدم تسلط به برنامه نویسی، و نه عدم علاقه، در مورد انتخاب این رشته دودل هستید، بدانید و آگاه باشید که می‌تونین با تلاش و وقت‌گذاشتن و تمرین به تسلطی که می‌خواهید برسید. اما لازمه‌اش اختصاص دادن زمان و انرژی و به خصوص تمرکزه. هیچ‌کس برنامه‌نویس به دنیا نمیاد و نیومده و نخواهد آمد. به عبارت دیگه، اگر به اندازه کافی وقت و انرژی و انگیزه دارید، شک نکنید که به احتمال خیلی زیاد می‌تونید یاد بگیرید و موفق بشید. اما اگر در کنار درس، مشغله‌های بزرگ دیگه دارید، بچه کوچیک دارید، شغل پراسترس و وقت‌گیر دارید و میخواید از روی تفنن برای کسب مدرک کنار کارهای دیگه یه مدرک فرمالیته ارشد هم بگیرید و از قبل هم به برنامه‌نویسی تسلط ندارید، ممکنه با ورود به این رشته وقتتون تلف بشه یا حتی کار به انصراف از تحصیل، دلزدگی، مشروطیت یا اخراج برسه.
  • نکته دوم: درس‌های اصلی که توی هرترم خونده میشن اینها هستن. می‌تونید با یه جست‌وجوی ساده تو گوگل ببینید این درس‌ها براتون جالب هستن یا نه. ( این موارد تنها دروس نیستن و یک سری واحدهای اختیاری هم وجود دارند. در ضمن این‌ها مربوط به چارت دانشگاه تهران برای ورودی‌های سال 97 هست و ممکنه دوره‌های مختلف یا دانشگاه‌های مختلف تفاوت‌های نه چندان چشم‌گیری داشته باشن.)

ترم یک: (دروس جبرانی)

آمار و احتمالات، برنامه‌نویسی، نحو، آواشناسی (درس اصلی)، روش تحقیق

ترم دو:

یادگیری ماشین، آشنایی با زبانشناسی رایانشی، نحو پیشرفته، معنی‌شناسی

ترم سه/ چهار/پنج:

پردازش زبان طبیعی، روش‌های آماری در پردازش زبان طبیعی، مهندسی دانش و هستان‌شناسی، زبانشناسی پیکره‌ای، ساخت‌واژه، به علاوه پایان‌نامه.

  • نکته سوم: چیز دیگه‌ای که می‌تونه شما رو از سردرگمی انتخاب دربیاره و بهتون کمک کنه، آشنایی با چند نمونه از پایان‌نامه‌ها و مقالاتیه که در این زمینه نوشته شده، عناوینشون، زمینه کاریشون، و روش‌هایی که برای حل مسائل توی این رشته به کارگرفته شده. در ادامه به چند نمونه از این موارد اشاره می‌کنم؛استفاده از یادگیری عمیق برای تحلیل احساسات، رفع ابهام معنایی از کلمات، طراحی سیستم‌های تلفظ خودکار، طراحی سیستم‌های تبدیل گفتار به متن و متن به گفتار چند نمونه خوب از این موارد هستن.
  • نکته چهارم: باتوجه به دفترچه انتخاب رشته سازمان سنجش، امسال، یعنی سال تحصیلی 98-99 ، این رشته در دانشگاه صنعتی شریف، دانشگاه تهران، دانشگاه اصفهان و موسسه غیرانتفاعی خاوران مشهد در نوبت‌های روزانه و شبانه ارائه شده و در مجموع 45 نفر ظرفیت براش وجود داره.
  • نکته پنجم: متداول‌ترین زبان برنامه‌نویسی که برای کارهای مربوط به این رشته ازش استفاده می‌شه پایتونه و علتش هم غنای پکیج‌های موجود در این زبان برای کارهای مربوط به علم داده و پردازش زبان طبیعیه. علت دیگر این انتخاب سطح بالابودن این زبان و نزدیک بودنش به زبان آدمیزاده و این یادگیریش رو آسون‌تر و لذت‌بخش‌ترمی کنه.
  • نکته ششم: چندتا لینک، دریچه‌هایی به اطلاعات بیشتر:

وب سایت towardsdatascience

دوره‌های آموزشی Coursera

پادکست و وبسایت data skeptic

گروه پردازش زبان طبیعی دانشگاه استنفورد

  • نکته هفتم: راه‌ ارتباطی با من برای تبادل اطلاعات بیشتر

reyhaneh.amouie@gmail.com