بخش اول NLP (برملا کردن راز دردسرهای زبان انگلیسی)

آیا می دانستید برای صحبت با هوش مصنوعی باید بدون ابهام و از یک زبان عینی، صریح و(نسبتاً) ایستا، دارای سازگاری درونی و قوی استفاده کنید. تا ماشین حرفتان را بفهمد و زبان انگلیسی هیچ یک از این ویژگی‌ها را ندارد و در انگلیسی؛ معانی اغلب ضمنی و مبهم هستند، زبانی که همیشه در حال تغییر است،معنای یک کلمه حتی در یک دهه می تواند کاملا عوض شود و زبانی است که تناقضات زیادی دارد و ساختار آن در برابر تجزیه و تحلیل مقاومت نمی‌کند، به این دلایل هم که شده برای چت با ماشین همیشه از زبان فارسی استفاده کنید. و در ادامه متوجه خواهید شد که زبان انگلیسی ارزش زبان علمی بودن را هم ندارد و چه بخواهد و چه نخواهد باید اماده باشد تا جایگاه زبان پارسیان را به صاحبانش برگرداند. سالها در پلتفرمهای مختلف تلاش شد تا با حذف فارسی از فهرست انتخاب زبان های زنده دنیا، خطر گسترشش را از خود دور کنند.اما فارسی زبانی است با هزاران سال قدمت از مردمانی که اگر علم در ثریا هم باشد به آن دست پیدا خواهند کرد.

شکست روش‌های مبتنی بر قاعده در NLP بخش اول دردسرهای زبان انگلیسی


زبان انگلیسی سهمی از خود در تشکیل زبان ندارد
زبان انگلیسی سهمی از خود در تشکیل زبان ندارد


زبان مغرورترین مردم دنیا، بناحق، زبان اول دنیا شده است زبانی که تنها به درد ازمایشگاه می خورد در کنار قفس موشها.

شاید اینکه بگویم زبان انگلیسی یک زبان قلدر مآبانه و زبان فارسی مودبانه.را یک طرفه به قاضی رفتن بدانید

اما کافیست فقط به چینش کلمات در این دو زبان نگاهی بیندازیم:

مقایسه ساختار زبان انگلیسی و فارسی
مقایسه ساختار زبان انگلیسی و فارسی


دو جمله زیر را با هم مقایسه کنید:

  • علی درس را نخواند.
  • علی نخواند درس را.

جمله اول حالت خبری دارد، اما جمله دوم حالت دستور و امری.

مثالش را در قران داریم، بصورت دستوری که از قدرت لایزال الهی به رسولش صادر شده:بخوان به نام پروردگارت که آفرید.

بله، کل زبان انگلیسی حالت دستوری با نگاه از بالا به پایین است و زبان فارسی یک زبان ادبی.
زبان انگلیسی از زبانهای خودخواهانه تلقی می شود، چرا که بلافاصله بعد از فاعل فعل می آید و هیچ کس و هیچ چیز دیگر در آن اهمیت ندارد، اما زبان فارسی یک زبان ادبی ، محبت آمیز و به نقلی تجاری است و فعل اخرین واژه جمله است و تا زمانیکه جمله کامل نشده باشد، به آن خاتمه داده نمی شود.

حالا تا پایان این متن با من باشید که ببینید از این بقول خودشان، انعطاف زبان انگلیسی چه زبان شکننده و بی ثباتی ساخته شده است و بقولی چه شلم شوربایی شده است.

زبان انگلیسی زبانِ بی‌زبان

تا قبل از ظهور کاربردی هوش مصنوعی، که روش های مبتنی برقاعده(~=برنامه نویسی) تنها راهکار پردازش زبانهای طبیعی بود، تلاش برای پیاده سازی NLP بطور گسترده در بی زبان انگلیسی انجام شد و به دلیل اینکه زبانهای دیگر در ترازو قرار نگرفتند همه متفق القول به این نتیجه رسیدند که NLP را نمی توان قاعده مند پیش برد (و خوب ما فارسی زبان ها هم که زبانمان به شدت مورد تاخت و تاز قرار گرفته (مثل اینجا) زود این را پذیرفتیم).این را هم بگویم روش مبتنی بر قاعده سالها روی بورس بوده و مثلا skillner یک نمونه موفق ان درامد

نقشه راه SkillNer
نقشه راه SkillNer


برای اینکه با روش مبتنی بر قاعده در NLP آشنا شوید این مطلب را از دکتر سید سعید معصوم زاده در این صفحه بخوانید:سفری در تکامل پردازش زبان طبیعی

اول لازمه از یک اشتباه عملیاتی بگم، خطای راهبردی در انتخاب زبان شکننده انگلیسی برای NLP

خوب خطای راهبردی در کجا بوده؟ و چه مستنداتی دارم که زبان انگلیسی اینقدر بی در و پیکر است؟

زبان انگلیسی به این دلیل آشفته است که:

  • زبانی است که قاعده ندارد(در وب جستجو کنید: English has no rules)
  • زبانی است که وقتی «کمتر از یک سوم واژه های انگلیسی از خود زبان است» از خود چیزی ندارد(در وب جستجو کنید: Only 29% of English words are native to the language.)
  • انگلیسی گیج کننده ترین زبان است.(در وب جستجو کنید: English is the most confusing language)
  • انگلیسی سخت ترین زبان دوم برای یادگیری است.(در وب جستجو کنید: English is the most difficult second language to learn.)
  • در زبان انگلیسی تغییر معنای واژه ها رایج است (در وب جستجو کنید: semantic changes in english)
  • استرس گوینده در زبان انگلیسی موجب تغییرمعنا میشود(عجب!!!): چرا که تأکید روی هجاها میتواند معنای کلمه را عوض کند:مثل REcord (اسم: رکورد) vs. reCORD (فعل: ضبط کردن). یا مثل DEsert (صحرا) vs. desSERT (دسر). یا مثل PREsent (اسم: هدیه) vs. preSENT (فعل: ارائه دادن).
  • انگلیسی پر است از هوموگرافها: کلماتی هم املا ولی متفاوت در تلفظ (مثل Lead در “She will lead the team.” بصورت /liːd/ تلفظ می شود و همین کلمه در “The pencil contains lead.” بصورت /lɛd/ مثالهای دیگر را در پاراگراف های بعدی ببینید تا دچار حیرت شوید.


لطفا این موارد را بدون تحقیق از من نپذیرید و حتما با جستجو در وب و سایت های غیر فارسی ان را راست ازمایی کنید و اگر فکر می کنید بین متن فارسی با متن انگلیس تناقض دیده می شود اول ترجمه اش را بگیرید و بر اساس آن جستجو کنید(حتی اگر vpn دارید آن را هم روشن کنید تا از نتایج فارسی دور شوید).

  1. Tear
    /tɛər/ (verb): To rip or pull apart.
    Example: “She will tear the paper.”
    /tɪər/ (noun): A drop of water from the eye.
    Example: “A tear rolled down his cheek.”
  2. Lead
    /liːd/ (verb): To guide or direct.
    Example: “She will lead the team.”
    /lɛd/ (noun): A heavy metal (Pb on the periodic table).
    Example: “The pencil contains lead.”
  3. Wind
    /wɪnd/ (noun): Moving air.
    Example: “The wind blew fiercely.”
    /waɪnd/ (verb): To twist or coil.
    Example: “Wind the clock before it stops.”
  4. Bow
    /baʊ/ (verb): To bend forward respectfully.
    Example: “He bowed to the audience.”
    /boʊ/ (noun): A weapon for shooting arrows or a decorative knot.
    Example: “She tied the ribbon into a bow.”
  5. Read

/rɪd/ (verb):Inspect and record the figure indicated on (a measuring instrument).

I'm going to read a novel.

/rɛd/ (verb):discover (information) by reading it in a written or printed source.

I read an intresting novel yesterday.


عکس این قضیه را هم متاسفانه داریم صدها کلمه در انگلیسی وجود داره که املای اونها کاملا با هم متفاوت اما تلفظ اونها یکی است.

مثلا:

Pear/ pair

A pair of shoes

A pear for lunch

این کلمات تلفظ مشابه اما معانی و نوشتار کاملا متفاوتی دارند.لطفا و حتما تلفظ هر جمله مثال در را در یک مترجم برخط چک کنید.

هیچ کدام از این سوتی ها در زبان فارسی نیست.

شما یک کلمه فارسی را مثال بزنید که در قرن پنجم معنای متفاوتی از معنای ان در زمان حال داشته باشد اما در زبان انگلیس حتی در یک دهه معنای کلمه می تواند عوض شود و به همین هم ختم نمی شود.

حتی تلفظ کلمه می تواند عوض شود.

  • Name قبلاً «نَـمـِ» تلفظ میشد، امروز «نِیم».
  • Mouth قبلاً «مـوـث» بود، حالا «مَـاوث».
    این تغییرات دلیل اصلی عدم تطابق املا و تلفظ است!

و هیچ بی قاعدگی در زبان فارسی نداریم(و اگر هست گفتنی نیست مثلا در فارسی سر جمع ما 10 کلمه هم نداریم که املای بی قاعده مثل «خواهر »داشته باشد) ،بگذراید اول از بی قاعدگی زبان انگلیسی شروع کنم، وقتی می گوییم زبان انگلیسی هیچ قانونی ندارد، واقعا هیچ قانونی ندارد و بهتر است به جای قانون بگوییم قرارداد که با توجه به استثنائات، بی‌نظمی‌ها و ماهیت زبان و حتی گذر زمان همان هم در حال تغییر مدام است، زبان انگلیسی به شدت شکننده است و به شدت از زبان‌های دیگر وام می‌گیرد و تا بخواهید "بی‌قاعده" است و در آن تقریبا برای هر قراردادی هم استثناء دارد:

در زبان انگلیسی استثنائات فراوان است

املا (مثلاً *rough*، *through*، *though* همه بصورت "ough" تلفظ می‌شوند اما کاملاً متفاوت از هم نوشته می شوند).

در زبان انگلیسی قوانین به صورت منطقه‌ای تغییر می‌کنند:

دستور زبان انگلیسی بریتانیایی متفاوت از انگلیسی آمریکایی است.

در زبان انگلیسی "قوانین" با گذشت زمان تغییر می‌کنند.

به عنوان مثال، مصدرهای جدا ("to boldly go") و جملات پایانی با حروف اضافه ("?Who are you with") زمانی مورد انتقاد قرار می‌گرفتند، اما اکنون به طور گسترده پذیرفته شده‌اند.

در کل؛ زبان انگلیسی سرشار از قوانین و استثنائات است (این هم شامل گرامر زبان است و هم خود مکالمه )

مثلا عبارت زیر را ببینید:

Long time no see به معنی: خیلی وقت است دیده نشده

می بینید که هیچ دستور و قاعده ای ندارد (مثلا فعل را اخر جمله گذاشته ) اما این بی قاعدگی در زبان انگلیسی کاملا رایج است.

اگر یادتون باشه جایی گفتم که برعکس زبان عربی و فارسی که یک کلمه چند معنای مستقل دارد در زبان انگلیسی چندین کلمه داریم که همگی به یک معنا اشاره می کنند و معنای دیگری هم ندارند.

علاوه بر ان در زبان انگلیسی،معنای یک کلمه به کاربردش در جمله بستگی دارد مثل برای کلمه"set" در فرهنگ لغت انگلیسی آکسفورد ۴۶۴ مثال با معانی مختلف آورده شده است (مثلاً set the table, a set of tools, sunset). دقت کنید چی می گم،در اینجا جمله است که به کلمه بار معنایی می د هد و نه خود کلمه مثلا در فارسی ما دماغت چاقه را هم به معنای حالت خوبه ترجمه می کنیم و هم اینکه دماغت بزرگه (یک جور ایهام) اما تو ا نگلیسی این نیست،کلمه با جمله معنا گرفته و ایهامی هم در کار نیست.

چند نمونه از قوانین خاص و استثنائات در زبان انگلیسی

در اینجا ترکیبی از قوانین خاص و استثنائات بدنام آنها برای نشان دادن منطق عجیب انگلیسی آورده شده است:

قانونِ تطابق فعل و فاعل:فعل باید از نظر تعداد با فاعل مطابقت داشته باشد.

استثناء:

1) اسامی جمع (مثلاً team و family) می‌توانند بسته به گویش مفرد یا جمع باشند(دقت کنید وابسته به لهجه است نه چیز دیگه):

The team is.... در گویش امریکایی

The team are .... در گویش انگلیسی

آمدن صفت‌ها قبل از اسم .

استثناء:

"time immemorial"..............زمان بسیار قدیم

"Something wicked this way comes" چیز شروری از این راه می‌آید

"Beware of dog."................مراقب سگ باشید

قانونِ "I قبل از E به جز بعد از C"

این قانون می گه قبل از E همیشه I می اید مگر اینکه بعداز حرف C امده باشد که در آنصورت این I است که قبل از E میاید مثال از هر کدام: Believe, receive.

(این قانون آنقدر غیرقابل اعتماد است که برخی زبان شناسان آن را "قانون i-قبل-e-به جز-بعد-c" می‌نامند در وب جستجو کنید: the i-before-e-except-after-c rule).

نمونه از استثناء دیده شده:

Weird, science, species, height

قانونِ جمع: برای جمع‌ها "s" اضافه کنید.

Cat → cats

book → books

نمونه از استثناء دیده شده که هیچ توجیهی برایش نیست:

- Child → children

- Mouse → mice

- Octopus → octopuses

قانونهای تلفظ : قوانین زیاد و پیچیده ای برای تلفظ وجود دارد که در اینجا مثالی از تلفظ ough میاورم

هفت نوع تلظ برای "ough" وجود دارد بدون اینکه نوشتار تغییر کرده باشد:

- *through* (مثل "threw")

- *cough* (مثل "coff")

- *though* (مثل "thoh")

- *rough* (مثل "ruff")

- *plough* (مثل "plow")

- *thorough* (مثل "thur-oh")

- *hough* (مثل "hock")

قانونِ هم‌آواها: کلماتی که تلفظ یکسانی دارند اما معنای متفاوتی دارند.

There/their/they’re

to/too/two، bear/bare

flower/flour

قانونِ مالکیت: آپاستروف‌ها که مالکیت را نشان می‌دهد باعث برهم خوردن نظم زبان شده.

The dog’s bone استخوانِ سگ

the dogs’ bones استخوان‌های سگ ( و نه استخوان سگها)

که اینجا هم باز استثناء دیده شده:

Its’ (مالکیت) vs

it’s (مخفف شده "it is")


جالبه که زبانشناسان انگلیسی زبان، خودشان هم باورشان شده پویایی زبان انگلیسی یک مزیت است مثلا

دیوید کریستال، زبان‌شناس گفته: من عاشق زبان همیشه در حال تغییرمان هستم.

حتی داوود شریعتمداری، ویراستار کتاب‌های غیرداستانی گاردین و نویسنده‌ی کتاب «یک کلمه اش را هم بور نکن: حقیقت شگفت‌انگیز درباره‌ی زبان » است.در کتابش مطلب مفصل وجالبی از اینکه اغلب مردم شکایت دارند که زبان انگلیسی تحت تأثیر سستی دستور زبانشان ، رو به زوال است. چرا این باور همچنان پابرجاست؟

نوشته و حتما کتابش را بخوانید و اگر این کتاب را پیدا نمی کنید pdf با عنوان: فساد مهارنشدنی زبان انگلیسی

را بخوانید. در مقدمه آن این جمله به چشم می خورد:داگ کیسی، نویسنده و محقق آمریکایی، تا آنجا پیش می‌رود که می‌گوید: «بسیاری از کلماتی که می‌شنوید، به خصوص در تلویزیون و سایر رسانه‌ها، گیج‌کننده، تلفیقی یا کاملاً نادرست استفاده می‌شوند. بسیاری از تغییرات اخیر در نحوه استفاده از کلمات، زبان را فاسد می‌کند.

بله زبان انگلیسی رو به افول است و مهمترین چیزی که باعث فسادش می شود واژگان غیررسمی غیراستاندارد که معمولاً از کلمات ابداعی، کلمات تغییر یافته دلخواه و آرایه‌های کلامی عجیب، اجباری یا طنزآمیز تشکیل شده هست، اتفاقی که وقوع آن در زبان فارسی غیرممکن است، تا کنون جمله ای بدون تکیه بر ریشه فعلی را کسی نساخته است که همه گیر شود.<br/>

ببخشید نمی خواستم برای یادگیری زبان انگلیسی نگرانتان کنم، برعکس انگلیسی را بپذیرید، با همه ی بینظمیهایش!

باور می کنید که این بی نظمی های زبان انگلیسی پایان ندارد و حالا حالاها می شود از ان نوشت، اما من هم همینجا بحث را جمع می کنم و شما را به قسمت دوم این مطلب که در اینده نزدیک منتشر میشود( شاید بعد از رونمایی از موتور جستجوی ojo) ارجاع می دهم و از مراسم تشییع جنازه زبانی که به بهانه تلفظ پیوسته حتی برخی اوقات حروف «قورت داده میشوند» می گذرم.

در مکالمه ی سریع، انگلیسی زبانها حروف را با هم ترکیب میکنند:

  • Did you ➔ «دیجُو» (Didja).
  • Going to ➔ «گونَ» (Gonna).
  • I have got to ➔ «آیو گاتا» (I’ve gotta).

خلاصه اینکه تلفظ انگلیسی مانند یک پازل تاریخی است(شما هیچ وقت نمی توانید از تمام تاریخ سر در بیاورید) و حتی انگلیسی زبانان بومی هم در ان چه تلفظ و چه املا اشتباه میکنند! (ادعا نیست واقعیتی تلخ است، در خود انگلستان بر سر در نیمی از مکانها می نویسند wellcome و نیم دیگر می نویسند welcome).


من فقط می خواستم در بخش اول NLP دلیل شکست روش‌های مبتنی بر قاعده در NLP را باز کنم و قصد همزدن باتلاق زبان انگلیسی (که شد) را نداشتم. انشالله در اولین فرصت بخش دوم که به معجزه ابرزبان فارسی اختصاص دارد از قدرت NLP در موتور جستجو OJO خواهم گفت....

پیوند های مرتبط:

تاریخ کامل زبان انگلیسی

تأثیرات زبان‌های خارجی در زبان انگلیسی