جفا در حق زبان فارسی

این مطلب در تاریخ 8 تیر 1401 بروزرسانی شده است

متأسفانه بعد از فعالیت حدود بیست سال بر روی اینترنت ، می بینم که هنوز هیچ سایتی در ایران جستجوی قابل قبولی برای کاربران خودش ارائه نداده است.

حتی سایتهایی به بزرگی دیجی کالا.

از این بالاتر که من خودم وقتی کالایی را تو جستجو در سایت دیجی کالا نمی تونم پیدا کنم می روم تو گوگل می نویسم:

site:digikala.com عبارت مورد جستو

و در نتایج گوگل کالای مورد نظرم را از سایت دیجی کالا پیدا می کنم. (در ادامه مثالی قابل اثبات از این ادعایم می زنم)

چرا این نقصیه را در سایت های ایرانی رفع نکرده ایم؟

و در سایتهایی مثل توییتر، فیس بوک، سایت رویترز و یا استک آور فلاو و ... با موتور جستجو قدرتمندتر از گوگل می توانیم هرچیزی را از سایت پیدا کنیم، اما هیچ کدام از سایتهای ایرانی به این سمت نرفته اند

از کم کاری خودمان که بگذریم باید موانع را هم دید.

اول از همه بخاطر عنادی است که آمریکا ( و در پشت نقابش یهودیان صهیونیست) با منتظران مصلح اخر زمان دارند و دوست ندارند که زبان فارسی به عنوان اصلی ترین زبان شیعه رشد کند، ما را مصرف کننده بار آورده اند آن هم از غذای نیم خورده خودشان.

نکاتی غرور آفرین را از این زبان شیرین استخراج کردهام که در ادامه میخوانید.

شاید قدرت زبان فارسی را با چند جمله زیر بشود کمی توصیف کرد

زبان فارسی در ٢٩ کشور جهان صحبت میشود، که در ردیف ششم بعد از زبان اسپانیایی و قبل از زبان آلمانی (از نظر تعداد کشورهایی که در آنها فارسی صحبت میکنند) ردهبندی شده است.

زبان فارسی دومین زبان کلاسیک جهان بعد از زبان یونانی شناخته شده و همه ویژگیهای یک زبان کلاسیک را دارد. زبانهای لاتین و سانسکریت در ردیفهای سوم و چهارم قرار دارند.

زبان فارسی از نظر تنوع مَتَل (ضربالمثل) بین ۳ کشور اول دنیاست.

زبان فارسی از نظر دامنه و تنوع واژهها یکی از پرمایهترین و بزرگترین زبانهای دنیاست.

در کمتر زبانی فرهنگلغاتی مثل لغتنامه ١٨ جلدی دهخدا یا حتی فرهنگ معین ۶ جلدی دیده می شود.

زبان فارسی توانایی ساختن ۲۲۵ میلیون واژه را دارد که در میان زبانهای جهان بیهمتاست!

زبان فارسی سیزدهمین زبان پرکاربرد در محتوای وب و اینترنت است.

زبان فارسی یک سده پیش از لاتین و ۱۲ سده قبل از انگلیسی وجود داشته است.

از ۱۰ شاعر برتر جهان ۵ نفر از آنها فارسیزبان هستند.

هیچ اسم فارسی را در فارسی پیدا نمی کنید که تک بخشی باشد اما در انگلیسی به فراوانی اسم های تک سیلابی پیدا می شود، مثل جان،جیم،بیل،جاش و.... که تنها دلیلش این است که فارسی زبانی است که اسامی هم در آن ریشه دار هستند

آخرین نکته هم این که زبان فارسی زبانی است که میشود تعداد زیادی فعل را کنار هم گذاشت و در آخر یک جمله معنیدار داشت. مثل: داشتم، میرفتم، دیدم، گرفته، نشسته، گفتم، بذار، بپرسم، ببینم، میآد، نمیآد، دیدم، میگه، نمیخوام، بیام، میخوام، برم، بگیرم، بخوابم، گفتم، بگیر، بخواب!

خوب از لطافت این زبان همین بس که بلندترین کلمه فارسی تنها 11 حرف دارد که کلمه اندیشمندانه است.

حالا این را مقایسه بکنید با طولانی ترین کلمه انگلیسی ، pneumonoultramicroscopicsilicovolcanoconiosis که 45 کاراکتر دارد

خودتان بگویید برای گوگل نوشتن الگوریتم جستجوی کدام راحت تر است؟

اما چرا گوگل بر روی فارسی ضعف به خرج داده است؟

دلیلش واضح است که چرا گوگل روی سرچ فارسی سرمایه گذاری نمی کند چون اجازه ندارد بیشتر از این فارسی را بسط دهد و یک جورهایی فارسی را رها کرده و از همان الگوریتم زبان انگلیسی استفاده کرده است و از قابلیت های زبان فارسی در کمک به موتورهای جستجو گذر کرده است.

و اگر می بینید بظاهر نتایج خوبی از جستجوی فارسی در گوگل می گیریم برای این است که بجز گوگل گزینه دیگری ندارید والا می فهمیدید که گوگل اصلا هم برا ی فارسی خوب کار نکرده که در پست بعدی بیشتر این حرفم را باز می کنم.

مثلا شکل زیر را ببینید:

 گرفته شده https://tractor.precio.ir این تصویر از سرچ کنسول سایت
گرفته شده https://tractor.precio.ir این تصویر از سرچ کنسول سایت


یکی از باگهای ( مشکل نرم افزاری) گوگل برای زبان فارسی که هنوز که هنوزه رفعش نکرده تفاوت قائل شدن بین اعداد فارسی با لاتین است و یا نیم فاصله که خیلی خیلی دیر به گوگل اضافه شد یعنی اواخر سال 97

این لینک را ببینید:

دیگر در گوگل مشکل نیمفاصله نداریم

و چرا اینقدر تاخیر؟

واضح است، چون نیم فاصله را تنها در زبان فارسی داریم که در همان لینک بالا به ان اشاره شده است و زبان عربی که خود زبان کاملی حتی کاملتر از فارسی است استفاده ای از نیم فاصله نمی کند

خوب این خدمتی است که به ایرانیان شده است (چرا که نیم فاصله از ابداعات ایرانیان است و عرب ها چیزی به این نام ندارند) ....

اما باگ (مشکل نرم افزاری ) گفته شده گوگل یعنی تمایز بین نوشتن عدد با فونت غیرلاتین یا «ی »و «ک» عربی در متن فارسی کماکان وجود دارد

و این به این معناست که تا وقتی گوگل مشکل را حل نکرده ما باید در تولید محتوا توجه داشته باشیم که وقتهایی که نوشتن عدد هم به فارسی و هم انگلیسی در نتایج جستجو موثر است باید مثل کوئری داخل این عکس از هر دو نوع عدد در محتوای خودمون استفاده کنیم تا بتوانیم جایگاهمان را داشته باشیم و این مشکل را ضعف الگوریتمهای گوگل درست کرده.

بله حتی کاربرد «ی» و «ک» عربی و یا فارسی،نتایج متفاوتی در صورت استفاده از هر کدام در جستجو به ما بر می گرداند.

خوب چکار می شود کرد؟

هنوز کسی نمی داند که چرا هیچ سایتی برا ی جستجوی فارسی در سایت خودش سرمایه گذاری نکرده است، حتی سایتی مثل دیجی کالا که درامد نجومی از سایتش دارد.

جستجوی کلمه
جستجوی کلمه "بزر خیار در سایت دیجی کالا

می بینیم که سایت دیجی کالا با اینکه فقط قرار است سایت خودش را بگردد اما 1از 10 نتیجه برگردانده شده فقط 3 موردش درست است.

حال همین جستجو را با ابزار گوگل انجام دهیم (با عبارت site:digikala.com به گوگل می گوییم فقط از سایت دیجی کالا به ما نتیجه برگردان)

جستجوی کلمه
جستجوی کلمه "بزر خیار در سایت دیجی کالا اما با کمک گرفتن از گوگل

حیرت آور است که ببینیم گوگل حتی یک خطا هم ندارد و اینکه بفهمیم سایت دیجی کالا با وجودیکه 8300 صفحه برای بذر خیار دارد. اما فقط 3 مورد را توانسته به ما نشان دهد.

هر دو آزمایش را خودتان براحتی می توانید انجام دهید تا شما هم نگران وضعیت جستجو در سایتهای ایرانی بشوید

تصمصیم گرفته شد که خودم یک طرف کار را به دست بگیرم و انشالله اگر توفیقی باشد در آینده نزدیک و با تسلطی که بر الگوریتمهای داخلی موتور جستجو گوگل دارم این کار برای سایت بازار بزرگ کشاورزی ایران انجام می دهم. تا انشالله بقیه نیز به این کار ترغیب شوند.این مطلب ادامه دارد ...

مطالب مرتبط از همین وبلاگ:

موتور جستجوی هوشمند فارسی و جستجوگر گوگل

جستجوی داخل سایت سایت های فارسی

منتظر ظهور (𝓞𝔍𝓞).