سیستم بازیابی IR

اگر صرفا دنبال یک تعریف از این سیستم هستید توصیه میکنم ابتدا مطلب: سیستم بازیابی IR را بخوانید و بعد به همین صفحه رجوع کنید.

ما در اینجا می خواهیم به درکی از سیستم IR برسیم.

تصور اداره یک کشور بدون داشتن وزارت اطلاعات، مثل رانندگی در شب با ماشین بدون چراغ است.

و دلیل اینکه گوگل با وجودیکه 5 سال بعد از اولین موتور جستجو معرفی شد ولی امروز به عنوان بهترین موتور جستجوی دنیا شناخته می شود، همین امکان رانندگی با گوگل در شب است.

تازه این همه مطلب نیست، اگر از گوگل سیستم IR را حذف کنیم، عملا ترندینگ در گوگل ملغی می شود چرا که لازمه ردگیری صحیح داده ها، امکان ایجاد رابطه بین داده ها در هر تلاش به یادگیری است، به عبارتی تفاوت اصلی سیستم های مسیریاب با نقشه خوانها در همین سیستم IR است، مهمتر از نقطه یابی در نقشه، یافتن کوتاه ترین فاصله بین دو نقطه است.

پاراگراف بالا یک نکته مهم در خودش را دارد، اینکه لازمه رفتن به چشم چرانی (~=Go Ogle) دقت در انتخاب است.

بگذارید از مسیر دیگری سیستم IR را معرفی کنم.

اول یک چیز را برای شما شفاف کنم، با پرس و جو در اینترنت نمی توان به ساخت بمب اتمی رسید. اما همه چیز از بمب اتم از صفر تا صد را می توان در جستجوهای وب یافت.

و همین امر هم برای سیستم IR، حاکم است، تنها تیمی که به سیستم IR بصورت تمام و کمال مجهز شده است و بهترین نظام اجرایی آن را دارد، گوگل است و همین سیستم IR تمام موفقیتهای گوگل را شکل داده است.

چرا که تنها گوگل است که با ا ستفاده از سیستم IR در کمتر از نیم ثانیه در میان میلیاردها رکورد می تواند به شما نتیجه را برگرداند و نداشتن سیستم IR موجبات شکست تمام رقبای گوگل را فراهم کرد.

اگر گوگل با 10 میلیون سرور روزانه 10 میلیارد صفحه در وب را ایندکس می کند، می توان با هزینه بیشتر، موتور جستجویی ساخت که برای اینکار 20 میلیون سرور داشته باشد. اما مشکل اصلی برای رقابت با گوگل نه در اینجا بلکه در بازآوری داده ها در کسری از ثانیه است.

با این مقدمه بریم سراغ تعریف من از سیستم IR.

وقتی پرس و جویی توسط کاربر آغاز می شود یک IR فعال میشود.

شما یک دیتابیسی دارید که داخل آن یک سری مطالب را قرار داده ا ید از جمله عبارت زیر را:

برای کشت برنج، زمین در دو مرحله شخم می‌شود که مرحله اول در اواخر پاییز یا زمستان انجام می‌شود و مرحله دوم در فصل بهار، به وسیله تیلر عمود بر جهت شخم اول انجام می‌شود و سپس از طریق ماله کشی که پیشکاول نیز نام دارد، سطح زمین کاملا مسطح و هموار می‌گردد

حالا پرس و جوهایی را که در سه شکل مختلف ارایه می شود را در نظر بگیرید:

1-مراحل کاشت در شالیزار

اگر دقت کنید یک یا هیچ کدام از کلمات این پرس و جو در عبارت بالا وجود ندارد. بنابراین برنامه نویسی بیرون از سیستم IR برای استخراج نتیجه، ناممکن است.اما از نظر منطقی و با سیستم IR پاسخ کاربر در عبارت بالا قابل بازیابی است.

2- برنج و اولین مرحله کشت

به هیچ عنوان این ترتیب کلمات در عبارت بالا وجود ندارد. ولی یک یا چند کلمه از آن در عبارت وجود دارد.

برنامه نویسی بیرون از سیستم IR برای استخراج نتیجه، نه ساده اما ممکن است.

3- اولین شخم برنج در شالیزار

مرحله 1 و 2 را تواما با هم داریم

با برنامه نویسی تا بخشی از پاسخ دست یافتنی است.

دقت شود که هر سه نمونه وضعیتهایی است که مورد جستجو عینا در متن آورده شده وجود ندارد و الا آگر در عین متن باشد که اصلا نیاز به بازآوری نیست و با یک کوئری نوشتن قابل جستجو است.

رسیدن به پاسخ در هر سه مورد با سیستم IR قابل انجام است ولی مورد 1 حتما حتما نیاز به سیستم IR برای بازیابی است.

تازه این همه چیز از سیستم بازیابی IR نیست، همین مثال را شما درنظر بگیرید برای فایلهای صوتی که این عبارات در آن گفته شده، یا از عکسی که این متن داخل آن قرار داده شده است یا در بخشی از سخنرانی در فیلم یک همایش.

یا اینکه کاربر در زمان وارد کردن عبارت مورد جستجو صفحه کلید خود را فارسی نکرده و انگلیسی نگهداشته است.یعنی سه مورد بالا را بصورت زیر تایپ کرده است:

1- lvhpg ;hajnv ahgdchv

2- fvk[ , h,gdk lvpgi ;aj

3-h,gdk aol fvk[ nv ahgdchv

در تمام این حالتها سیستم IR می تواند شما را به نتیجه برساند.
احتمال می دهم هنوز بعضی از خوانندگان این مطلب فکر می کنند، با این حساب، سیستم IR برای همه قابل پیاده سازی است و برایشان این مفهوم که آمریکا تنها کشوری است که می تواند از سیستم IR برای بیرون کشیدن درست هر عبارتی بهره ببرد قابل قبول نیست.

خوب شما مثالهای من را در حالت دیگه ای در نظر بگیرید. متن آورده شده را در یک جدول از دیتابیس که میلیاردها مطلب دیگر هم کنار آن است قرار دهید. با این شرط که در پرس و جو بیش از نیم ثانیه فرصت ندارید.

نه تنها بند 1 برایتان در میان میلیاردها متن قابل بازآوری نیست بلکه دو مورد دیگر را هم در نیم ثانیه نمی توانید بازگردانی کنید.

متاسفانه سیستم IR تنها در اختیار دولت آمریکاست و هیچ کشوری نتوانسته است به این سیستم قدرتمند استخراج از داده ها برسد.

و اولین شرط در راه ساخت موتور جستجوی ایرانی برای گذار از گوگل این است که به چنین سیستمی برسیم که بتواند در کمتر از نیم ثانیه کاربر را به جواب برساند.

اگر کارتون تنسی و تاکسیدو را دیده باشید، هروقت گره ای در کار این دو پیش می امد سراغ دکتر ووفی می رفتند که نمونه بارز سیستم IR بود.

دکتر ووفی در تنسی تاکسیدو مجهز به سیستم IR بود
دکتر ووفی در تنسی تاکسیدو مجهز به سیستم IR بود

در این کارتون همیشه آقای ووفی از میان یک اطاقک شلوغ و پلوغ انباری اش که هیچ وقت هم مرتب نبود پاسخی آنی برای ارایه پیدا می کرد.

منظورم از مثال زدن آقای ووفی در تنسی تاکسیدو چی بود؟

مشخصات سیستم IR آقای ووفی:

اگر اون اطاقک کوچک آقای ووفی در کارتون، تنسی و تاکسیدو را دیده باشید می بیینید که تمام شرایط زیر در آن لحاظ شده:

1- حجم داده ها ناپایان است و سقف ندارد.

2- به دلیل بزرگ و بروز بودن داده ها همیشه جوابی برای شما دارد.

3- هیچ وقت پاسخ شما را به فردا موکول نمی کند.

4- نیاز به فضای بزرگی برای ذخیره سازی داده ها ندارد.

5- همه چیز بدون تفکیکهای غیر ضروری در یک جا جمع شده است.

6- قابل اعتماد و اطمینان است.

7- و بالاخره اینکه همه چیز رایگان است.

و اگر بگوییم سیستم IR گوگل یک کپی بدون نقض از سیستم IR آقای ووفی است به گزاف نگفته ایم.

و یک نکته جالب که در مطالب قبلی به آن اشاره شد را هم اضافه کنم.

گفتیم تفاوت بزرگ گوگل با موتور جستجوهای دیگر در این است که وقتی گوگل جوابی برای ارایه نداشته باشد مرد و مردانه می گوید نتیجه ای پیدا نشد. (کاری که موتور جستجو های دیگر با نمایش حداقل چند نتیجه نامرتبط از اقرار به آن سرباز میزنند).

مطمئن باشید که آقای ووفی هم متوجه یک سوال بی ربط و به اصطلاح عجق وجق می شد.

منتظر ظهور (𝓞𝔍𝓞).