نمایه سازی در موتورهای جستجو

اولین کار هر موتور جستجو جمع آوری اطلاعات یا خزش است. خزشگر موتور جستجو از روی گراف، وب را پیمایش و محتوای صفحات پیمایش شده بصورت خام، در یک مخزن بزرگ بصورت فشرده ذخیره می شود.

نمایه سازی: فرآیندی است که طی آن، فایلهای ذخیره شده در مخزن پردازش می شود، که محتوای این فایلها باید طوری پردازش شوند که با توجه به درخواست کاربر، براحتی قابل بازیابی باشند و ایین مطلب به آن اختصاص دارد.

بدین منظور با بررسی هرصفحه از یک سایت، واژه جدید یافت شده به واژه نامه ساخته شده از تمام واژگان موجود در صفحات سایت، با ثبت اطلاعات مکان حاوی این کلمه و میزان ارزش آن در صفحه اضافه/بروزرسانی می شود (کار دقیق تری از مشابه بخش نمایه انتهای کتب علمی). با توجه به داشتن این واژه نامه برای هر سایت، با هر واژه مورد تفحص، در پیمایش هر واژه نامه(~=هر سایت) با یافتن آن واژه، دستیابی به مکان آن در هرصفحه از سایت میسر می شود.این روش نمایه سازی معکوس نام دارد و برای حجم کم داده و تعداد محدود درخواست ایده آل است.

مراحل اجرایی نمایه سازی معکوس
مراحل اجرایی نمایه سازی معکوس


روش های دیگری هم برای نمایه سازی داریم مثلا فرض کنید که بجای تشکیل واژه نامه برای هر سایت، واژه نامه را یک سطح بالاتر و برای تمام سایتها ایجا کنیم که در این روش خوشه بندی و خلاصه سازی اسناد خیلی کمک می کند اما باعث ایجاد مشکلاتی از قبیل افزایش خیلی زیاد حجم داده ها و مصرف فضای زاید ذخیره سازی برای حافظه و افزایش هزینه های محاسباتی خواهد شد در حالیکه روش نمایه سازی معکوس با استفاده از توزیع اسناد باعث کاهش حافظه مورد نیاز و کاستن از هزینه های اجرا می شد(در سیستم IR روی این قسمت خیلی با تکیه بر فرمولهای پیچیده ریاضی، تاکید میشود که بیشتر از این امکان پرداختن به آن نیست).

اگر مطالب قبلی من را در این انتشارت خوانده باشید، به این درک باید رسیده باشید که فرآیند بازسازی به روش: نمایه سازی معکوس برای حجم بالای اطلاعات (برای گوگل بالای 100 میلیارد) با تعداد درخواست های بازیابی زیاد ( برای گوگل 10 میلیارد در روز) غیر قابل اجراست و دقیقا همینجاست که تفاوت گوگل با موتور جستجوهای دیگر چهره نشون میده، چرا که گوگل به جای «نمایه سازی معکوس» با خوشه بندی و خلاصه سازی و بهره مندی از سیستم بازیابی IR، به این هدف رسیده است، که گفتیم در موتور جستجوی OjO نیز از این نمایه سازی گوگل (به شکل بهتری) استفاده خواهد شد و به دلیل محرمانه بودن، امکان ارایه توضیحات بیشتر نیست.

منتظر ظهور (𝓞𝔍𝓞).