ویرگول
ورودثبت نام
احسان خسروی / استراتژیست و مشاور سئو (Off-page)
احسان خسروی / استراتژیست و مشاور سئو (Off-page)🤝 @triboon_net SEO Solutions Partner 🛠مشاور و متخصص سئو خبرگزاری‌های موفق؛ اقتصادآفرین، افق‌اقتصادی و... 🏅طراح و مجری کمپین‌های آف‌پیج
احسان خسروی / استراتژیست و مشاور سئو (Off-page)
احسان خسروی / استراتژیست و مشاور سئو (Off-page)
خواندن ۱۱ دقیقه·۱ ماه پیش

تحلیل فنی و بسط کامل پتنت US9449105B1: «موتور جستجوی مبتنی بر محتوای کاربر»

تحلیل فنی و بسط کامل پتنت US9449105B1: «موتور جستجوی مبتنی بر محتوای کاربر»
تحلیل فنی و بسط کامل پتنت US9449105B1: «موتور جستجوی مبتنی بر محتوای کاربر»

جستجوی صرفاً کلیدواژه‌ای، یک نقص بنیادی دارد: آنچه را «می‌گوییم» می‌فهمد، نه «در چه زمینه‌ای می‌گوییم». کافی است یک واژه چند معنا داشته باشد یا در چند حوزه به کار رود تا موتور جستجو انبوهی از نتایج کم‌ ربط را نمایش دهد. پتنت US9449105B1 به جای بازی با واژه‌های منفرد، سراغ «زمینه» می‌رود و برای هر متن یا پرس‌وجو، یک نمایه معنایی می‌سازد که نشان می‌دهد محتوا در چه دامنه‌هایی از دانش ریشه دارد و در هر دامنه تا چه میزان حضوری معتبر دارد.

این ایده، به ظاهر ساده می‌باشد، اما معماری و منطق اجرایی دقیقی پشت آن قرار گرفته که مرز میان «تطبیق لفظی» و «بازیابی معنایی» را روشن می‌کند. در متن پتنت، مسئله به روشنی طرح می‌شود: نیاز به ابزاری که مزایای موتور جستجو و دایرکتوری را یک‌ جا داشته باشد، نتایج را بر اساس زمینه مرتب کند و کاربر را به «محل دقیق اطلاعات» درون اسناد برساند، بی آنکه کاربر مجبور باشد سازوکار درونی پایگاه‌ها را بفهمد یا مدام کلیدواژه عوض کند.

چارچوب مفهومی: از «جهان اطلاعات» تا دامنه‌ها و عبارات یکتا

هسته روش با یک پیش‌فرض آغاز می‌شود: جهان ارتباطات و اطلاعات را می‌توان به «دامنه‌های موضوعی» تقسیم کرد؛ هر دامنه، مجموعه‌ای از واژه‌ها و عبارات دارد که به‌طور معناداری در همان دامنه برجسته و «تمایزبخش» هستند. پس به‌جای شمردن صرف وقوع واژه‌ها، باید دید کدام عبارات در کدام دامنه‌ها «نشانه» محسوب می‌شوند. خروجی این مرحله، یک واژه‌نامه زمینه‌محور است؛ یعنی به ازای هر واحد واژگانی، برداری وجود دارد که نشان می‌دهد آن واحد در هر دامنه چه وزنی دارد. این بردار همان «زمینه کلان» است؛ تصویری فشرده از جایگاه معنایی یک واژه یا متن در فضای دامنه‌ها.

این واژه‌نامه چگونه ساخته می‌شود؟ بدنه‌های دانشی مرجع (برای نمونه دانشنامه‌ها، رده‌بندی‌های محتوای وب یا هر مجموعه مرجع قابل اتکا) کاوش می‌شوند تا هم دامنه‌ها استخراج گردد و هم عبارات یکتای هر دامنه. سپس هر واحد واژگانی، بر اساس همنشینی با این عبارات یکتا، روی محور دامنه‌ها «وزن» می‌گیرد؛ نتیجه، یک نمایش برداری است که از آن پس برای مقایسه معنایی استفاده می‌شود. مهم است توجه کنیم که این نمایش برداری قرار نیست واژه را صرفاً به یک دامنه «قفل» کند؛ برعکس، مانع این سوءبرداشت می‌گردد و اجازه می‌دهد یک واحد (یا همان واژه) در چند دامنه سهم داشته باشد، اما سهم‌ها را کمی می‌کند تا بتوان تصمیم‌های رتبه‌بندی را بر اساس «هم‌جهتی معنایی» گرفت.

دو لایه مکمل: زمینه کلان و زمینه خرد

روش پیشنهادی صرفاً به تصویر کلان بسنده نمی‌کند؛ زیرا نزدیکی در سطح دامنه‌ها هنوز برای ترجیح نهایی کافی نیست. به همین دلیل یک لایه دوم وجود دارد: «زمینه خرد». زمینه کلان، جهت‌گیری موضوعی را در مقیاس بزرگ نشان می‌دهد (سهم هر دامنه در متن یا پرس‌وجو)، اما زمینه خرد شبکه‌ای از عبارات نزدیک به موضوع مسلط را استخراج می‌نماید تا قرائن محلی و همنشینی‌های ظریف نیز وارد تصمیم‌گیری شوند.

به بیان ساده، اگر دو سند از نظر «جهت کلی» هم‌راستا بودند، سندی که در سطح محلی، همنشینی‌های دقیق‌تر و غنی‌تری دارد، حق تقدم پیدا می‌کند. این تقسیم کار میان کلان و خرد، ستون دوم عبور از بازیابی لفظی به بازیابی معنایی است.

چرخه پردازش پرس‌وجو: از دریافت تا ارائه

جریان کاری که پتنت پیشنهاد می‌دهد، چهار گام اصلی دارد:

نخست، پرس‌وجو دریافت می‌شود؛ سپس زمینه‌های کلان و خرد آن محاسبه و در فضای دامنه‌ها بازنمایی می‌شود؛ در ادامه، اسنادی که زمینه‌هایشان با زمینه پرس‌وجو هم‌راستاتر است پیدا می‌شوند؛ و در نهایت، نتایج به شکل قابل فهم و قابل بازچینی برای کاربر ارائه می‌گردد.

این چرخه در متن پتنت با اشاره به اینکه کاربر حتی می‌تواند یک سند را به عنوان ورودی بدهد و از موتور بخواهد «سندهای مشابه از نظر موضوع» را بیابد، تکمیل می‌شود. تأکید کلیدی این است که رتبه‌بندی و ارائه نتایج، به جای تطبیق خام واژه‌ها، بر هم‌جهتی زمینه‌ها استوار است.

معماری مفهومی اجزا: چه کارهایی در دل سیستم انجام می‌شود؟

اگر بخواهیم این چرخه را به اجزای اجرایی صورت‌بندی کنیم، می‌توانیم چند نقش مشخص تعریف کنیم:

  • «مدل‌ساز دامنه» که بدنه مرجع را می‌خواند، مرزهای دامنه‌ها را شکل می‌دهد و عبارات یکتای هر دامنه را استخراج می‌کند. اینجا صرف شمارش وقوع کافی نیست؛ «تمایز» مهم‌تر است؛ چون هدف، یافتن نشانه‌هایی است که واقعا دامنه‌ها را از هم جدا می‌کنند.

  • «بردارساز زمینه» که برای هر مدخل واژگانی یا هر سند، زمینه کلان را می‌سازد تا جایگاه معنایی آن در فضای دامنه‌ها معلوم شود.

  • «محاسب تشابه زمینه‌ای» که پرس‌وجوی بازنمایی‌شده در فضای دامنه‌ها را با نمایش‌های برداری اسناد می‌سنجد و نزدیکترین‌ها را بر اساس هم‌راستایی زمینه‌ها بیرون می‌کشد.

  • «توسعه‌گر زمینه خرد» که پس از تعیین جهت‌گیری کلان، عبارات نزدیک به موضوع را بیرون می‌کشد تا انطباق معنایی تقویت شود (نوعی گسترش پرس‌وجو، اما کنترل‌شده و هم‌دامنه).

  • «لایه ارائه» که نتایج را نمایش می‌دهد، امکان بازچینی و به‌روزرسانی بر اساس معیارهای زمینه‌ای را فراهم می‌کند و کاربر را به محل دقیق اطلاعات می‌رساند.

این نقش‌ها در متن پتنت به صورت ضمنی از هدف ابزار استخراج داده (یافتن اقلام مرتبط با زمینه و ارائه آنها در قالب قابل مرتب‌سازی و قابل به‌روزرسانی) برمی‌آید و با دیاگرام‌های توصیفی روش نیز همخوان است.

منطق رتبه‌بندی: هم‌جهتی بردارها، غنای خرد و مهار چندمعنایی

نخستین معیار رتبه‌بندی، هم‌جهتی بردارهاست: هرچه زاویه یا فاصله بین زمینه کلان پرس‌وجو و زمینه کلان یک سند کمتر باشد، احتمال ارتباط واقعی بیشتر است. اما این معیار به تنهایی کافی نیست.

دومین لایه، غنای زمینه خرد است: اگر دو سند از نظر کلان برابر بودند، سندی که شبکه‌ای از عبارات هم‌دامنه غنی‌تری دارد و در بافت محلی «منسجم‌تر» حرف می‌زند، جلو می‌افتد. و نهایتاً باید نویز معنایی کم شود: واژه‌های چندمنظوره یا میان‌دامنه‌ای که بدون قرینه مشخص تکرار می‌شوند، وزنشان باید کاهش یابد تا «حضور کاذب» آنها باعث انحراف رتبه‌بندی نشود.

تکیه سیستم بر عبارات یکتا و همنشینی‌های متمایز، ابزار همین کاهش نویز است. این سه‌گانه، در کنار هم، نقص جستجوی صرفا کلیدواژه‌ای را هدف می‌گیرد و به سمت «تطبیق با معنا» حرکت می‌کند.

چرا این روش به «محل دقیق اطلاعات» می‌رسد؟

تفاوت میان مدل‌های کلاسیک و زمینه‌محور را می‌شود با یک پرسش ساده دید: شما دنبال صفحه‌ای هستید که «پاسخ» در آن باشد یا صفحه‌ای که فقط «واژه» در آن تکرار شده است؟ وقتی یک موتور جستجو می‌تواند متن‌ها را بر اساس ترکیب دامنه‌ها و قرائن محلی وزن‌دهی کند، احتمال برخورد با «پاسخ واقعی» در همان کلیک اول بیشتر می‌شود.

به علاوه، چون ارائه نتیجه بر اساس زمینه قابل بازچینی است، کاربر می‌تواند نتایج را طبق ملاک‌های معنایی مرتب کند و به بخش درست سند هدایت شود. این همان چیزی است که در متن پتنت، به عنوان ترکیب مزایای موتور جستجو و دایرکتوری و امکان مرتب‌سازی و به‌روزرسانی آسان نتایج، مطرح شده است.

کاربردها در چارچوب خود پتنت: از جستجوی وب تا تبلیغات هدفمند

کاربرد نخست، بدیهی است: جستجوی وب. وقتی رتبه‌بندی بر اساس هم‌راستایی زمینه‌ها انجام شود، نتایج نامرتبط کمتر می‌گردد و دسترسی به نقاطی از سند که به موضوع پرس‌وجو پاسخ می‌دهند، سریع‌تر رخ می‌دهد. متن پتنت، حتی در بخش خلاصه، صراحتاً می‌گوید که این سیستم می‌تواند برای «یافتن اطلاعات» و «طبقه‌بندی اطلاعات» بر اساس محاسبه زمینه‌ها به کار رود.

کاربرد دوم، تبلیغات آنلاین است. مشکل رایج در مدل‌های صرفاً کلیکی این است که انتخاب تبلیغ بر مبنای واژه‌های مشترک الزاماً به «ربط معنایی» منجر نمی‌شود. روش زمینه‌محور، زمینه صفحه یا پرس‌وجو را با زمینه خلاقه/کمپین می‌سنجد و با چنین انطباقی، نمایش تبلیغ در جایی انجام می‌شود که از نظر موضوعی با آن هم‌راستایی دارد. نتیجه، کاهش کلیک‌های بی‌ارزش و افزایش ارزش هر نمایش برای تبلیغ‌دهنده است. پتنت به روشنی به این کاربرد اشاره دارد و آن را به عنوان یک پیاده‌سازی ممکن توضیح می‌دهد.

کاربرد سوم، تحلیل معنایی متن است. وقتی هدف، طبقه‌بندی یا خوشه‌بندی اسناد باشد، اتکا به شباهت ظاهری واژه‌ها گاهی به گروه‌بندی‌های گمراه‌کننده می‌انجامد. ترکیب «دامنه‌ها» و «عبارات یکتا» کمک می‌کند متن‌هایی که از نظر واژگان متفاوتند اما از نظر جهت‌گیری موضوعی مشترک، به هم نزدیک شوند، و متن‌هایی که واژگان مشترک اما بافت متفاوت دارند، از هم فاصله بگیرند. متن پتنت این استفاده را نیز به صورت ضمنی در بخش‌های مربوط به محاسبه زمینه‌ها و بازیابی/طبقه‌بندی پوشش می‌دهد.

نکات اجرایی برای تیم‌های محتوا و سئو (در چارچوب پتنت US9449105B1)

در محدوده خود متن پتنت و بدون خروج از آن، می‌توان چند ملاحظه عملی را برای محتوا و سئو صورت‌بندی کرد:

  1. محتوا باید «دامنه» داشته باشد. وقتی متن به وضوح در یک دامنه می‌ایستد و عبارات تمایزبخش همان دامنه را در بافت طبیعی خود به کار می‌برد، در مدل زمینه‌محور «دیده‌شدن معنایی» بالاتری خواهد داشت. این به معنی تکرار مکانیکی واژه‌ها نیست، بلکه به معنی ساختن همنشینی‌های معتبر است.

  2. توسعه پرس‌وجو باید هم‌دامنه و کنترل‌شده باشد. افزودن بی‌رویه کلیدواژه‌ها نویز تولید می‌کند. اگر توسعه پرس‌وجو بر اساس زمینه کلان و فهرست خرد انجام شود، همه واژه‌های افزوده‌شده باید به همان دامنه مسلط وابسته باشند.

  3. رتبه‌بندی باید ترکیبی باشد. امتیاز نهایی بهتر است تابعی از هم‌جهتی بردارهای زمینه و غنای شبکه خرد باشد. سندی که تنها واژه مشترک دارد اما در زمینه درست ننشسته، نباید از سندی که از نظر معنا هم‌راستاتر است پیش بیفتد.

  4. ارائه نتایج باید «محل‌گرا» باشد. ساختار صفحه را طوری بچینید که کاربر بتواند به بخش پاسخ برسد: تیترگذاری تمیز، لنگرهای داخلی و خلاصه‌های بخش، همه با هدف رساندن کاربر به نقطه دقیق اطلاعات همسو هستند؛ چیزی که در هدف ابزار استخراج داده به صراحت آمده است.

نکات اجرایی برای تیم‌های محتوا و سئو (در چارچوب پتنت US9449105B1)
نکات اجرایی برای تیم‌های محتوا و سئو (در چارچوب پتنت US9449105B1)

نمونه مفهومی برای روشن‌تر شدن منطق

فرض کنید پرس‌وجوی کاربر «چارچوب ارزیابی بلوغ حاکمیت داده» است. دو سند داریم: سند الف روی «حاکمیت داده» تمرکز دارد و در متن آن همنشینی‌های معناداری مثل سیاست، خط‌مشی، مالکیت داده، کاتالوگ، تبارشناسی داده و نقش‌ها دیده می‌شود. سند ب بیشتر درباره «بازاریابی داده‌محور» است و با اینکه برخی واژه‌های مشترک دارد، شبکه خرد آن به دامنه بازاریابی متمایل است. در مدل زمینه‌محور، سند الف هم از نظر زمینه کلان نزدیک‌تر است و هم از نظر خرد غنی‌تر؛ پس جلوتر می‌نشیند. این تفاوت، دقیقاً نتیجه ترکیب دو لایه کلان و خرد است و نشان می‌دهد «هم‌جهتی معنایی» با «همسانی لفظی» یکی نیست.

نسبت با سوابق و زمان‌بندی حقوقی

پتنت 9449105B1 بر یک زنجیره اولویت و تداوم تکیه دارد: تاریخ اولویت 8 اوت 2005 ثبت شده، اظهارنامه ادامه در 8 اوت 2006 پیگیری شده و در 14 سپتامبر 2012 نیز پرونده‌ای با همان عنوان ثبت شده است. انتشار نهایی با شماره US9449105B1 در 20 سپتامبر 2016 انجام شده است. این زنجیره نشان می‌دهد مسئله «زمینه» و نسبت آن با بازیابی اطلاعات، از میانه دهه 2000 به صورت جدی دنبال شده و در نهایت در قالب یک ادعای بالغ ثبت شده است.

مرزهای ادعا و دامنه کاربرد (همان طور که خود پتنت می‌گوید)

متن پتنت تأکید می‌کند که زمینه‌ها می‌توانند برای «کلمات، عبارات و ترکیب‌های واژگانی» در بدنه‌های دانشی مثل دانشنامه‌ها محاسبه شوند و سپس برای «پیدا کردن» یا «طبقه‌بندی» اطلاعات به کار روند. این تأکید نشان می‌دهد که ادعا محدود به واژه منفرد نیست و می‌تواند روی قطعه‌های بزرگتر متن نیز اعمال شود؛ همچنین روش، هم برای داده‌های وب و هم برای ساختارهای محتوایی دیگر (مثلا درخت‌های رده‌بندی سایت‌ها) قابل اعمال است و در همه این حالت‌ها ایندکس‌سازی بر پایه زمینه‌های کلان و خرد انجام می‌شود.

به علاوه، هنگام دریافت پرس‌وجو، می‌توان زمینه آن را فقط بر اساس متن پرس‌وجو یا با لحاظ‌کردن اطلاعات مرتبط از همان کاربر (سابقه پرس‌وجو، اسناد ارائه‌شده توسط کاربر و… ) محاسبه کرد؛ یعنی شخصی‌سازی هم در چارچوب ادعا دیده شده است.

نگاهی دقیق‌تر به ورودی‌ها و خروجی‌ها (بر مبنای توصیف پتنت)

ورودی مرحله تحلیل، یک بدنه دانشی است که از آن دامنه‌ها و عبارات یکتا استخراج می‌شود. ورودی مرحله بازیابی، یک پرس‌وجو (یا یک سند) است که باید زمینه‌اش محاسبه شود. خروجی مرحله بازیابی، فهرستی از اقلام اطلاعاتی است که زمینه‌شان با زمینه ورودی نزدیک‌تر است. این فهرست باید در قالبی ارائه شود که قابل مرتب‌سازی و به‌روزرسانی باشد، به نحوی که کاربر بتواند به «محل دقیق اطلاعات» هدایت شود. چیدمان دیاگرام‌ها در متن (از تعیین زمینه‌ها تا ساخت ماتریس/بردار و از محاسبه زمینه ورودی تا جستجوی زمینه‌ای) همین مسیر را تصویر می‌کند.

آنچه این روش را از «صرفاً کلیدواژه» جدا می‌کند

سه تفاوت بنیادین را می‌توان خلاصه کرد:

  1. «دامنه‌مندی» به جای «واژه‌محوری»: واژه‌نامه‌ای که برای هر مدخل، وزن دامنه‌ها را نگه می‌دارد، معناسنجی را به واحدی بالاتر از واژه منفرد منتقل می‌کند.

  2. «نمایش برداری از معنا»: به جای تصمیم کیفی و شهودی، مقایسه کمّی از طریق هم‌جهتی بردارها انجام می‌شود؛ این یعنی می‌توان معیار نزدیکی را مستقل از نویزهای زبانی سنجید.

  3. «قرائن محلی» در کنار «تصویر کلان»: حتی اگر دو متن در تصویر کلان نزدیک باشند، شبکه خرد تعیین می‌کند کدامیک از نظر همنشینی‌های دقیق‌تر، سزاوار رتبه بهتر است.

این سه ویژگی در متن پتنت صراحت دارند و با همدیگر، زمینه را از یک «سیگنال جانبی» به «هسته تصمیم» در بازیابی تبدیل می‌کنند.

پیامد برای تیم‌های فنی جستجو (IR) و تیم‌های سئو محتوا

اگر در نقش طراح یک موتور جستجوی موضوعی یا یک سیستم بازیابی سازمانی باشید، پیام روشن است: ایندکس را تنها با شمارش واژه‌ها نسازید، بلکه برای هر مدخل، وزن حضور در دامنه‌ها را نیز ذخیره کنید و ماتریس‌های زمینه را به بخشی از فراداده تبدیل کنید. در گام پرس‌وجو، توسعه را با قرائن هم‌دامنه انجام دهید و رتبه‌بندی را بر اساس ترکیب هم‌جهتی زمینه‌های کلان و غنای زمینه خرد محاسبه کنید.

اگر در نقش تیم محتوا هستید، به جای کلیدواژه‌چینی بی‌ضابطه، روی ساختن بافت واقعی متن تمرکز کنید: متن با دامنه روشن و همنشینی‌های معتبر، در سیستم‌های زمینه‌محور «واضح‌تر» دیده می‌شود. این توصیه‌ها تماماً از منطق و دامنه ادعای پتنت برمی‌آیند و فراتر از آن نمی‌روند.

از کلیدواژه تا معنا: نقشه راه زمینه‌محور در US9449105B1

US9449105B1 یک راه حل مهندسی برای مشکلی قدیمی ارائه می‌کند: چگونه از «کلمات» به «معنا» حرکت کنیم. پاسخ این است که جهان اطلاعات را به دامنه‌ها تقسیم کنیم، عبارات تمایزبخش هر دامنه را بیابیم، برای هر مدخل یک زمینه کلان بسازیم و در کنار آن، قرائن خرد را به عنوان فیلتر ظریف وارد کنیم. آنگاه، پرس‌وجوها و اسناد را به همین فضای معنایی ببریم و نتایج را بر اساس هم‌جهتی زمینه‌ای نمایش دهیم.

متن پتنت، این مسیر را با توصیف مسئله، خلاصه، دیاگرام‌های روش و مثال‌های کاربرد (از جمله تبلیغات هدفمند) قدم به قدم صورت‌بندی کرده است و زمان‌بندی حقوقی آن نیز از 2005 تا انتشار نهایی در 2016، نشان می‌دهد این ایده در یک فرآیند طولانی پخته شده است.

تهیه شده توسط تیم تخصصی سئو سید احسان خسروی (مدیر، متخصص و مشاور استراتژیک سئو)

موتور جستجودامنهگوگلسئوسید احسان خسروی
۲
۰
احسان خسروی / استراتژیست و مشاور سئو (Off-page)
احسان خسروی / استراتژیست و مشاور سئو (Off-page)
🤝 @triboon_net SEO Solutions Partner 🛠مشاور و متخصص سئو خبرگزاری‌های موفق؛ اقتصادآفرین، افق‌اقتصادی و... 🏅طراح و مجری کمپین‌های آف‌پیج
شاید از این پست‌ها خوشتان بیاید