در اینجا یک بررسی اجمالی مبتنی بر این واقعیت از LSI و اینکه چرا برای SEO مهم نیست، آورده شده است.
ادعاهای زیادی برای "کلید واژه های LSI" برای سئو مطرح می شود.
حتی برخی می گویند که گوگل برای درک صفحات وب به "کلمات کلیدی LSI" متکی است.
این موضوع برای نزدیک به بیست سال مورد بحث قرار گرفته است و حقایق مبتنی بر شواهد در تمام مدت وجود داشته است.
نمایه سازی معنایی پنهان (که به آن تحلیل معنایی نهفته نیز گفته می شود) روشی برای تجزیه و تحلیل مجموعه ای از اسناد به منظور کشف همزمانی آماری کلماتی است که با هم ظاهر می شوند و سپس بینش هایی را در مورد موضوعات آن کلمات و اسناد ارائه می دهند.
دو مورد از مشکلات (در میان چندین) که LSI در صدد حل آن است، مسائل مترادف و چند معنایی است.
مترادف اشاره ای به چند کلمه است که می تواند یک چیز را توصیف کند.
شخصی که "دستور پخت فلپ جک" را جستجو می کند با جستجوی "دستور پخت پنکیک" (خارج از بریتانیا) برابر است زیرا فلپ جک و پنکیک مترادف هستند.
چند معنایی به کلمات و عباراتی گفته می شود که بیش از یک معنی دارند. کلمه جگوار می تواند به معنای حیوان، اتومبیل یا تیم فوتبال آمریکایی باشد.
قادر است با تجزیه و تحلیل آماری کلماتی که همزمان با آن در یک سند وجود دارد، پیش بینی کند که معنای یک کلمه نشان دهنده کدام است
اگر کلمه "جگوار" در سندی با کلمه "جکسونویل" همراه باشد، از نظر آماری احتمال دارد که کلمه "جگوار" اشاره ای به یک تیم فوتبال آمریکایی باشد.
با درک اینکه چگونه کلمات در کنار هم قرار می گیرند، یک کامپیوتر بهتر می تواند با ارتباط صحیح کلمات کلیدی مناسب با عبارت جستجو، به یک پرس و جو پاسخ دهد.
حق ثبت اختراع LSIدر 15 سپتامبر 1988 ثبت شد. این یک فناوری قدیمی است که سال ها قبل از وجود اینترنت به وجود آمده است.
ال- اس آی نه جدید است و نه پیشرفته است.
درک این نکته مهم است که در سال 1988، LSI در حال ارتقای پیشرفته ترین تطبیق متن ساده بود.
ال اس آی قبل از اینترنت بود و در زمانی ایجاد شد که کامپیوترهای اپل به این شکل بودند:
ال اس آی زمانی ایجاد شد که یک کامپیوتر تجاری محبوب (IBM AS/400) به این شکل بود:
ال اس آی یک فناوری است که قدمت زیادی به گذشته دارد.
درست مانند کامپیوترهای سال 1988، مطابق آخرین پیشرفت های علمی، اطلاعات طی بیش از 30 سال گذشته راه طولانی را طی کرده است.
یک نقص عمده در استفاده از LSI برای کل وب این است که محاسبات انجام شده برای ایجاد تجزیه و تحلیل آماری باید هر بار که یک صفحه وب جدید منتشر می شود مجدداً محاسبه شود.
این نقص در یک مقاله تحقیقاتی در سال 2003 (غیر گوگل) در مورد استفاده از LSI برای شناسایی هرزنامه ایمیل (استفاده از LSI برای فیلتر کردن هرزنامه PDF) ذکر شده است.
مقاله پژوهشی خاطرنشان می کند:
یکی از مشکلات LSI این است که پس از تولید مجموعه معنایی، از افزودن موقت اسناد جدید پشتیبانی نمی کند. هر گونه به روز رسانی به هر مقدار سلول، ضریب هر بردار کلمه دیگری را تغییر می دهد، زیرا SVD از تمام روابط خطی در ابعاد اختصاص داده شده خود برای القای بردارهایی استفاده می کند که هر نمونه متنی را که در آن کلمه وجود دارد، پیش بینی می کند. ( اگر این بخش رو متوجه نشدید کامنت بزارید براتون توضیح می دم)
اینجا هم یه ویدئو خوب از مفاهیم "طرح کدگذاری " , " جایگذاری کلمه (برادر کلمه)" براتون گذاشتم :
از بیل اسلاوسکی در مورد نامناسب بودن LSI برای بازیابی اطلاعات موتور جستجو پرسیدم و او موافقت کرد و گفت:
ال اس آی، یک رویکرد نمایه سازی قدیمی است که برای پایگاه های داده استاتیک کوچکتر توسعه یافته است. شباهت هایی با فناوری های جدیدتر مانند استفاده از بردارهای کلمه یا word2Vec وجود دارد.یکی از محدودیت های LSI این است که اگر محتوای جدیدی به مجموعه اضافه شود، نمایه سازی (ایندکس) کل مجموعه مورد نیاز است.که آن را برای یک مجموعه به سرعت در حال تغییر مانند وب دارای کاربرد محدودی می کند."
برخی از جامعه جستجو معتقدند که گوگل از "کلیدواژه های LSI" در الگوریتم جستجوی خود استفاده می کند، به گونه ای که گویی LSI هنوز یک فناوری پیشرفته است.
برای اثبات آن، برخی به یک مقاله تحقیقاتی در سال 2016 به نام بهبود خوشهبندی موضوع معنایی برای جستوجو با همروی کلمه و همخوشهبندی بیگراف (PDF) مراجعه میکنند.( Improving Semantic Topic Clustering for Search Queries with Word Co-occurrence and Bigraph Co-clustering (PDF))
آن مقاله تحقیقاتی مطلقاً نمونه ای از نمایه سازی معنایی پنهان نیست. این یک فناوری کاملاً متفاوت است.
در واقع، آن مقاله تحقیقاتی آنقدر در مورد LSI (معروف به تحلیل معنایی پنهان) نیست که به یک مقاله تحقیقاتی LSI در سال 1999 ([5] T. Hofmann) استناد می کند.
نمایه سازی معنایی پنهان احتمالی ...1999) به عنوان بخشی از توضیحی درباره اینکه چرا LSI برای مشکلی که نویسندگان سعی در حل آن دارند مفید نیست.
این چیزی است که می گوید:
تخصیص دیریکله نهفته (LDA) و تحلیل معنایی نهفته احتمالی (PLSA) تکنیکهایی هستند که به طور گسترده برای آشکار کردن مضامین نهفته در دادههای متنی استفاده میشوند. ... این مدلها موضوعات پنهان را با استفاده ضمنی از الگوهای همزمانی کلمه در سطح سند یاد میگیرند.با این حال، متون کوتاه – مانند عبارتهای جستجو، توییتها یا پیامهای فوری – از این پراکندگی دادهها دچار مشکل می شوند ، که این امر باعث ایجاد مشکلاتی برای تکنیکهای مدلسازی قدیمی موضوعات میشود.
استفاده از مقاله تحقیقاتی بالا به عنوان اثبات اینکه گوگل از LSI به عنوان یک عامل رتبه بندی مهم استفاده می کند، اشتباه است. این مقاله در مورد LSI نیست و حتی در مورد تجزیه و تحلیل صفحات وب نیست.
این یک مقاله تحقیقاتی جالب از سال 2016 در مورد جستجوهای جستجوی کوتاه داده کاوی به منظور درک معنای آنها است.
جدا از این مقاله تحقیقاتی، ما می دانیم که گوگل از BERT و فناوری های تطبیق عصبی برای درک سؤالات جستجو در دنیای واقعی استفاده می کند.
خلاصه داستان: استفاده از آن مقاله تحقیقاتی برای بیان یک بیانیه قطعی در مورد الگوریتم رتبهبندی گوگل در همه جا به صورت کلی است.
در بازاریابی جستجو، دو نوع داده قابل اعتماد و معتبر وجود دارد:
ایده های واقعی که بر اساس اسناد عمومی مانند مقالات تحقیقاتی و ثبت اختراع است.
ایده های سئو که بر اساس آنچه که استفاده کنندگان دائمی گوگل فاش کرده اند است.
بقیه چیزا فقط نظره
دانستن تفاوت مهم است.
جان مولر گوگل در مورد رد کردن مفهوم کلمات کلیدی LSI صریح بوده است.
چیزی به نام کلمات کلیدی LSI وجود ندارد - هر کسی که خلاف این را به شما می گوید اشتباه می کند،
متاسفم. ? جان ? (@JohnMu) 30 ژوئیه 2019
بیل اسلاوسکی، متخصص ثبت اختراعات جستجو، در مورد LSI و سئو نیز صریح صحبت کرده است.اظهارات بیل در مورد LSI مبتنی بر دانش عمیق الگوریتم های گوگل است که او در مقالات مبتنی بر واقعیت (like here and here) به اشتراک گذاشته است.
بیل اسلاوسکی نظر آگاهانه خود را در مورد نمایه سازی معنایی پنهان توییت می کند:
نمایه سازی معنایی پنهان هیچ ارتباطی با SEO ندارد: https://t.co/X6KcEt9vSm
علیرغم اینکه هیچ مدرکی از نظر پتنت ها و مقالات تحقیقاتی وجود ندارد که LSI/LSA فاکتورهای مهم مرتبط با رتبه بندی هستند، گوگل همچنان با نمایه سازی معنایی پنهان مرتبط است.
یکی از دلایل این امر خرید شرکتی به نام Applied Semantics توسط گوگل در سال 2003 است.
شرکت Applied Semantics یک فناوری به نام Circa ایجاد کرده بود. Circa یک الگوریتم تحلیل معنایی بود که در AdSense و همچنین در Google AdWords استفاده شد.
طبق بیانیه مطبوعاتی گوگل:
سرگئی برین، یکی از بنیانگذاران و رئیس بخش فناوری گوگل، گفت: «Applied Semantic یک مبتکر اثبات شده در پردازش متن معنایی و تبلیغات آنلاین است. «این خرید به گوگل امکان میدهد فناوریهای جدیدی ایجاد کند که تبلیغات آنلاین را برای کاربران، ناشران و تبلیغکنندگان مفیدتر میکند. محصولات Applied Semantics مبتنی بر فناوری ثبت اختراع CIRCA است که دانش را از وبسایتها و مخزنهای اطلاعاتی میفهمد، سازماندهی میکند و بهگونهای استخراج میکند که تفکر انسان را تقلید میکند و امکان بازیابی اطلاعات مؤثرتر را فراهم میکند. یکی از کاربردهای کلیدی فناوری CIRCA، محصول AdSense Applied Semantics است که به ناشران وب امکان می دهد موضوعات کلیدی در صفحات وب را برای ارائه تبلیغات بسیار مرتبط و هدفمند درک کنند.
عبارت "تحلیل معنایی" در اوایل دهه 2000 یک کلمه کلیدی بود که شاید تا حدی توسط فناوری جستجوی معنایی Ask Jeeves هدایت می شد.
خرید Google Applied Semantics، علیرغم وجود هیچ مدرک معتبری، روند مرتبط کردن گوگل را با نمایه سازی معنایی پنهان تسریع کرد.
بنابراین، تا سال 2005، جامعه بازاریابی جستجو اظهارات غیرقابل اثباتی مانند این را بیان می کرد:
چندین ماه است که متوجه تغییراتی در رتبه بندی وب سایت در گوگل شده ام و مشخص است که چیزی در الگوریتم آنها تغییر کرده است.
یکی از مهم ترین تغییرات این احتمال است که گوگل اکنون وزن بیشتری به نمایه سازی معنایی پنهان (LSI) می دهد.
با توجه به اینکه Google Applied Semantics را در آوریل 2003 خریداری کرد و طبق گزارشها، تبلیغات AdSense خود را با استفاده از نمایهسازی معنایی پنهان ارائه میکرد، جای تعجب ندارد.
افسانه سئو که گوگل از کلمات کلیدی LSI استفاده می کند احتمالاً از محبوبیت عباراتی مانند "تحلیل معنایی"، "نمایه سازی معنایی" و "جستجوی معنایی" نشات گرفته است که به کلمات کلیدی سئو تبدیل شده اند، که توسط فناوری جستجوی معنایی Ask Jeeves و خرید شرکت تجزیه و تحلیل Applied Semantics توسط گوگل جان گرفته اند.
ال اس آی یک روش بسیار قدیمی برای درک اینکه یک سند در مورد چیست است.
این اختراع در سال 1988، بسیار قبل از اینکه اینترنت وجود داشته باشد، ثبت شد.
ماهیت LSI آن را برای استفاده در کل اینترنت برای اهداف بازیابی اطلاعات نامناسب می کند.
هیچ مقاله تحقیقاتی وجود ندارد که به صراحت نشان دهد که نمایه سازی معنایی پنهان یکی از ویژگی های مهم رتبه بندی جستجوی گوگل است.
حقایق ارائه شده در این مقاله نشان می دهد که این امر از اوایل دهه 2000 وجود داشته است.
شایعاتی مبنی بر استفاده گوگل از LSI و LSA در سال 2003 پس از تصاحب Applied Semantics، شرکتی که محصول تبلیغات متنی AdSense را تولید می کرد، توسط گوگل منتشر شد.
با این حال کارمندان گوگل چندین بار تایید کرده اند که گوگل از کلمات کلیدی LSI استفاده نمی کند.
اجازه دهید دوباره برای کسانی که در پشت هستند بلندتر بگویم: چیزی به نام کلمات کلیدی LSI وجود ندارد.
با توجه به شواهد بسیار زیاد، منطقی است که ادعا کنیم این یک واقعیت است که مفهوم کلمات کلیدی LSI نادرست است.
حقایق همچنین نشان می دهد که LSI بخش مهمی از الگوریتم های رتبه بندی گوگل نیست.
با توجه به پیشرفتهای اخیر در هوش مصنوعی، پردازش زبان طبیعی و BERT، این ایده که گوگل بهطور برجسته از LSI به عنوان یک ویژگی رتبهبندی استفاده میکند، به معنای واقعی کلمه فراتر از باور و مضحک است.
منبع : https://www.searchenginejournal.com/latent-semantic-indexing-wont-help-seo/240705
اینستاگرام : https://www.instagram.com/tv/CdqQEaojtm_/?igshid=MDJmNzVkMjY=
لینکدین: https://www.linkedin.com/in/amirshafiei/