شبکه واژههای مرتبط

چکیده
واژههای زیادی امروزه در اطراف ما و در محیطهای مختلف مثل اینترنت، شبکههای اجتماعی، گروهها و کتابها در حال تولید هستند. این در حالی است که نرخ تولید این واژگان در گذشته بسیار کم و محدود بوده است. یکی از مباحثی که در حوزهی پردازش زبانها مورد بررسی قرار میگیرد، مبحث تعبیهسازی واژهها (word embedding) میباشد. تعبیه واژه معمولا به صورت تبدیل واژه به یک بردار صورت میگیرد به طوری که انتظار میرود کلماتی که در فضای برداری نزدیکتر هستند از نظر معنی یا کاربرد مشابه باشند. برای این منظور الگوریتمهای هوش مصنوعی یا آماری مختلفی در طول زمان ایجاد یا پیشنهاد شده است. این در حالی است که در شبکههای پیچیده با ویژگیهای خاص، همین اطلاعات به شکل دیگری نهفته است! احتمالا شما در توییتها حول موضوعات مشخصی صحبت میکنید یا افرادی را دنبال میکنید که دربارهی موضوعات مرتبط با شما صحبت میکنند. احتمال لینک بین صفحات اینترنت نشاندهندهی نوعی ارتباط موضوعی بین سایتها میباشد. احتمالا در شبکهی مقالات، ارتباط موضوعی بین مقالهها مشاهده میشود و بسیاری موارد دیگر. آیا میتوانیم به جای استفاده از الگوریتمهای مشخص و از پیش آموزشدیده، از طریق شبکههای موجود واژههای مرتبط به یکدیگر را پیدا کنیم؟ بدون این که لازم باشد ابتدا واژگان را به بردارهایی تبدیل کنیم؟ هدف ایجاد پیوندی بین دنیای پردازش زبان و شبکههای پیچیده میباشد. با ایجاد روشی برای پاسخدهی به این مسئله، میتوانیم اطلاعاتی را استخراج کنیم که همچون خروجیهای پردازش زبان طبیعی، برای نیازها یا توسعههای بعدی مورد استفاده قرارگیرند. همچنین این اطلاعات بر اساس رفتارهای شبکه ایجاد میشوند و تغییرات زمانی یا مکانی را در بر میگیرند. (مثلا ارتباط بین بایدن و انتخابات در برههی زمانی انتخابات) به عبارتی با اجرای مدوام این کار، میتوانیم از تغییرات لحظهای و پویای شبکههای پیچیده، برای کشف ارتباطات واژهای که ایجاد شده یا از بین میروند استفاده کنیم.
مقدمه
شبکهی اینترنت، شبکهی بزرگی از صفحات اینترنت میباشد که هر کدام از این صفحات دارای یکسری مطالب و همچنین یکسری لینک (اصطلاحاً anchor) به صفحات دیگر هستند. اگر صفحات مختلف شبکه اینترنت را به صورت نودهای شبکه در نظر بگیریم، وجود این لینکها به نوعی باعث ایجاد یکسری یال بین نودها میشود. اکنون هدف ما این است که از این شبکهی بزرگ برای استخراج کلمات هممعنا یا مرتبط (related) استفاده کنیم. مبنای ارتباط کلمات، میزان تکرارشدن یک ارتباط در شبکه میباشد. وقتی یک سایت در مورد ورزش صحبت میکند، احتمالا کلمات مربوط به حوزهی ورزش در این صفحه به خوبی مشاهده میشود. به همین دلیل خود کلمات یک صفحه ارتباطاتی را تشکیل میدهند (مثلا ارتباط بین کلمه فوتبال و توپ) در عین حال خود صفحات مختلف وب دارای لینک هستند و احتمالا یک صفحهی ورزشی، به دیگر صفحات ورزشی لینک میدهد. پس اگر در صفحهی اول کلمه «فوتبال» و صفحهی دوم «بازیکن» را ببینیم، این کلمات نیز به یکدیگر مرتبط هستند. اکنون به نوعی شبکهی اینترنت ما خود یک شبکهای از شبکهها (network of networks) میباشد چون خود کلمات یک صفحه نیز یک شبکه را تشکیل میدهند. اگر رخداد ارتباط کلمهی «فوتبال» و «توپ» بعد از خزش (crawl) تعداد زیادی صفحات وب، زیاد باشد نشان میدهد که احتمالا بین این کلمات ارتباط خوبی برقرار است و از نظر معنایی مرتبط یا نزدیک هستند. اگر 1 میلیون بار بین کلمهی «فوتبال» و «توپ» لینک برقرار شود در حالی که بین «درس» و «قالی» یک یال ایجاد شود، این نشاندهندهی ارتباط معنایی بین «توپ» و «فوتبال» میباشد.
هدف اصلی خزش صفحات وب میباشد برای این که گراف بزرگی از کلمات مرتبط استخراج شود. با این حال این شبکه خیلی بزرگ میباشد و ارتباط کلمات داخل یک صفحه دلیل محکمی بر ارتباط میان کلمات نیست و از طرفی تعداد کلمات یک صفحه متغیر (حداقل 200 کلمه) است که حجم زیادی از آنها کلمات غیرکاربردی مثل فعلها یا حروف اضافه هستند. به همین دلیل خوب است در حین تشکیل این گراف، یکسری عملیات برای کاهش حجم گراف و در عین حال بالابردن دقت گراف شبکه انجام دهیم. (چون در نظر گرفتن تمامی کلمات یک صفحه و ارتباطات آنها بیهوده و تنها باعث افزایش حجم گراف نهایی میشود) در ادامه پایههای اصلی انجام این کار را مورد بررسی قرار میدهیم و بعد از آن، معماری و شیوهی پیادهسازی صورتگرفته را بیان میکنیم. در نهایت خروجی کار و ارزیابی آن بر اساس پیادهسازی صورتگرفته ارائه میشود.
ادبیات موضوع
خزش اینترنت
خزش وب یا اینترنت، برنامه ماشینی خودکاری است که محتوای موجود در اینترنت را جستجو و ذخیرهسازی میکند تا در ادامه برای نیازهای مختلف مورد استفاده قرار بگیرد. اساسا، خزندههای وب وظیفه درک مطالب موجود در یک صفحه وب را دارند تا بتوانند از طریق آن به صورت خودکار و بدون مداخلت انسان، لینک و صفحات جدید را پیدا کنند. برای این کار، این رباتها با واکشی چند صفحه وب آغازین (اصطلاحاً seed) شروع به کار میکند و سپس لینکهای موجود در آن صفحات وب را برای یافتن صفحات بعدی و تکرار فرآیند دنبال میکند.
اگر چه در ظاهر انجام خزش ساده میباشد اما لازم است نکاتی در نظر گرفتهشود و پیادهسازی آن به سادگی بیانشده نیست. از جمله نکاتی که باید در این مورد در نظر گرفته شود، میتوان موارد زیر را نام برد:
- عدم گیرافتادن در تور بسته عنکبوت: گاهی یکسری از صفحات به صورت مدوام به یکدیگر لینک داشته به صورتی که حلقهای از اتصالات برگشتی به یکدیگر را شکل میدهند. به عنوان مثال در سادهترین حالت، صفحهی A به صفحهی B لینک دارد و صفحه B نیز به صفحهی A لینک دارد. در این حالت خزشکننده بعد از خزش صفحهی A به صفحهی B میرود و دوباره بر میگردد، در نتیجه در حلقهی نامتناهی گیر میکند و نمیتواند کار خود را ادامه دهد. برای خودداری از این مشکل، خزشکنندهها از حافظهی جداگانهای استفاده میکنند تا از خزش دوباره یک صفحه خودداری کنند و در نتیجه چنین مشکلی به وجود نخواهد آمد.
- رعایت ادب: وقتی یک دامنهی خاص مثل صفحهی ویکیپدیا را نظر میگیریم، اگر خزشکننده بخواهد هر ثاینه صفحهی جدیدی را از این دامنه درخواست دهد، بلافاصله توسط دامنه ویکیپدیا دسترسی به صفحهی موردنظر برای درخواستدهنده بسته میشود. علت این است که ویکیپدیا فکر میکند که شما قصد حمله به سایت آن را دارید و به همین دلیل تلاش بر واردکردن فشار دائمی به سایت او دارید. حتی برخی سایتها به شما اجازهی دسترسی به تمامی صفحات خود را نمیدهند. در این موارد رباتهای خزشگر باید اصلاحا ادب را در ارسال درخواستها رعایت کنند و بلافاصله و پشت سر هم از یک دامنه مشخص درخواست یک صفحه را ندهند. نرخ درخواست گاهی توسط خود سایتها ارائه میشود و گاهی نیز به صورت حداقلی یک دقیقه در نظر گرفته میشود.
استخراج کلمات
به منظور استخراج کلمات مهم یک صفحهی وب، به دنبال الگوریتمهایی برای استخراج کلمات مهم هستیم. هدف از استخراج کلمات مهم کاهش حجم اطلاعاتی است که ذخیره میکنیم زیرا ذخیرهسازی تمام کلمات از جمله حروف و حرفهای اضافه صرفاً حجم نگهداری داده را افزایش میدهد. این در حالی است که نگهداری تمامی این کلمات فایدهای ندارد. این الگوریتمها تحت عنوان word extraction شناخته میشوند. معمولا مهمترین و معروفترین الگوریتم که افراد مختلف در این حوزه پیشنهاد میدهند، الگوریتم TF-IDF میباشد. با این حال این الگوریتم و موارد مشابه آن به دلایل مختلف برای هدف این پیادهسازی مناسب نیستند:
- این الگوریتم نیاز به کلیهی اسناد (صفحات) برای استخراج کلمات مهم یک صفحه دارد و به همین دلیل، کار پیدا کردن کلمات مهم یک صفحه نمیتواند در حین خزش اتفاق بیافتد و باید در انتهای کار و بعد از این که مطمئن شدیم دیگر قصد خزش بیشتر نداریم انجام شود. این باعث میشود هزینهی آن در طول زمان نیز پخش نشود، اما بدی این روش این است که در صورت ادامهدادن خزش لازم است دوباره از کل شبکه استفاده و این الگوریتم اجرا شده و کلمات استخراج شود.
- به دلیل این که نیاز به کل صفحات میباشد، باید کلیهی صفحات و محتوای آنها نگه داشته شود (حجم زیادی داده) تا در انتها کلمات مهم و اساسی استخراج شوند. در صورتی که اگر در طول زمان کلمات را استخراج میکردیم، هم هزینهی کمتری از نظر اجرا در ادامه و همچنین فضای دیسک میپرداختیم.
- این الگوریتمها معمولا نسبت به اسناد جمعشده حساس هستند و بر اساس آن خروجی میدهند، در صورتی که شاید دید مستقل به هر سند نسبت به دیگر اسناد و استخراج کلمات، دقت بیشتری را خروجی دهد. به عبارتی این الگوریتم کلیه صفحات استخراجشده را نگاه میکند و بر اساس کلمات آنها، کلمات مهم را استخراج میکند و تا حد خوبی وابسته به محتوای کلیه صفحات استخراجشده میباشد. در حالی که اگر هر صفحه را مستقلا نگاه میکردیم و کلمات مهم را استخراج میکردیم، وابستگی کمتری به نوع صفحات خزششده میداشتیم.
همچنین روشهای مبتنی بر یادگیری نیز برای هدف پروژه مفید نیستند. این روشها وابسته به دادهی یادگیری هستند و قابلیت تعمیم کمی را در فضای اینترنت با صفحات مختلف و متنهای مختلف دارند. همچنین هزینهی یادگیری در این روشها نیز افزوده میشود و مشابه با روش TF-IDF، نیاز به حجم خوبی از کل داده دارند (برای یادگیری و سپس استخراج) و به همین دلیل معایب روش TF-IDF را نیز شامل میشوند. این روشها همچنین از مشکلات جدیدتری مثل وابستهشدن زیاد به ورودی تمرین یا دقت کم رنج میبرند و اگر متن کاملا جدیدی متفاوت از دادههای تمرین دریافت کنند، احتمالا به خوبی عمل نخواهند کرد.
به همین دلیل با توجه به محدودیتهای روشهای بیانشده و حجم دادهی ما، استفاده از روشهای با ویژگیهای زیر برای ما مفید نیستند:
- نیازمند کل مجموعه صفحات برای استخراج کلمات
- نیازمند دریافت اطلاعات وابسته به زبان (مثل کلمات stop word و ...)
- روشهای مبتنی بر یادگیری
در نتیجه ما در این پیادهسازی به دنبال روشهایی هستیم که بدون مشاوره و مستقلاً برای هر صفحه، کلمات مهم را استخراج کنند. در این میان روشهای مختلفی بررسی شدند که با توجه به محدودیت مقاله، زمان توضیح بررسی هر کدام از موارد نیست. در ادامه نام برخی از الگوریتمهای مهم بررسیشده، سال انتشار و خلاصهای از رویکرد آن را مشاهده میکنیم.
- روش TextRank (سال 2014): پایه و اساس روشهای دیگر که با تشکیل گرافی از کلمات صفحه (بر اساس روش صفحهی متحرک) و اعمال الگوریتمهای PageRank، کلمات مهم را استخراج میکند.
- روش PositionRank (سال 2017): مشابه روش TextRank با این تفاوت که موقعیت کلمات در صفحه را در نظر میگیرد. (کلمات ابتدایی صفحه احتمالا مهمتر از کلمات انتهایی صفحه هستند)
- روش RAKE یا Rapid Automatic Keyword Extraction (سال 2010): روشی مبتنی بر گراف که بر اساس کلمات stop word، جملات را جدا کرده و سپس بر حسب همنشینی کلمات داخل یک جمله و بین جملهها، گراف را تشکیل میدهد. سپس بر اساس معیارهای درجه و ... گراف، کلمات مهم را استخراج میکند.
- روش Multi-word Keyword Scoring Strategy (سال 2017): این روش بر اساس روشهای دیگر موجود استخراج کلمه عمل میکند و در نهایت خروجی آنها را ویرایش و کلمات مهمتر را استخراج و تشخیص میدهد به نحوی که دقت الگوریتم استفادهشده را افزایش میدهد.
- روش Word Attraction Rank (سال 2015): در این روش گرافی روی کلمات صفحه ایجاد میشود و در ادامه بر اساس مفاهیمی مثل کشش و دافعه (مفاهیم فیزیکی) و اعمال آنها به صورت ریاضی روی گراف، کلمات مهم را استخراج میکند.
- روش YAKE یا Yet Another Keyword Extractor (سال 2020): در این روش ابتدا صفحه بررسی شده، کلمات مهم و کاندید استخراج میشوند، سپس کلمات بر اساس ویژگیهای مختلف آماری یک بردار ویژگی دریافت میکنند (مثل موقعیت کلمه، تکرار کلمه، ارتباط به حوزه و ...)، سپس بر اساس بردار ویژگی امتیازی دریافت میکنند، در ادامه از روشهایی معروف برای حذف کلمات تکراری استفاده میشود و در نهایت خروجی ارائه میشود.
روشهای دیگری هم نیز بررسی شدند اما مهمترین آنها در این قسمت ذکر شدند. هر کدام از روشها و منطق پیادهسازی آنها بررسی شد. تلاش شد تا حد امکان پیادهسازیهای آنها یافت شده یا ایجاد شود و بر روی متون مختلف عملکرد آنها بررسی شود. در نهایت بر اساس بررسیها و مطالعات مختلفی که رخ داد، الگوریتم YAKE با بهترین نتایج به عنوان پایه و اساس برای ادامهی کار انتخاب شد.
پیادهسازی
در ادامه با توجه به حجم عظیمی از داده که ایجاد میشود لازم داریم که تا ابزارهایی مناسب در جهت موارد زیر را استفاده کنیم:
- ذخیرهسازی داده با فرمت مناسب برای پردازشهای بعدی
- ابزاری برای پردازش صفحات خزششده و ساخت گراف و استخراج کلمات
البته شاید با توجه به مدت زمان محدودی که برای پیادهسازی و سپس اجرای برنامه وجود دارد، حجم زیادی داده جمعآوری نشود اما پیادهسازی بر اساس فرض حجم زیاد داده انجام میشود تا برنامهی پیادهسازی برای استفاده دیگران در مقیاس حجم زیاد کاربردی باشد. بررسیهای مختلفی روی ابزارهای مختلف صورت گرفت تا از میان ابزارهای موجود و پیشرفتهای اخیر، بهترین تکنولوژی برای این موضوع انتخاب شود. معروفترین ابزارهای یافتشده در حوزه پردازش شبکههای بزرگ و پیچیده موارد زیر بودند:
- ابزار Apache Mahout
- ابزار Apache Giraph
- ابزار Apache Spark
این ابزارها، معروفترین موارد بودند. با این حال رویکرد هر کدام و محبوبیت هر کدام بررسی شد و تلاش شد بر اساس میزان بروزبودن، محبوبیت، قابلیتها و مقایسههای موجود در اینترنت (benchmarkها) ابزاری را برای پیشبرد پروژه انتخاب کنم. بر این اساس تصمیم گرفتم تا بر اساس ابزار Apache Spark ادامهی کار را پیش ببرم. این ابزار هم نسبت به دیگر ابزارهای جدید بروز بود و همچنین از محبوبیت بسیاری برخوردار بود.
در کنار انتخاب ابزارها، پیادهسازی صورتگرفته تا حد امکان به صورت ماژولار انجام میگیرد. هدف از پیادهسازی ماژولار این است که تا حد امکان به معماری میکروسرویس نزدیک باشیم و امکان اجرای هر کدام از بخشها به صورت مستقل قابل انجام باشد. معماری برنامه بر اساس این توضیحات در نهایت به صورت زیر میباشد:

کلیه برنامههایی که در تصویر مشاهده میکنید، در کنار یکدیگر هدف نهایی این پیادهسازی یعنی ساخت گراف کلمات مرتبط را انجام میدهند. در این راستا از یکسری سرویسهای زیرساختی آماده نیز استفاده شده است که فهرست آنها را در پایین تصویر مشاهده میکنید و محل استفاده هر کدام را نیز در بخش ماژولهای پیادهسازیشده مشاهده میکنید. همچنین در پیادهسازی برنامههای موردنیاز، ارتباطات میان تمام برنامهها از طریق زیرساختهای مستقل فراهم شده است. برای این منظور از ساختار صف توزیعشده (Kafka) و فایلسیستم توزیعشده (HDFS) استفاده شده است. این نحوهی معماری این امکان را میدهد تا هر کدام از از برنامهها به صورت مستقل اجرا شوند چون ورودی آنها و خروجی آنها مستقیماً به دیگر برنامهها فرستاده نمیشود و در محلهای میانی ذخیره میشود. در ادامه به صورت خلاصه کارکرد هر کدام از برنامهها را مورد بررسی قرار میدهیم.
- خزشگر (crawler): اولین و شروعکننده برنامه، بخش خزشگر میباشد. این بخش در روز صفر، فهرستی از صفحات اولیه را دریافت میکند و شروع میکند به خزش محتوای صفحات آنها و استخراج لینکهای موجود در آنها تا این فرایند را دوباره تکرار و ادامه دهد. فهرست لینکهای اولیه در یک صف کافکا قرار داد و لینکهای جدیدی که یافت میشوند، به این صف دوباره اضافه میشوند. همچنین صفحاتی که با موفقیت خزش میشوند، محتوای آنها و لینکهای صفحه در صفی به نام pages قرار میگیرند تا در ادامه توسط مولفههای بعدی مورد استفاده قرار بگیرند. دقت شود که محتوای صفحه سرشار از تگهای HTML میباشد ولی تنها محتوای صفحات بدون تگ ذخیره میشوند. (البته در آینده میتوان این را بهبود داد تا بین تگهای header و لیست و ... تفاوت بگذارد اما در پیادهسازی کنونی صرف از نظر نوع تگ، صرفا محتوای درون تمامی تگها در نظر گرفته شده است) همچنین این مولفه باید از خزش دوباره صفحات خودداری کند. برای این منظور از پایگاه داده mongodb برای نگهداری لینک صفحات خزششده استفاده میکند. همچنین در نگهداری لینکها تا حد امکان آنها را فشرده ذخیرهسازی میکند.
- استخراجکننده کلمات کلیدی (keyword-extractor): این بخش صفحاتی که در صف pages قرار گرفتهاند را میخواند و سپس به ازای هر صفحه، به صورت مستقل و مبتنی بر روش YAKE، کلمات کلیدی را استخراج کند. سپس کلمات کلیدی استخرجشده را در صف دیگری به نام keywords قرار میدهد تا توسط مولفهی بعدی استفاده شود.
- استخراجکننده لینکها (anchor-extractor): این بخش صفحاتی که در صف pages قرار گرفتهاند را میخواند و سپس به ازای هر لینک موجود در صفحه، بین صفحهی مبدا و مقصد یک لینک (X -> Y) ایجاد میکند و آن را در صف دیگری به نام links قرار میدهد تا توسط مولفهی بعدی استفاده شود. علت تصمیمگیری این نوع ساختار استفادهشده، پیادهسازی راحتتر بخش ساخت گراف در مراحل بعدی میباشد.
- ذخیرهکننده کلمات کلیدی (keyword-persister): این بخش کلمات کلیدی استخراجشده برای هر صفحه را از صف keywords میخواند و به صورت دستههایی با اندازه و حجم مشخص، در قالب یکسری فایل بر روی فایلسیستم توزیعشده HDFS مینویسد. علت این مولفه میانی این است که اولا منطق آن از منطق استخراج کلمات جدا شود و همچنین فایل سیستم HDFS برای فایلهای بزرگ مناسب است (نه فایلهای کوچک) به همین دلیل از طریق این روش میتوان نحوهی نوشتن لینکها بر روی HDFS را کنترل کرد. خروجی نوشتهشده در این قسمت در ادامه توسط مولفهی بعدی مورد استفاده قرار میگیرد.
- ذخیرهکننده لینکها (keyword-persister): این بخش مشابه بخش ذخیرهکننده کلمات کلیدی، لینکهای استخراجشده را از صف links میخواند و به صورت دستههایی با اندازه و حجم مشخص، در قالب یکسری فایل بر روی فایلسیستم توزیعشده HDFS مینویسد. علت این مولفه میانی این است که اولا منطق آن از منطق استخراج لینک جدا شود و همچنین خروجیهای مناسب برای فایل سیستم HDFS تولید شود. خروجی نوشتهشده در این قسمت در ادامه توسط مولفهی بعدی مورد استفاده قرار میگیرد.
- بخش تولید گراف (graph-producer): این بخش هر دو خروجی ذخیرهشده در مولفههای قبلی شامل کلمات کلیدی و لینکها را دریافت میکند و با کنار هم قراردادن این دو مورد، گرافی میان کلمات یک صفحه و صفحات دیگر ایجاد میکند. در این گراف هر گره یک صفحه با فهرستی از کلمات است و لینکها نشاندهندهی وجود ارتباط بین دوصفحه است. سپس این گراف را به گراف دیگری تبدیل میشود که در آن هر کلمه از یک گره به کلمه دیگری از یک گره لینک پیدا میکند اگر بین دو گره، یالی باشد. همچنین بین کلمات یک صفحه نیز لینک ایجاد میشود. در ادامه این گراف جدید مبتنی بر فرمت جدید در سیستمفایل HDFS ذخیره میشود که همان گراف کلمات مرتبط شامل کلیه جزییات (از کوچکترین ارتباطات تا بزرگترین آنها) میباشد.این خروجی در ادامه توسط مولفه بعدی استفاده میشود.
- رسمکننده گراف (graph-drawer): این بخش خروجی گراف قبلی را از فایلسیستم میخواند و در صفحهی HTML ارائه میدهد. در هنگام رسم یکسری فیلترها توسط این مولفه میتواند بر روی خروجی انجام شود تا کیفیت خروجی بهبود پیدا کند. در حال حاضر سادهترین فیلتر که انتخاب صرفا 100 کلمه دارای لینک با وزن زیاد میباشد، پیادهسازی شده است.
برای پیادهسازی هر کدام از این مولفهها نیز از یکسری سرویسهای زیرساختی استفاده شده است که در ادامه توضیح خلاصهای را در مورد هر کدام از آنها بیان میکنیم:
- ابزار Apache HDFS: کارکرد اصلی ابزار نگهداری داده است. این ابزار مجموعهای از نرمافزارهای منبع باز است که استفاده از شبکهای از رایانههای زیادی را برای حل مشکلات مربوط به حجم عظیم داده و محاسبات تسهیل میکند. بخش HDFS این ابزار یک چارچوب نرمافزاری برای ذخیرهسازی توزیع شده فراهم میکند. HDFS میتواند انواع دادهها را شامل ساختاریافته، نیمه ساختاریافته یا بدون ساختار ذخیره کند. این ابزار برای ذخیرهسازی لینکها و کلمات کلیدی استخراجشده مورد استفاده قرار گرفته است.
- ابزار Spark: کارکرد اصلی ابزار پردازش داده میباشد. Apache Spark یک چارچوب محاسباتی خوشهای منبعباز و توزیعشده برای پردازش بلادرنگ (real-time) محسوب میشود. اسپارک سازگاری روان با Hadoop را فراهم میکند. اسپارک به منظور تعامل با خوشه، APIهای سطح بالایی را در جاوا، اسکالا، پایتون و R ارائه میدهد. کد اسپارک را میتوان به هر یک از این چهار زبان نوشت. از این ابزار برای تحلیل دادههای خروجی و ایجاد گراف نهایی استفاده شده است.
- ابزار Zookeeper: یک سرویس متمرکز برای حفظ اطلاعات پیکربندی، نامگذاری، ارائه همگامسازی توزیع شده و ارائه خدمات گروهی است. همه این نوع خدمات به شکلی توسط برنامههای کاربردی توزیع شده استفاده میشوند. به عنوان مثال هادوپ و کافکا از این سرویس استفاده میکنند. علت آن این است که به دلیل دشواری پیادهسازی این نوع خدمات، برنامههای کاربردی معمولاً به ابزارهای خارجی وابسته میشوند. حتی زمانی که به درستی انجام شود، پیادهسازی های مختلف این خدمات منجر به پیچیدگی مدیریت در هنگام استقرار برنامهها میشود.
- ابزار Kafka: کافکا یک سرویس رویداد توزیع شده و بستر پردازش جریان است که متشکل از سرورها و کلاینتهایی است که از طریق یک پروتکل شبکه TCP با کارایی بالا ارتباط برقرار میکنند. این به کاربران امکان میدهد دادهها را به هر تعداد سیستم یا برنامه های بلادرنگ منتشر (publish) کنند و سرویسهای دیگر برای دریافت داده خود را ثبت (subscribe) کنند. این ابزار معمولا به عنوان یک صف توزیعشده نیز شناخته میشود و از ویژگیهای آن برای جداسازی برنامههای کاربردی مختلف در پیادهسازی جاری استفاده شده است.
- ابزار MongoDb: یک پایگاه داده سند گرا است و به عنوان پایگاه داده NoSQL طبقهبندی میشود زیرا اسناد JSON مانند با طرحهای اختیاری را ذخیره میکند. این پایگاه داده قابلیتهای متنوعی از جمله پرسوجوهای در لحظه، ایندکسکردن داده، تکرار داده (برای خودداری از بین رفتن داده)، تقسیم بار، جمعآوری و تحلیل را فراهم میکند. به علت سادهبودن این ابزار و سرعت خوب در تستهای صورتگرفته، به عنوان یک persisntent cache در پیادهسازی کنونی استفاده شد.
خروجی و ارزیابی
بر اساس پیادهسازی صورتگرفته، سایتهای اولیه برای اجرا و تولید گراف نهایی مشخص شدند. فهرست سایتهای اولیه که برای خزش انتخاب شدند، موارد زیر بودند که همگی جزو سایتهای معروف هستند:
- http://google.com
- http://wikipedia.org
- http://instagram.com
- http://yahoo.com
- http://whatsapp.com
- http://amazon.com
- http://live.com
- http://netflix.com
- http://reddit.com
- http://office.com
- http://linkedin.com
- http://zoom.us
- http://discord.com
- http://twitch.tv
- http://bing.com
- http://roblox.com
- http://microsoftonline.com
- http://duckduckgo.com
- http://pinterest.com
- http://msn.com
- http://microsoft.com
- http://ebay.com
- http://accuweather.com
- http://fandom.com
- http://weather.com
- http://paypal.com
- http://walmart.com
همچنین برای رعایت ادب در هنگام خزش، مدت زمان یک دقیقه فاصله بین درخواستها به یک دامنه یکسان فاصله انداخته شد. مدت زمان محدودی به دلیل پیادهسازی خود مولفهها، بخش خزشکننده در حال اجرا بود و همچنین به دلیل مصرف اینترنت بالای مولفه، صرفا در ساعت خاصی از روز که اینترنت رایگان داشتم، اجرا شد. (که البته در این ساعت نیز سرعت اینترنت حداقل مقدار بود) در نهایت تعداد 150 هزار صفحه یافت شد که از میان آنها 10 هزار صفحه، محتوا و لینکهایشان به صورت کامل استخراج شد. به ازای هر صفحه تنها صد کلمهی کلیدی استخراج گردید و مبتنی بر همین مشخصات، گراف خروجی ساخته شد. در ادامه پیش از نتیجهگیری، چند نمونه از شکار صحنههای زیبا را برای گراف خروجی را مشاهده میکنیم.

همانطور که در تصویر بالا مشاهده میکنید، ما توانستیم تمامی ماههای میلادی را با ارتباطات زیاد در یک گروه و دستهبندی تقریبا متصل داشته باشیم و این در حالی هست که ما هیچگونه دانشی در این سامانه در مورد ماههای سال قرار نداده بودیم و خود سامانه توانسته بود این رابطه را بر اساس لینکها و محتوای موجود در اینترنت، استخراج کند.

همانطور که در این تصویر مشاهده میکنید، بین «حریم شخصی» با سه مفهوم «سیاست»، «داده» و «اطلاعات» ارتباطاتی تشخیص داده شده است که تا حدود زیادی مفاهیم مرتبط به یکدیگر میباشند.

در تصویر بالا کلیهی خدماتی که توسط شرکت مایکروسافت ارائه میشوند را میتوانیم مشاهده کنیم. به عنوان مثال «سیستمعامل ویندوز»، تبلت پیشرفتهی «surface» آن، دستگاه «Xbox»، زیرساخت ابری «Azure» و حوزههای کاری مثل «آموزش»، «بازی»، «توسعهدهنده» و «کسب و کار» را مشاهده میکنیم.

در تصویر بالا دو گروه تشخیص داده شده دیگر را مشاهده میکنید. در سمت چپ مشاهده میکنید که بین مفاهیم «سلامتی» و «دولت» و «سرمایهگذاری» ارتباطی تشخیص داده شده است که میتواند حاکی از این باشد که به دلیل بیماری کرونا در شرایط کنونی، دولت قصد دارد در حوزهی سلامت سرمایهگذاری کند. در سمت راست تصویر، ارتباط خودکار تشخیص داده شده بین تمامی مرورگرهای معروف را مشاهده میکنیم که دوباره بدون دانش قبلی و توسط سامانه کشف شده است.

در تصویر بالا نیز مشاهده میکنیم که مفاهیم موجود در حوزهی توسعهی وب مشاهده میشوند از جمله تکنولوژیهای پایه که برای پیادهسازی آن استفاده میشوند.
همانطور که در تمامی مثالهای بالا مشاهده کردیم، روابط مختلفی از دیدگاههای مختلف به صورت خودکار تشخیص داده شده بودند و این در حالی که بود که هنوز کل گراف نشان داده نشده بود و همچنین هر مقدار تعداد لینکهای بیشتری خزش شوند، کیفیت خروجی بهبود پیدا میکند. همچنین بسته به این که لینکهای اولیه بهتر و بیشتری استفاده میشود، میتوان به خروجی خیلی بهتر و کاملتری رسید. با این حال با همین مقدار خروجی میتوان مشاهده کرد که خودکار بودن این ابزار و امکان استخراج یکسری مجموعه از کلمات مرتبط (مثلا از طریق communityها) میتواند برای ساخت پایگاه دادهای از کلمات مرتبط مفید باشد. این پایگاه داده میتواند در مراحل بعدی توسط ابزارهای پیشنهاددهنده و جستجوگرها، تحلیلگرهای مبتنی بر پردازش زبان طبیعی و ... مورداستفاده قرار بگیرد. پیادهسازی این پروژه را در این لینک میتوانید مشاهده کنید.
این مطلب، پروژه درس شبکههای پیچیده در دانشگاه شهیدبهشتی است.
مطلبی دیگر از این نویسنده
مدل C4 برای تجسم معماری نرمافزار
مطلبی دیگر در همین موضوع
8 کاری که باید پیش از شروع نوشتن یک نرمافزار موفق انجام بدهید
افزایش بازدید بر اساس علاقهمندیهای شما
کالو ابزاری چند منظوره با هدف کمک به رشد کسب و کارها