بهینه‌سازی ازدحام ذرات در یادگیری تقویتی عمیق برای شناسایی ربات‌های هرزنامه اجتماعی و کاربران تأثیرگذار بر هرزنامه در شبکه توییتر

ر شبکه‌های اجتماعی انواع مختلفی از ربات‌های اجتماعی وجود دارند. این ربات‌ها با توجه به نوع هدف آن‌ها تقسیم به دو دسته ربات‌های مخرب که اعمالی مخرب مانند پخش بدافزار، حساب‌های جعلی و غیره دارند؛ دسته دیگر ربات‌هایی با هدف مفید مانند ربات‌های بروزرسان اخبار می‌باشند. روش‌های مختلفی وجود دارد که می‌تواند ربات‌ها را تشخیص دهند. روش‌های شناسایی زیادی وجود دارد از جمله جمع سپاری، مبتنی برساختار، مبتنی بر یادگیری ماشین و شبکه‌های عصبی و غیره. در یادگیری عمیق یک رویکرد چند زبانه است که می‌تواند حساب‌های مشکوک و ربات‌های اجتماعی توییتر را بر اساس مجموعه‌ای از ویژگی‌های مستقل از زبان حساب، بهتر شناسایی کند. برای همین ربات‌ها با دستکاری مجموعه آموزشی خود باعث جلوگیری از شناسایی می‌شوند. بنابراین ممکن است شناسایی و دسته‌بندی ربات‌ها دچار مشکل بشود و دقت این شناسایی پایین بیاید و این مسئله چالش برانگیز است.

در این پژوهش برای شناسایی ربات‌ها از روش یادگیری تقویتی عمیق Qاستفاده می‌شود. برای دقیق‌تر شدن این شناسایی روش یادگیری تقویتی عمیق را با الگوریتم تکاملی بهینه‌سازی ازدحام ذرات یا PSO ترکیب می‌شود. در PSO، ویژگی‌های زمانی (مانند میانگین تعداد توییت‌های ارسال شده در روز، طولانی‌ترین زمان جلسه کاربر، و درصد کاهش فالوور) را می‌توان برای دستیابی به عملکرد بهینه تنظیم کرد. دلیل استفاده از الگوریتم بهینه‌سازی ازدحام ذرات حداکثر رساندن دقت تشخیص ربات‌های اجتماعی و به حداقل رساندن توالی اقدامات یادگیری به منظور رسیدن به یک حالت هدف با سرعت بالاتر با تعداد تکرار کمتر می‌باشد.

این پژوهش روی شناسایی ربات‌های اجتماعی مخرب با ویژگی‌های زمانی کاربر در شبکه توییتر بر اساس الگوریتم DRL با PSO تمرکز می‌کند؛ همچنین الگوریتم یادگیری تقویتی را برای شناسایی دقیق ربات‌های اجتماعی مخرب ارائه می‌شود. همچنین شناسایی تاثیرگذارترین کاربر هم دچار مسئله می‌باشد. به این منظور که کاربرانی که تحت تاثیر ربات‌های اجتماعی هستند را شناسایی کرده؛ زیر میزان نفوذ محتوای مخرب به خاطر تعداد زیاد تعاملات کاربر و جوامع با این ربات‌ها می‌باشد.

این پژوهش برای حل این مسائل اهداف زیر را دنبال می‌کند:

الف) طراحی یک تکنیک بهینه‌سازی فرا ابتکاری با مدل DQL با در نظر گرفتن بردار حالت با توالی عملکرد بهینه به منظور شناسایی دقیق ربات‌های اجتماعی مخرب در شبکه توییتر

ب) به حداقل رساندن تاثیر انتشار محتوای مخرب و شناسایی جوامع تاثیرگذار در شبکه توییتر

حال سوال پیش می‌آید که این مسئله چرا در شبکه توییتر مورد بحث قرار گرفته است؛ به دلیل اینکه دقت و صحت اطلاعات، شناسایی ربات‌های مخرب و کاهش تاثیر آن‌ها و همچنین کاهش تاثیر منفی نتشار محتوای مخرب کار مهمی می‌باشد.

راه حل برای حل این مسئله یک الگوریتم یادگیری عمیق Q مبتنی بر بهینه‌سازی ازدحام ذرات برای شناسایی ربات‌های اجتماعی با ادغام PSOبا تابع Q-value پیاده‌سازی شده است. علاوه بر این، یک الگوریتم SIU-ICD یا تشخیص جامعه تأثیرگذار برای کاهش انتشار محتوای هرز از طریق جوامع در شبکه توییتر پیشنهاد شده است.

در الگوریتم یادگیری عمیق Q (P-DQL) استراتژی موجود می‌باشد که با آن مقدار Q (Q-value)را در هر تکرار بروز رسانی می‌کند. استراتژی بروزرسانی با الگوریتم ازدحام ذرات می‌توان این طور تعریف کرد که با درنظر گرفتن ویژگی‌های مبتنی بر پروفایل کاربر در شبکه اجتماعی توییتر برای شناسایی ربات‌ها بهره برد. به همین دلیل پیشرفت ربات‌های اجتماعی برای جلوگیری از شناسایی ویژگی‌های مبتنی بر پروفایل خود را دستکاری کرده‌اند. بنابراین یک الگوریتم مبتنی بر بهینه‌سازی ازدحام ذرات با درنظر گرفتن ویژگی‌های زمانی کاربران و محتوای توییت‌های آن‌ها در توییتر پیشنهاد شده است. در الگوریتم پیشنهادی یک پاداش مبتنی بر باور برای تجزیه و تحلیل رفتار یک کاربر در شبکه بهره گرفته می‌شود.

باتوجه به اینکه شناسایی ربات‌های اجتماعی در شبکه‌اجتماعی توییتر می‌باشد. شبکه را به یک گراف شباهت داده می‌شود؛ یک گراف G = (P,E) که در آن P مجموعه‌ای از رئوس یا کاربران که شامل حساب‌های قانونی و ربات‌های اجتماعی می‌باشد و E مجموعه‌ای از ارتباط بین کاربران که شامل توییت، لایک، ریتوییت، پیام و غیره می‌باشد. برای هر کاربر در شبکه ویژگی‌های زمانی (مانند میانگین زمان بین دو توییت متوالی، میانگین تعداد توییت‌های ارسال شده در روز، درصد فالوورهای حذف شده و غیره) به عنوان بردار وضعیت نشان داده می‌شود.

بر اساس بردار وضعیت و انتقال عامل از حالت فعلی به حالت بعدی که مجموعه اقدامات یادگیری الگوریتم می‌باشد، مکان Q و سرعتV را مدل‌سازی می‌شود تا یک دنباله عمل بهینه را بر اساس پاداش فوری بلند مدت تعیین می‌شود. هدف کار این می‌باشد طراحی یک تکنیک بهینه‌سازی فراابتکاری با مدل DQL با در نظر گرفتن بردار وضعیت با توالی عملکرد بهینه به منظور شناسایی دقیق ربات‌های مخرب در شبکه توییتر است. علاوه بر این هدف دیگر این است حداقل رساندن تأثیر انتشار محتوای هرزنامه و شناسایی جوامع تأثیرگذار C در شبکه توییتر است.

خلاصه راه حل انجام شده عبارت است از:

الف) ارزیابی پاداش بلند مدت فورری برای هر رفتار کاربر براساس توالی اقدامات

ب) طراحی یک الگوریتم P-DQL برای شناسایی ربات‌های اجتماعی مخرب با تابع PSO در تابع Q-value

ج) توسعه یک الگوریتم SIU_ICD برای به حداقل رساندن انتشار محتوای مخرب از طریق جوامع تاثیرگذار در توییتر

د) آزمایش و ارزیابی با استفاده از دیتاست‌

الگوریتم پیشنهادی P-DQL فضای ذخیره‌سازی زیادی مصرف نمی‌کند؛ به دلیل اینکه الگوریتم دنباله‌ای از بهترین حالت را ذخیره می‌کند. همچنین این الگوریتم بسیار سریع‌تر همگرا می‌شود تا دنباله‌ای از اقدامات بهینه را برای رسیدن به یک حالت هدف پیدا کند؛ این عمل به‌خاطر این است که همزمان با چندتا عامل یادگیری را انجام می‌دهد.

در الگوریتم تکاملیPSO ویژگی‌های زمانی مانند میانگین تعداد توییت‌های ارسال شده در روز، طولانی‌ترین زمان آنلاین بودن کاربر، درصد کاهش فالوور، میانگین زمان بین دو توییت متوالی و غیره را می‌توان برای به دست آوردن دنباله‌ای از عملکرد بهینه تنظیم و استفاده کرد. دلیل ادغام PSOبا DQL این می‌باشد که محاسبات بالا را کاهش می‌دهد و عامل یادگیری به جای ذخیره همه جفت‌های حالت عمل ممکن، تنها بهترین دنباله اقدام را در حافظه پخش ذخیره می‌کند.

الگوریتم پیشنهادی P-DQL رفتار مخرب کاربران را با در نظر گرفتن ویژگی‌های زمانی که در الگوریتم PSO استفاده می‌شود را برای شناسایی ربات تجزیه و تحلیل می‌کند. قابل توجه است که ربات‌های اجتماعی قابلیت دستکاری ویژگی‌های زمانی را دارا نمی‌باشند، زیرا این ویژگی‌ها بر اساس رویدادهای رفتاری کاربران و تجزیه و تحلیل الگوهای رفتاری پویا آن‌ها می‌باشد.

تعدادی از کاربران عادی در شبکه‌اجتماعی رفتاری مانند ربات‌های اجتماعی مخرب دارند که این باعث ایجاد شک می‌شود. الگوریتم P-DQL چنین نوع کاربرانی را به عنوان یک ربات اجتماعی و رفتار آن‌ها را جز رفتارهای یک ربات مخرب شناسایی نمی‌کند زیرا رویکرد الگوریتم به این صورت می‌باشد که اگرکاربر فعالیت و رفتار‌های خود را در بازه‌های زمانی و به صورت مکرر انجام دهد را به عنوان یک رفتار مخرب شناسایی می‌کند، یعنی رفتار کاربر براساس ویژگی‌های زمانی به عنوان رفتار حالت شناسایی شود. این عمل یکی از مزایای این الگوریتم می‌باشد زیرا دفت بیشتری در شناسایی دارد.

برای ارزیابی عملکرد الگوریتم‌های پیشنهادی مقاله از دو دیتاست واقعی توییتر(توضیح بخش 5) استفاده شده است. نتایج مشاهده شده، نشان می‌دهد که الگوریتم‌های پیشنهادی از نظر مدولاریت[1]، [2]recall، دقت و f1-score[3]از دیگر الگوریتم‌های موجود در تشخیص ربات‌های اجتماعی بهتر عمل می‌کنند.

الگوریتم P-DQL را با الگوریتم‌PSO، شبکه عصبی پیش خور، شبکه عصبی عمیق منظم، شبکه عصبی تطبیقی، الگوریتم یادگیری تقویتی مبتنی بر محتوا و الگوریتم یادگیری تقویتی مبتنی بر تحلیل شبکه اجتماعی مقایسه می‌شود؛ همچنین برای الگوریتم SUI_ICD با الگوریتم‌های تشخیص جامعه هرزنامه نویس نظر، تشخیص گروه مخرب و K_SICDمقایسه می‌شود. الگوریتم P-DQLاقدامات کمتری برای رسیدن به وضعیت هدف نسبت به PSO احتیاج دارد و نرخ همگرایی بالاتری دارد.

برای تشخیص ربات اجتماعی مخرب، الگوریتم پیشنهادی مقاله به نام P-DQLتا 15 درصد بهبودی در مقدار دقت نسبت به سایر الگوریتم‌های موجود به دست می‌آورد. علاوه بر این، الگوریتم SIU-ICDپیشنهادی تأثیرگذارترین جوامع را با Q-valueماژولاریت بهتر (حدود 0.65) شناسایی می‌کند و از رویکردهای تشخیص جامعه مخرب موجود بهتر عمل می‌کند.

دیتاست‌هایی که در این مقاله استفاده شده است، دو تا از دیتاست‌های واقعی برگرفته از توییت‌های توییتر می‌باشد. اولین دیتاست Honeypot اجتماعی[4] می‌باشد؛ این دیتاست از 30 دسامبر 2009 تا 2 اوت 2010 از توییتر جمع‌آوری شده است. این دیتاست شامل 22223 آلاینده محتوا(توییت‌های محتوای مخرب، پیام‌های حاوی انتشار بدافزار و غیره، تعداد دنبال‌کنندگان محتوا در طول زمان، 5613166 توییت، تعداد 19276 کاربر قانونی می‌باشد. دومین دیتاست مجموعه داده پروژه جعلی[5] می‌باشد؛ این دیتاست شامل حساب‌های واقعی و هرزنامه‌ای توییتر می‌باشد. این دیتاست دارای تعداد 9987698 توییت، تعداد 3474 کاربر قانونی و 991 کاربر مخرب می‌باشد.

مرجع

G. Lingam, R. R. Rout, D. V. L. N. Somayajulu and S. K. Ghosh, "Particle Swarm Optimization on Deep Reinforcement Learning for Detecting Social Spam Bots and Spam-Influential Users in Twitter Network," in IEEE Systems Journal, vol. 15, no. 2, pp. 2281-2292, June 2021, doi: 10.1109/JSYST.2020.3034416.

-------------------------------------------------------------------------------------------------------------------------------------------------------

[1] اندازه گیری ساختار شبکه‌ها یا نمودارها است که قدرت تقسیم شبکه به ماژول‌ها را اندازه گیری می‌کند.

[2] درصدی از کل پیش‌بینی‌هایی که توسط مدل درست دسته‌بندی‌شده‌اند.

[3] برای ارزیابی عملکرد سیستم‌ها کاربرد دارد.

[4] Social Honeypot Dataset

[5] The Fake Project dataset

بهینه‌سازی ازدحام ذرات در یادگیری تقویتی عمیق برای شناسایی ربات‌های هرزنامه اجتماعی و کاربران تأثیرگذار بر هرزنامه در شبکه توییتر

معرفی تزاروس ناسا

ربات‌های اجتماعی (Social Bot) چیست؟

حداکثرسازی نفوذ (influence maximization)