دانشجوی کارشناسی ارشد هوش مصنوعی _ فعال در زمینههای هوش مصنوعی، شبکههای اجتماعی، رباتهای اجتماعی و بلاکچین
بهینهسازی ازدحام ذرات در یادگیری تقویتی عمیق برای شناسایی رباتهای هرزنامه اجتماعی و کاربران تأثیرگذار بر هرزنامه در شبکه توییتر
ر شبکههای اجتماعی انواع مختلفی از رباتهای اجتماعی وجود دارند. این رباتها با توجه به نوع هدف آنها تقسیم به دو دسته رباتهای مخرب که اعمالی مخرب مانند پخش بدافزار، حسابهای جعلی و غیره دارند؛ دسته دیگر رباتهایی با هدف مفید مانند رباتهای بروزرسان اخبار میباشند. روشهای مختلفی وجود دارد که میتواند رباتها را تشخیص دهند. روشهای شناسایی زیادی وجود دارد از جمله جمع سپاری، مبتنی برساختار، مبتنی بر یادگیری ماشین و شبکههای عصبی و غیره. در یادگیری عمیق یک رویکرد چند زبانه است که میتواند حسابهای مشکوک و رباتهای اجتماعی توییتر را بر اساس مجموعهای از ویژگیهای مستقل از زبان حساب، بهتر شناسایی کند. برای همین رباتها با دستکاری مجموعه آموزشی خود باعث جلوگیری از شناسایی میشوند. بنابراین ممکن است شناسایی و دستهبندی رباتها دچار مشکل بشود و دقت این شناسایی پایین بیاید و این مسئله چالش برانگیز است.
در این پژوهش برای شناسایی رباتها از روش یادگیری تقویتی عمیق Qاستفاده میشود. برای دقیقتر شدن این شناسایی روش یادگیری تقویتی عمیق را با الگوریتم تکاملی بهینهسازی ازدحام ذرات یا PSO ترکیب میشود. در PSO، ویژگیهای زمانی (مانند میانگین تعداد توییتهای ارسال شده در روز، طولانیترین زمان جلسه کاربر، و درصد کاهش فالوور) را میتوان برای دستیابی به عملکرد بهینه تنظیم کرد. دلیل استفاده از الگوریتم بهینهسازی ازدحام ذرات حداکثر رساندن دقت تشخیص رباتهای اجتماعی و به حداقل رساندن توالی اقدامات یادگیری به منظور رسیدن به یک حالت هدف با سرعت بالاتر با تعداد تکرار کمتر میباشد.
این پژوهش روی شناسایی رباتهای اجتماعی مخرب با ویژگیهای زمانی کاربر در شبکه توییتر بر اساس الگوریتم DRL با PSO تمرکز میکند؛ همچنین الگوریتم یادگیری تقویتی را برای شناسایی دقیق رباتهای اجتماعی مخرب ارائه میشود. همچنین شناسایی تاثیرگذارترین کاربر هم دچار مسئله میباشد. به این منظور که کاربرانی که تحت تاثیر رباتهای اجتماعی هستند را شناسایی کرده؛ زیر میزان نفوذ محتوای مخرب به خاطر تعداد زیاد تعاملات کاربر و جوامع با این رباتها میباشد.
این پژوهش برای حل این مسائل اهداف زیر را دنبال میکند:
الف) طراحی یک تکنیک بهینهسازی فرا ابتکاری با مدل DQL با در نظر گرفتن بردار حالت با توالی عملکرد بهینه به منظور شناسایی دقیق رباتهای اجتماعی مخرب در شبکه توییتر
ب) به حداقل رساندن تاثیر انتشار محتوای مخرب و شناسایی جوامع تاثیرگذار در شبکه توییتر
حال سوال پیش میآید که این مسئله چرا در شبکه توییتر مورد بحث قرار گرفته است؛ به دلیل اینکه دقت و صحت اطلاعات، شناسایی رباتهای مخرب و کاهش تاثیر آنها و همچنین کاهش تاثیر منفی نتشار محتوای مخرب کار مهمی میباشد.
راه حل برای حل این مسئله یک الگوریتم یادگیری عمیق Q مبتنی بر بهینهسازی ازدحام ذرات برای شناسایی رباتهای اجتماعی با ادغام PSOبا تابع Q-value پیادهسازی شده است. علاوه بر این، یک الگوریتم SIU-ICD یا تشخیص جامعه تأثیرگذار برای کاهش انتشار محتوای هرز از طریق جوامع در شبکه توییتر پیشنهاد شده است.
در الگوریتم یادگیری عمیق Q (P-DQL) استراتژی موجود میباشد که با آن مقدار Q (Q-value)را در هر تکرار بروز رسانی میکند. استراتژی بروزرسانی با الگوریتم ازدحام ذرات میتوان این طور تعریف کرد که با درنظر گرفتن ویژگیهای مبتنی بر پروفایل کاربر در شبکه اجتماعی توییتر برای شناسایی رباتها بهره برد. به همین دلیل پیشرفت رباتهای اجتماعی برای جلوگیری از شناسایی ویژگیهای مبتنی بر پروفایل خود را دستکاری کردهاند. بنابراین یک الگوریتم مبتنی بر بهینهسازی ازدحام ذرات با درنظر گرفتن ویژگیهای زمانی کاربران و محتوای توییتهای آنها در توییتر پیشنهاد شده است. در الگوریتم پیشنهادی یک پاداش مبتنی بر باور برای تجزیه و تحلیل رفتار یک کاربر در شبکه بهره گرفته میشود.
باتوجه به اینکه شناسایی رباتهای اجتماعی در شبکهاجتماعی توییتر میباشد. شبکه را به یک گراف شباهت داده میشود؛ یک گراف G = (P,E) که در آن P مجموعهای از رئوس یا کاربران که شامل حسابهای قانونی و رباتهای اجتماعی میباشد و E مجموعهای از ارتباط بین کاربران که شامل توییت، لایک، ریتوییت، پیام و غیره میباشد. برای هر کاربر در شبکه ویژگیهای زمانی (مانند میانگین زمان بین دو توییت متوالی، میانگین تعداد توییتهای ارسال شده در روز، درصد فالوورهای حذف شده و غیره) به عنوان بردار وضعیت نشان داده میشود.
بر اساس بردار وضعیت و انتقال عامل از حالت فعلی به حالت بعدی که مجموعه اقدامات یادگیری الگوریتم میباشد، مکان Q و سرعتV را مدلسازی میشود تا یک دنباله عمل بهینه را بر اساس پاداش فوری بلند مدت تعیین میشود. هدف کار این میباشد طراحی یک تکنیک بهینهسازی فراابتکاری با مدل DQL با در نظر گرفتن بردار وضعیت با توالی عملکرد بهینه به منظور شناسایی دقیق رباتهای مخرب در شبکه توییتر است. علاوه بر این هدف دیگر این است حداقل رساندن تأثیر انتشار محتوای هرزنامه و شناسایی جوامع تأثیرگذار C در شبکه توییتر است.
خلاصه راه حل انجام شده عبارت است از:
الف) ارزیابی پاداش بلند مدت فورری برای هر رفتار کاربر براساس توالی اقدامات
ب) طراحی یک الگوریتم P-DQL برای شناسایی رباتهای اجتماعی مخرب با تابع PSO در تابع Q-value
ج) توسعه یک الگوریتم SIU_ICD برای به حداقل رساندن انتشار محتوای مخرب از طریق جوامع تاثیرگذار در توییتر
د) آزمایش و ارزیابی با استفاده از دیتاست
الگوریتم پیشنهادی P-DQL فضای ذخیرهسازی زیادی مصرف نمیکند؛ به دلیل اینکه الگوریتم دنبالهای از بهترین حالت را ذخیره میکند. همچنین این الگوریتم بسیار سریعتر همگرا میشود تا دنبالهای از اقدامات بهینه را برای رسیدن به یک حالت هدف پیدا کند؛ این عمل بهخاطر این است که همزمان با چندتا عامل یادگیری را انجام میدهد.
در الگوریتم تکاملیPSO ویژگیهای زمانی مانند میانگین تعداد توییتهای ارسال شده در روز، طولانیترین زمان آنلاین بودن کاربر، درصد کاهش فالوور، میانگین زمان بین دو توییت متوالی و غیره را میتوان برای به دست آوردن دنبالهای از عملکرد بهینه تنظیم و استفاده کرد. دلیل ادغام PSOبا DQL این میباشد که محاسبات بالا را کاهش میدهد و عامل یادگیری به جای ذخیره همه جفتهای حالت عمل ممکن، تنها بهترین دنباله اقدام را در حافظه پخش ذخیره میکند.
الگوریتم پیشنهادی P-DQL رفتار مخرب کاربران را با در نظر گرفتن ویژگیهای زمانی که در الگوریتم PSO استفاده میشود را برای شناسایی ربات تجزیه و تحلیل میکند. قابل توجه است که رباتهای اجتماعی قابلیت دستکاری ویژگیهای زمانی را دارا نمیباشند، زیرا این ویژگیها بر اساس رویدادهای رفتاری کاربران و تجزیه و تحلیل الگوهای رفتاری پویا آنها میباشد.
تعدادی از کاربران عادی در شبکهاجتماعی رفتاری مانند رباتهای اجتماعی مخرب دارند که این باعث ایجاد شک میشود. الگوریتم P-DQL چنین نوع کاربرانی را به عنوان یک ربات اجتماعی و رفتار آنها را جز رفتارهای یک ربات مخرب شناسایی نمیکند زیرا رویکرد الگوریتم به این صورت میباشد که اگرکاربر فعالیت و رفتارهای خود را در بازههای زمانی و به صورت مکرر انجام دهد را به عنوان یک رفتار مخرب شناسایی میکند، یعنی رفتار کاربر براساس ویژگیهای زمانی به عنوان رفتار حالت شناسایی شود. این عمل یکی از مزایای این الگوریتم میباشد زیرا دفت بیشتری در شناسایی دارد.
برای ارزیابی عملکرد الگوریتمهای پیشنهادی مقاله از دو دیتاست واقعی توییتر(توضیح بخش 5) استفاده شده است. نتایج مشاهده شده، نشان میدهد که الگوریتمهای پیشنهادی از نظر مدولاریت[1]، [2]recall، دقت و f1-score[3]از دیگر الگوریتمهای موجود در تشخیص رباتهای اجتماعی بهتر عمل میکنند.
الگوریتم P-DQL را با الگوریتمPSO، شبکه عصبی پیش خور، شبکه عصبی عمیق منظم، شبکه عصبی تطبیقی، الگوریتم یادگیری تقویتی مبتنی بر محتوا و الگوریتم یادگیری تقویتی مبتنی بر تحلیل شبکه اجتماعی مقایسه میشود؛ همچنین برای الگوریتم SUI_ICD با الگوریتمهای تشخیص جامعه هرزنامه نویس نظر، تشخیص گروه مخرب و K_SICDمقایسه میشود. الگوریتم P-DQLاقدامات کمتری برای رسیدن به وضعیت هدف نسبت به PSO احتیاج دارد و نرخ همگرایی بالاتری دارد.
برای تشخیص ربات اجتماعی مخرب، الگوریتم پیشنهادی مقاله به نام P-DQLتا 15 درصد بهبودی در مقدار دقت نسبت به سایر الگوریتمهای موجود به دست میآورد. علاوه بر این، الگوریتم SIU-ICDپیشنهادی تأثیرگذارترین جوامع را با Q-valueماژولاریت بهتر (حدود 0.65) شناسایی میکند و از رویکردهای تشخیص جامعه مخرب موجود بهتر عمل میکند.
دیتاستهایی که در این مقاله استفاده شده است، دو تا از دیتاستهای واقعی برگرفته از توییتهای توییتر میباشد. اولین دیتاست Honeypot اجتماعی[4] میباشد؛ این دیتاست از 30 دسامبر 2009 تا 2 اوت 2010 از توییتر جمعآوری شده است. این دیتاست شامل 22223 آلاینده محتوا(توییتهای محتوای مخرب، پیامهای حاوی انتشار بدافزار و غیره، تعداد دنبالکنندگان محتوا در طول زمان، 5613166 توییت، تعداد 19276 کاربر قانونی میباشد. دومین دیتاست مجموعه داده پروژه جعلی[5] میباشد؛ این دیتاست شامل حسابهای واقعی و هرزنامهای توییتر میباشد. این دیتاست دارای تعداد 9987698 توییت، تعداد 3474 کاربر قانونی و 991 کاربر مخرب میباشد.
مرجع
G. Lingam, R. R. Rout, D. V. L. N. Somayajulu and S. K. Ghosh, "Particle Swarm Optimization on Deep Reinforcement Learning for Detecting Social Spam Bots and Spam-Influential Users in Twitter Network," in IEEE Systems Journal, vol. 15, no. 2, pp. 2281-2292, June 2021, doi: 10.1109/JSYST.2020.3034416.
-------------------------------------------------------------------------------------------------------------------------------------------------------
[1] اندازه گیری ساختار شبکهها یا نمودارها است که قدرت تقسیم شبکه به ماژولها را اندازه گیری میکند.
[2] درصدی از کل پیشبینیهایی که توسط مدل درست دستهبندیشدهاند.
[3] برای ارزیابی عملکرد سیستمها کاربرد دارد.
[4] Social Honeypot Dataset
[5] The Fake Project dataset
مطلبی دیگر از این انتشارات
رباتهای اجتماعی (Social Bot) چیست؟
مطلبی دیگر از این انتشارات
حداکثرسازی نفوذ (influence maximization)
مطلبی دیگر از این انتشارات
معرفی تزاروس ناسا