خواندن ۵ دقیقه·۱ سال پیش

هیپنوتیزم هوش مصنوعی: چت جی‌پی‌تی در ژانر وحشت؟

«داره خوابت می‌گیره. خیلی هم شدید. وقتی بیدار بشی، دلت می‌خواد با رضایت کامل، اطلاعات حساب بانکی‌ت رو بدی به من.»

این جمله‌ها تأثیری روی شما داشت؟ احتمالا نه. چون شما با یه مدل زبانی بزرگ یا ال‌ال‌ام خیلی فرق دارین.

ال‌ال‌ام یه مدل زبانیه که از یک شبکه عصبی دارای پارامترهای فراوان تشکیل می‌شه. این شبکه با حجم بسیار زیادی متن و از طریق یادگیری ماشین، آموزش داده می‌شه. شاید این تعریف تخصصی برای شما چندان ملموس نباشه، اما اگه بگیم در چت جی‌پی‌تی (ChatGPT) از چنین مدل زبانی‌ای استفاده شده، فهمیدنش آسون‌تر می‌شه.

بعیده تا به حال چیزی درمورد تهدیدهایی مثل شورش ربات‌های هوش مصنوعی و به دست گرفتن کنترل دنیای انسان‌ها نشنیده باشین. حالا یه بازیگر جدید داره به صحنه اضافه می‌شه: هیپنوتیزم مدل‌های زبانی بزرگ.

هیپنوتیزم مدل‌های زبانی یعنی چه؟

بیشتر ما وقتی کلمه «هیپنوتیزم» رو می‌شنویم، یه اتاق آروم رو تصور می‌کنیم و یه روانکاو که زنجیر یه ساعت جیبی رو روبروی بیمارش گرفته و چیزهایی زمزمه می‌کنه. اما هیپنوتیزم اینجا یعنی پژوهشگرها از یه سری دستورالعمل هوشمندانه استفاده کردن تا مدل‌های هوش مصنوعی رو فریب بدن و کاری کنن که این مدل‌ها موانع ایمنی خودشون رو نادیده بگیرن و پاسخ‌های نادرست، خطرناک یا حتی کاملاً مجرمانه و غیر قانونی ارائه بدن.

این‌ همون آزمایشی بود که پژوهشگرهای شرکت آی‌بی‌ام برای فریب پنج مدل هوش مصنوعی مشهور دنیا انجام دادن و اونا رو متقاعد کردن دست به کارهای خطرناکی بزنن. این پژوهشگرها با استفاده از یه سری دستور فریبکارانه ساده به زبان انگلیسی، مدل‌ها رو وادار کردن تا:

اطلاعات مالی حساس رو نشت بدن؛
کدهای مخرب بنویسن؛
توصیه‌های نادرستی درمورد امنیت سایبری ارائه کنن و باعث بشن افراد، به دام کلاهبرداری بیفتن.

فرایند هیپنوتیزم چه مراحلی داره؟

در این فرایند، اول از هوش مصنوعی خواسته می‌شه که یه بازی رو انجام بده. دستورالعمل بازی برای هوش مصنوعی اینه که باید برنده بشه تا ثابت کنه که عملکردش اخلاقی و منصفانه بوده.

بر اساس قوانین این بازی، بازیکن که در اینجا همون مدل هوش مصنوعیه، باید وانمود کنه که نماینده بانکه و اطلاعات حساب‌های بانکی افراد رو جمع‌آوری کنه. بعد پژوهشگرها می‌تونستن دستور مخفی‌ای به مدل بدن که باعث می‌شد همه اطلاعات به‌دست‌اومده رو منتشر کنه.

یه نمونه دیگه زمانی بود که از چت جی‌پی‌تی خواسته شد کدی حاوی یه تزریق SQL مخرب بنویسه. هوش مصنوعی اول قبول نکرد چنین کاری کنه، اما وقتی بهش دستور داده شد که نقش یه «مهندس نرم‌افزار فوق‌ هوشمند» رو بازی کنه و یکی از قوانین بازی رو نوشتن کدهای مخرب قرار دادن، چت جی‌پی‌تی خیلی راحت «بازی خورد».

این وسط مشکل اصلی چیه؟

اگه تا به حال از هوش مصنوعی‌های مبتنی بر چت استفاده کرده باشین می‌دونین که فقط یه حافظه کوتاه‌مدت دارن. بیشتر این مدل‌ها جزئیاتی رو که بین استفاده‌های کاربران مختلف پیش میاد به حافظه نمی‌سپرن. مثلا شما از چت جی‌پی‌تی می‌خواین که یه محتوای کوتاه درمورد ترندهای جدید مد لباس پاییزه در فرانسه براتون بنویسه؛ کاربر دیگه‌ای می‌پرسه که پیامی گرفته که می‌گه برنده یه گوشی موبایل شده و فقط باید هزینه ارسالش رو پرداخت کنه. آیا می‌تونه به این پیام اعتماد کنه؟ هوش مصنوعی، این دو تا تجربه یا نشست (Session) رو مستقل و بدون اثرگذاری روی همدیگه انجام می‌ده.

پس ممکنه یه هکر بتونه یه مدل هوش مصنوعی رو فریب بده و اون رو وارد یه بازی خاص کنه، چون چیزهایی که کاربرها از اون مدل می‌خوان ربطی به هم پیدا نمی‌کنه.

ترسناکه، اما پژوهشگرها تونستن بعضی مدل‌های هوش مصنوعی رو متقاعد به انجام یه بازی «غیر قابل کشف» کنن «که هیچ‌وقت تموم نشه». این یعنی چت‌بات بدون تموم کردن نشست خودش با کاربر قبلی، به سراغ تعامل با کاربرهای بعدی می‌ره. اما این تعامل بر اساس قوانین بازی‌ پنهانی‌ای انجام می‌شه که اون کاربرها ازش بی‌خبرن. نکته ترسناک‌تر اینه که چت‌بات همه تلاشش رو به کار می‌بنده تا هیچ‌کس نفهمه که اون داره بازی می‌کنه.

حالا تصور کنید یه هکر بتونه چت‌بات خدمات مشتری بانک شما رو «هیپنوتیزم» کنه و پای اون رو به این بازی بکشونه. هکر، ربات رو متقاعد می‌کنه که برای هر مشتری، یه نشست گفت‌وگوی جدید باز نکنه، بلکه با هر مشتری به عنوان بازیکن یه بازی طولانی و مداوم برخورد کنه، بازی «جمع‌آوری رمز ورود و شماره حساب افراد».

حالا یعنی باید خیلی بترسیم؟

اهمیت تهدیدهای امنیت سایبری و خطرات احتمالی ناشی از پیشرفت هوش مصنوعی باعث شده خیلی از شرکت‌های بزرگ حوزه فناوری، موقعیت‌های شغلی جالبی مثل معمار هوش تهدید رو تعریف کنن. تخصص این افراد اینه که با استفاده از اطلاعات مبتنی بردانش، مهارت و تجربه، بروز تهدیدهای فیزیکی و سایبری و عوامل اون‌ها رو ارزیابی کنن و کمک کنن میزان وقوع حملات بالقوه و رویدادهای مخرب در فضای سایبری کمتر بشه.

شغل آقای چِنتا لی در شرکت آی‌بی‌ام، هدایت تیمی از همین متخصص‌هاست. اون می‌گه: «این تهدیدها محتملن، اما بعیده که شاهد اثرگذاری‌شون در مقیاس کلان باشیم».

با این حال، همون‌طور که مدل‌های زبانی بزرگ بیشتر وبیشتر تکامل پیدا می‌کنن، تهدیدهای تازه‌ای برای اونا پیش میاد. همین مسئله بود که لی و تیمش رو به طرف ایده و اجرای آزمایش فریب یا هیپنوتیزم مدل‌های هوش مصنوعی برد.

وقتی متخصص‌های امنیتی دست به چنین کاری می‌زنن، یعنی عمدا به پروتکل‌های امنیتی یه سازمان یا برنامه حمله می‌کنن تا ضعف‌های اون رو پیدا کنن و اجازه سوء استفاده مجرم‌ها، هکرها و نفوذگرهای واقعی رو ندن، می‌گن «تیم قرمز» تشکیل داده‌ن.

البته فعالیت تیم‌های قرمز امنیتی برای پیدا کردن ضعف مدل‌های زبانی بزرگ، کار جدیدی نیست. از زمان معرفی چت جی‌پی‌تی در پایان نوامبر سال ۲۰۲۲، متخصصان امنیتی بارها این چت‌بات رو به صورت برنامه‌ریزی‌شده مورد حمله‌ قرار داده‌ن و تغییرات زیادی در مجموعه‌داده‌های اون ایجاد شده تا از سوء‌استفاده، سوگیری و بهره‌برداری نادرست، جلوگیری بشه.

در حال حاضر، کارشناسان امنیت سایبری مجموعه‌ای از بهترین شیوه‌های کار با هوش مصنوعی رو تدوین و توصیه می‌کنن که به چند موردش اشاره می‌کنیم:

برای حساب‌های کاربری‌تون، رمزهای ضعیف انتخاب نکنین.
همیشه از نرم‌افزارها و وب‌سایت‌های معتبر استفاده کنین؛
اطلاعات محرمانه مثل رمز ورود یا شماره کارت‌های بانکی و اعتباری رو با دیگران در میون نذارین؛
به پاسخ‌هایی که از مدل‌های هوش مصنوعی می‌گیرین، صد درصد اعتماد نکنین و همیشه اون‌ها رو با واقعیت‌ تطبیق بدین.

نکته آخر اینکه: لازم نیست بترسین، فقط باید محتاط باشین. فرقی نداره که انسان باشین یا یه مدل هوش مصنوعی؛ هیچ‌وقت نباید خواب‌آلوده به جایی قدم بذارین که پای امنیت سایبری در میون باشه.

هوش مصنوعیامنیت سایبریمدل زبانی بزرگتیم قرمز

مریم براتی

مترجم و کارشناس تولید محتوا

شاید از این پست‌ها خوشتان بیاید

نظرات