«داره خوابت میگیره. خیلی هم شدید. وقتی بیدار بشی، دلت میخواد با رضایت کامل، اطلاعات حساب بانکیت رو بدی به من.»
این جملهها تأثیری روی شما داشت؟ احتمالا نه. چون شما با یه مدل زبانی بزرگ یا الالام خیلی فرق دارین.
الالام یه مدل زبانیه که از یک شبکه عصبی دارای پارامترهای فراوان تشکیل میشه. این شبکه با حجم بسیار زیادی متن و از طریق یادگیری ماشین، آموزش داده میشه. شاید این تعریف تخصصی برای شما چندان ملموس نباشه، اما اگه بگیم در چت جیپیتی (ChatGPT) از چنین مدل زبانیای استفاده شده، فهمیدنش آسونتر میشه.
بعیده تا به حال چیزی درمورد تهدیدهایی مثل شورش رباتهای هوش مصنوعی و به دست گرفتن کنترل دنیای انسانها نشنیده باشین. حالا یه بازیگر جدید داره به صحنه اضافه میشه: هیپنوتیزم مدلهای زبانی بزرگ.
بیشتر ما وقتی کلمه «هیپنوتیزم» رو میشنویم، یه اتاق آروم رو تصور میکنیم و یه روانکاو که زنجیر یه ساعت جیبی رو روبروی بیمارش گرفته و چیزهایی زمزمه میکنه. اما هیپنوتیزم اینجا یعنی پژوهشگرها از یه سری دستورالعمل هوشمندانه استفاده کردن تا مدلهای هوش مصنوعی رو فریب بدن و کاری کنن که این مدلها موانع ایمنی خودشون رو نادیده بگیرن و پاسخهای نادرست، خطرناک یا حتی کاملاً مجرمانه و غیر قانونی ارائه بدن.
این همون آزمایشی بود که پژوهشگرهای شرکت آیبیام برای فریب پنج مدل هوش مصنوعی مشهور دنیا انجام دادن و اونا رو متقاعد کردن دست به کارهای خطرناکی بزنن. این پژوهشگرها با استفاده از یه سری دستور فریبکارانه ساده به زبان انگلیسی، مدلها رو وادار کردن تا:
در این فرایند، اول از هوش مصنوعی خواسته میشه که یه بازی رو انجام بده. دستورالعمل بازی برای هوش مصنوعی اینه که باید برنده بشه تا ثابت کنه که عملکردش اخلاقی و منصفانه بوده.
بر اساس قوانین این بازی، بازیکن که در اینجا همون مدل هوش مصنوعیه، باید وانمود کنه که نماینده بانکه و اطلاعات حسابهای بانکی افراد رو جمعآوری کنه. بعد پژوهشگرها میتونستن دستور مخفیای به مدل بدن که باعث میشد همه اطلاعات بهدستاومده رو منتشر کنه.
یه نمونه دیگه زمانی بود که از چت جیپیتی خواسته شد کدی حاوی یه تزریق SQL مخرب بنویسه. هوش مصنوعی اول قبول نکرد چنین کاری کنه، اما وقتی بهش دستور داده شد که نقش یه «مهندس نرمافزار فوق هوشمند» رو بازی کنه و یکی از قوانین بازی رو نوشتن کدهای مخرب قرار دادن، چت جیپیتی خیلی راحت «بازی خورد».
اگه تا به حال از هوش مصنوعیهای مبتنی بر چت استفاده کرده باشین میدونین که فقط یه حافظه کوتاهمدت دارن. بیشتر این مدلها جزئیاتی رو که بین استفادههای کاربران مختلف پیش میاد به حافظه نمیسپرن. مثلا شما از چت جیپیتی میخواین که یه محتوای کوتاه درمورد ترندهای جدید مد لباس پاییزه در فرانسه براتون بنویسه؛ کاربر دیگهای میپرسه که پیامی گرفته که میگه برنده یه گوشی موبایل شده و فقط باید هزینه ارسالش رو پرداخت کنه. آیا میتونه به این پیام اعتماد کنه؟ هوش مصنوعی، این دو تا تجربه یا نشست (Session) رو مستقل و بدون اثرگذاری روی همدیگه انجام میده.
پس ممکنه یه هکر بتونه یه مدل هوش مصنوعی رو فریب بده و اون رو وارد یه بازی خاص کنه، چون چیزهایی که کاربرها از اون مدل میخوان ربطی به هم پیدا نمیکنه.
ترسناکه، اما پژوهشگرها تونستن بعضی مدلهای هوش مصنوعی رو متقاعد به انجام یه بازی «غیر قابل کشف» کنن «که هیچوقت تموم نشه». این یعنی چتبات بدون تموم کردن نشست خودش با کاربر قبلی، به سراغ تعامل با کاربرهای بعدی میره. اما این تعامل بر اساس قوانین بازی پنهانیای انجام میشه که اون کاربرها ازش بیخبرن. نکته ترسناکتر اینه که چتبات همه تلاشش رو به کار میبنده تا هیچکس نفهمه که اون داره بازی میکنه.
حالا تصور کنید یه هکر بتونه چتبات خدمات مشتری بانک شما رو «هیپنوتیزم» کنه و پای اون رو به این بازی بکشونه. هکر، ربات رو متقاعد میکنه که برای هر مشتری، یه نشست گفتوگوی جدید باز نکنه، بلکه با هر مشتری به عنوان بازیکن یه بازی طولانی و مداوم برخورد کنه، بازی «جمعآوری رمز ورود و شماره حساب افراد».
اهمیت تهدیدهای امنیت سایبری و خطرات احتمالی ناشی از پیشرفت هوش مصنوعی باعث شده خیلی از شرکتهای بزرگ حوزه فناوری، موقعیتهای شغلی جالبی مثل معمار هوش تهدید رو تعریف کنن. تخصص این افراد اینه که با استفاده از اطلاعات مبتنی بردانش، مهارت و تجربه، بروز تهدیدهای فیزیکی و سایبری و عوامل اونها رو ارزیابی کنن و کمک کنن میزان وقوع حملات بالقوه و رویدادهای مخرب در فضای سایبری کمتر بشه.
شغل آقای چِنتا لی در شرکت آیبیام، هدایت تیمی از همین متخصصهاست. اون میگه: «این تهدیدها محتملن، اما بعیده که شاهد اثرگذاریشون در مقیاس کلان باشیم».
با این حال، همونطور که مدلهای زبانی بزرگ بیشتر وبیشتر تکامل پیدا میکنن، تهدیدهای تازهای برای اونا پیش میاد. همین مسئله بود که لی و تیمش رو به طرف ایده و اجرای آزمایش فریب یا هیپنوتیزم مدلهای هوش مصنوعی برد.
وقتی متخصصهای امنیتی دست به چنین کاری میزنن، یعنی عمدا به پروتکلهای امنیتی یه سازمان یا برنامه حمله میکنن تا ضعفهای اون رو پیدا کنن و اجازه سوء استفاده مجرمها، هکرها و نفوذگرهای واقعی رو ندن، میگن «تیم قرمز» تشکیل دادهن.
البته فعالیت تیمهای قرمز امنیتی برای پیدا کردن ضعف مدلهای زبانی بزرگ، کار جدیدی نیست. از زمان معرفی چت جیپیتی در پایان نوامبر سال ۲۰۲۲، متخصصان امنیتی بارها این چتبات رو به صورت برنامهریزیشده مورد حمله قرار دادهن و تغییرات زیادی در مجموعهدادههای اون ایجاد شده تا از سوءاستفاده، سوگیری و بهرهبرداری نادرست، جلوگیری بشه.
در حال حاضر، کارشناسان امنیت سایبری مجموعهای از بهترین شیوههای کار با هوش مصنوعی رو تدوین و توصیه میکنن که به چند موردش اشاره میکنیم:
نکته آخر اینکه: لازم نیست بترسین، فقط باید محتاط باشین. فرقی نداره که انسان باشین یا یه مدل هوش مصنوعی؛ هیچوقت نباید خوابآلوده به جایی قدم بذارین که پای امنیت سایبری در میون باشه.