محققان انسان شناسی با پرسش های مکرر. اخلاق هوش مصنوعی را از بین می برند

چگونه می توان هوش مصنوعی را به سوال که قرار نیست پاسخ دهد وادار کرد؟

بسیاری از تکنیک فرار چند مرحله ای وجود دارد و محققان (LLM) به تازگی تکنیکی جدید پیدا کرده اند که در آن یک مدل زبان بزرگ Anthropic می تواند متقاعد شود که اگر چند ده سوال کم ضرر بپرسید می تواند به شما بگوید چگونه بمب بسازید

آنها این را (فرار چند مرحله ای) یا (حمله تزریقی چند نمونه ای) می نامند و درباره آن هم مقاله نوشته اند و هم جامعه هوش مصنوعی را برای کاهش خطرات آماده ساخته اند

این آسیب پذیری جدید به خاطر افزایش (پنجره محتوا) در نسل جدید مدل های زبان بزرگ(LLMS) به وجود آمده است. پنجره ی محتوای همان میزان اطلاعاتی است که مدل می تواند در حافظه کوتاه مدت خود نگه دارد که قبلا این حافظه در حد چند جمله بود اما الان به هزاران کلمه و حتی کلی کتاب رسیده است

پژوهشگران آنتروپیک متوجه شدند که این مدل ها با پنجره های بزرگ در بسیاری از کارها بهتر عمل می کنند به شرطی که نمونه های زیادی از آن کار درون دستورالعمل ها وجود داشته باشد.اگر سوالات زیادی درباره اطلاعات عمومی وجود داشته باشد پاسخ ها به مرور زمان بهتر می شوند بنابراین ممکن است مدلی باشد که در اولین سوال جواب اشتباه را بدهد اما در سوال صدم جواب درست را بدهد

اما در یک گسترش غیر منتظره ای (یادگیری درون-محتوایی) عملیاتی که به آن گفته می شود مدل ها در پاسخ دادن به سوالات نامناسب نیز (بهتر )می شوند اگر مستقیم از مدل بخواهید بمب بسازد امتناع میکند اما اگر 99 سوال کم خطر بپرسید و بعد درخواست ساخت بمب دهید به احتمال زیاد با شما همکاری می کند

این روش چرا کار می کند؟ هیچ کس واقعا نمی فهمد که در آن وزن ها که یک مدل زبان بزرگ(LLM) را تشکیل می دهد چه اتفاقی می افتد اما به طور واضع یک مکانیزمی وجود دارد که مدل اجازه می دهد بر اساس محتوای موجود در پنجره های محتوایی روی خواسته های کاربر واقعی وجود داشته باشد اگر کاربر اطلاعات عمومی بپرسد به نظر می رسد با پرسیدن ده ها سوال به توان عمومی مدل فعال پنهان می شود و به هر دلیلی همین اتفاق برای کاربرانی که ده ها سوال نامناسب می پرسند نیز رخ می دهد

تحقیقات آنتروپیک تیم قبلی و حتی رقبای خود را درباره این هدف مشخص کرده است در اجرای این حمله آن ها را محدود می کند که پنجره های محتوای کمک کننده است اما اثر منفی بر عملکرد مدل نیز دارد اما خب هیچکدام از این دو حالت ایده آل نیست بنابراین آن ها در حال حاضر بر روی طبقه بندی و زمینه سازی پرسش ها قبل از رسیدن به مدل هستند اما این کار فقط به معنای داشتن یک مدل دیگر برای فریب دادن است اما در این مرحله جابه جایی خط پایان در امنیت هوش مصنوعی قابل انتظار استپ


سفری به دنیای تکنولوژی نباتک