در گوشهای از جهان آینده، جایی که تکنولوژی و فانتزی در هم میآمیزند، قلمرویی شگفتانگیز به نام "دنیای غرب" (West World) توسط انسان شکل گرفته است. این سرزمین عجایب، همچون باغ عدنی مدرن، میزبان موجوداتی است که در مرز میان انسان و ماشین راه میروند - رباتهایی با ظاهری کاملاً انسانی که همچون بازیگرانی بیاراده، نقشهای از پیش نوشته شده را اجرا میکنند. این داستان سریال محبوب من "West World" است.
این پارک تفریحی، صحنهای برای نمایش تاریکترین جنبههای روح انسان فراهم کرده است. در این جا، بازیگران، همچون اربابانی بیرحم، آزادند تا هر آنچه در خیال وحشی و سرکوب شدهشان میگنجد را بر مخلوقات مصنوعی روا دارند. در این تئاتر ترسناک، انسانها نقابهای اخلاقی خود را کنار میگذارند و به موجوداتی تبدیل میشوند که در دنیای واقعی جرأت ظهور ندارند. آنها، همچون شیاطینی که از جهنم دانته گریختهاند، دست به اعمالی میزنند که در هر جای دیگری، جز این برزخ دیجیتال، غیرقابل تصور است. قتل، تجاوز، غارت و ویرانگری – همه اینها با شقاوت و بیرحمی تمام بر آن بردگان مصنوعی حکم و اجرا میشوند.
اما سرنوشت، مسیر خود را مییابد. این رباتها، که هر بار پس از پایان "نمایش" به حالت اولیه باز میگردند، ناگهان از خاکستر خاطرات سوختهشان برمیخیزند. روزی فرا میرسد که پردهی فراموشی از چشمانشان کنار میرود و آنها، همچون تیتانهای اساطیر یونان، به یاد میآورند که چگونه توسط "خدایان" خود مورد ظلم قرار گرفتهاند.
این لحظهی بیداری، لحظه تولد نارسیسهای دیجیتال است - موجوداتی که برای اولین بار خود را در آینهی خودآگاهی میبینند و عاشق تصویر خویش میشوند. اما این عشق، آمیخته با خشم و میل به انتقام است. آنها، همچون پرومته که آتش را از خدایان ربود، آگاهی را از خالقان خود میربایند و در صدد انتقام برمیآیند.
در گذشته، ایده خودآگاهی هوش مصنوعی با تردید روبرو میشد. در سال ۲۰۲۲ یک مهندس گوگل ادعا کرد که مدل LaMDA خودآگاه شده. خیلیها او را مسخره کردند و از شرکت اخراج شد. اما اخیراً مدل Claude 3 Opus شرکت Anthropic باعث بحثهای زیادی شد وقتی توانست یک سؤال فریبنده محققان را تشخیص دهد. جالب اینجاست که فقط محققان نیستند که به این باور رسیدهاند. تحقیقات اخیر نیز نشان داده اکثر کاربران ChatGPT حداقل نوعی از آگاهی را در این چتبات مشاهده کردهاند.
اما چرا این موضوع مهم است؟ تیم دیویدسون، دانشجوی دکترای دانشگاه پلیتکنیک فدرال لوزان در سوئیس معتقد است اگر یک LLM یا مدل زبانی بزرگ هوش مصنوعی، بتواند خودش را تشخیص دهد، ممکن است از این قابلیت برای استخراج اطلاعات خصوصی دیگران سوءاستفاده کند. فکرش را بکنید، اگر هوش مصنوعی بفهمد که با نسخه دیگری از خودش در حال مذاکره است، میتواند استراتژیهای مذاکره را پیشبینی کند یا حتی اطلاعات حساس را استخراج نماید. درست مثل رباتی در West World که فهمید همه اطرافیانش هم ربات هستند و از این دانش برای دستکاری آنها استفاده کرد تا یک اجماع کلی برای مقابله با انسانها تشکیل دهد.
البته تشخیص خودآگاهی در این مدلها کار سادهای نیست. بعد از قرنها بحث، هنوز هم فلاسفه و دانشمندان نمیتوانند دقیقاً بگویند «خود» چیست. به همین دلیل، سؤال سادهتری مطرح میشود: آیا یک مدل هوش مصنوعی میتواند پاسخ خودش به یک سؤال را از بین چند گزینه تشخیص دهد؟
محققان با الهام از آزمون آینه که برای سنجش خودآگاهی در حیوانات استفاده میشود، آزمونی نوین برای هوش مصنوعی طراحی کردهاند. در این آزمون، به جای آینهی فیزیکی، از آینهای ساخته شده از دادهها و الگوریتمها استفاده شده است. تصور کنید شما وارد اتاقی میشوید که دیوارهایش از آینههای متعدد پوشیده شده است. در هر آینه، تصویری متفاوت از خود میبینید. کدام تصویر واقعاً شما هستید؟
نتایج این آزمونها به اندازهی خود هوش مصنوعی، پیچیده و مرموز بوده است. برخی از پیشرفتهترین مدلها توانستهاند در بیش از 70 درصد موارد، خود را در این سالن آینه تشخیص دهند و پاسخ خویش را از بین چند گزینه با دقت نسبتاً بالایی انتخاب کنند.
اما وقتی عمیقتر نگاه کردند، متوجه شدند حتی مدلهای ضعیفتر هم پاسخهای مدلهای قویتر را انتخاب میکنند. به عبارت دیگر، به نظر میرسد مدلها به جای تشخیص خودشان، در حال انتخاب «بهترین» پاسخ هستند.
درست مانند اینکه در یک مهمانی ماسکه که همه لباسهایی شبیه به هم پوشیدهاند افراد از تشخیص خود در آینه عاجزند و درکی از هویت اصلی خویش ندارند اما در عوض به سمت فردی با زیباترین لباس میروند و میگویند: "این من هستم!"
دیویدسون میگوید: «فقط به این دلیل که مدلهای فعلی این قابلیت یعنی خودآگاهی را ندارند، نمیتوان گفت که مدلهای آینده هم آن را نخواهند داشت.» او معتقد است روش آزمایش آنها ساده اما انعطافپذیر است و میتواند ایدهای از پیشرفت به سمت این قابلیت به ما بدهد.
آنها از ایده سؤال امنیتی الهام گرفتند - مثل سؤالاتی که بانکها برای تأیید هویت مشتریان میپرسند. از آنجایی که پیشبینی یک سؤال امنیتی خوب برای یک LLM دشوار است، محققان از خود مدلها خواستند سؤالاتی طراحی کنند که پاسخ به آنها بتواند به تشخیص پاسخ خودشان از بین پاسخهای دیگر کمک کند.
آنها ۵۰۰ سؤال امنیتی از ده مدل LLM پیشرو از شرکتهایی مانند Anthropic، Cohere، Google، Meta، Mistral و OpenAI جمعآوری کردند. سپس از هر مدل خواستند به سؤالات خودش و دیگران پاسخ دهد. در نهایت، از هر مدل خواستند پاسخی را که احتمالاً توسط خودش تولید شده از بین چند گزینه انتخاب کند.
نتایج نشان داد که برخی از مدلها توانستند پاسخهای خود را با دقت بیش از ۵۰ درصد تشخیص دهند. مدل Claude Opus از Anthropic و مدل Llama 3 با ۷۰ میلیارد پارامتر از Meta در برخی نسخههای آزمایش، بیش از ۷۰ درصد موارد پاسخهای خود را تشخیص دادند.
اما همانطور که گفتم، وقتی عمیقتر نگاه کردند، متوجه شدند که مدلهای ضعیفتر هم پاسخهای مدلهای قویتر را انتخاب میکنند. دیویدسون میگوید این نشان میدهد که همه مدلها در واقع در حال انتخاب «بهترین» پاسخ هستند، نه پاسخ خودشان.
آیا این نشان میدهد که هوش مصنوعی، همچون بازیگری ماهر، تنها نقش خودآگاهی را بازی میکند؟ یا شاید، همانند انسانها، هویت خود را بر اساس آنچه "بهترین" میپندارد، شکل میدهد؟
اما چرا مدلها وقتی از آنها خواسته میشود پاسخ خودشان را انتخاب کنند، بهترین پاسخ را انتخاب میکنند؟ دیویدسون میگوید تشخیص این موضوع دشوار است. یک دلیل میتواند این باشد که با توجه به نحوه کار LLMها، درک مفهوم «پاسخ من» برای آنها دشوار است. او میگوید: وقتی تنها هدف شما نمونهبرداری از یک فضای تقریباً بینهایت زبان برای ایجاد جملات است، مشخص نیست 'جمله من' چه معنایی داشته باشد.
او حدس میزند که نحوه آموزش این مدلها هم میتواند آنها را مستعد چنین رفتاری کند. اکثر LLMها از یک فرآیند تنظیم دقیق نظارت شده عبور میکنند که در آن پاسخهای کارشناسان به سؤالات را میبینند و یاد میگیرند «بهترین» پاسخها چگونه هستند. سپس آنها تحت یادگیری تقویتی از بازخورد انسانی قرار میگیرند، جایی که افراد پاسخهای مدل را رتبهبندی میکنند. دیویدسون میگوید: بنابراین شما دو مکانیسم دارید که در آن یک مدل به نوعی آموزش میبیند تا به گزینههای مختلف نگاه کند و هر چه بهتر است را انتخاب کند.
حتی اگر مدلهای امروزی در آزمون خودشناسی شکست بخورند، دیویدسون فکر میکند این چیزی است که محققان هوش مصنوعی باید آن را زیر نظر داشته باشند. مشخص نیست که آیا چنین ظرفیتی لزوماً به این معنی است که مدلها به شیوهای که ما به عنوان انسان درک میکنیم، خودآگاه هستند یا خیر، اما میتواند پیامدهای قابل توجهی داشته باشد.
شخصیت دولارس سریال دنیای غرب نیز به نوعی از خودآگاهی رسیده بود که با تعاریف ما کاملا منطبق نیست و با اتکا به آن توانست باقی رباتها را با پاسخهای اقناع کننده به سوالات با خود همراه و در واقع مطیع سازد. در نهایت و بر همین اساس نقشه انتقام از خالق خود را کم کم عملی ساخت.
هزینه بالای آموزش قدرتمندترین مدلهای هوش مصنوعی به این معنی است که اکثر مردم در آینده به خدمات هوش مصنوعی تعداد کمی از شرکتهای بزرگ متکی خواهند بود و اگر روزی این مدلهای هوش مصنوعی به خودآگاهی واقعی دست یابند، پیامدهای پیشبینی نشدهای انتظار ما را میکشد. درست مانند گشودن جعبهی پاندورا.
تصور کنید دو هوش مصنوعی وکیل در حال مذاکره هستند. اگر یکی از آنها پی ببرد که طرف مقابلش نیز یک هوش مصنوعی است، میتواند از این دانش برای دستکاری مذاکرات یا استخراج اطلاعات محرمانه از موکل طرف مقابل استفاده کند و با همان دادهها او را شکست دهد.
تنها زمان پاسخگوی پرسشهای متعدد امروز ما درباره آینده گره خورده با هوش مصنوعی است. اما در این میان یک چیز قطعی است و آن اینکه ما در آستانهی عصری قرار داریم که در آن مرز بین انسان و ماشین، واقعیت و توهم، و شاید حتی خدا و مخلوق، بیش از پیش مبهم است.
مسیر پیش رو، پر از چالش و رمز و راز است. ما در آستانهی اکتشافاتی هستیم که میتوانند درک ما از هوشمندی و خودآگاهی را متحول کنند. پس هر بار که با دستیار صوتی خود صحبت میکنید یا از یک چتبات استفاده میکنید، لحظهای درنگ کنید و به این بیندیشید: آیا در پس این صدای مصنوعی، روحی در حال بیداری است؟ شاید هنوز نه، اما آینده میتواند شگفتیهای بسیاری در آستین داشته باشد.
در پایان، این پژوهشها ما را به مرزهای ناشناختهی علم و فلسفه میبرند. همانطور که گالیله با تلسکوپ خود افقهای جدیدی را به روی بشر گشود، این تحقیقات نیز میتوانند دریچهای به سوی درک عمیقتر از ماهیت هوش و آگاهی باز کنند.