مینویسم برای آدمها و ماشینها - توییتر: twitter.com/mojtaba2a
الگوریتمها در برابر نوع بشر
در اکتبر سال 2005 به مناسبت شصتمین سالگرد ارائه طرح پیشنهادی MANIAC توسط فون نویمان و ACE توسط الن تورینگ، جورج دایسن (George Dyson) مورخ علم و تکنولوژی به دفتر مرکزی گوگل در کالیفرنیا دعوت شد تا به این سازمان و اجرای دقیق راهبردی که الن تورینگ در ذهن داشت نگاهی بیاندازد؛ این راهبرد همانا دعوت از تمام پرسشهای ممکن، جمعآوری تمام پاسخهای موجود، و نگاشت ارتباط میان آنها به عنوان نتیجه بود. در آن زمان گوگل به تازگی پروژه دیجیتالی کردنِ تمام کتابهای جهان را آغاز کرده بود و به دنبال آن به سرعت اعتراضها نسبت به این پروژه شدت میگرفت؛ اعتراضها نه از طرف نوسندگانِ کتابها که اغلب آنان خیلی وقت پیش مرده بودند، بلکه توسط عاشقان کتاب بود؛ آنان میترسیدند کتابها، روح خود را از دست بدهند. اما این اعتراض چقدر درست بود؟ آیا ما با اسکن کتابها روح را از آنها میگیریم یا روح کتاب را اسکن و جسم آن را رها میکنیم؟ کتابها ترکیبی از تجسم فیزیکیِ فانی، با دانشی فناناپذیر و بیجسم هستند و هر نویسنده سعی میکند قطعهای از حقیقت جهان را بر رشتهای تکبعدی از کلمات بریزد تا خواننده از درون این دریچهی باریک به مشاهده آن بنشیند شاید که منظرهای سهبعدی در ذهن او شکل بگیرد. دانش درون یک کتاب، همانا روح آن است که میتواند ابدی باشد اگر از آن به خوبی محافظت شود.
برخی دیگر از معترضان بر حقوق مولفین تاکید داشتند که با این کار نقض خواهد شد اما گوگل برای رفع این مشکل برخی از قسمتها یا کل کتابهایی را که دارای حق کپی هستند از دسترس عموم خارج کرد. پرسشی که پیش میآید این است که چرا گوگل این سرمایهگذاری عظیم را برای ذخیره انبوه دادهها انجام داده است؟ یکی از مهندسان گوگل در آن بازدید برای جورج دایسن پاسخ این سوال را آشکار کرد: «ما همهی آن کتابها را برای مطالعهی مردم اسکن نمیکنیم، ما آنها را برای خوانده شدن توسط هوش مصنوعی اسکن میکنیم.»
این هوش مصنوعی که در حال خواندنِ تمام کتابهای جهان است، هر چیز دیگری را نیز میخواند، از جمله بیشتر کدهایی که توسط برنامهنویسان در طول چند دههی گذشته نوشته شدهاند. این خواندن به معنای درک کامل و فهمیدنِ مفاهیم نهفته در آن نوشتهها نیست. هرچند شاید از درک ما نسبت به یک موجود زنده هنگام مطالعهی ژنوم آن بیشتر باشد. این برنامهی خاص، با یا بدون داشتنِ درک از آنچه میخواند در مواردی مخصوصا در بهبودِ یادگیریِ خود، موفق بوده است. تنها در هفتاد سال گذشته، کدِ نوشته شده برای اجداد این هوش مصنوعی به چند صد خط محدود بود و این برنامهها بدون کمک انسان نمیتوانستند پردازش خود را ادامه دهند. امروز نیز هوش مصنوعی نیازمند توجه دائمی انسان است و درست مانند نوزاد انسانی، از راهبرد حفاظت توسط دیگری برای حفاظت از خود بهره میبرد اما با توجه به انگیزهی قوی انسانها برای بقا، هیچ هوش مصنوعیِواقعا باهوشی، اگر وجود داشته باشد، تا از امنیت خود مطمئن نشود خودش را برای ما آشکار نخواهد کرد. جورج دایسن بعد از جلسهای که در گوگل داشت کتابی به نام «کلیسای جامع تورینگ: خاستگاههای جهان دیجیتال» (Turing's Cathedral: The Origins of the Digital Universe) منتشر کرد و برای اولین بار به مردم هشدار داد تا فعالیتهای بنیانگذاران گوگل را با حساسیت بیشتری دنبال کنند.
درک معانی کلمات
حالا دیگر گوگل محصولات بیشتری نسبت به گذشته دارد مثل سیستم عامل اندروید و کرومیوم، نقشه گوگل، اسپیکر گوگل هوم، یوتیوب و ... که همگی رفتار و اطلاعات کاربران در سرتاسر جهان را ذخیره و به هوش مصنوعی برای پردازش ارائه میدهند. اما گویا گوگل متوجه یک محدودیت در هوش مصنوعی خود شده است: عدم درک زبان و معنای کلمات.
چندی پس از آغاز پروژهی اسکن کتابها، لری پیج مدیرعامل گوگل با رِی کِرتزوایل (Ray Kurzweil) دیدار و در شرکت تازه تاسیس او سرمایهگذاری کرد. کرتزوایل یکی از موفقترین آیندهپژوهان در حوزه فناوری است. او تاکنون 147 پیشبینی موفق داشته است. کرتزوایل خیلی زودتر از گوگل به این نتیجه رسیده بود که سیستمهای عصبی موازی که در پردازشهای هوش مصنوعی از آنها استفاده میشود شبیهساز مناسبی برای مغز نیستند. او در کتاب خود «چگونه یک ذهن خلق کنیم» (How to Create a Mind: The Secret of Human Thought Revealed) توضیح میدهد که سلولهای نیوکورتکس (neocortex) در مغز انسان مسئول اصلی درک حواس، شناساییِ دیداریِ اشیاء و استخراج مفاهیم انتزاعی از آنها، کنترل حرکت، استدلال کردن در موارد مختلف از جهتیابی فضایی تا تفکر منطقی، و درک زبان است؛ اساسا، هرآنچه که ما به آن «فکر کردن» میگوییم در نیوکورتکس انجام میشود. دانشمندان عصبشناسی با بررسیهای خود متوجه شدند که ساختار بنیادی نیوکورتکس دارای یکنواختی خارقالعادهای است و سازماندهی این یکنواختی به صورت واحدهایی از ستونهای قشری است که بارها و بارها تکرار شدهاند. از منظر کرتزوایل هر یک از این ستونها ماژولی است برای شناسایی و ذخیره الگوها و در طول زندگی یک انسان این ستونها به مرور به یکدیگر متصل شده و نوعی سیمکشی ایجاد میکنند. این سیمکشی که بیانگر الگوهایی است که در طول زمان آموختهایم بسته به نوع تجربیات و آموزشها، در هر انسانی به گونهای یکتا شکل میگیرد؛ اینجا در حقیقت از دانشی که درون ژنوم انسان ذخیره شده است فراتر میرویم چرا که این نوع سیمکشی از آغاز در کدهای ژنوم انسان نبوده است. نوع بشر نسبت به کامپیوتر توانایی ضعیفتری در پردازش منطقی دارد، اما قابلیت بنیادینِ عمیقی در شناسایی الگوها دارد. ما برای تفکر منطقی باید از نیوکورتکس استفاده کنیم که یک دستگاه عظیم شناسایی الگو است البته این دستگاه برای انجام محاسبههای منطقی خیلی ایدهآل نیست با این حال برای انجام کارها فعلا همین امکانات را داریم. نرمافزار دیپ بلو (Deep Blue) که در سال 1997 گَری کاسپاروف را شکست داد در هر ثانیه قادر بود 200 میلیون موقعیت شطرنج را تجزیه و تحلیل کند. از کاسپاروف پرسیدند در هر ثانیه چند موقعیت شطرنج را میتواند تجزیه و تحلیل کند، وی پاسخ داد کمتر از یکی! با این حال در سه بازی، کاسپاروف یک بار دیپ بلو را شکست داد یک بار مساوی کرد و بار آخر شکست خورد. این توانایی در مواجهه با قدرت پردازش بالای دیپ بلو به دلیل قدرت بالای انسان در شناخت الگوها است هرچند این توانایی نیازمند تمرین زیاد است به همین دلیل، همه نمیتوانند استاد شطرنج شوند.
به این ترتیب کرتزوایل در حال حاضر روی پروژهی شبیهسازی شبکهی ماژولهایِ شناسایی الگو کار میکند، و همین امر لری پیج را به پروژه او علاقهمند کرد. علاوه بر سرمایهگذاری، لری پیج به کرتزوایل پیشنهاد داد که بر روی این موضوع فکر کند که چطور میتوان به جای جستجوی کلیدواژهها به جستجوی معانی بپردازیم؟ کرتزوایل راهحل را در توانایی ماشین در درک زبان میداند. او در حال حاضر پیشبینی کرده است که با کمک ماژولهای شناسایی الگو و کار روی سیستم هوش مصنوعی برای درک زبان تا سال 2029 کاملا به این توانایی دست پیدا خواهیم کرد. محصولات گوگل مخصوصا اسپیکر گوگل هوم با ضبط صدای میلیونها انسان در سرتاسر جهان، مستقیما به کرتزوایل در انجام این پروژه کمک میکنند.
یادگیریِ تقویتی
همزمان با این جریان، مهندسین گوگل بر روی سایر الگوریتمهای هوش مصنوعی نظیر الگوریتمهای یادگیری تقویتی (Reinforcement Learning) نیز کار میکنند. در برخی نمونهها این الگوریتم سعی میکند با پردازش تصاویر به عنوان ورودی و با دانستن هدف، که معمولا به حداکثر رساندن امتیاز است و بدون داشتن هیچ اطلاعی از مفهوم تصاویر، بهترین راه رسیدن به هدف را پیدا کند. در این راه هرگاه الگوریتم به هدف میرسد یا به آن نزدیک میشود پاداش دریافت میکند. با پردازش این پاداشها الگوریتم به تدریج بهینهترین راه رسیدن به هدف را پیدا میکند. این الگوریتمها بسیار پیچیده هستند و بررسی بیشتر یادگیری تقویتی به بحث مفصلی نیاز دارد که در اینجا مجال آن نیست. در ادامه تنها به برخی جنبههای ظاهری و خطرات احتمالی استفاده از آن مینگریم.
دانشمندان علوم کامپیوتر اغلب اذعان داشتهاند که در هنگام شروع پروژه تصوری از مسائل سخت و مسائل آسان داشتهاند که در اکثر اوقات، در هنگام پیادهسازی کاملا با خلاف آنچه تصور کرده بودند روبرو شدهاند. در زمانهای که الگوریتم دیپ بلو توانست کاسپاروف را شکست دهد، در حوزه رباتیک بهترین نمونهی ساخته شده، یک جاروبرقی خودکار بود که وقتی به سه کنج اتاق میرسید گیر میکرد و نمیتوانست خود را نجات دهد. این وضعیت دانشمندان علوم کامپیوتر را به این نتیجه رساند که ما در نرمافزار بسیار پیشرفت کردهایم و باید روی رباتیک بیشتر کار کنیم. دو دهه بعد رباتها آنچنان پیشرفت کردند که به راحتی طیف گستردهای از حرکات و وظایف را میتوانند انجام دهند. اما دانشمندان وقتی زمان آن رسید که نرمافزاری را به ربات الصاق کنند تا خودش یاد بگیرد چطور بطری را برداشته و یک لیوان را از آب پر کند متوجه شدند که این کار به غایت دشوار و چالش برانگیز است. اینجا بود که متوجه شدند در حوزه نرمافزار بسیار کند پیش رفتهاند و در پی آن، در سالهای اخیر توجه به الگوریتمهای یادگیریِ تقویتی به عنوان راهحلی برای این چالشها بسیار مورد توجه قرار گرفته است.
نکته دیگری که در مورد یادگیری تقویتی باید به آن توجه کرد تنظیم هدف در این الگوریتمها است. در هنگام تنظیم هدف باید دقت لازم را داشته باشیم وگرنه مثل پادشاهی میشویم که آرزو کرد دست به هرچیزی بزند طلا شود؛ وقتی آرزوی پادشاه برآورده شد فهمید دیگر نمیتواد غذا یا آب بخورد چون هنگام لمس آنها به جای غذا، طلا نصیبش میشد و آن پادشاه بعد از مدتی از گرسنگی مرد. به عبارتی هدفها و پاداشهایی که به الگوریتم داده میشود باید به دقت و با حفظ اولویتها تنظیم شوند. با توجه به اینکه الگوریتمهای یادگیری تقویتی اساسا بر مبنای صورتبندی هدف، و دریافت پاداش در هنگام رسیدن یا نزدیک شدن به هدف پیادهسازی میشوند، گاهی خروجی کار خندهدار و یا به طور وحشتناکی زیانبار میشود. در یک مورد هدف ربات این بود که بالا بپرد و پاداشی که دریافت میکرد مقدار فاصله پای ربات تا زمین بود، نتیجه نهایی بعد از یادگیری این شد که هرگاه به ربات میگفتند بپر حرکتی شبیه به پشتک وارو انجام میداد و زمین میخورد چون الگوریتم یاد گرفته بود با این کار فاصله بیشتری از زمین پیدا میکند و در نتیجه پاداش بیشتری میگیرد. نمونهها همیشه مثل این خندهدار نمیشوند در ادامه استفاده شبکههای اجتماعی از الگوریتم یادگیری تقویتی را بررسی میکنیم.
خروجیِ پیشبینی نشده
در سال 2010 یک فعال اینترنتی به نام ایلای پریسر (Eli Pariser) از اصطلاحی به نام فیلترینگ حبابی (filter bubble) استفاده کرد تا نشان دهد چگونه شبکههای اجتماعی، موتورهای جستجو و برخی سایتهای خبری با آنالیز رفتار و علایق کاربران به پیشفرضهایی از کاربر دست پیدا میکند و سپس طبق آن، محتوایی را در تایملاین کاربر نمایش میدهد که مورد پسند وی باشد و به این ترتیب آنان را درون یک حباب ذهنی منزوی میکنند و در نتیجه کاربر از سایر اطلاعات، عقاید و نظرها بیخبر میماند.
حالا اگر همین مساله را از زاویه دیگری ببینیم یعنی از منظر الگوریتمهای یادگیری تقویتی و افراد تنظیمکننده این الگوریتمها، میفهمیم که تنظیم هدف این بوده است که درآمد حاصل از کلیک روی محتوا و تبلیغات باید به حداکثر برسد و الگوریتم، هر بار که موفق میشود کاربری را به کلیک ترغیب کند، پاداش میگیرد. شاید پیشبینی برنامهنویسان این بوده که الگوریتم به مرور و با دریافت اطلاعاتِ کلیکهایی که کاربر روی لینکها انجام میدهد، با علایق، ویژگیها و نیازهای کاربر آشنا میشود و در راستای همان ویژگیها مطالب مورد علاقه کاربر را گلچین میکند. اما این چیزی نیست که الگوریتمهای یادگیری تقویتی انجام میدهند؛ بنیان این الگوریتمها این است که در محیطی که حضور پیدا میکنند بیشترین پاداش را بدست بیاورند. در این مورد، محیط همان ذهن انسان است و پاداش در حقیقت این است که کاربر بیشتر قابل پیشبینی باشد. بنابراین الگوریتم روی ذهن کاربر کار میکند تا عمل او را پیشبینیپذیرتر کند. این الگوریتمها به مرور زمان و کم کم مقالاتی را برای کاربر ارسال میکنند تا او را از نظر گرایشات ذهنی به سمتی سوق دهند که بیشتر قابل پیشبینی باشد و در نتیجه، کلیککنندهی قابل پیشبینیتری باشد و این تنها چیزی است که الگوریتم به آن اهمیت میدهد. اگر به عنوان مثال کاربران با طیفهای مختلف سیاسی را بر روی یک خط فرضی رسم کنیم به طوری که در گوشه راست، کاربران با عقاید سیاسی راست رادیکال و در گوشه چپ کاربران با عقاید چپ رادیکال و در میانه کاربران معتدل قرار داشته باشند، آنگاه هر چه به گوشهها حرکت کنیم میبینیم آنها قابل پیشبینیتر میشوند چراکه چشمانداز باریکتری از جهان دارند در نتیجه با اشتیاق روی مطالبی کلیک میکنند که دقیقا با جهانبینی آنان تطابق دارد و صحتِ عقاید آنان را تایید میکند. اما رفتار کاربری که در میانه طیف قرار دارد به سختی قابل پیشبینی است چون مطالب مورد علاقه آنان شامل انواع گستردهتری از دیدگاهها است و در نتیجه تنها روی یک دیدگاه خاص تمرکز نمیکنند. برای الگوریتمها کار بسیار دشواری است که این نوع کاربران را برای کلیک روی یک مطلب خاص ترغیب کنند. به این ترتیب الگوریتمها یاد میگیرند که کاربران را به سمت گوشههای افراطی طیفهای سیاسی هل دهند تا کاربرانِ پیشبینیپذیرتری باشند تا کلیکِ بیشتری کنند و در نهایت پاداش بیشتری برای الگوریتم به ارمغان بیاورند. به نظر میرسد با ادامه این روند و تاثیرگذاری روزافزون شبکههای اجتماعی و موتورهای جستجو بر روی مردم، در آینده جوامع انسانی هرچه بیشتر به سمت افراطیگری و کاهش مدارا و تحمل دیدگاههای متفاوت، حرکت کنند. در زمان حاضر نیز میتوانیم ببینیم که سیاستمداران افراطی به تدریج قدرت بیشتری به دست میآورند و نرخ حملات تروریستی مسلمانان بر علیه مسیحیان و مسیحیان بر علیه مسلمانان کاهش نداشته است.
با دستیابی گوگل و سایر غولهای نرمافزاری به فناوریِ تشخیص معانی واژگان و ترکیب آن با انواع الگوریتمهای هوش مصنوعی نظیر یادگیری تقویتی و شروع پردازش روی انبوه دادههایی که تاکنون ذخیره کردهاند، در آینده شاهد نرمافزارهایی خواهیم بود که مثلا صبح شنبه، روشن میشوند و در ظهر سهشنبه معلوماتی به اندازه کل کتابهای جهان به علاوه تمام محتوای اینترنت دارند و البته اینبار به درکی از معانی این اطلاعات نیز دست یافتهاند و از آن برای تصمیمگیری استفاده میکنند. سوال این است که دانشمندانی که روی این الگوریتمها کار میکنند چگونه مطمئن میشوند که خروجی این الگوریتمها در راستای منافع نوع بشر است. اصولا قبل از اجرای برنامه چگونه میتوان نتایجِ عملیِ اجرایِ یک الگوریتمِ یادگیری با مکانیزم حرکت به سمت هدف برای رسیدن به پاداش بیشتر را پیشبینی و عملکرد آن را ضمانت کرد؟ آیا میتوانیم مطمئن شویم سیستمهای فوق هوشمندی که در آینده طراحی میشوند خلاف نظر و اهداف ما نیستند؟ در عمل، حل این مساله به طرز ناباورانهای ناممکن به نظر میرسد؛ اول اینکه تنظیم و نوشتن خود اهداف یا آرزوهای ما به طوری که با هم تداخل نداشته باشند دشوار است و دوم اینکه باید تمام راههای غیرمعمول و ناخواستهای را که ماشین فوق هوشمند برای تحقق اهداف ما پیدا میکند، پیشبینی و از وقوع آن جلوگیری کنیم.
اگر سیستمهای فوق هوشمند مصنوعی را مانند یک جعبه سیاه ببینیم که از درون آن خبر نداریم آنگاه هیچ امیدی برای حل مساله نخواهیم داشت. در عوض، برای حل مساله باید این رویکرد را اتخاذ کنیم: یک مشکلِ رسمی به نام F تعریف کنیم؛ بعد سیستم هوش مصنوعیای که حل کننده F است طراحی کنیم به طوری که در هر شرایطی و با صرف نظر از چگونگی حل F، ضمانت شده باشد که ما از راهحل خرسند خواهیم بود. اگر بتوانیم یک F با این ویژگی تنظیم کنیم آنگاه شاید به هوش مصنوعی قابل اعتماد و سودمند دست پیدا کنیم. البته در این روش، ماشین نباید اطلاعی از خرسندیِ ما داشته باشد چون بعد از این، راهحل نه در راستای حل مشکل که در راستای خرسندیِ انسان (صاحب ماشین) و دریافت پاداش بیشتر برای ماشین پیش خواهد رفت. در انتها باید به استادان، برنامهنویسان و دانشجویانِ فعال در حوزه هوش مصنوعی هشدار دهیم همیشه به خود یادآوری کنند که پیچیدهگیهایِ پیادهسازیِ الگوریتمهایِ هوشِ مصنوعی، آنان را از اندیشیدن به راهحل مناسب برای پیشگیری از خروجیهای پیشبینی نشده غافل نسازد. در واقع، هر هوش مصنوعی ممکن است در مسیری شگفتیساز و خارج از سناریوهای باورپذیر حرکت کند. همیشه باید راهی باقی گذاشت که در چنین شرایطی، کنترل ماشین امکانپذیر باشد. دشواریِ اصلی همین جا است.
مجتبی یکتا
منتشر شده در ماهنامه پیشران - شماره 24
خرداد ماه 1398
برای مطالعه بیشتر به endregion.ir مراجعه کنید.
مطلبی دیگر از این انتشارات
پیشبینی سرنوشت شخصیتهای بازی تاجوتخت با استفاده از هوش مصنوعی
مطلبی دیگر از این انتشارات
آینده تشخیص چهره در ایران
مطلبی دیگر از این انتشارات
از Hype Cycle چه می دانید؟