نبرد انسان و هوش مصنوعی

قصه از جایی شروع شد که سوپرکامپیوتر Deep Blue ساخت شرکت IBM در سال ۱۹۹۷ توانست گری کاسپاروف، قهرمان شطرنج جهان را در رقابتی تنگاتنگ طی ۱۹ حرکت شکست دهد!

این شکست آنقدر برای گری کاسپاروف سنگین بود که او رقیب خود را به تقلب متهم کرد و خواستار تکرار بازی شد.

گری کاسپاروف، بازنده رقابت تاریخی با سوپر کامپیوتر Deep Blue
گری کاسپاروف، بازنده رقابت تاریخی با سوپر کامپیوتر Deep Blue


سوپر کامپیوتر Deep Blue برای بازی شطرنج یک درخت بازی (Game Tree) تشکیل می‌داد و به روش هرس آلفا-بتا (Alpha-Beta Pruning) آن را کوچک می‌کرد. سپس به کمک تراشه های VLSI به صورت همزمان، تمام مسیر های بازی که احتمال می‌داد کاسپاروف آنها را انتخاب کند روی این درخت بررسی می‌کرد تا بهترین حرکت را پیدا کند.

بخش کوچکی از درخت بازی شطرنج
بخش کوچکی از درخت بازی شطرنج


این روش اگر‌چه در آن زمان توانست قدرت سیستم های کامپیوتری را به عموم مردم نشان دهد، اما در واقع فاقد هرگونه یادگیری، تفکر و تصمیم گیری هوشمند بود و صرفا با سرعت بالایی به دنبال مسیر منتهی به برد در مقابل کاسپاروف می‌گشت و فقط برای بازی با او تنظیم شده بود و البته که کاسپاروف این موضوع را فهمیده بود :))

اما با پیشرفت های اخیر هوش مصنوعی به ویژه یادگیری تقویتی (Reinforcement Learning) و یادگیری ژرف (Deep Learning) افق جدیدی به روی متخصصین هوش مصنوعی باز شد. آنها توانستند سیستم های هوشمندی بسازند که در مقابل خود بازی کرده و قوانین بازی را یاد بگیرند. سپس دقیقا مانند یک موجود هوشمند در مقابل حریف ظاهر شوند و با اخذ بهترین تصمیم در هر لحظه، مخاطبین خود را متحیر کنند.

به عنوان مثال الگوریتم DQN که در سال ۲۰۱۵ توسط Google DeepMind ارایه شد، با ترکیب روش Q-Learning و شبکه های عصبی کانوولوشنال (Convolutional Neural Networks) توانست همچون یک انسان، بازی های Atari 2000 و حتی حقه های آن را به خوبی یاد گرفته و بازی کند.

https://youtu.be/V1eYniJ0Rnk

در سال ۲۰۱۶ دیگر بازی شطرنج برای کامپیوتر ها چالش پیچیده ای نبود و هر گوشی موبایلی به راحتی از پس آن بر می‌آمد، اما بازی Go به مراتب سخت تر و پیچیده تر از بازی شطرنج بود چون حالت ها و انتخاب های بسیار بیشتری را در اختیار بازیکن ها قرار می‌داد. پس وقت آن رسیده بود که یک بار دیگر قدرت کامپیوتر ها، این بار کامپیوتر های هوشمند را به رخ انسان ها کشید.

بنابراین در ۱۵ مارچ ۲۰۱۶ شرکت Google DeepMind با هوش مصنوعی خود موسوم به AlphaGo در مقابل لی سدول، قهرمان ۱۸ دوره مسابقات جهانی Go ظاهر شد و توانست او را شکست دهد

لی سدول، بازنده رقابت تاریخی با هوش مصنوعی AlphaGo
لی سدول، بازنده رقابت تاریخی با هوش مصنوعی AlphaGo


این سیستم در سال ۲۰۱۷ تحت نام AlphaGo Zero هوشمند تر و تقریبا شکست ناپذیر شد. AlphaGo Zero با استفاده از روش های یادگیری تقویتی ژرف (Deep Reinforcement Learning) و روی ۶۴ عدد GPU و ۱۹ عدد CPU بدون هیچگونه دخالت انسانی بازی Go را فقط با ۵ میلیون بار بازی با خودش طی ۳ روز یاد گرفت. این الگوریتم برای اجرا به یک کامپیوتر شخصی معمولی مجهز به چهار عدد TPU نیاز داشت.

https://storage.googleapis.com/deepmind-live-cms/documents/Knowledge%2520Timeline.gif

و اما امروز…

با دستاوردی که AlphaGo Zero در سال گذشته برای هوش مصنوعی داشت، قطعا سال ۲۰۱۸ نوبت بازی های چند نفره است. از این رو شرکت OpenAI که در سال ۲۰۱۵ توسط Elon Musk پایه گذاری شد، پیش قدم شده و یک هوش مصنوعی بسیار پیشرفته به نام OpenAI Five را برای بازی Dota 2 خلق کرده است. Dota 2 یک بازی ویدیویی چندنفره آنلاین در ژانر استراتژیک است که در آن هر تیم با پنج بازیکن (قهرمان) که هر کدام می‌توانند یکی از ۱۱۷ نوع قهرمان موجود در بازی باشند در مقابل تیم حریف بازی کرده و سعی در تخریب ساختمان های باستانی حریف را دارد.

بازی ویدیویی Dota 2
بازی ویدیویی Dota 2


هوش مصنوعی OpenAI Five از روش یادگیری تقویتی ژرف (Deep Reinforcement Learning) و الگوریتم Proximal Policy Optimization استفاده کرده و به ازای هر کدام از قهرمان های بازی، یک شبکه عصبی بازگشتی از نوع LSTM را آموزش می‌دهد. این سیستم روزانه به اندازه ۱۸۰ سال با خودش بازی می‌کند و طی دو هفته آموزش روی ۲۵۶ عدد GPU و ۱۲۸۰۰۰ هسته CPU قادر خواهد بود که بازیکنان حرفه ای را مغلوب خود کند.

مسابقات جهانی Dota 2 سال ۲۰۱۸
مسابقات جهانی Dota 2 سال ۲۰۱۸


اگرچه OpenAI Five در مسابقات جهانی ۲۰۱۸ نهایتا بازی را واگذار کرد اما سبک بازی و سطح هوشمندی آن موفقیت بزرگی برای محققان هوش مصنوعی به حساب می‌آید زیرا نشان داد که در شرایط پیچیده و دشواری که حتی انسان‌ها نیز در آن دچار سردرگمی می‌شوند، قادر خواهد بود با اتخاذ تصمیم درست به اهداف از پیش تعیین شده دست پیدا کند.

در واقع هدف از طراحی این سیستم، پیروزی در مسابقات نیست، بلکه نمایش قدرت هوش مصنوعی و کارایی آن در حل مسایل و چالش های دشوار در دنیای واقعی نظیر مدیریت زیرساخت حمل و نقل شهری است.


برای آشنایی بیشتر با نحوه کار هوش مصنوعی OpenAI Five تماشای ویدیوی Siraj Raval را به شما پیشنهاد می‌کنیم.

https://www.youtube.com/watch?v=DzzFSyzv1p0