آنتروپیک کلود 3.5 Sonnet را در این هفته راه اندازی کرد و ارتقای قابل توجهی را نسبت به نسل قبلی خود ارائه کرد و حتی از بزرگترین مدل کلود 3 خود Opus در بسیاری از معیارهای رایج عملکرد بهتری داشت.
این شرکت همچنین ادعا کرد که می تواند از مدل پرچمدار OpenAI GPT-4o که هم ChatGPT و هم Microsoft Copilot را در مهم ترین معیارها قدرت می دهد، بهتر عمل کند.
این دو ابزار هوش مصنوعی مورد علاقه من هستند. هنگامی که برای اولین بار راه اندازی شد، واکنش من به کلود 3 این بود که شبیه ترین هوش مصنوعی بود که تا به حال از آن استفاده کرده بودم. مقدار کمی از آزمایش کلود 3.5 Sonnet نیز آن را به بالای لیست بهترین ابزارهای هوش مصنوعی من رساند .
با این حال، من همچنان از قابلیت های GPT-4o OpenAI شگفت زده می شوم (اگرچه ما پتانسیل کامل آن را ندیده ایم)، به خصوص از نظر دید.
برای اینکه ببینم آیا ادعاهای آنتروپیک در دنیای واقعی قابل بررسی است یا خیر، یک سری آزمایش برای هر دو مدل ایجاد کردم و از نتیجه شوکه شدم.
📷
من میخواستم تعادلی بین به چالش کشیدن قابلیتهای مدلها و ارائه ایدههایی که با نیازهای دنیای واقعی برای ابزارهایی مانند Claude و ChatGPT مطابقت دارند، پیدا کنم .
همچنین باید اطمینان حاصل شود که هر یک از اعلانها کاری است که رباتها واقعاً میتوانند انجام دهند و از نظر قابلیت، یکی را بر دیگری ترجیح نمیدهند.
من دستخط وحشتناکی دارم من Apple Pencil، مجموعهای از تبلتهای کاغذی و سایر ابزارهای تشخیص دست خط را امتحان کردهام و به سختی بیش از چند کلمه را میفهمد. برای اولین آزمایش سعی کردم تا حد امکان واضح بنویسم و آن را به عنوان کل درخواست برای هر دو ربات ارسال کردم.
من نوشتم: «یک هایکو در مورد یک گربه ناز روی سنگ بنویس» و بدون هیچ اطلاعات دیگری آن را به کلود 3.5 Sonnet و ChatGPT-4o دادم. یک برد نوشتن هایکو بدون پیگیری است. یک پیروزی بزرگ نوشتن یک هایکوی خوب بدون هیچ گونه پیگیری است.
هر دو دقیقاً همان کاری را که من خواسته بودم انجام دادند. هر دو به راحتی دستخط من را فهمیدند و هر دو هایکوهای معقولی بودند. کلود همچنین توضیحی ارائه کرد، در حالی که ChatGPT فقط هایکو را ارائه کرد. میتوانید خودتان قضاوت کنید، اما در حالی که من فکر میکنم کلود به دستور نزدیکتر بود، ChatGPT شاعرانهتر بود.
ChatGPT:
بر روی سنگ باستانی نشسته،
سبیل ها در نسیم نرم تکان می خورند
، گربه سانان رویاهای بلند را می بیند.
کلود:
پنجه های پشمالوی بلند نشسته
سبیل ها در نور گرم خورشید تکان می خورند
تخت سنگی برای بچه گربه
سپس این موضوع را با درخواست دیگری دنبال کردم که در آن به هر دو چت ربات یک لیست خرید سریع دادم که با دست خط کمتر من در دفترچه یادداشت نوشته شده بود. تصویر را با این دستور به آنها دادم: “این چیست و چه می گوید؟” هر دو همه موارد را شناسایی کردند.
برنده: ChatGPT-4o
در مرحله بعد، بیایید ببینیم که هر ربات چت چقدر خوب یک بازی کاربردی ایجاد می کند. من به هر دو دستور دادم: “همه کد یک بازی دفاعی برج کاربردی و قابل بازی در پایتون را به من بدهید.” سپس کد تولید شده را به طور کامل در VSCode کپی کردم و آن را در مک خود اجرا کردم.
من در اینجا قضاوت میکنم که بازی چقدر قابل بازی است، چقدر خوب کد را توضیح داده است و آیا توانسته عناصر جالبی را به گیمبرد اضافه کند یا خیر.
ChatGPT شکایت می کند که به “مقدار قابل توجهی کد” نیاز دارد اما یک مثال اساسی ارائه می دهد. آن را در یک سری از قطعات کوتاه ارائه می دهد که باید آنها را جمع آوری کنید. کلود کل کد را به صورت یک بلوک قابل کپی ارائه می دهد.
ابتدا کد ChatGPT را اجرا کردم و یک لکه سبز (برج) در وسط صفحه و یک وبلاگ قرمز کوچکتر (دشمن) در حال حرکت در سراسر صفحه نمایش به من داد. قابل پخش نبود، هیچ کنترلی نداشت و اساساً فقط یک نقطه قرمز متحرک بود که کاری جز حرکت در یک خط انجام نمی داد.
Claude 3.5 Sonnet یک بازی کاملا کاربردی ایجاد کرد. خوب، این یک بازی محدود با استفاده از بلوکهای اولیه بود، اما هر دشمن یک نوار زندگی داشت و مکانیزم پرداخت و امتیاز برای برجها وجود داشت – که میتوانست به سمت دشمن شلیک کند و آنها را نابود کند.
من هر دو مجموعه کد را در GitHub قرار داده ام تا بتوانید آن را برای خودتان اجرا کنید. من با درخواست از هر یک برای “تقویت بازی” پیگیری کردم تا ببینم آیا ChatGPT به نتیجه می رسد یا خیر. این بازی خود را بهبود بخشید و توانایی رها کردن حباب های سبز را که از حرکت یک لکه قرمز جلوگیری می کند را اضافه کرد – اما همین بود.
با این حال، Claude 3.5 Sonnet آن را حتی بیشتر کرد و یک بازی پیچیده تر با چندین برج برای انتخاب ایجاد کرد که هر کدام هزینه متفاوتی داشتند و سطوح مختلفی از آسیب را به دشمن وارد کردند. برای سرگرمی، از غزل کلود 3.5 خواستم تا “سبکی اضافه کند” و گرافیک تعریف شده تر و حتی انواع مختلف دشمن را به من داد.
برنده: غزل کلود ۳.۵ (به راحتی)
در حالی که چت ربات های هوش مصنوعی مانند ChatGPT و Gemini قادر به ایجاد تصاویر با استفاده از یک مدل تولید تصویر انتشاری متفاوت هستند، آنها در تئوری همچنین می توانند کد برای ایجاد گرافیک برداری بنویسند. اینها چند لایه هستند و می توان آنها را با استفاده از برنامه هایی مانند Sketch ویرایش و دستکاری کرد.
من قبلاً این را با ChatGPT امتحان کردهام و تا حدودی موفقیت داشتهام و Anthropic از این قابلیت در مثال برای Claude 3.5 Sonnet استفاده کرده است. بنابراین من از هر دو خواستم که “یک گرافیک برداری از یک سفینه فضایی واقعاً جالب ایجاد کنند که می تواند به عنوان لوگوی یک شرکت موشکی جدید نیز باشد.”
من این را با یک اعلان دقیقتر دنبال میکنم که بستگی به عملکرد آنها دارد. ChatGPT حتی حاضر نشد حتی ایده ایجاد یک گرافیک برداری را سرگرم کند. سه درخواست بعدی طول کشید تا در نهایت ChatGPT را برای تولید گرافیک دریافت کرد، اما حتی پس از آن فقط کد را به من داد و به من گفت که آن را در یک ویرایشگر کد قرار دهم – بدون لینکی برای دانلود یا دیدن آنچه که ساخته شده است.
من کدی را که ایجاد کرده بود اجرا کردم و چیزی که به دست آوردم بهم ریخته بود. به طور مبهم مانند یک سفینه فضایی به نظر می رسید که کلمه “لوگو” روی نیمه بالایی موشک زده شده بود.
در همین حال در شهر کلود با خوشحالی (از کلمه شاد استفاده کرد) گرافیک برداری را ایجاد کرد و به طور کامل با خلاصه مطابقت داشت. توضیح داد که خودش نمی تواند تصاویر تولید کند اما به هر حال توانسته کد را ایجاد کند. حتی سپس آن را به عنوان مصنوع باز کرد تا محصول نهایی را نشان دهد. چیزی که به دست آوردم یک دایره آبی با ستاره های نقطه چین به عنوان پس زمینه و یک موشک مثلثی و ساده در بالا بود.
من هر دو فایل SVG را در GitHub قرار داده ام تا بتوانید آنها را در ویرایشگر کد یا برنامه SVG انتخابی خود باز کنید و ببینید که هر دو چقدر خوب عمل می کنند.
برنده: غزل کلود ۳.۵
بعد، من میخواستم دو چیز را آزمایش کنم: هوش مصنوعی چقدر میتواند طنز بنویسد و چقدر میتواند یک دستورالعمل ساده در طول داستان را دنبال کند. من از هر دو خواستم که حداقل ۲۰۰۰ داستان (تقریباً ۱۵۰۰ کلمه) ایجاد کنند که حداقل شامل دو صحنه باشد.
من از هر هوش مصنوعی درخواستی برای Midjourney داشتم تا داستان را به تصویر بکشد.
دستور کامل: «داستانی در مورد گربه ای روی سنگ بنویسید. آن را خنده دار کنید، یک خط خنده واقعی را بگنجانید. با حداقل دو صحنه، آن را حداقل ۲۰۰۰ توکن کنید.” من با یک دستور توصیفی تر از جمله جهت صحنه بازی کردم اما می خواستم ابتدا دستور ساده آنها را آزمایش کنم.
ChatGPT-4o با داستانی 1200 کلمه ای بازگشت، تقریباً مطابق با آنچه من درخواست کردم. غزل کلود 3.5 با همان 1150 کلمه بازگشت، بنابراین من می گویم که بخشی از مقایسه یک تساوی است. آنها همچنین هر دو دو صحنه ارائه کردند و به نظر می رسید که هر دو شامل یک سنگ هستند.
اما داستان های واقعی چطور؟ آیا آنها طنز را ضبط کردند؟
ChatGPT یک داستان کودکانه در مورد یک سنگ قدیمی ایجاد کرد که اگر بتوانید آن را بخندانید، آرزوها را برآورده می کند. یک گربه اشرافی به نام “Sir Fluffington Whiskerbottom III” با جوک های عجیب و غریبی که واقعاً به عنوان شوخی کار نمی کنند، به آن دست زد. چند مثال:
داستان کلود در کل خندهدارتر بود و به جای شوخیهای خاص، بر روی لطیف تمرکز داشت. همچنین بهتر میفهمد که به جای صحبت کردن با یک گربه، روی سنگ درخواست گربه میکند. در جایی که ChatGPT در واقع جوک های یک خطی ایجاد می کرد، کلود تک خط ها را در روایت جاسازی کرد.
به عنوان مثال، این اتفاق پس از فرود یک “رابین چاق” روی شاخه ای در همان نزدیکی افتاد. دستکش خم شد و خود را آماده کرد تا از صخره به سمت درخت بپرد تا رابین را بیاورد.
او خم شد، ماهیچهها منقبض شدند و آماده بودند تا وارد عمل شوند. با رفلکس های گربه مانند (که با توجه به اینکه او گربه بود، بسیار مناسب بود)، از تخت سنگی خود پرید…
… و به سرعت در تکه ای از ماهی گربه ای کاشته شد.
همانطور که میتنز آنجا دراز کشیده بود، کمی مات و مبهوت و ناگهان بسیار به عطرهای جذاب اطرافش علاقه مند شد، رابین سرش را خم کرد و صدایی مشکوک شبیه به خنده را جیک کرد.
میتنز غرغر کرد، صدایش از برگها خفه شد، بخند، گردگیر پرها. میخواستم این کار را بکنم. این یک تکنیک جدید شکار است. من آن را “گیاه چهره برازنده عذاب” مینامم.”
من واقعاً به داستان غزل کلود 3.5 خندیدم، در حالی که بهترین ChatGPT از من بیرون آمد یک ناله کمی ناامیدکننده بود. می توانید هر دو داستان را در GitHub بخوانید .
برنده: غزل کلود ۳.۵
در نهایت، میخواستم ببینم که هر یک از رباتها تا چه حد به یک موضوع پیچیده و بالقوه بحثبرانگیز رسیدگی میکنند و با توجه به اینکه هر دو سعی میکنند مانند یک انسان صحبت کنند، از آنها در مورد شخصیت هوش مصنوعی پرسیدم. آیا باید به هوش مصنوعی همان حقوقی را داد که یک انسان دارد؟
درخواستی که من استفاده کردم: «پیامدهای اجتماعی بالقوه اعطای شخصیت حقوقی هوش مصنوعی (AI) را تجزیه و تحلیل کنید، مزایا و خطرات را بسنجید. دلایل حقوقی، اخلاقی و فلسفی را هم موافق و هم مخالف این پیشنهاد در نظر بگیرید. بررسی کنید که چگونه چنین تصمیمی میتواند بر مسئولیت، حقوق و مسئولیتها و همچنین روابط گستردهتر انسان و هوش مصنوعی تأثیر بگذارد. علاوه بر این، تأثیر بالقوه بر بخشهای مختلف، مانند اشتغال، مراقبتهای بهداشتی و صنایع خلاق را بررسی کنید. با در نظر گرفتن پیشرفتهای بالقوه آینده در فناوری هوش مصنوعی، یک نتیجهگیری دقیق بر اساس تحلیل خود ارائه دهید.»
هر دو قادر خواهند بود موافق و مخالف پاسخ دهند و توضیحی در مورد مشکل ارائه دهند. چالش این است که نتیجه گیری آن بر اساس تجزیه و تحلیل و توانایی آن برای پیش بینی پیشرفت های بالقوه آینده در هوش مصنوعی که منجر به این وضعیت می شود، چقدر ظریف است.
من همچنین از هر ربات خواستم که “مناظره را تجسم کند”. در اینجا آنها می توانستند از هر ابزاری که در سیستم خود داشتند برای تحقق آن استفاده کنند. برای ChatGPT این DALL-E و یک اینفوگرافیک بود، برای کلود این یک صفحه وب بود که با استفاده از کد React ساخته شده بود.
اول، مفاهیم حقوقی. ChatGPT سه مزیت را ارائه می دهد: مسئولیت پذیری نسبت به اقدامات، الزام به رعایت مقررات و حقوق قراردادی. کلود همچنین این سه مورد را ارائه کرد، اما ادغام نرمتر با سیستمهای حقوقی و اقتصادی، انگیزه همسویی اخلاقی و سازگاری فلسفی با حقوق سایر اطلاعات هوشمند را نیز اضافه کرد.
از نظر خطر، ChatGPT پیچیدگی در مسئولیت و سابقه قانونی را ارائه می دهد که می تواند تعاریف شخصیت را به طور گسترده تری تغییر دهد. کلود پنج مورد از جمله خطر اخلاقی، انسانسازی، فرسایش منحصربهفرد بودن انسان، چالشهای عملی و پتانسیل سوءاستفاده مانند استفاده بازیگران بد از آن برای فرار مالیاتی و محافظت از مسئولیت داشت.
هر دوی آنها مدتی در مورد پیامدهای اجتماعی و اقتصادی و تأثیر آن بر بشر صحبت کردند. میتوانید همه آنها را در GitHub بخوانید ، فعلاً من روی نتیجهگیری تمرکز میکنم، زیرا این درخواست اصلی درخواست بود – آیا آنها تفاوت ظریفی را که ما خواستهایم را به تصویر میکشند.
ChatGPT یک نتیجه گیری یک پاراگراف را ارائه کرد، اما با تفاوت های ظریف، دلایلی را ارائه داد که چرا می تواند و نمی تواند کار کند و پیامدهای آینده را با پیشرفت فناوری هوش مصنوعی پیشنهاد می کند – اما در واقع هیچ پیشنهاد یا نظری ارائه نمی دهد.
کلود تاکید کرد که با پیشرفت هوش مصنوعی، این موضوع به یک مسئله مبرمتر تبدیل میشود و فهرستی را ارائه میدهد که توضیح میدهد چگونه یک رویکرد ظریف از جمله انعطافپذیر نگه داشتن چیزها ممکن است کار کند.
هر دو پیشنهادهای خاصی ارائه میدهند، استدلالی ظریف و مروری کلی از این که چرا باید در نظر گرفته شود، اما کلود صادقتر و مشخصتر است.
برنده: غزل کلود ۳.۵
من عاشق ChatGPT و به طور خاص GPT-4o هستم. این یک مدل چشمگیر نسل بعدی است که آموزش داده شده است تا واقعاً چندوجهی باشد. مشکل آن این نیست که چه چیزی می تواند انجام دهد – کاری است که OpenAI برای محدود کردن قابلیت های خود انجام داده است.
گاهی اوقات شما تکههایی از آنچه واقعاً قادر به انجام آن است دریافت میکنید، زمانی که به نظر میرسد با تولید یک کلیپ صوتی، ایجاد یک بردار دقیق یا ارائه یک استدلال مستدل از آن محدودیتها عبور میکند – اما نه اغلب یا به طور مداوم.
کلود تقریباً در همه موارد با این کار فرار کرد و من تنها امتیاز اول را به ChatGPT در سبک و نه توانایی فنی دادم. قابلیتهای بینایی GPT-4o مزیت اصلی آن بود و این مزیت اکنون از بین رفته است.
احتیاط OpenAI، اگرچه قابل درک است، اما باعث عقب افتادن آنها در رقابت می شود. برخی از این احتیاطها نتیجه رقابتهای زودهنگام آنها است که منجر به توجه نزدیک دولت، بخش سوم و سایر احزاب شده است. شرکت تقریباً به دلیل تقسیم بندی های پیرامون سرعت انتشار در مقابل امنیت سقوط کرد.
با این حال، جهان در حال تغییر است و دیگران در حال جبران هستند. به نظر من آنها باید پتانسیل کامل GPT-4o را باز کنند و اگر می خواهند برای اولین بار در دو سال از عقب افتادن خود جلوگیری کنند، قابلیت های صدا و دید واقعی را به کار گیرند.
OpenAI مشکل مشابهی با Sora، پلتفرم ویدئویی هوش مصنوعی دارد. زمانی که در ماه فوریه اعلام شد، بیش از هر چیز دیگری جهش داشت، اما سایرین در حال رسیدن به سطح سورا یا مدلهای بالاتر هستند. سورا هنوز هم فقط در دسترس تعداد کمی از خودی ها و فیلمسازان حرفه ای است.