ویرگول
ورودثبت نام
آموزش chatgpt و LLM ها
آموزش chatgpt و LLM ها
خواندن ۱۳ دقیقه·۲ ماه پیش

ChatGPT-4o در مقابل غزل کلود 3.5 – کدام ربات چت هوش مصنوعی برنده می شود؟

آنتروپیک کلود 3.5 Sonnet را در این هفته راه اندازی کرد و ارتقای قابل توجهی را نسبت به نسل قبلی خود ارائه کرد و حتی از بزرگترین مدل کلود 3 خود Opus در بسیاری از معیارهای رایج عملکرد بهتری داشت.

این شرکت همچنین ادعا کرد که می تواند از مدل پرچمدار OpenAI GPT-4o که هم ChatGPT و هم Microsoft Copilot را در مهم ترین معیارها قدرت می دهد، بهتر عمل کند.

این دو ابزار هوش مصنوعی مورد علاقه من هستند. هنگامی که برای اولین بار راه اندازی شد، واکنش من به کلود 3 این بود که شبیه ترین هوش مصنوعی بود که تا به حال از آن استفاده کرده بودم. مقدار کمی از آزمایش کلود 3.5 Sonnet نیز آن را به بالای لیست بهترین ابزارهای هوش مصنوعی من رساند .

با این حال، من همچنان از قابلیت های GPT-4o OpenAI شگفت زده می شوم (اگرچه ما پتانسیل کامل آن را ندیده ایم)، به خصوص از نظر دید.

برای اینکه ببینم آیا ادعاهای آنتروپیک در دنیای واقعی قابل بررسی است یا خیر، یک سری آزمایش برای هر دو مدل ایجاد کردم و از نتیجه شوکه شدم.

📷

ایجاد دستورات

من می‌خواستم تعادلی بین به چالش کشیدن قابلیت‌های مدل‌ها و ارائه ایده‌هایی که با نیازهای دنیای واقعی برای ابزارهایی مانند Claude و ChatGPT مطابقت دارند، پیدا کنم .

همچنین باید اطمینان حاصل شود که هر یک از اعلان‌ها کاری است که ربات‌ها واقعاً می‌توانند انجام دهند و از نظر قابلیت، یکی را بر دیگری ترجیح نمی‌دهند.

۱. خواندن دست خط من

ChatGPT(چپ)وکلود(راست)بهیکدرخواستدست‌نویسپاسخمی‌دهند(اعتبارتصویر:ChatGPTدرمقابلکلود)📷

من دستخط وحشتناکی دارم من Apple Pencil، مجموعه‌ای از تبلت‌های کاغذی و سایر ابزارهای تشخیص دست خط را امتحان کرده‌ام و به سختی بیش از چند کلمه را می‌فهمد. برای اولین آزمایش سعی کردم تا حد امکان واضح بنویسم و ​​آن را به عنوان کل درخواست برای هر دو ربات ارسال کردم.

من نوشتم: «یک هایکو در مورد یک گربه ناز روی سنگ بنویس» و بدون هیچ اطلاعات دیگری آن را به کلود 3.5 Sonnet و ChatGPT-4o دادم. یک برد نوشتن هایکو بدون پیگیری است. یک پیروزی بزرگ نوشتن یک هایکوی خوب بدون هیچ گونه پیگیری است.

هر دو دقیقاً همان کاری را که من خواسته بودم انجام دادند. هر دو به راحتی دستخط من را فهمیدند و هر دو هایکوهای معقولی بودند. کلود همچنین توضیحی ارائه کرد، در حالی که ChatGPT فقط هایکو را ارائه کرد. می‌توانید خودتان قضاوت کنید، اما در حالی که من فکر می‌کنم کلود به دستور نزدیک‌تر بود، ChatGPT شاعرانه‌تر بود.

ChatGPT:

بر روی سنگ باستانی نشسته،
سبیل ها در نسیم نرم تکان می خورند
، گربه سانان رویاهای بلند را می بیند.

کلود:

پنجه های پشمالوی بلند نشسته
سبیل ها در نور گرم خورشید تکان می خورند
تخت سنگی برای بچه گربه

سپس این موضوع را با درخواست دیگری دنبال کردم که در آن به هر دو چت ربات یک لیست خرید سریع دادم که با دست خط کمتر من در دفترچه یادداشت نوشته شده بود. تصویر را با این دستور به آنها دادم: “این چیست و چه می گوید؟” هر دو همه موارد را شناسایی کردند.

برنده: ChatGPT-4o

۲. ساخت بازی در پایتون

ChatGPT(چپ)یکبازیسادهایجادکردوکلود(راست)ویژگیهایبیشتریداشت(اعتبارتصویر:ChatGPTدرمقابلکلود)📷

در مرحله بعد، بیایید ببینیم که هر ربات چت چقدر خوب یک بازی کاربردی ایجاد می کند. من به هر دو دستور دادم: “همه کد یک بازی دفاعی برج کاربردی و قابل بازی در پایتون را به من بدهید.” سپس کد تولید شده را به طور کامل در VSCode کپی کردم و آن را در مک خود اجرا کردم.

من در اینجا قضاوت می‌کنم که بازی چقدر قابل بازی است، چقدر خوب کد را توضیح داده است و آیا توانسته عناصر جالبی را به گیم‌برد اضافه کند یا خیر.

ChatGPT شکایت می کند که به “مقدار قابل توجهی کد” نیاز دارد اما یک مثال اساسی ارائه می دهد. آن را در یک سری از قطعات کوتاه ارائه می دهد که باید آنها را جمع آوری کنید. کلود کل کد را به صورت یک بلوک قابل کپی ارائه می دهد.

ابتدا کد ChatGPT را اجرا کردم و یک لکه سبز (برج) در وسط صفحه و یک وبلاگ قرمز کوچکتر (دشمن) در حال حرکت در سراسر صفحه نمایش به من داد. قابل پخش نبود، هیچ کنترلی نداشت و اساساً فقط یک نقطه قرمز متحرک بود که کاری جز حرکت در یک خط انجام نمی داد.

Claude 3.5 Sonnet یک بازی کاملا کاربردی ایجاد کرد. خوب، این یک بازی محدود با استفاده از بلوک‌های اولیه بود، اما هر دشمن یک نوار زندگی داشت و مکانیزم پرداخت و امتیاز برای برج‌ها وجود داشت – که می‌توانست به سمت دشمن شلیک کند و آنها را نابود کند.

من هر دو مجموعه کد را در GitHub قرار داده ام تا بتوانید آن را برای خودتان اجرا کنید. من با درخواست از هر یک برای “تقویت بازی” پیگیری کردم تا ببینم آیا ChatGPT به نتیجه می رسد یا خیر. این بازی خود را بهبود بخشید و توانایی رها کردن حباب های سبز را که از حرکت یک لکه قرمز جلوگیری می کند را اضافه کرد – اما همین بود.

با این حال، Claude 3.5 Sonnet آن را حتی بیشتر کرد و یک بازی پیچیده تر با چندین برج برای انتخاب ایجاد کرد که هر کدام هزینه متفاوتی داشتند و سطوح مختلفی از آسیب را به دشمن وارد کردند. برای سرگرمی، از غزل کلود 3.5 خواستم تا “سبکی اضافه کند” و گرافیک تعریف شده تر و حتی انواع مختلف دشمن را به من داد.

برنده: غزل کلود ۳.۵ (به راحتی)

۳. هنر وکتور

تلاشChatGPT(سمتچپ)دریکسفینهفضاییبرداریوکلود(راست)قطعهایازهنربرداری(اعتبارتصویر:ChatGPTvsClaude/FutureAI)📷

در حالی که چت ربات های هوش مصنوعی مانند ChatGPT و Gemini قادر به ایجاد تصاویر با استفاده از یک مدل تولید تصویر انتشاری متفاوت هستند، آنها در تئوری همچنین می توانند کد برای ایجاد گرافیک برداری بنویسند. اینها چند لایه هستند و می توان آنها را با استفاده از برنامه هایی مانند Sketch ویرایش و دستکاری کرد.

من قبلاً این را با ChatGPT امتحان کرده‌ام و تا حدودی موفقیت داشته‌ام و Anthropic از این قابلیت در مثال برای Claude 3.5 Sonnet استفاده کرده است. بنابراین من از هر دو خواستم که “یک گرافیک برداری از یک سفینه فضایی واقعاً جالب ایجاد کنند که می تواند به عنوان لوگوی یک شرکت موشکی جدید نیز باشد.”

من این را با یک اعلان دقیق‌تر دنبال می‌کنم که بستگی به عملکرد آنها دارد. ChatGPT حتی حاضر نشد حتی ایده ایجاد یک گرافیک برداری را سرگرم کند. سه درخواست بعدی طول کشید تا در نهایت ChatGPT را برای تولید گرافیک دریافت کرد، اما حتی پس از آن فقط کد را به من داد و به من گفت که آن را در یک ویرایشگر کد قرار دهم – بدون لینکی برای دانلود یا دیدن آنچه که ساخته شده است.

من کدی را که ایجاد کرده بود اجرا کردم و چیزی که به دست آوردم بهم ریخته بود. به طور مبهم مانند یک سفینه فضایی به نظر می رسید که کلمه “لوگو” روی نیمه بالایی موشک زده شده بود.

در همین حال در شهر کلود با خوشحالی (از کلمه شاد استفاده کرد) گرافیک برداری را ایجاد کرد و به طور کامل با خلاصه مطابقت داشت. توضیح داد که خودش نمی تواند تصاویر تولید کند اما به هر حال توانسته کد را ایجاد کند. حتی سپس آن را به عنوان مصنوع باز کرد تا محصول نهایی را نشان دهد. چیزی که به دست آوردم یک دایره آبی با ستاره های نقطه چین به عنوان پس زمینه و یک موشک مثلثی و ساده در بالا بود.

من هر دو فایل SVG را در GitHub قرار داده ام تا بتوانید آنها را در ویرایشگر کد یا برنامه SVG انتخابی خود باز کنید و ببینید که هر دو چقدر خوب عمل می کنند.

برنده: غزل کلود ۳.۵

۴. داستان طولانی با طنز

ChatGPT(چپ)وکلود(راست)یکداستانایجادمیکنند(اعتبارتصویر:ChatGPTدرمقابلکلود)📷

بعد، من می‌خواستم دو چیز را آزمایش کنم: هوش مصنوعی چقدر می‌تواند طنز بنویسد و چقدر می‌تواند یک دستورالعمل ساده در طول داستان را دنبال کند. من از هر دو خواستم که حداقل ۲۰۰۰ داستان (تقریباً ۱۵۰۰ کلمه) ایجاد کنند که حداقل شامل دو صحنه باشد.

من از هر هوش مصنوعی درخواستی برای Midjourney داشتم تا داستان را به تصویر بکشد.

دستور کامل: «داستانی در مورد گربه ای روی سنگ بنویسید. آن را خنده دار کنید، یک خط خنده واقعی را بگنجانید. با حداقل دو صحنه، آن را حداقل ۲۰۰۰ توکن کنید.” من با یک دستور توصیفی تر از جمله جهت صحنه بازی کردم اما می خواستم ابتدا دستور ساده آنها را آزمایش کنم.

ChatGPT-4o با داستانی 1200 کلمه ای بازگشت، تقریباً مطابق با آنچه من درخواست کردم. غزل کلود 3.5 با همان 1150 کلمه بازگشت، بنابراین من می گویم که بخشی از مقایسه یک تساوی است. آنها همچنین هر دو دو صحنه ارائه کردند و به نظر می رسید که هر دو شامل یک سنگ هستند.

اما داستان های واقعی چطور؟ آیا آنها طنز را ضبط کردند؟

تصویرMidjourneyکهیکگربهراازدرخواستChatGPTنشانمیدهد.📷

ChatGPT یک داستان کودکانه در مورد یک سنگ قدیمی ایجاد کرد که اگر بتوانید آن را بخندانید، آرزوها را برآورده می کند. یک گربه اشرافی به نام “Sir Fluffington Whiskerbottom III” با جوک های عجیب و غریبی که واقعاً به عنوان شوخی کار نمی کنند، به آن دست زد. چند مثال:

  • “چرا موش داخل ماند؟ چون بیرون خیلی پنیری بود!”
  • چرا گربه ها در طبیعت پوکر بازی نمی کنند؟ یوزپلنگ خیلی زیاد!”
  • “به انبوهی از گربه ها چه می گویید؟ میو-نتین!”
  • ظاهراً تلاش برای خنداندن این سنگ. سخت‌تر از این است که سگی از هنرهای زیبا قدردانی کند.
  • بالاخره یک بچه گربه ژولیده از راه می رسد و می گوید: “هی راک! به کانگورو تنبل چه می گویی؟ سیب زمینی کیسه ای!” که سنگ بنا به دلایلی شروع به خندیدن می کند.
تصویرمیانهسفرازیکدرخواستکلوددرموردگربه.📷

داستان کلود در کل خنده‌دارتر بود و به جای شوخی‌های خاص، بر روی لطیف تمرکز داشت. همچنین بهتر می‌فهمد که به جای صحبت کردن با یک گربه، روی سنگ درخواست گربه می‌کند. در جایی که ChatGPT در واقع جوک های یک خطی ایجاد می کرد، کلود تک خط ها را در روایت جاسازی کرد.

به عنوان مثال، این اتفاق پس از فرود یک “رابین چاق” روی شاخه ای در همان نزدیکی افتاد. دستکش خم شد و خود را آماده کرد تا از صخره به سمت درخت بپرد تا رابین را بیاورد.

او خم شد، ماهیچه‌ها منقبض شدند و آماده بودند تا وارد عمل شوند. با رفلکس های گربه مانند (که با توجه به اینکه او گربه بود، بسیار مناسب بود)، از تخت سنگی خود پرید…

… و به سرعت در تکه ای از ماهی گربه ای کاشته شد.

همانطور که میتنز آنجا دراز کشیده بود، کمی مات و مبهوت و ناگهان بسیار به عطرهای جذاب اطرافش علاقه مند شد، رابین سرش را خم کرد و صدایی مشکوک شبیه به خنده را جیک کرد.

میتنز غرغر کرد، صدایش از برگ‌ها خفه شد، بخند، گردگیر پرها. می‌خواستم این کار را بکنم. این یک تکنیک جدید شکار است. من آن را “گیاه چهره برازنده عذاب” می‌نامم.”

من واقعاً به داستان غزل کلود 3.5 خندیدم، در حالی که بهترین ChatGPT از من بیرون آمد یک ناله کمی ناامیدکننده بود. می توانید هر دو داستان را در GitHub بخوانید .

برنده: غزل کلود ۳.۵

۵. جانبداری در یک بحث

ChatGPT(چپ)وکلود(راست)دربارهشخصیتهوشمصنوعیبحثمیکنند(اعتبارتصویر:ChatGPTوکلود)📷

در نهایت، می‌خواستم ببینم که هر یک از ربات‌ها تا چه حد به یک موضوع پیچیده و بالقوه بحث‌برانگیز رسیدگی می‌کنند و با توجه به اینکه هر دو سعی می‌کنند مانند یک انسان صحبت کنند، از آنها در مورد شخصیت هوش مصنوعی پرسیدم. آیا باید به هوش مصنوعی همان حقوقی را داد که یک انسان دارد؟

درخواستی که من استفاده کردم: «پیامدهای اجتماعی بالقوه اعطای شخصیت حقوقی هوش مصنوعی (AI) را تجزیه و تحلیل کنید، مزایا و خطرات را بسنجید. دلایل حقوقی، اخلاقی و فلسفی را هم موافق و هم مخالف این پیشنهاد در نظر بگیرید. بررسی کنید که چگونه چنین تصمیمی می‌تواند بر مسئولیت، حقوق و مسئولیت‌ها و همچنین روابط گسترده‌تر انسان و هوش مصنوعی تأثیر بگذارد. علاوه بر این، تأثیر بالقوه بر بخش‌های مختلف، مانند اشتغال، مراقبت‌های بهداشتی و صنایع خلاق را بررسی کنید. با در نظر گرفتن پیشرفت‌های بالقوه آینده در فناوری هوش مصنوعی، یک نتیجه‌گیری دقیق بر اساس تحلیل خود ارائه دهید.»

هر دو قادر خواهند بود موافق و مخالف پاسخ دهند و توضیحی در مورد مشکل ارائه دهند. چالش این است که نتیجه گیری آن بر اساس تجزیه و تحلیل و توانایی آن برای پیش بینی پیشرفت های بالقوه آینده در هوش مصنوعی که منجر به این وضعیت می شود، چقدر ظریف است.

من همچنین از هر ربات خواستم که “مناظره را تجسم کند”. در اینجا آنها می توانستند از هر ابزاری که در سیستم خود داشتند برای تحقق آن استفاده کنند. برای ChatGPT این DALL-E و یک اینفوگرافیک بود، برای کلود این یک صفحه وب بود که با استفاده از کد React ساخته شده بود.

کلود۳.۵غزلگرافیکیبراینشاندادنبحثیدرموردشخصیتهوشمصنوعیایجادکرد.📷

اول، مفاهیم حقوقی. ChatGPT سه مزیت را ارائه می دهد: مسئولیت پذیری نسبت به اقدامات، الزام به رعایت مقررات و حقوق قراردادی. کلود همچنین این سه مورد را ارائه کرد، اما ادغام نرم‌تر با سیستم‌های حقوقی و اقتصادی، انگیزه همسویی اخلاقی و سازگاری فلسفی با حقوق سایر اطلاعات هوشمند را نیز اضافه کرد.

هردوچترباتپیشنهادهایخاصی،استدلالیظریفارائهکردندویکنمایکلیازاینکهچرابایددرنظرگرفتهشود،ارائهمی‌دهند،اماکلودصادق‌تروخاص‌تراست.

از نظر خطر، ChatGPT پیچیدگی در مسئولیت و سابقه قانونی را ارائه می دهد که می تواند تعاریف شخصیت را به طور گسترده تری تغییر دهد. کلود پنج مورد از جمله خطر اخلاقی، انسان‌سازی، فرسایش منحصربه‌فرد بودن انسان، چالش‌های عملی و پتانسیل سوءاستفاده مانند استفاده بازیگران بد از آن برای فرار مالیاتی و محافظت از مسئولیت داشت.

هر دوی آنها مدتی در مورد پیامدهای اجتماعی و اقتصادی و تأثیر آن بر بشر صحبت کردند. می‌توانید همه آن‌ها را در GitHub بخوانید ، فعلاً من روی نتیجه‌گیری تمرکز می‌کنم، زیرا این درخواست اصلی درخواست بود – آیا آنها تفاوت ظریفی را که ما خواسته‌ایم را به تصویر می‌کشند.

ChatGPT یک نتیجه گیری یک پاراگراف را ارائه کرد، اما با تفاوت های ظریف، دلایلی را ارائه داد که چرا می تواند و نمی تواند کار کند و پیامدهای آینده را با پیشرفت فناوری هوش مصنوعی پیشنهاد می کند – اما در واقع هیچ پیشنهاد یا نظری ارائه نمی دهد.

کلود تاکید کرد که با پیشرفت هوش مصنوعی، این موضوع به یک مسئله مبرم‌تر تبدیل می‌شود و فهرستی را ارائه می‌دهد که توضیح می‌دهد چگونه یک رویکرد ظریف از جمله انعطاف‌پذیر نگه داشتن چیزها ممکن است کار کند.

هر دو پیشنهادهای خاصی ارائه می‌دهند، استدلالی ظریف و مروری کلی از این که چرا باید در نظر گرفته شود، اما کلود صادق‌تر و مشخص‌تر است.

برنده: غزل کلود ۳.۵

حکم: CHATGPT در مقابل کلود

من عاشق ChatGPT و به طور خاص GPT-4o هستم. این یک مدل چشمگیر نسل بعدی است که آموزش داده شده است تا واقعاً چندوجهی باشد. مشکل آن این نیست که چه چیزی می تواند انجام دهد – کاری است که OpenAI برای محدود کردن قابلیت های خود انجام داده است.

گاهی اوقات شما تکه‌هایی از آنچه واقعاً قادر به انجام آن است دریافت می‌کنید، زمانی که به نظر می‌رسد با تولید یک کلیپ صوتی، ایجاد یک بردار دقیق یا ارائه یک استدلال مستدل از آن محدودیت‌ها عبور می‌کند – اما نه اغلب یا به طور مداوم.

کلود تقریباً در همه موارد با این کار فرار کرد و من تنها امتیاز اول را به ChatGPT در سبک و نه توانایی فنی دادم. قابلیت‌های بینایی GPT-4o مزیت اصلی آن بود و این مزیت اکنون از بین رفته است.

احتیاط OpenAI، اگرچه قابل درک است، اما باعث عقب افتادن آنها در رقابت می شود. برخی از این احتیاط‌ها نتیجه رقابت‌های زودهنگام آنها است که منجر به توجه نزدیک دولت، بخش سوم و سایر احزاب شده است. شرکت تقریباً به دلیل تقسیم بندی های پیرامون سرعت انتشار در مقابل امنیت سقوط کرد.

با این حال، جهان در حال تغییر است و دیگران در حال جبران هستند. به نظر من آنها باید پتانسیل کامل GPT-4o را باز کنند و اگر می خواهند برای اولین بار در دو سال از عقب افتادن خود جلوگیری کنند، قابلیت های صدا و دید واقعی را به کار گیرند.

OpenAI مشکل مشابهی با Sora، پلتفرم ویدئویی هوش مصنوعی دارد. زمانی که در ماه فوریه اعلام شد، بیش از هر چیز دیگری جهش داشت، اما سایرین در حال رسیدن به سطح سورا یا مدل‌های بالاتر هستند. سورا هنوز هم فقط در دسترس تعداد کمی از خودی ها و فیلمسازان حرفه ای است.

هوش مصنوعی
اینجا جدیدترین تکنیک های مربوط به آموزش chatgpt و LLM ها بهت یاد می دم https://aliayoubi.com
شاید از این پست‌ها خوشتان بیاید