ویرگول
ورودثبت نام
امید زمانی
امید زمانیNonchalant Prompt Sculptor
امید زمانی
امید زمانی
خواندن ۹ دقیقه·۱۸ روز پیش

اپیزود ۷: دنیا یک پرامپت است

سلام و درود به همه شنوندگان پرامپتینک.

امروز می‌خوام از یه چیزی حرف بزنم که شاید خیلی‌هاتون هنوز باهاش کار نکرده باشین. ولی باور کنین، وقتی امتحانش کنین، دیگه برنمی‌گردین عقب.

تا الان توی این پادکست حرف زدیم از بازی با هوش مصنوعی، از تکرار خلاقانه، از سلیقه، از اصالت، از توهمات. همه این‌ها یه چیز مشترک داشتن: ما داشتیم تایپ می‌کردیم و هوش مصنوعی جواب میداد.

ولی امروز می‌خوام یه در جدید باز کنم. می‌خوام بگم که پرامپت فقط متن نیست.

موضوعمون اینه: دنیا یک پرامپت است.


یه سوال ازتون بپرسم. تا حالا شده بخواین یه چیزی رو برای کسی توضیح بدین، ولی هرچی حرف بزنین، طرف نفهمه؟

مثلاً زنگ می‌زنی به پشتیبانی، می‌گی "آقا یه دکمه هست اینجا، کنارش یه چیز سبز هست، پایینش یه خط هست..." طرف می‌گه "کدوم دکمه؟ کجا؟" تو می‌گی "همون دیگه! سمت چپ!" اون می‌گه "سمت چپ شما یا سمت چپ من؟"

نیم ساعت می‌گذره، هنوز مشکل حل نشده.

بعد یه عکس می‌فرستی، طرف می‌گه "آهان! این رو می‌گفتی! خب این دکمه رو بزن، تموم."

خب، هوش مصنوعی هم دقیقاً همینه.

یه نویسنده‌ای تعریف می‌کرد که بویلر خونه‌ش خراب شده بود. زمستون بود، سرد بود، آب گرم نداشت.

نشست پشت کامپیوتر، شروع کرد تایپ کردن برای هوش مصنوعی.

"یه شیر هست سمت چپ، رنگش قرمزه، ولی نه قرمز قرمز، یه جورایی نارنجیه. کنارش یه دکمه هست که فکر کنم برای روشن خاموش کردنه. یه لوله هم میاد از پایین که نمی‌دونم آب گرمه یا سرد. بالاش یه صفحه دیجیتال هست که یه عدد نشون میده ولی نمی‌فهمم چیه..."

یه ساعت گذشت. هوش مصنوعی هنوز گیج بود. هی سوال می‌پرسید. هی توضیح بیشتر می‌خواست.

بعد یه لحظه به ذهنش رسید.

گوشیش رو برداشت. یه عکس گرفت از بویلر. فرستاد.

همه چیز عوض شد.

هوش مصنوعی گفت: "اوکی می‌بینم. این مدل فلانه. این شیر قرمز رو ببند. این دکمه سفید رو سه ثانیه نگه دار. حواست به این لوله پایین سمت راست باشه که اگه بازش کنی سیل میشه. عدد روی صفحه هم فشار آبه، الان کمه، باید بره بالای ۱.۵."

یه عکس. جای یه ساعت توضیح دادن.

این لحظه‌ای بود که اون نویسنده فهمید دنیا عوض شده.

این همون چیزیه که بهش می‌گن "Multimodal AI" یا هوش مصنوعی چندحالتی.

یعنی چی؟ یعنی هوش مصنوعی دیگه فقط متن نمی‌خونه. عکس می‌بینه. ویدیو می‌فهمه. صدا گوش میده.

یادتونه قدیم کامپیوترها فقط با اعداد کار می‌کردن؟ باید کد می‌زدی، عدد وارد می‌کردی، خروجی عدد بود. بعد متن اومد. بعد گرافیک. بعد صدا. بعد ویدیو.

هر بار یه قدم جلو رفتیم.

الان داریم به یه نقطه می‌رسیم که هوش مصنوعی مثل یه آدم واقعی می‌تونه ببینه و بشنوه و بفهمه.

فکر کنین به این مثال.

می‌خواین به یه بچه یاد بدین دوچرخه سواری کنه.

اگه فقط بنویسین "دستت رو بذار روی فرمان، پات رو بذار روی رکاب، تعادلت رو حفظ کن، وقتی داری می‌افتی به سمت راست، فرمون رو یه کم ببر راست" - احتمالاً بچه می‌افته. چون نمی‌فهمه. خیلی انتزاعیه.

ولی اگه یه ویدیو نشونش بدین، خودتون سوار شین، نشون بدین چطوری پا می‌زنین، چطوری تعادل می‌گیرین، چطوری می‌پیچین - یاد می‌گیره. چون می‌بینه.

هوش مصنوعی هم همینه.

وقتی متن می‌دی، یه بخشی از اطلاعات منتقل میشه. وقتی عکس می‌دی، یه بخش دیگه. ولی وقتی متن و عکس رو با هم بدی، یه چیز جادویی اتفاق می‌افته. نتیجه‌ای می‌گیری که هیچ‌کدوم تنها نمی‌تونستن بدن.

به این می‌گن "هم‌افزایی بصری و کلامی".

عکس می‌تونه فوری روابط فضایی رو نشون بده. این کجاست، اون کجاست، این به اون وصله، این بزرگ‌تره، این جلوتره. اگه بخوای این‌ها رو با متن توضیح بدی، چند پاراگراف می‌شه. ولی یه عکس، یه ثانیه.

از طرف دیگه، متن می‌تونه عمق و زمینه بده. چرا این مهمه، چی می‌خوای باهاش بکنی، چه محدودیت‌هایی داری.

وقتی این دو تا رو ترکیب می‌کنی، هوش مصنوعی هم می‌بینه هم می‌فهمه.

حالا بذارین چندتا مثال واقعی بزنم که شاید فردا صبح بتونین استفاده کنین.

مثال اول: قبض برق

قبض برقت اومده. یه عدد عجیب غریب نوشته. ماه قبل صد تومن بود، این ماه شده پونصد تومن. نمی‌فهمی چرا.

می‌تونی بشینی تایپ کنی "قبض برقم زیاد شده، ماه قبل فلان بود، این ماه فلان شده، مصرفم این بوده، آیا درسته؟"

یا می‌تونی یه عکس از قبض بگیری، بفرستی، بگی "این قبض رو برام تحلیل کن. چرا اینقدر زیاده؟ کجاش مشکل داره؟"

هوش مصنوعی همه اعداد رو می‌خونه، مقایسه می‌کنه، بهت می‌گه مثلاً "این قسمت که نوشته هزینه اوج مصرف، خیلی بالاست. یعنی کولرت توی ساعت پیک روشن بوده."

مثال دوم: منوی رستوران

رفتی یه رستوران خارجی. یا حتی یه رستوران محلی توی یه شهر دیگه. منو رو باز می‌کنی، یه سری اسم هست که نمی‌فهمی چیه.

"کوبیده لری چیه؟ فرق‌ش با کوبیده معمولی چیه؟ این یکی که نوشته دنده کباب با چی سرو میشه؟"

یه عکس بگیر از منو. بفرست. بپرس "این غذاها چی هستن؟ کدوم گوشت قرمز داره؟ کدوم تنده؟ کدوم برای کسی که رژیم داره مناسب‌تره؟"

یه دقیقه، همه چی روشن میشه.

مثال سوم: چراغ داشبورد ماشین

داری رانندگی می‌کنی، یهو یه چراغ روشن میشه روی داشبورد. یه شکل عجیب. نارنجیه. نمی‌دونی چیه.

می‌تونی بشینی تایپ کنی "یه چراغ روشن شده، شکلش مثل موتوره ولی نه دقیقاً، یه جورایی مثل جعبه‌ست با یه فلش، رنگش نارنجیه ولی گاهی قرمز میشه..."

یا یه عکس بگیر. بفرست. بگو "این چراغ چیه؟ خطرناکه؟ باید الان نگه دارم یا می‌تونم تا تعمیرگاه برم؟"

مثال چهارم: نقشه معماری

معمار هستی یا داری خونه می‌سازی. یه نقشه داری. می‌خوای بدونی این قسمت از نظر نور طبیعی خوبه یا نه.

به جای توضیح دادن "یه اتاق هست که پنجره‌ش رو به شماله، ابعادش سه در چهاره، سقفش سه متره..." نقشه رو بذار، یه دایره بکش دور اون اتاق، بگو "این اتاق از نظر نورگیری چطوره؟ چکار کنم بهتر شه؟"

مثال پنجم: قرارداد

یه قرارداد دستته. ده صفحه‌ست. یه بند هست صفحه هفت که مشکوکی بهش.

به جای کپی پیست کردن کل متن و توضیح دادن "این بند که راجع به فسخ قرارداده..."، یه اسکرین‌شات بگیر، اون بند رو هایلایت کن، بگو "این بند یعنی چی؟ به نفع منه یا طرف مقابل؟"

ولی یه نکته خیلی مهم هست که باید بگم.

فقط عکس فرستادن کافی نیست.

خیلی‌ها فکر می‌کنن یه عکس می‌فرستن، هوش مصنوعی همه چیز رو می‌فهمه. نه.

باید بگی کجای عکس رو نگاه کنه. باید بگی دنبال چی می‌گردی. باید بگی هدفت چیه.

مثل اینه که یه نقشه بدی دست یه راننده تاکسی و بگی "برو." خب، کجا برم؟ از کجا شروع کنم؟

ولی اگه بگی "این نقشه‌ست، من الان اینجام، می‌خوام برم اینجا، بهترین مسیر که ترافیک نداشته باشه چیه؟" - اون موقع می‌تونه کمک کنه.

با هوش مصنوعی هم همینه. عکس + متن. تصویر + سوال. بصری + کلامی.

این ترکیبه که جادو می‌کنه.

یه چیز جالب دیگه هم بگم.

هوش مصنوعی الان می‌تونه چند نوع خروجی هم بده.

یعنی چی؟ یعنی می‌تونی بگی "این عکس رو ببین، بعد برام یه تحلیل متنی بنویس، روی خود عکس هم علامت بذار کجاها مشکل داره، یه نسخه اصلاح شده هم بده."

ورودی چندحالتی، خروجی هم چندحالتی.

مثلاً یه طراح می‌تونه بگه "این لوگو رو ببین، بگو چه مشکلاتی داره، روش علامت بزن، بعد یه نسخه بهتر پیشنهاد بده."

یه معمار می‌تونه بگه "این پلان رو ببین، جریان رفت و آمد رو روش رسم کن، بعد بگو کجاها گره ترافیکی داره."

این قدرت ترکیبه.

حالا یه چیز جالب‌تر بگم. آینده پرامپتینگ.

الان ما داریم تایپ می‌کنیم و عکس می‌فرستیم. این خوبه. ولی این فقط شروعه.

خیلی زود، پرامپت فقط این‌ها نیست.

تصور کن داری با هوش مصنوعی حرف می‌زنی. داری یه چیزی رو توضیح میدی. دستت رو تکون میدی به سمت صفحه که بگی "این قسمت". ابروت رو بالا میندازی که یعنی "مطمئن نیستم". یه مکث می‌کنی توی حرفت که یعنی "دارم فکر می‌کنم".

و هوش مصنوعی همه این‌ها رو می‌فهمه.

لحن صدات. حالت چهره‌ات. حرکات بدنت. سرعت حرف زدنت. حتی نفس کشیدنت.

همه این‌ها بخشی از پرامپت میشن.

این دیگه تایپ کردن نیست. این گفتگوی واقعیه. مثل حرف زدن با یه آدم.

شاید یه ساعت هوشمند داشته باشی که ضربان قلبت رو بفهمه. وقتی استرس داری، هوش مصنوعی بفهمه و جواب‌هاش رو تنظیم کنه. وقتی خسته‌ای، بفهمه و ساده‌تر توضیح بده.

شاید دوربین لپ‌تاپت روشن باشه و هوش مصنوعی ببینه که داری گیج نگاه می‌کنی. بگه "می‌خوای بیشتر توضیح بدم؟"

این آینده‌ایه که داره میاد.

یه نکته فلسفی هم بگم.

از اول تاریخ کامپیوتر، ما بودیم که باید خودمون رو با ماشین وفق می‌دادیم.

باید زبون ماشین یاد می‌گرفتیم. باید کد می‌زدیم. باید دستوراتی رو حفظ می‌کردیم که هیچ ربطی به زبون روزمره‌مون نداشت.

یادتونه DOS رو؟ باید می‌نوشتی "cd programs" و "dir" و این چیزها. یا حتی قبل‌ترش، کارت پانچ.

بعد ویندوز اومد. گرافیکی شد. راحت‌تر شد. ولی هنوز باید یاد می‌گرفتی کجا کلیک کنی، چه منویی رو باز کنی.

بعد گوشی‌های لمسی اومدن. تاچ‌اسکرین. راحت‌تر شد. ولی هنوز باید یاد می‌گرفتی چطور سوایپ کنی، کجا تپ کنی.

بعد دستیارهای صوتی اومدن. سیری، گوگل اسیستنت. می‌تونستی حرف بزنی. ولی باید جملاتت رو یه جوری می‌گفتی که بفهمن. "Hey Siri, set a timer for five minutes." نه اینکه بگی "اون یارو رو بذار رو پنج دقیقه."

هر بار یه قدم جلو رفتیم. ولی هنوز ما بودیم که وفق می‌دادیم.

الان یه چیز متفاوت داره اتفاق می‌افته.

ماشین داره یاد می‌گیره مثل ما فکر کنه. مثل ما ببینه. مثل ما بشنوه.

ما دیگه مجبور نیستیم زبون ماشین یاد بگیریم. ماشین داره زبون ما رو یاد می‌گیره.

با همه پیچیدگی‌هاش. با همه ابهام‌هاش. با همه حس‌هاش.

این یه تغییر بنیادیه.

یه مثال بزنم که شاید بهتر بفهمین.

یادتونه فیلم‌های صامت رو؟ اول سینما، صدا نداشت. همه چیز با تصویر بود. بازیگرها باید اغراق‌آمیز بازی می‌کردن که مخاطب بفهمه چه احساسی دارن.

بعد صدا اومد. سینمای ناطق. همه چیز عوض شد. دیگه لازم نبود اغراق کنن. می‌تونستن حرف بزنن.

ولی جالبه، اوایل که صدا اومد، فیلم‌ها خیلی بد بودن. چون فیلمسازها نمی‌دونستن چطور از صدا استفاده کنن. فقط دیالوگ می‌ذاشتن. تئاتر فیلم‌برداری شده بود.

بعد کم کم یاد گرفتن. فهمیدن صدا فقط دیالوگ نیست. موسیقی هست. صدای محیط هست. سکوت هست. و همه این‌ها معنی دارن.

ما الان توی همین نقطه‌ایم با هوش مصنوعی چندحالتی.

داریم یاد می‌گیریم چطور از این قابلیت‌ها استفاده کنیم. فقط عکس فرستادن کافی نیست. باید یاد بگیریم چطور عکس و متن و صدا رو ترکیب کنیم که نتیجه بهتری بگیریم.

این یه زبون جدیده. زبون چندحالتی.

خب حالا سوال اینه: چطور از این قابلیت‌ها استفاده کنیم؟

چند تا نکته عملی:

یک: همیشه فکر کن چه نوع اطلاعاتی بهتر منتقل میشه. بعضی چیزها با متن بهتر توضیح داده میشن. بعضی چیزها با عکس. بعضی چیزها با ترکیب.

دو: وقتی عکس می‌فرستی، حتماً بگو کجاش رو نگاه کنه و چی می‌خوای بدونی.

سه: از خروجی‌های مختلف هم استفاده کن. بگو "هم متنی توضیح بده، هم روی عکس نشون بده."

چهار: آزمایش کن. هر بار یه روش جدید امتحان کن. ببین کدوم بهتر جواب میده.

پنج: یادت باشه این تازه اول راهه. قابلیت‌های جدید دارن میان. آماده باش یاد بگیری.

خب، امروز حرف زدیم از اینکه دنیا یک پرامپته.

هوش مصنوعی دیگه فقط متن نمی‌خونه. می‌بینه. می‌شنوه. و خیلی زود، حتی حرکات و حالاتمون رو هم می‌فهمه.

گفتیم که عکس و متن با هم، نتیجه‌ای میدن که هیچ‌کدوم تنها نمی‌تونستن بدن. گفتیم که این یه تغییر بنیادیه در رابطه ما و ماشین.

اپیزود بعدی می‌خوام برم سراغ یه موضوع خیلی جالب: ایجنت‌ها.

هوش مصنوعی‌هایی که فقط جواب نمیدن. کار انجام میدن. مستقل فکر می‌کنن. تصمیم می‌گیرن. و بعضی وقتا، اشتباه می‌کنن.

یه داستان جالب هم دارم از یه نفر که به ایجنت گفت "ارزون‌ترین هدفون رو از آمازون پیدا کن" و ایجنت... خب، بذارین اپیزود بعدی تعریف کنم.

ممنون که همراهم بودین. اگه سوالی دارین یا نظری دارین، توی اینستاگرام پرامپتینکر پیام بدین.

تا اپیزود بعدی، مراقب خودتون باشین.


هوش مصنوعیپرامپتپرامپت نویسی
۶
۰
امید زمانی
امید زمانی
Nonchalant Prompt Sculptor
شاید از این پست‌ها خوشتان بیاید