سلام و درود به همه شنوندگان پرامپتینک.
امروز میخوام از یه چیزی حرف بزنم که شاید خیلیهاتون هنوز باهاش کار نکرده باشین. ولی باور کنین، وقتی امتحانش کنین، دیگه برنمیگردین عقب.
تا الان توی این پادکست حرف زدیم از بازی با هوش مصنوعی، از تکرار خلاقانه، از سلیقه، از اصالت، از توهمات. همه اینها یه چیز مشترک داشتن: ما داشتیم تایپ میکردیم و هوش مصنوعی جواب میداد.
ولی امروز میخوام یه در جدید باز کنم. میخوام بگم که پرامپت فقط متن نیست.
موضوعمون اینه: دنیا یک پرامپت است.

یه سوال ازتون بپرسم. تا حالا شده بخواین یه چیزی رو برای کسی توضیح بدین، ولی هرچی حرف بزنین، طرف نفهمه؟
مثلاً زنگ میزنی به پشتیبانی، میگی "آقا یه دکمه هست اینجا، کنارش یه چیز سبز هست، پایینش یه خط هست..." طرف میگه "کدوم دکمه؟ کجا؟" تو میگی "همون دیگه! سمت چپ!" اون میگه "سمت چپ شما یا سمت چپ من؟"
نیم ساعت میگذره، هنوز مشکل حل نشده.
بعد یه عکس میفرستی، طرف میگه "آهان! این رو میگفتی! خب این دکمه رو بزن، تموم."
خب، هوش مصنوعی هم دقیقاً همینه.
یه نویسندهای تعریف میکرد که بویلر خونهش خراب شده بود. زمستون بود، سرد بود، آب گرم نداشت.
نشست پشت کامپیوتر، شروع کرد تایپ کردن برای هوش مصنوعی.
"یه شیر هست سمت چپ، رنگش قرمزه، ولی نه قرمز قرمز، یه جورایی نارنجیه. کنارش یه دکمه هست که فکر کنم برای روشن خاموش کردنه. یه لوله هم میاد از پایین که نمیدونم آب گرمه یا سرد. بالاش یه صفحه دیجیتال هست که یه عدد نشون میده ولی نمیفهمم چیه..."
یه ساعت گذشت. هوش مصنوعی هنوز گیج بود. هی سوال میپرسید. هی توضیح بیشتر میخواست.
بعد یه لحظه به ذهنش رسید.
گوشیش رو برداشت. یه عکس گرفت از بویلر. فرستاد.
همه چیز عوض شد.
هوش مصنوعی گفت: "اوکی میبینم. این مدل فلانه. این شیر قرمز رو ببند. این دکمه سفید رو سه ثانیه نگه دار. حواست به این لوله پایین سمت راست باشه که اگه بازش کنی سیل میشه. عدد روی صفحه هم فشار آبه، الان کمه، باید بره بالای ۱.۵."
یه عکس. جای یه ساعت توضیح دادن.
این لحظهای بود که اون نویسنده فهمید دنیا عوض شده.
این همون چیزیه که بهش میگن "Multimodal AI" یا هوش مصنوعی چندحالتی.
یعنی چی؟ یعنی هوش مصنوعی دیگه فقط متن نمیخونه. عکس میبینه. ویدیو میفهمه. صدا گوش میده.
یادتونه قدیم کامپیوترها فقط با اعداد کار میکردن؟ باید کد میزدی، عدد وارد میکردی، خروجی عدد بود. بعد متن اومد. بعد گرافیک. بعد صدا. بعد ویدیو.
هر بار یه قدم جلو رفتیم.
الان داریم به یه نقطه میرسیم که هوش مصنوعی مثل یه آدم واقعی میتونه ببینه و بشنوه و بفهمه.
فکر کنین به این مثال.
میخواین به یه بچه یاد بدین دوچرخه سواری کنه.
اگه فقط بنویسین "دستت رو بذار روی فرمان، پات رو بذار روی رکاب، تعادلت رو حفظ کن، وقتی داری میافتی به سمت راست، فرمون رو یه کم ببر راست" - احتمالاً بچه میافته. چون نمیفهمه. خیلی انتزاعیه.
ولی اگه یه ویدیو نشونش بدین، خودتون سوار شین، نشون بدین چطوری پا میزنین، چطوری تعادل میگیرین، چطوری میپیچین - یاد میگیره. چون میبینه.
هوش مصنوعی هم همینه.
وقتی متن میدی، یه بخشی از اطلاعات منتقل میشه. وقتی عکس میدی، یه بخش دیگه. ولی وقتی متن و عکس رو با هم بدی، یه چیز جادویی اتفاق میافته. نتیجهای میگیری که هیچکدوم تنها نمیتونستن بدن.
به این میگن "همافزایی بصری و کلامی".
عکس میتونه فوری روابط فضایی رو نشون بده. این کجاست، اون کجاست، این به اون وصله، این بزرگتره، این جلوتره. اگه بخوای اینها رو با متن توضیح بدی، چند پاراگراف میشه. ولی یه عکس، یه ثانیه.
از طرف دیگه، متن میتونه عمق و زمینه بده. چرا این مهمه، چی میخوای باهاش بکنی، چه محدودیتهایی داری.
وقتی این دو تا رو ترکیب میکنی، هوش مصنوعی هم میبینه هم میفهمه.
حالا بذارین چندتا مثال واقعی بزنم که شاید فردا صبح بتونین استفاده کنین.
مثال اول: قبض برق
قبض برقت اومده. یه عدد عجیب غریب نوشته. ماه قبل صد تومن بود، این ماه شده پونصد تومن. نمیفهمی چرا.
میتونی بشینی تایپ کنی "قبض برقم زیاد شده، ماه قبل فلان بود، این ماه فلان شده، مصرفم این بوده، آیا درسته؟"
یا میتونی یه عکس از قبض بگیری، بفرستی، بگی "این قبض رو برام تحلیل کن. چرا اینقدر زیاده؟ کجاش مشکل داره؟"
هوش مصنوعی همه اعداد رو میخونه، مقایسه میکنه، بهت میگه مثلاً "این قسمت که نوشته هزینه اوج مصرف، خیلی بالاست. یعنی کولرت توی ساعت پیک روشن بوده."
مثال دوم: منوی رستوران
رفتی یه رستوران خارجی. یا حتی یه رستوران محلی توی یه شهر دیگه. منو رو باز میکنی، یه سری اسم هست که نمیفهمی چیه.
"کوبیده لری چیه؟ فرقش با کوبیده معمولی چیه؟ این یکی که نوشته دنده کباب با چی سرو میشه؟"
یه عکس بگیر از منو. بفرست. بپرس "این غذاها چی هستن؟ کدوم گوشت قرمز داره؟ کدوم تنده؟ کدوم برای کسی که رژیم داره مناسبتره؟"
یه دقیقه، همه چی روشن میشه.
مثال سوم: چراغ داشبورد ماشین
داری رانندگی میکنی، یهو یه چراغ روشن میشه روی داشبورد. یه شکل عجیب. نارنجیه. نمیدونی چیه.
میتونی بشینی تایپ کنی "یه چراغ روشن شده، شکلش مثل موتوره ولی نه دقیقاً، یه جورایی مثل جعبهست با یه فلش، رنگش نارنجیه ولی گاهی قرمز میشه..."
یا یه عکس بگیر. بفرست. بگو "این چراغ چیه؟ خطرناکه؟ باید الان نگه دارم یا میتونم تا تعمیرگاه برم؟"
مثال چهارم: نقشه معماری
معمار هستی یا داری خونه میسازی. یه نقشه داری. میخوای بدونی این قسمت از نظر نور طبیعی خوبه یا نه.
به جای توضیح دادن "یه اتاق هست که پنجرهش رو به شماله، ابعادش سه در چهاره، سقفش سه متره..." نقشه رو بذار، یه دایره بکش دور اون اتاق، بگو "این اتاق از نظر نورگیری چطوره؟ چکار کنم بهتر شه؟"
مثال پنجم: قرارداد
یه قرارداد دستته. ده صفحهست. یه بند هست صفحه هفت که مشکوکی بهش.
به جای کپی پیست کردن کل متن و توضیح دادن "این بند که راجع به فسخ قرارداده..."، یه اسکرینشات بگیر، اون بند رو هایلایت کن، بگو "این بند یعنی چی؟ به نفع منه یا طرف مقابل؟"
ولی یه نکته خیلی مهم هست که باید بگم.
فقط عکس فرستادن کافی نیست.
خیلیها فکر میکنن یه عکس میفرستن، هوش مصنوعی همه چیز رو میفهمه. نه.
باید بگی کجای عکس رو نگاه کنه. باید بگی دنبال چی میگردی. باید بگی هدفت چیه.
مثل اینه که یه نقشه بدی دست یه راننده تاکسی و بگی "برو." خب، کجا برم؟ از کجا شروع کنم؟
ولی اگه بگی "این نقشهست، من الان اینجام، میخوام برم اینجا، بهترین مسیر که ترافیک نداشته باشه چیه؟" - اون موقع میتونه کمک کنه.
با هوش مصنوعی هم همینه. عکس + متن. تصویر + سوال. بصری + کلامی.
این ترکیبه که جادو میکنه.
یه چیز جالب دیگه هم بگم.
هوش مصنوعی الان میتونه چند نوع خروجی هم بده.
یعنی چی؟ یعنی میتونی بگی "این عکس رو ببین، بعد برام یه تحلیل متنی بنویس، روی خود عکس هم علامت بذار کجاها مشکل داره، یه نسخه اصلاح شده هم بده."
ورودی چندحالتی، خروجی هم چندحالتی.
مثلاً یه طراح میتونه بگه "این لوگو رو ببین، بگو چه مشکلاتی داره، روش علامت بزن، بعد یه نسخه بهتر پیشنهاد بده."
یه معمار میتونه بگه "این پلان رو ببین، جریان رفت و آمد رو روش رسم کن، بعد بگو کجاها گره ترافیکی داره."
این قدرت ترکیبه.
حالا یه چیز جالبتر بگم. آینده پرامپتینگ.
الان ما داریم تایپ میکنیم و عکس میفرستیم. این خوبه. ولی این فقط شروعه.
خیلی زود، پرامپت فقط اینها نیست.
تصور کن داری با هوش مصنوعی حرف میزنی. داری یه چیزی رو توضیح میدی. دستت رو تکون میدی به سمت صفحه که بگی "این قسمت". ابروت رو بالا میندازی که یعنی "مطمئن نیستم". یه مکث میکنی توی حرفت که یعنی "دارم فکر میکنم".
و هوش مصنوعی همه اینها رو میفهمه.
لحن صدات. حالت چهرهات. حرکات بدنت. سرعت حرف زدنت. حتی نفس کشیدنت.
همه اینها بخشی از پرامپت میشن.
این دیگه تایپ کردن نیست. این گفتگوی واقعیه. مثل حرف زدن با یه آدم.
شاید یه ساعت هوشمند داشته باشی که ضربان قلبت رو بفهمه. وقتی استرس داری، هوش مصنوعی بفهمه و جوابهاش رو تنظیم کنه. وقتی خستهای، بفهمه و سادهتر توضیح بده.
شاید دوربین لپتاپت روشن باشه و هوش مصنوعی ببینه که داری گیج نگاه میکنی. بگه "میخوای بیشتر توضیح بدم؟"
این آیندهایه که داره میاد.
یه نکته فلسفی هم بگم.
از اول تاریخ کامپیوتر، ما بودیم که باید خودمون رو با ماشین وفق میدادیم.
باید زبون ماشین یاد میگرفتیم. باید کد میزدیم. باید دستوراتی رو حفظ میکردیم که هیچ ربطی به زبون روزمرهمون نداشت.
یادتونه DOS رو؟ باید مینوشتی "cd programs" و "dir" و این چیزها. یا حتی قبلترش، کارت پانچ.
بعد ویندوز اومد. گرافیکی شد. راحتتر شد. ولی هنوز باید یاد میگرفتی کجا کلیک کنی، چه منویی رو باز کنی.
بعد گوشیهای لمسی اومدن. تاچاسکرین. راحتتر شد. ولی هنوز باید یاد میگرفتی چطور سوایپ کنی، کجا تپ کنی.
بعد دستیارهای صوتی اومدن. سیری، گوگل اسیستنت. میتونستی حرف بزنی. ولی باید جملاتت رو یه جوری میگفتی که بفهمن. "Hey Siri, set a timer for five minutes." نه اینکه بگی "اون یارو رو بذار رو پنج دقیقه."
هر بار یه قدم جلو رفتیم. ولی هنوز ما بودیم که وفق میدادیم.
الان یه چیز متفاوت داره اتفاق میافته.
ماشین داره یاد میگیره مثل ما فکر کنه. مثل ما ببینه. مثل ما بشنوه.
ما دیگه مجبور نیستیم زبون ماشین یاد بگیریم. ماشین داره زبون ما رو یاد میگیره.
با همه پیچیدگیهاش. با همه ابهامهاش. با همه حسهاش.
این یه تغییر بنیادیه.
یه مثال بزنم که شاید بهتر بفهمین.
یادتونه فیلمهای صامت رو؟ اول سینما، صدا نداشت. همه چیز با تصویر بود. بازیگرها باید اغراقآمیز بازی میکردن که مخاطب بفهمه چه احساسی دارن.
بعد صدا اومد. سینمای ناطق. همه چیز عوض شد. دیگه لازم نبود اغراق کنن. میتونستن حرف بزنن.
ولی جالبه، اوایل که صدا اومد، فیلمها خیلی بد بودن. چون فیلمسازها نمیدونستن چطور از صدا استفاده کنن. فقط دیالوگ میذاشتن. تئاتر فیلمبرداری شده بود.
بعد کم کم یاد گرفتن. فهمیدن صدا فقط دیالوگ نیست. موسیقی هست. صدای محیط هست. سکوت هست. و همه اینها معنی دارن.
ما الان توی همین نقطهایم با هوش مصنوعی چندحالتی.
داریم یاد میگیریم چطور از این قابلیتها استفاده کنیم. فقط عکس فرستادن کافی نیست. باید یاد بگیریم چطور عکس و متن و صدا رو ترکیب کنیم که نتیجه بهتری بگیریم.
این یه زبون جدیده. زبون چندحالتی.
خب حالا سوال اینه: چطور از این قابلیتها استفاده کنیم؟
چند تا نکته عملی:
یک: همیشه فکر کن چه نوع اطلاعاتی بهتر منتقل میشه. بعضی چیزها با متن بهتر توضیح داده میشن. بعضی چیزها با عکس. بعضی چیزها با ترکیب.
دو: وقتی عکس میفرستی، حتماً بگو کجاش رو نگاه کنه و چی میخوای بدونی.
سه: از خروجیهای مختلف هم استفاده کن. بگو "هم متنی توضیح بده، هم روی عکس نشون بده."
چهار: آزمایش کن. هر بار یه روش جدید امتحان کن. ببین کدوم بهتر جواب میده.
پنج: یادت باشه این تازه اول راهه. قابلیتهای جدید دارن میان. آماده باش یاد بگیری.
خب، امروز حرف زدیم از اینکه دنیا یک پرامپته.
هوش مصنوعی دیگه فقط متن نمیخونه. میبینه. میشنوه. و خیلی زود، حتی حرکات و حالاتمون رو هم میفهمه.
گفتیم که عکس و متن با هم، نتیجهای میدن که هیچکدوم تنها نمیتونستن بدن. گفتیم که این یه تغییر بنیادیه در رابطه ما و ماشین.
اپیزود بعدی میخوام برم سراغ یه موضوع خیلی جالب: ایجنتها.
هوش مصنوعیهایی که فقط جواب نمیدن. کار انجام میدن. مستقل فکر میکنن. تصمیم میگیرن. و بعضی وقتا، اشتباه میکنن.
یه داستان جالب هم دارم از یه نفر که به ایجنت گفت "ارزونترین هدفون رو از آمازون پیدا کن" و ایجنت... خب، بذارین اپیزود بعدی تعریف کنم.
ممنون که همراهم بودین. اگه سوالی دارین یا نظری دارین، توی اینستاگرام پرامپتینکر پیام بدین.
تا اپیزود بعدی، مراقب خودتون باشین.