
تا همین یکی دو سال پیش، اجرای مدلهای زبانی بزرگ (LLM) بدون اتصال به اینترنت تقریباً غیرممکن به نظر میرسید. هر تعامل با هوش مصنوعی به سرورهای ابری وابسته بود؛ دادهها ارسال میشدند، پردازش در دیتاسنتر انجام میگرفت و پاسخ برمیگشت.
اما امروز، با ترکیب چند فناوری کلیدی، این معادله در حال تغییر اساسی است.
اکنون میتوان مدلهای زبانی را آموزش داد، بهینهسازی کرد و مستقیماً روی گوشیهای موبایل (اندروید و iOS) اجرا کرد؛ آن هم با سرعت بالا، بدون اینترنت و با حفظ کامل حریم خصوصی.
این مقاله دقیقاً درباره همین تغییر بنیادین است.
وقتی یک مدل زبانی مستقیماً روی گوشی اجرا میشود، چند تحول مهم رخ میدهد:
حریم خصوصی واقعی
دادههای کاربر از دستگاه خارج نمیشوند. نه لاگی، نه سروری، نه تحلیل ابری.
پاسخدهی آنی
چون پردازش محلی است، تأخیر شبکه حذف میشود و پاسخها سریعتر تولید میشوند.
امکان استفاده آفلاین
حتی بدون اینترنت، کاربر میتواند با مدل گفتگو کند.
این دقیقاً همان چیزیست که شرکتهای بزرگ فناوری سالهاست روی آن کار میکنند، اما کمتر دربارهاش شفاف صحبت میشود.
این دستاورد نتیجه همکاری مستقیم بین Unsloth و ExecuTorch است؛ فریمورکی که توسط PyTorch و Meta توسعه داده شده و همین حالا در اپلیکیشنهایی مثل Instagram و WhatsApp برای میلیاردها کاربر استفاده میشود.
هدف این همکاری، ساخت یک مسیر استاندارد و عملی برای:
آموزش مدل
کوانتیزهسازی هوشمند
و اجرای مستقیم روی دستگاههای Edge مثل موبایل
مدلهای زبانی ذاتاً بزرگ و سنگیناند. اجرای آنها روی موبایل بدون بهینهسازی، عملاً غیرممکن است.
اینجاست که QAT (آموزش آگاه از کوانتیزهسازی) وارد بازی میشود.
در این روش:
مدل از همان مرحله آموزش یاد میگیرد که قرار است کوچکتر شود
کوانتیزهسازی وزنها (INT4) و اکتیویشنها (INT8) شبیهسازی میشود
محاسبات همچنان با دقت 16 بیت انجام میشوند
نتیجه؟
حجم مدل بهشدت کاهش مییابد
مصرف رم پایین میآید
و مهمتر از همه، تا ۷۰٪ دقت از دسترفتهی کوانتیزهسازی بازیابی میشود
این یعنی کیفیت خروجی قربانی اجرا روی موبایل نمیشود.
در تستهای عملی:
مدل Qwen3-0.6B
روی Pixel 8 و iPhone 15 Pro
با سرعت حدود ۴۰ توکن در ثانیه
آن هم کاملاً آفلاین.
این عدد برای یک مدل زبانی روی موبایل، یک جهش جدی محسوب میشود.
فرآیند کامل بهصورت زیر است:
آموزش یا فاینتیون مدل با Unsloth
فعالسازی حالت phone-deployment برای QAT
تبدیل مدل به فرمت مخصوص ExecuTorch (.pte)
انتقال مدل به اپلیکیشن موبایل
اجرا و چت مستقیم روی دستگاه
مدل نهایی Qwen3-0.6B حدود ۴۷۲ مگابایت حجم دارد؛ عددی که برای یک LLM کاملاً عملی است.
در iOS:
نیاز به macOS و Xcode 15 به بالا وجود دارد
برای اجرای روی دستگاه واقعی، اکانت پولی Apple Developer لازم است
قابلیت Increased Memory Limit باید فعال شود
پس از این مراحل، اپلیکیشن نمونه ExecuTorch میتواند:
مدل را لود کند
tokenizer را بشناسد
و بدون اینترنت، چت را اجرا کند
در اندروید:
نیازی به Android Studio نیست
همهچیز از طریق خط فرمان انجام میشود
APK ساخته و مستقیم روی گوشی نصب میشود
مدل و tokenizer از طریق adb به مسیر خاصی منتقل میشوند و اپلیکیشن ExecuTorch آنها را بارگذاری میکند.
بعد از آن، تجربهای مشابه چتباتهای ابری، اما کاملاً محلی خواهید داشت.
ExecuTorch در حال حاضر:
در Instagram برای استخراج استیکر از تصویر
در Messenger برای تشخیص زبان و ترجمهی محلی
در اپلیکیشنهای رمزنگاریشده برای پردازش امن
استفاده میشود.
یعنی این آینده، آیندهی فرضی نیست؛ آیندهی در حال اجراست.
این مسیر فقط محدود به Qwen3 نیست. مدلهای زیر هم پشتیبانی میشوند:
خانواده Qwen 3 (۰.۶B تا ۳۲B)
Gemma 3
Llama 3
Qwen 2.5
Phi 4 Mini
با کمی شخصیسازی، هرکدام از اینها میتوانند به مدل موبایلی تبدیل شوند.
جهت حرکت کاملاً مشخص است:
هوش مصنوعی از سرورها جدا میشود
به سمت دستگاههای شخصی میآید
و برای هر کاربر، شخصیسازی میشود
در چنین آیندهای:
موبایل شما فقط مصرفکننده AI نیست
بلکه میزبان هوش مصنوعی شماست
اجرای مدلهای زبانی بزرگ روی موبایل، فقط یک پیشرفت فنی نیست؛
این یک تغییر پارادایم است.
هوش مصنوعی:
خصوصیتر میشود
مستقلتر عمل میکند
و از انحصار سرورها خارج میشود
و شاید به همین دلیل است که
همه دوست ندارند شما از این آینده خبر داشته باشید.
سوالی که برای خود من بعد از انتشار این اخبار به وجود اومد این بود که ایا دقت پاسخ های هوش مصنوعی آفلاین به اندازه ی هوش مصنوعی آنلاین هست؟
پاسخ چت جی بی تی برای شما هم شاید جالب باشه
نه، معمولاً دقت پاسخهای مدلهای LLM که روی گوشی به صورت آفلاین اجرا میشوند، کمتر از نسخه آنلاین همان مدل است. چند دلیل اصلی داره:
حجم مدل کمتر است:
برای اجرا روی گوشی، مدلها معمولاً کوچک یا Quantized میشوند (مثلاً 0.6B در مقابل نسخه 4B یا بزرگتر آنلاین). این کاهش اندازه باعث میشود برخی دانش و تواناییهای مدل اصلی کاهش پیدا کند.
کمبود منابع محاسباتی:
گوشیها RAM و CPU/GPU محدود دارند، بنابراین مدل نمیتواند تمام محاسبات پیچیده و وزنهای کامل مدل اصلی را پردازش کند. به همین خاطر از QAT یا INT8/INT4 quantization استفاده میشود که کمی دقت را کاهش میدهد.
کمبود context و memory:
مدلهای روی گوشی معمولاً context window کوتاهتر دارند (مثلاً 128 تا 1024 توکن)، در حالی که نسخههای آنلاین میتوانند هزاران توکن را همزمان مدیریت کنند. این موضوع باعث میشود در مکالمات طولانی، پاسخها کمتر دقیق یا ناقص باشند.
Fine-tuning محدود:
حتی با اجرای QAT و fine-tuning، مدل گوشی نمیتواند به تمام قدرت نسخه بزرگ آنلاین برسد، اما برای پاسخهای عمومی و محاورهای معمولاً کفایت میکند.
💡 جمعبندی:
مزیت آفلاین: سرعت بالا، حریم خصوصی، پاسخ فوری بدون اینترنت
معایب: دقت کمتر نسبت به مدل آنلاین بزرگ، توانایی محدود در پاسخهای تخصصی یا طولانی