خواندن ۴ دقیقه·۲ ماه پیش

وقتی هوش مصنوعی بدون اینترنت کار می‌کند؛ تهدیدی برای غول‌های فناوری؟

تا همین یکی دو سال پیش، اجرای مدل‌های زبانی بزرگ (LLM) بدون اتصال به اینترنت تقریباً غیرممکن به نظر می‌رسید. هر تعامل با هوش مصنوعی به سرورهای ابری وابسته بود؛ داده‌ها ارسال می‌شدند، پردازش در دیتاسنتر انجام می‌گرفت و پاسخ برمی‌گشت.
اما امروز، با ترکیب چند فناوری کلیدی، این معادله در حال تغییر اساسی است.

اکنون می‌توان مدل‌های زبانی را آموزش داد، بهینه‌سازی کرد و مستقیماً روی گوشی‌های موبایل (اندروید و iOS) اجرا کرد؛ آن هم با سرعت بالا، بدون اینترنت و با حفظ کامل حریم خصوصی.

این مقاله دقیقاً درباره همین تغییر بنیادین است.

اجرای LLM روی موبایل؛ چرا این‌قدر مهم است؟

وقتی یک مدل زبانی مستقیماً روی گوشی اجرا می‌شود، چند تحول مهم رخ می‌دهد:

حریم خصوصی واقعی
داده‌های کاربر از دستگاه خارج نمی‌شوند. نه لاگی، نه سروری، نه تحلیل ابری.
پاسخ‌دهی آنی
چون پردازش محلی است، تأخیر شبکه حذف می‌شود و پاسخ‌ها سریع‌تر تولید می‌شوند.
امکان استفاده آفلاین
حتی بدون اینترنت، کاربر می‌تواند با مدل گفتگو کند.

این دقیقاً همان چیزی‌ست که شرکت‌های بزرگ فناوری سال‌هاست روی آن کار می‌کنند، اما کمتر درباره‌اش شفاف صحبت می‌شود.

پشت صحنه این پیشرفت: همکاری Unsloth و ExecuTorch

این دستاورد نتیجه همکاری مستقیم بین Unsloth و ExecuTorch است؛ فریم‌ورکی که توسط PyTorch و Meta توسعه داده شده و همین حالا در اپلیکیشن‌هایی مثل Instagram و WhatsApp برای میلیاردها کاربر استفاده می‌شود.

هدف این همکاری، ساخت یک مسیر استاندارد و عملی برای:

آموزش مدل
کوانتیزه‌سازی هوشمند
و اجرای مستقیم روی دستگاه‌های Edge مثل موبایل

نقش حیاتی Quantization-Aware Training (QAT)

مدل‌های زبانی ذاتاً بزرگ و سنگین‌اند. اجرای آن‌ها روی موبایل بدون بهینه‌سازی، عملاً غیرممکن است.
اینجاست که QAT (آموزش آگاه از کوانتیزه‌سازی) وارد بازی می‌شود.

در این روش:

مدل از همان مرحله آموزش یاد می‌گیرد که قرار است کوچک‌تر شود
کوانتیزه‌سازی وزن‌ها (INT4) و اکتیویشن‌ها (INT8) شبیه‌سازی می‌شود
محاسبات همچنان با دقت 16 بیت انجام می‌شوند

نتیجه؟

حجم مدل به‌شدت کاهش می‌یابد
مصرف رم پایین می‌آید
و مهم‌تر از همه، تا ۷۰٪ دقت از دست‌رفته‌ی کوانتیزه‌سازی بازیابی می‌شود

این یعنی کیفیت خروجی قربانی اجرا روی موبایل نمی‌شود.

اجرای واقعی روی موبایل: اعداد و واقعیت‌ها

در تست‌های عملی:

مدل Qwen3-0.6B
روی Pixel 8 و iPhone 15 Pro
با سرعت حدود ۴۰ توکن در ثانیه

آن هم کاملاً آفلاین.

این عدد برای یک مدل زبانی روی موبایل، یک جهش جدی محسوب می‌شود.

مسیر کلی: از آموزش تا اجرا روی گوشی

فرآیند کامل به‌صورت زیر است:

آموزش یا فاین‌تیون مدل با Unsloth
فعال‌سازی حالت phone-deployment برای QAT
تبدیل مدل به فرمت مخصوص ExecuTorch (.pte)
انتقال مدل به اپلیکیشن موبایل
اجرا و چت مستقیم روی دستگاه

مدل نهایی Qwen3-0.6B حدود ۴۷۲ مگابایت حجم دارد؛ عددی که برای یک LLM کاملاً عملی است.

اجرای مدل روی iOS؛ محدود اما ممکن

در iOS:

نیاز به macOS و Xcode 15 به بالا وجود دارد
برای اجرای روی دستگاه واقعی، اکانت پولی Apple Developer لازم است
قابلیت Increased Memory Limit باید فعال شود

پس از این مراحل، اپلیکیشن نمونه ExecuTorch می‌تواند:

مدل را لود کند
tokenizer را بشناسد
و بدون اینترنت، چت را اجرا کند

اجرای مدل روی اندروید؛ انعطاف‌پذیرتر از iOS

در اندروید:

نیازی به Android Studio نیست
همه‌چیز از طریق خط فرمان انجام می‌شود
APK ساخته و مستقیم روی گوشی نصب می‌شود

مدل و tokenizer از طریق adb به مسیر خاصی منتقل می‌شوند و اپلیکیشن ExecuTorch آن‌ها را بارگذاری می‌کند.
بعد از آن، تجربه‌ای مشابه چت‌بات‌های ابری، اما کاملاً محلی خواهید داشت.

این فناوری همین حالا کجا استفاده می‌شود؟

ExecuTorch در حال حاضر:

در Instagram برای استخراج استیکر از تصویر
در Messenger برای تشخیص زبان و ترجمه‌ی محلی
در اپلیکیشن‌های رمزنگاری‌شده برای پردازش امن

استفاده می‌شود.

یعنی این آینده، آینده‌ی فرضی نیست؛ آینده‌ی در حال اجراست.

پشتیبانی از مدل‌های بیشتر

این مسیر فقط محدود به Qwen3 نیست. مدل‌های زیر هم پشتیبانی می‌شوند:

خانواده Qwen 3 (۰.۶B تا ۳۲B)
Gemma 3
Llama 3
Qwen 2.5
Phi 4 Mini

با کمی شخصی‌سازی، هرکدام از این‌ها می‌توانند به مدل موبایلی تبدیل شوند.

آینده: هوش مصنوعی شخصی، نه ابری

جهت حرکت کاملاً مشخص است:

هوش مصنوعی از سرورها جدا می‌شود
به سمت دستگاه‌های شخصی می‌آید
و برای هر کاربر، شخصی‌سازی می‌شود

در چنین آینده‌ای:

موبایل شما فقط مصرف‌کننده AI نیست
بلکه میزبان هوش مصنوعی شماست

جمع‌بندی نهایی

اجرای مدل‌های زبانی بزرگ روی موبایل، فقط یک پیشرفت فنی نیست؛
این یک تغییر پارادایم است.

هوش مصنوعی:

خصوصی‌تر می‌شود
مستقل‌تر عمل می‌کند
و از انحصار سرورها خارج می‌شود

و شاید به همین دلیل است که
همه دوست ندارند شما از این آینده خبر داشته باشید.
سوالی که برای خود من بعد از انتشار این اخبار به وجود اومد این بود که ایا دقت پاسخ های هوش مصنوعی آفلاین به اندازه ی هوش مصنوعی آنلاین هست؟
پاسخ چت جی بی تی برای شما هم شاید جالب باشه
نه، معمولاً دقت پاسخ‌های مدل‌های LLM که روی گوشی به صورت آفلاین اجرا می‌شوند، کمتر از نسخه آنلاین همان مدل است. چند دلیل اصلی داره:

حجم مدل کمتر است:
برای اجرا روی گوشی، مدل‌ها معمولاً کوچک یا Quantized می‌شوند (مثلاً 0.6B در مقابل نسخه 4B یا بزرگ‌تر آنلاین). این کاهش اندازه باعث می‌شود برخی دانش و توانایی‌های مدل اصلی کاهش پیدا کند.
کمبود منابع محاسباتی:
گوشی‌ها RAM و CPU/GPU محدود دارند، بنابراین مدل نمی‌تواند تمام محاسبات پیچیده و وزن‌های کامل مدل اصلی را پردازش کند. به همین خاطر از QAT یا INT8/INT4 quantization استفاده می‌شود که کمی دقت را کاهش می‌دهد.
کمبود context و memory:
مدل‌های روی گوشی معمولاً context window کوتاه‌تر دارند (مثلاً 128 تا 1024 توکن)، در حالی که نسخه‌های آنلاین می‌توانند هزاران توکن را همزمان مدیریت کنند. این موضوع باعث می‌شود در مکالمات طولانی، پاسخ‌ها کمتر دقیق یا ناقص باشند.
Fine-tuning محدود:
حتی با اجرای QAT و fine-tuning، مدل گوشی نمی‌تواند به تمام قدرت نسخه بزرگ آنلاین برسد، اما برای پاسخ‌های عمومی و محاوره‌ای معمولاً کفایت می‌کند.

💡 جمع‌بندی:

مزیت آفلاین: سرعت بالا، حریم خصوصی، پاسخ فوری بدون اینترنت
معایب: دقت کمتر نسبت به مدل آنلاین بزرگ، توانایی محدود در پاسخ‌های تخصصی یا طولانی

هوش مصنوعیai

hossein zareian

شاید از این پست‌ها خوشتان بیاید

hossein zareian

خواندن ۴ دقیقه·۲ ماه پیش

وقتی هوش مصنوعی بدون اینترنت کار می‌کند؛ تهدیدی برای غول‌های فناوری؟

این مقاله دقیقاً درباره همین تغییر بنیادین است.

اجرای LLM روی موبایل؛ چرا این‌قدر مهم است؟

وقتی یک مدل زبانی مستقیماً روی گوشی اجرا می‌شود، چند تحول مهم رخ می‌دهد:

حریم خصوصی واقعی
داده‌های کاربر از دستگاه خارج نمی‌شوند. نه لاگی، نه سروری، نه تحلیل ابری.
پاسخ‌دهی آنی
چون پردازش محلی است، تأخیر شبکه حذف می‌شود و پاسخ‌ها سریع‌تر تولید می‌شوند.
امکان استفاده آفلاین
حتی بدون اینترنت، کاربر می‌تواند با مدل گفتگو کند.

پشت صحنه این پیشرفت: همکاری Unsloth و ExecuTorch

هدف این همکاری، ساخت یک مسیر استاندارد و عملی برای:

آموزش مدل
کوانتیزه‌سازی هوشمند
و اجرای مستقیم روی دستگاه‌های Edge مثل موبایل

نقش حیاتی Quantization-Aware Training (QAT)

در این روش:

مدل از همان مرحله آموزش یاد می‌گیرد که قرار است کوچک‌تر شود
کوانتیزه‌سازی وزن‌ها (INT4) و اکتیویشن‌ها (INT8) شبیه‌سازی می‌شود
محاسبات همچنان با دقت 16 بیت انجام می‌شوند

نتیجه؟

حجم مدل به‌شدت کاهش می‌یابد
مصرف رم پایین می‌آید
و مهم‌تر از همه، تا ۷۰٪ دقت از دست‌رفته‌ی کوانتیزه‌سازی بازیابی می‌شود

این یعنی کیفیت خروجی قربانی اجرا روی موبایل نمی‌شود.

اجرای واقعی روی موبایل: اعداد و واقعیت‌ها

در تست‌های عملی:

مدل Qwen3-0.6B
روی Pixel 8 و iPhone 15 Pro
با سرعت حدود ۴۰ توکن در ثانیه

آن هم کاملاً آفلاین.

این عدد برای یک مدل زبانی روی موبایل، یک جهش جدی محسوب می‌شود.

مسیر کلی: از آموزش تا اجرا روی گوشی

فرآیند کامل به‌صورت زیر است:

آموزش یا فاین‌تیون مدل با Unsloth
فعال‌سازی حالت phone-deployment برای QAT
تبدیل مدل به فرمت مخصوص ExecuTorch (.pte)
انتقال مدل به اپلیکیشن موبایل
اجرا و چت مستقیم روی دستگاه

مدل نهایی Qwen3-0.6B حدود ۴۷۲ مگابایت حجم دارد؛ عددی که برای یک LLM کاملاً عملی است.

اجرای مدل روی iOS؛ محدود اما ممکن

در iOS:

نیاز به macOS و Xcode 15 به بالا وجود دارد
برای اجرای روی دستگاه واقعی، اکانت پولی Apple Developer لازم است
قابلیت Increased Memory Limit باید فعال شود

پس از این مراحل، اپلیکیشن نمونه ExecuTorch می‌تواند:

مدل را لود کند
tokenizer را بشناسد
و بدون اینترنت، چت را اجرا کند

اجرای مدل روی اندروید؛ انعطاف‌پذیرتر از iOS

در اندروید:

نیازی به Android Studio نیست
همه‌چیز از طریق خط فرمان انجام می‌شود
APK ساخته و مستقیم روی گوشی نصب می‌شود

این فناوری همین حالا کجا استفاده می‌شود؟

ExecuTorch در حال حاضر:

در Instagram برای استخراج استیکر از تصویر
در Messenger برای تشخیص زبان و ترجمه‌ی محلی
در اپلیکیشن‌های رمزنگاری‌شده برای پردازش امن

استفاده می‌شود.

یعنی این آینده، آینده‌ی فرضی نیست؛ آینده‌ی در حال اجراست.

پشتیبانی از مدل‌های بیشتر

این مسیر فقط محدود به Qwen3 نیست. مدل‌های زیر هم پشتیبانی می‌شوند:

خانواده Qwen 3 (۰.۶B تا ۳۲B)
Gemma 3
Llama 3
Qwen 2.5
Phi 4 Mini

با کمی شخصی‌سازی، هرکدام از این‌ها می‌توانند به مدل موبایلی تبدیل شوند.

آینده: هوش مصنوعی شخصی، نه ابری

جهت حرکت کاملاً مشخص است:

هوش مصنوعی از سرورها جدا می‌شود
به سمت دستگاه‌های شخصی می‌آید
و برای هر کاربر، شخصی‌سازی می‌شود

در چنین آینده‌ای:

موبایل شما فقط مصرف‌کننده AI نیست
بلکه میزبان هوش مصنوعی شماست

جمع‌بندی نهایی

اجرای مدل‌های زبانی بزرگ روی موبایل، فقط یک پیشرفت فنی نیست؛
این یک تغییر پارادایم است.

هوش مصنوعی:

خصوصی‌تر می‌شود
مستقل‌تر عمل می‌کند
و از انحصار سرورها خارج می‌شود

حجم مدل کمتر است:
برای اجرا روی گوشی، مدل‌ها معمولاً کوچک یا Quantized می‌شوند (مثلاً 0.6B در مقابل نسخه 4B یا بزرگ‌تر آنلاین). این کاهش اندازه باعث می‌شود برخی دانش و توانایی‌های مدل اصلی کاهش پیدا کند.
کمبود منابع محاسباتی:
گوشی‌ها RAM و CPU/GPU محدود دارند، بنابراین مدل نمی‌تواند تمام محاسبات پیچیده و وزن‌های کامل مدل اصلی را پردازش کند. به همین خاطر از QAT یا INT8/INT4 quantization استفاده می‌شود که کمی دقت را کاهش می‌دهد.
کمبود context و memory:
مدل‌های روی گوشی معمولاً context window کوتاه‌تر دارند (مثلاً 128 تا 1024 توکن)، در حالی که نسخه‌های آنلاین می‌توانند هزاران توکن را همزمان مدیریت کنند. این موضوع باعث می‌شود در مکالمات طولانی، پاسخ‌ها کمتر دقیق یا ناقص باشند.
Fine-tuning محدود:
حتی با اجرای QAT و fine-tuning، مدل گوشی نمی‌تواند به تمام قدرت نسخه بزرگ آنلاین برسد، اما برای پاسخ‌های عمومی و محاوره‌ای معمولاً کفایت می‌کند.

💡 جمع‌بندی:

مزیت آفلاین: سرعت بالا، حریم خصوصی، پاسخ فوری بدون اینترنت
معایب: دقت کمتر نسبت به مدل آنلاین بزرگ، توانایی محدود در پاسخ‌های تخصصی یا طولانی

هوش مصنوعیai

hossein zareian

شاید از این پست‌ها خوشتان بیاید