استفاده هوش مصنوعی آفلاین مدل‌ها با اولاما Ollama

راهنمای نصب Ollama و استفاده از مدلهای کم حجم هوش مصنوعی به صورت لوکال

با رشد سریع مدلهای هوش مصنوعی، نیاز به اجرای لوکال (Local) آنها بدون وابستگی به اینترنت و سرویسهای خارجی بیش از گذشته احساس می‌شود. ابزار Ollama یکی از ساده ترین و محبوب ترین راه ها برای اجرای مدلهای زبانی (LLM) روی سیستم شخصی است؛ حتی روی سیستمهای معمولی با منابع محدود.

در این مقاله، ابتدا Ollama را معرفی می‌کنیم، سپس مراحل نصب آن را توضیح می‌دهم و در نهایت سراغ مدلهای کم حجم و سبک می‌روم که برای سیستمهای ضعیفتر یا استفاده های روزمره بسیار مناسب هستند.


اولاما Ollama چیست؟

اولاما Ollama ابزاری متن باز (Open Source) برای اجرای مدلهای زبانی بزرگ به‌صورت لوکال است. این ابزار:

  • بدون نیاز به API خارجی کار می‌کند

  • روی ویندوز، لینوکس و مک قابل نصب است

  • مدیریت دانلود، اجرا و نسخه‌بندی مدل‌ها را ساده می‌کند

  • امکان استفاده در CLI و اتصال به برنامه‌ها (مثلاً بک‌اند یا فرانت‌اند) را دارد

به زبان ساده:

اولاما = داکر مدل‌های هوش مصنوعی 😄


نصب اولاما Ollama و اجرا

نصب روی لینوکس و مک

ساده‌ترین روش، استفاده از اسکریپت رسمی است:

curl -fsSL https://ollama.com/install.sh | sh

پس از نصب، سرویس Ollama به‌صورت خودکار اجرا می‌شود.

بررسی نصب:

ollama --version

نصب روی ویندوز

  1. وارد سایت رسمی شوید:
    ollama.com

  2. فایل نصب Windows را دانلود کنید

  3. نصب را مثل یک نرم‌افزار عادی انجام دهید

  4. بعد از نصب، Ollama در پس‌زمینه اجرا می‌شود و از PowerShell یا CMD قابل استفاده است


اجرای اولین مدل

برای دانلود و اجرای یک مدل، کافی است دستور زیر را بزنید:

ollama run llama3

اگر مدل قبلاً دانلود نشده باشد، Ollama آن را خودکار دانلود می‌کند و سپس وارد محیط چت می‌شوید.

خروج از چت:

/bye

مدل‌های کم‌حجم و سبک پیشنهادی

اگر سیستم شما RAM یا CPU قوی ندارد، این مدل‌ها انتخاب‌های بسیار خوبی هستند 👇

۱. Phi-3 Mini (بسیار سبک و سریع)

ollama run phi3

ویژگی‌ها:

  • حجم حدود 2 تا 3 گیگابایت

  • مناسب لپ‌تاپ‌های ضعیف

  • عالی برای کدنویسی ساده و پاسخ‌های کوتاه

  • مصرف RAM کم

✅ پیشنهاد عالی برای شروع


۲. تینی لاما TinyLlama

ollama run tinyllama

ویژگی‌ها:

  • حجم حدود 1.1GB

  • اجرای سریع

  • مناسب تست، آموزش و سیستم‌های بسیار ضعیف

❌ دقت کمتر نسبت به مدل‌های بزرگ‌تر
✅ مصرف منابع فوق‌العاده کم


۳. جما Gemma 2B

ollama run gemma:2b

ویژگی‌ها:

  • مدل رسمی گوگل

  • تعادل خوب بین دقت و حجم

  • مناسب چت و تحلیل متن


۴. کوئین Qwen 2.5 (نسخه‌های کوچک)

ollama run qwen2.5:3b

ویژگی‌ها:

  • مناسب کدنویسی

  • پاسخ‌های منطقی و دقیق

  • عملکرد خوب روی سیستم متوسط


۵. میسترال Mistral 7B (در صورت داشتن سیستم قوی‌تر)

ollama run mistral

حداقل منابع پیشنهادی:

  • 16GB RAM

  • CPU قوی یا GPU


مشاهده مدل‌های نصب‌شده

ollama list

حذف یک مدل

ollama rm tinyllama

استفاده از اولما Ollama در برنامه‌نویسی

اولاما Ollama یک API لوکال روی پورت 11434 اجرا می‌کند و می‌توان آن را به:

  • Next.js

  • Node.js

  • Python

  • FastAPI

  • LangChain

متصل کرد؛ بدون ارسال داده به اینترنت 👌
این موضوع برای حریم خصوصی و تحریم‌ها بسیار مهم است.


اگر در اتصال به اینترنت بین المللی مشکل دارید و یا ساز و کار بهتری برای سیستمهای لینوکس و ویندوزی میشناسید معرفی کنید.

مرا دنبال کنید و برای مشاوره و طراحی سایت با من در ارتباط باشید.