بسم الله الرحمن الرحیم
لینک داخلی مدل هوش مصنوعی gguf همراه آموزش
به همراه آموزش کاربردی اجرای llama-server.exe و معرفی تعدادی مدل محبوب

توجه: بلافاصله پس از وارد کردن هر یک از لینکهای زیر در مرورگر، فایل مدل به صورت مستقیم و بدون واسطه از فضای ابری دانلود خواهد شد. این لینکها کاملاً مستقیم هستند و نیازی به ثبتنام یا ورود به سایت ندارند.
معرفی و دانلود تعدادی مدل محبوب هوش مصنوعی (فرمت gguf):
- gemma-4-E4B-it.i1-Q5_K_M.gguf
https://abrehamrahi.ir/o/public/19BXbmBo/
- Qwen3-14B-MegaScience.i1-IQ4_XS.gguf
https://abrehamrahi.ir/o/public/Zg6iUswv/
- CohereLabs.tiny-aya-earth.Q5_K_M.gguf
https://abrehamrahi.ir/o/public/VnmQp3lv/
- gemma-4-E4B-it-Q3_K_M.gguf
https://abrehamrahi.ir/o/public/14cHQtxJ/
- Gemma-4-E4B-HauhauCS-Aggressive-Q5_K_M.gguf
https://abrehamrahi.ir/o/public/q2aWpzS0/
- gemma-4-E2B-it-UD-Q4_K_XL.gguf
https://abrehamrahi.ir/o/public/XmpeJvIv/
- gemma-4-E2B-it.mmproj-Q8_0.gguf
https://abrehamrahi.ir/o/public/7ZlbYDtZ/
- gemma-4-E4B-it.mmproj-Q8_0.gguf
https://abrehamrahi.ir/o/public/J2znZz11/
- Ministral-3-3B-Instruct-2512-BF16.i1-Q5_K_M.gguf
https://abrehamrahi.ir/o/public/lLkkzFHw/
- Ministral-3-14B-Instruct-2512-BF16.i1-IQ4_XS.gguf
https://abrehamrahi.ir/o/public/BNoQ4dVr/
- gemma-4-26B-A4B-it-MXFP4.gguf
https://abrehamrahi.ir/o/public/nRMTXR16/
- Qwen3.5-4B.i1-Q5_K_M.gguf
https://abrehamrahi.ir/o/public/9gFLT3o5/
- Qwen3.6-35B-A3B-UD-IQ3_XXS.gguf
https://abrehamrahi.ir/o/public/1bmqp2V1/
- gemma-4-26B-A4B-it-heretic-ara.i1-IQ4_XS
https://abrehamrahi.ir/o/public/wc7kPsqY/
توجه:
- تمامی مدلها و فایلهای اجرایی توسط کانال @learn_win_ai در روبیکا تهیه و آپلود شدهاند.
- کنار تمام نام مدل ها بعد دانلود جهت حفظ کپی رایت نام کانال افزوده شده قبل اجرا پیشنهاد می گردد نام کانال را حذف کنید تا مشکلی از نظر کاراکتر های فارسی در اجرای مدل و یا خواندن مسیر مدل پیش نیاید.
- مدل های بالا را می توانید در نرم افزار LM Studio هم اجرا کنید به ویژه اگر با llama.cpp راحت نیستید.
- همه مدل ها هم غیر زیپ است تا راحت باشید.
- نام heretic یعنی این مدل کمتر درخواست های شما را رد می کند و تا حد زیادی کیفیت را نگه می دارد این مدل برای عزیزان متخصص در برنامه نویسی هسته های سیستم عامل یا شبکه و شیمی ژل شدگی مواد متحرقه کاربرد دارد.
وسط مطلب یک استراحت مروری داده و حدیثی زیبا از امام علی علیه السلام بخوانیم و ادامه بدهیم:
من اعتصم باللّه عزّ مطلبه
هر کس به خداوند تمسک جوید (و پناه برد)، خواسته و هدفش عزت مییابد.
کتاب غرر الحکم (با سرچ در اینترنت با عنوان برنامه غرر الحکم اپ های رایگان زیادی یافته که احادیث کتاب را نشان می دهند تقریبا کتاب 10 هزار حدیث کوتاه از امام علی علیه السلام دارد.)
در ادامه آموزش جامع و مفهومی اجرای llama-server.exe:
برای اجرای مدلهای زبانی هوش مصنوعی به صورت محلی، نیاز به نرمافزار llama.cpp (نسخه باینری آماده) دارید. بسته به سختافزار سیستم خود، یکی از نسخههای زیر را دانلود و استفاده کنید:
- نسخه Vulkan (برای کارت گرافیکهای غیر انویدیا و حتی انویدیا):
https://abrehamrahi.ir/o/public/ycNFHod0/
- نسخه CUDA12 (مخصوص کارتهای انویدیا):
https://abrehamrahi.ir/o/public/LlWfXygs/
- نسخه CUDA13 (جدیدتر برای انویدیا):
https://abrehamrahi.ir/o/public/qZZ7kTxV/
- دانلود cudart12:
https://abrehamrahi.ir/o/public/rjhrxPxL/
- دانلود cudart13:
https://abrehamrahi.ir/o/public/3jLMwlTG/
- نسخه CPU (برای سرورهای با پردازنده چندرشتهای):
https://abrehamrahi.ir/o/public/5EboALHm/
نکته:
اگر از نسخه CUDA استفاده میکنید، باید متناسب با نسخه باینری llama.cpp، یکی از فایلهای cudart را دانلود و سه فایل dll داخل آن را کنار فایل llama-server.exe قرار دهید. اگر قبلاً CUDA Runtime را نصب کردهاید، معمولاً نیازی به این کار نیست.
اجرای llama-server.exe و بارگذاری مدل
پس از استخراج فایلهای دانلود شده، وارد پوشه شوید. روی فضای خالی کلیک راست کرده و گزینه "باز کردن شل اسکریپت" یا "Open in Terminal" را انتخاب کنید. سپس دستور زیر را با توجه به مدل مورد نظر خود اجرا نمایید:
./llama-server.exe --model "آدرس مدل gguf" --host 127.2.2.2 --port 18054 --threads 3 --gpu-layers all --temp 0 --top-k 1 --top-p 0.00001 --min-p 0 --repeat-penalty 1.006 --ctx-size 5000 --kv-offload --no-mmap --flash-attn on
توضیح پارامترها:
- --model : مسیر فایل مدل gguf که دانلود کردهاید.
- --host و --port : تعیین آدرس و پورت سرور محلی برای دسترسی از طریق مرورگر.
- --threads : تعداد رشتههای پردازشی (متناسب با CPU).
- --gpu-layers : تعداد لایههایی که روی GPU اجرا میشوند (برای سرعت بیشتر).
- --temp : دمای نمونهگیری (۰ خروجی قطعی، بالاتر خلاقانهتر).
- --top-k و --top-p و --min-p : کنترل تنوع خروجی مدل.
- --repeat-penalty : جلوگیری از تکرار جملات.
- --ctx-size : اندازه حافظه متنی (context window).
- --kv-offload : انتقال حافظه کلید-مقدار به دیسک برای مدلهای بزرگ.
- --no-mmap : غیرفعال کردن mmap برای برخی سیستمها.
- --flash-attn : فعالسازی بهینهسازی attention برای سرعت بیشتر.
اجرای مدلهای تصویری (mmproj):
برخی مدلها دارای فایل مفسر تصویر با پسوند mmproj هستند. برای استفاده از قابلیت پردازش تصویر، باید پرچم زیر را به دستور خود اضافه کنید:
--mmproj "آدرس فایل mmproj"
مثال:
./llama-server.exe --model "L:\gemma-4-E4B-it.mmproj-Q8_0.gguf" --mmproj "L:\gemma-4-E4B-it.mmproj-Q8_0.gguf" ...
(آدرس فایل mmproj را متناسب با محل ذخیرهسازی خود وارد کنید.)
دسترسی به رابط وب چت:
پس از اجرای موفق دستور، در خروجی ترمینال آدرس سرور (مثلاً 127.2.2.2:18054) نمایش داده میشود. کافی است این آدرس را در مرورگر وارد کنید تا رابط کاربری وب برای چت با مدل هوش مصنوعی به صورت محلی در اختیار شما قرار گیرد.
دست خدا یار و نگهدارتان.