خواندن ۳ دقیقه·۱ ماه پیش

لینک داخلی مدل هوش مصنوعی gguf همراه آموزش

بسم الله الرحمن الرحیم

به همراه آموزش کاربردی اجرای llama-server.exe و معرفی تعدادی مدل‌ محبوب

توجه: بلافاصله پس از وارد کردن هر یک از لینک‌های زیر در مرورگر، فایل مدل به صورت مستقیم و بدون واسطه از فضای ابری دانلود خواهد شد. این لینک‌ها کاملاً مستقیم هستند و نیازی به ثبت‌نام یا ورود به سایت ندارند.

معرفی و دانلود تعدادی مدل‌ محبوب هوش مصنوعی (فرمت gguf):

- gemma-4-E4B-it.i1-Q5_K_M.gguf

https://abrehamrahi.ir/o/public/19BXbmBo/

- Qwen3-14B-MegaScience.i1-IQ4_XS.gguf

https://abrehamrahi.ir/o/public/Zg6iUswv/

- CohereLabs.tiny-aya-earth.Q5_K_M.gguf

https://abrehamrahi.ir/o/public/VnmQp3lv/

- gemma-4-E4B-it-Q3_K_M.gguf

https://abrehamrahi.ir/o/public/14cHQtxJ/

- Gemma-4-E4B-HauhauCS-Aggressive-Q5_K_M.gguf

https://abrehamrahi.ir/o/public/q2aWpzS0/

- gemma-4-E2B-it-UD-Q4_K_XL.gguf

https://abrehamrahi.ir/o/public/XmpeJvIv/

- gemma-4-E2B-it.mmproj-Q8_0.gguf

https://abrehamrahi.ir/o/public/7ZlbYDtZ/

- gemma-4-E4B-it.mmproj-Q8_0.gguf

https://abrehamrahi.ir/o/public/J2znZz11/

- Ministral-3-3B-Instruct-2512-BF16.i1-Q5_K_M.gguf

https://abrehamrahi.ir/o/public/lLkkzFHw/

- Ministral-3-14B-Instruct-2512-BF16.i1-IQ4_XS.gguf

https://abrehamrahi.ir/o/public/BNoQ4dVr/

- gemma-4-26B-A4B-it-MXFP4.gguf

https://abrehamrahi.ir/o/public/nRMTXR16/

- Qwen3.5-4B.i1-Q5_K_M.gguf

https://abrehamrahi.ir/o/public/9gFLT3o5/

- Qwen3.6-35B-A3B-UD-IQ3_XXS.gguf

https://abrehamrahi.ir/o/public/1bmqp2V1/

- gemma-4-26B-A4B-it-heretic-ara.i1-IQ4_XS
https://abrehamrahi.ir/o/public/wc7kPsqY/

توجه:

- تمامی مدل‌ها و فایل‌های اجرایی توسط کانال @learn_win_ai در روبیکا تهیه و آپلود شده‌اند.

- کنار تمام نام مدل ها بعد دانلود جهت حفظ کپی رایت نام کانال افزوده شده قبل اجرا پیشنهاد می گردد نام کانال را حذف کنید تا مشکلی از نظر کاراکتر های فارسی در اجرای مدل و یا خواندن مسیر مدل پیش نیاید.

- مدل های بالا را می توانید در نرم افزار LM Studio هم اجرا کنید به ویژه اگر با llama.cpp راحت نیستید.

- همه مدل ها هم غیر زیپ است تا راحت باشید.

- نام heretic یعنی این مدل کمتر درخواست های شما را رد می کند و تا حد زیادی کیفیت را نگه می دارد این مدل برای عزیزان متخصص در برنامه نویسی هسته های سیستم عامل یا شبکه و شیمی ژل شدگی مواد متحرقه کاربرد دارد.

وسط مطلب یک استراحت مروری داده و حدیثی زیبا از امام علی علیه السلام بخوانیم و ادامه بدهیم:
من اعتصم باللّه عزّ مطلبه
هر کس به خداوند تمسک جوید (و پناه برد)، خواسته و هدفش عزت می‌یابد.
کتاب غرر الحکم (با سرچ در اینترنت با عنوان برنامه غرر الحکم اپ های رایگان زیادی یافته که احادیث کتاب را نشان می دهند تقریبا کتاب 10 هزار حدیث کوتاه از امام علی علیه السلام دارد.)

در ادامه آموزش جامع و مفهومی اجرای llama-server.exe:

برای اجرای مدل‌های زبانی هوش مصنوعی به صورت محلی، نیاز به نرم‌افزار llama.cpp (نسخه باینری آماده) دارید. بسته به سخت‌افزار سیستم خود، یکی از نسخه‌های زیر را دانلود و استفاده کنید:

- نسخه Vulkan (برای کارت گرافیک‌های غیر انویدیا و حتی انویدیا):

https://abrehamrahi.ir/o/public/ycNFHod0/

- نسخه CUDA12 (مخصوص کارت‌های انویدیا):

https://abrehamrahi.ir/o/public/LlWfXygs/

- نسخه CUDA13 (جدیدتر برای انویدیا):

https://abrehamrahi.ir/o/public/qZZ7kTxV/

- دانلود cudart12:

https://abrehamrahi.ir/o/public/rjhrxPxL/

- دانلود cudart13:

https://abrehamrahi.ir/o/public/3jLMwlTG/

- نسخه CPU (برای سرورهای با پردازنده چندرشته‌ای):

https://abrehamrahi.ir/o/public/5EboALHm/

نکته:

اگر از نسخه CUDA استفاده می‌کنید، باید متناسب با نسخه باینری llama.cpp، یکی از فایل‌های cudart را دانلود و سه فایل dll داخل آن را کنار فایل llama-server.exe قرار دهید. اگر قبلاً CUDA Runtime را نصب کرده‌اید، معمولاً نیازی به این کار نیست.

اجرای llama-server.exe و بارگذاری مدل

پس از استخراج فایل‌های دانلود شده، وارد پوشه شوید. روی فضای خالی کلیک راست کرده و گزینه "باز کردن شل اسکریپت" یا "Open in Terminal" را انتخاب کنید. سپس دستور زیر را با توجه به مدل مورد نظر خود اجرا نمایید:

./llama-server.exe --model "آدرس مدل gguf" --host 127.2.2.2 --port 18054 --threads 3 --gpu-layers all --temp 0 --top-k 1 --top-p 0.00001 --min-p 0 --repeat-penalty 1.006 --ctx-size 5000 --kv-offload --no-mmap --flash-attn on

توضیح پارامترها:

- --model : مسیر فایل مدل gguf که دانلود کرده‌اید.

- --host و --port : تعیین آدرس و پورت سرور محلی برای دسترسی از طریق مرورگر.

- --threads : تعداد رشته‌های پردازشی (متناسب با CPU).

- --gpu-layers : تعداد لایه‌هایی که روی GPU اجرا می‌شوند (برای سرعت بیشتر).

- --temp : دمای نمونه‌گیری (۰ خروجی قطعی، بالاتر خلاقانه‌تر).

- --top-k و --top-p و --min-p : کنترل تنوع خروجی مدل.

- --repeat-penalty : جلوگیری از تکرار جملات.

- --ctx-size : اندازه حافظه متنی (context window).

- --kv-offload : انتقال حافظه کلید-مقدار به دیسک برای مدل‌های بزرگ.

- --no-mmap : غیرفعال کردن mmap برای برخی سیستم‌ها.

- --flash-attn : فعال‌سازی بهینه‌سازی attention برای سرعت بیشتر.

اجرای مدل‌های تصویری (mmproj):

برخی مدل‌ها دارای فایل مفسر تصویر با پسوند mmproj هستند. برای استفاده از قابلیت پردازش تصویر، باید پرچم زیر را به دستور خود اضافه کنید:

--mmproj "آدرس فایل mmproj"

مثال:

./llama-server.exe --model "L:\gemma-4-E4B-it.mmproj-Q8_0.gguf" --mmproj "L:\gemma-4-E4B-it.mmproj-Q8_0.gguf" ...

(آدرس فایل mmproj را متناسب با محل ذخیره‌سازی خود وارد کنید.)

دسترسی به رابط وب چت:

پس از اجرای موفق دستور، در خروجی ترمینال آدرس سرور (مثلاً 127.2.2.2:18054) نمایش داده می‌شود. کافی است این آدرس را در مرورگر وارد کنید تا رابط کاربری وب برای چت با مدل هوش مصنوعی به صورت محلی در اختیار شما قرار گیرد.

دست خدا یار و نگهدارتان.

هوش مصنوعی

حرکتی در یک راه

خرد هر کجا گنجی آرد پدید / به نام خدا سازد آن را کلید

شاید از این پست‌ها خوشتان بیاید

حرکتی در یک راه

خواندن ۳ دقیقه·۱ ماه پیش

لینک داخلی مدل هوش مصنوعی gguf همراه آموزش

بسم الله الرحمن الرحیم

لینک داخلی مدل هوش مصنوعی gguf همراه آموزش

به همراه آموزش کاربردی اجرای llama-server.exe و معرفی تعدادی مدل‌ محبوب

معرفی و دانلود تعدادی مدل‌ محبوب هوش مصنوعی (فرمت gguf):

- gemma-4-E4B-it.i1-Q5_K_M.gguf

https://abrehamrahi.ir/o/public/19BXbmBo/

- Qwen3-14B-MegaScience.i1-IQ4_XS.gguf

https://abrehamrahi.ir/o/public/Zg6iUswv/

- CohereLabs.tiny-aya-earth.Q5_K_M.gguf

https://abrehamrahi.ir/o/public/VnmQp3lv/

- gemma-4-E4B-it-Q3_K_M.gguf

https://abrehamrahi.ir/o/public/14cHQtxJ/

- Gemma-4-E4B-HauhauCS-Aggressive-Q5_K_M.gguf

https://abrehamrahi.ir/o/public/q2aWpzS0/

- gemma-4-E2B-it-UD-Q4_K_XL.gguf

https://abrehamrahi.ir/o/public/XmpeJvIv/

- gemma-4-E2B-it.mmproj-Q8_0.gguf

https://abrehamrahi.ir/o/public/7ZlbYDtZ/

- gemma-4-E4B-it.mmproj-Q8_0.gguf

https://abrehamrahi.ir/o/public/J2znZz11/

- Ministral-3-3B-Instruct-2512-BF16.i1-Q5_K_M.gguf

https://abrehamrahi.ir/o/public/lLkkzFHw/

- Ministral-3-14B-Instruct-2512-BF16.i1-IQ4_XS.gguf

https://abrehamrahi.ir/o/public/BNoQ4dVr/

- gemma-4-26B-A4B-it-MXFP4.gguf

https://abrehamrahi.ir/o/public/nRMTXR16/

- Qwen3.5-4B.i1-Q5_K_M.gguf

https://abrehamrahi.ir/o/public/9gFLT3o5/

- Qwen3.6-35B-A3B-UD-IQ3_XXS.gguf

https://abrehamrahi.ir/o/public/1bmqp2V1/

- gemma-4-26B-A4B-it-heretic-ara.i1-IQ4_XS
https://abrehamrahi.ir/o/public/wc7kPsqY/

توجه:

- تمامی مدل‌ها و فایل‌های اجرایی توسط کانال @learn_win_ai در روبیکا تهیه و آپلود شده‌اند.

- مدل های بالا را می توانید در نرم افزار LM Studio هم اجرا کنید به ویژه اگر با llama.cpp راحت نیستید.

- همه مدل ها هم غیر زیپ است تا راحت باشید.

در ادامه آموزش جامع و مفهومی اجرای llama-server.exe:

- نسخه Vulkan (برای کارت گرافیک‌های غیر انویدیا و حتی انویدیا):

https://abrehamrahi.ir/o/public/ycNFHod0/

- نسخه CUDA12 (مخصوص کارت‌های انویدیا):

https://abrehamrahi.ir/o/public/LlWfXygs/

- نسخه CUDA13 (جدیدتر برای انویدیا):

https://abrehamrahi.ir/o/public/qZZ7kTxV/

- دانلود cudart12:

https://abrehamrahi.ir/o/public/rjhrxPxL/

- دانلود cudart13:

https://abrehamrahi.ir/o/public/3jLMwlTG/

- نسخه CPU (برای سرورهای با پردازنده چندرشته‌ای):

https://abrehamrahi.ir/o/public/5EboALHm/

نکته:

اجرای llama-server.exe و بارگذاری مدل

توضیح پارامترها:

- --model : مسیر فایل مدل gguf که دانلود کرده‌اید.

- --host و --port : تعیین آدرس و پورت سرور محلی برای دسترسی از طریق مرورگر.

- --threads : تعداد رشته‌های پردازشی (متناسب با CPU).

- --gpu-layers : تعداد لایه‌هایی که روی GPU اجرا می‌شوند (برای سرعت بیشتر).

- --temp : دمای نمونه‌گیری (۰ خروجی قطعی، بالاتر خلاقانه‌تر).

- --top-k و --top-p و --min-p : کنترل تنوع خروجی مدل.

- --repeat-penalty : جلوگیری از تکرار جملات.

- --ctx-size : اندازه حافظه متنی (context window).

- --kv-offload : انتقال حافظه کلید-مقدار به دیسک برای مدل‌های بزرگ.

- --no-mmap : غیرفعال کردن mmap برای برخی سیستم‌ها.

- --flash-attn : فعال‌سازی بهینه‌سازی attention برای سرعت بیشتر.

اجرای مدل‌های تصویری (mmproj):

--mmproj "آدرس فایل mmproj"

مثال:

./llama-server.exe --model "L:\gemma-4-E4B-it.mmproj-Q8_0.gguf" --mmproj "L:\gemma-4-E4B-it.mmproj-Q8_0.gguf" ...

(آدرس فایل mmproj را متناسب با محل ذخیره‌سازی خود وارد کنید.)

دسترسی به رابط وب چت:

دست خدا یار و نگهدارتان.

هوش مصنوعی

حرکتی در یک راه

خرد هر کجا گنجی آرد پدید / به نام خدا سازد آن را کلید

شاید از این پست‌ها خوشتان بیاید