添加gemma4 31b指令

2026-04-04 02:55:26 -04:00
parent 3b65f8536e
commit cd20be9f21
1 changed files with 9 additions and 1 deletions
--- a/llama-cpp.md
+++ b/llama-cpp.md
@@ -1,5 +1,13 @@
-./llama-server --model /home/jimmy/NVME/model/Qwen3.5-35B-A3B-UD-IQ4_XS.gguf --alias "Qwen3.5-35B-A3B" --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 --host 0.0.0.0 --port 11434 --kv-unified --cache-type-k q8_0 --cache-type-v q8_0 --flash-attn on --fit on --ctx-size 262144 --jinja --no-mmap -t 24 -np 4 --ngl 999
+./llama-server --model /home/jimmy/NVME/model/Qwen3.5-35B-A3B-UD-IQ4_XS.gguf --alias "Qwen3.5-35B-A3B" --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 --host 0.0.0.0 --port 11434 --kv-unified --cache-type-k q8_0 --cache-type-v q8_0 --flash-attn on --fit on --ctx-size 262144 --jinja --no-mmap -t 24 -np 4 -ngl 999

 context_size 128K = 131072 

 No thinking: --chat-template-kwargs "{\"enable_thinking\": false}"
+
+
+
+
+## gemma 4
+
+./llama-server --model /home/jimmy/NVME/model/gemma-4-31B-it-UD-Q4_K_XL.gguf --mmproj /home/jimmy/NVME/model/gemma4-31b-mmproj-BF16.gguf --temp 1.0 --top-p 0.95 --top-k 64 --alias "gemma-4-31B" --host 0.0.0.0 --port 11434 --kv-unified --cache-type-k q8_0 --cache-type-v q8_0 --flash-attn on --fit on --ctx-size 100000 --jinja --no-mmap -t 24 -np 4 -ngl 999 --chat-template-kwargs '{"enable_thinking":true}' --n-cpu-moe 5
+