NormalCommands/llama-cpp.md at main

Files

jimmychen b2e3a1436e 添加Qwen3-Coder-Next启动指令

2026-04-19 03:22:06 -04:00

2.0 KiB

Raw Permalink Blame History

Qwen3.5 35B A3B

./llama-server --model /home/jimmy/NVME/model/Qwen3.5-35B-A3B-UD-IQ4_XS.gguf --alias "Qwen3.5-35B-A3B" --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 --host 0.0.0.0 --port 11434 --kv-unified --cache-type-k q8_0 --cache-type-v q8_0 --flash-attn on --fit on --ctx-size 262144 --jinja --no-mmap -t 24 -np 4 -ngl 999

context_size 128K = 131072

No thinking: --chat-template-kwargs "{"enable_thinking": false}"

Qwen3.6 35B A3B

./llama-server --model /home/jimmy/NVME/model/Qwen3.6-35B-A3B-UD-IQ4_NL.gguf --alias "Qwen3.6-35B-A3B" --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 --host 0.0.0.0 --port 11434 --kv-unified --cache-type-k q8_0 --cache-type-v q8_0 --flash-attn on --fit on --ctx-size 262144 --jinja --no-mmap -t 24 -np 4 -ngl 999

Qwen3-Coder-Next

./llama-server --model /home/jimmy/NVME/model/Qwen3-Coder-Next-UD-IQ4_XS.gguf --alias "Qwen3-Coder-Next" --seed 3407 --temp 1.0 --top-p 0.95 --min-p 0.01 --top-k 40 --host 0.0.0.0 --port 11434 --kv-unified --cache-type-k q8_0 --cache-type-v q8_0 --flash-attn on --fit on --ctx-size 262144 --jinja -t 24 -np 4 -ngl 999 --n-cpu-moe 24

Qwen3.5 27B

./llama-server --model /home/jimmy/NVME/model/Qwopus3.5-27B-v3-Q4_K_S.gguf --alias "Qwen3.5-35B-A3B" --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 --host 0.0.0.0 --port 11434 --kv-unified --cache-type-k q8_0 --cache-type-v q8_0 --flash-attn on --fit on --ctx-size 262144 --jinja --no-mmap -t 24 -np 4 -ngl 999

gemma 4

./llama-server --model /home/jimmy/NVME/model/gemma-4-31B-it-UD-Q4_K_XL.gguf --mmproj /home/jimmy/NVME/model/gemma4-31b-mmproj-BF16.gguf --temp 1.0 --top-p 0.95 --top-k 64 --alias "gemma-4-31B" --host 0.0.0.0 --port 11434 --kv-unified --cache-type-k q8_0 --cache-type-v q8_0 --flash-attn on --fit on --ctx-size 100000 --jinja --no-mmap -t 24 -np 4 -ngl 999 --chat-template-kwargs '{"enable_thinking":true}' --n-cpu-moe 5

deepseek-rs

./deepwiki-rs -p ./src --llm-api-base-url http://192.168.2.105:11434 --model-efficient Qwen3.5-35B-A3B --target-language zh --max-parallels 4 --max-tokens 262144 --force-regenerate

2.0 KiB Raw Permalink Blame History