黑龍的單車與ACG誌: 6月 2026

2026年6月29日星期一

Claude code搭配llama.cpp跑本地模型

發文者： DarkDragon

上一篇挑戰相關議題的文章是3月份寫的這一篇
那時的情況是，小參數21B以下就是不行
中等參數30B以上的，家裡最強電腦上慢得像龜一樣
跑的太勉強(5~7 tokens/秒)，也是跟沒用差不多
沒想到技術發展之快，5月初得知MOE有特殊用法時[1]
Claude Code搭配MOE模型就來到能用的範圍了
目前這篇寫的大部分設定都是那時候搞定的
不過對於我工作用的電腦沒屁用
因為MOE技術要卸載無法上VRAM的模型到一般記憶體中
只有16GB RAM的工作電腦辦不到這件事
家裡那台可以，但沒必要
在家跑Claude Code時，除了個人隱私外，都是沒機密性的東西
乾脆用Claude code直接連Opus或是Sonnet還比較好用
加上5月忙到6月中，就沒有更進一步寫成blog留存了

直到最近工作暫告一段落，又想回頭來測試這一塊
測了一下4月底發表，最近官方自己壓縮的Gemma4-E4B QAT模型發現算是可以跑了
讓我一開始開心了一下，也開啟這篇文章的撰寫
只是嚴格說來這算假象，小參數模型進步算非常大，但工具調用仍然不穩定
即便克服了工具問題了，以產出程式碼品質來說，它的下限仍然不到及格線
測到這裡，因為沒達成預期用Gemma4-E4B跑的目標，本來想把這篇給廢了
後來想想寫都寫了，其實上一篇也是失敗的記錄，還是繼續測下去
繼續測試後，要稱得上穩定可用，還是得更多參數的Gemma4-12B這種等級
可是工作用電腦其實跑不太動
有再降階換Qwen3.5-9B測試，不過程式碼產出的表現依然不穩定
看來就這樣了
就把資料整理整理，重改一下文章內容後推出
而之前也確實沒記錄Claude Code怎麼搭配llama.cpp(llama-server)
也趁這篇寫一下記錄
以下就是詳細的失敗記錄與Claude Code如何搭配llama-server的設定說明

黑龍的單車與ACG誌

2026年6月29日星期一

Claude code搭配llama.cpp跑本地模型

精選集

空間移動

2026年6月29日 星期一

Claude code搭配llama.cpp跑本地模型

2026年6月29日星期一