上一篇挑戰相關議題的文章是3月份寫的這一篇
那時的情況是,小參數21B以下就是不行
中等參數30B以上的,家裡最強電腦上慢得像龜一樣
跑的太勉強(5~7 tokens/秒),也是跟沒用差不多
沒想到技術發展之快,5月初得知MOE有特殊用法時[1]
Claude Code搭配MOE模型就來到能用的範圍了
目前這篇寫的大部分設定都是那時候搞定的
不過對於我工作用的電腦沒屁用
因為MOE技術要卸載無法上VRAM的模型到一般記憶體中
只有16GB RAM的工作電腦辦不到這件事
家裡那台可以,但沒必要
在家跑Claude Code時,除了個人隱私外,都是沒機密性的東西
乾脆用Claude code直接連Opus或是Sonnet還比較好用
加上5月忙到6月中,就沒有更進一步寫成blog留存了
直到最近工作暫告一段落,又想回頭來測試這一塊
測了一下4月底發表,最近官方自己壓縮的Gemma4-E4B QAT模型發現算是可以跑了
讓我一開始開心了一下,也開啟這篇文章的撰寫
只是嚴格說來這算假象,小參數模型進步算非常大,但工具調用仍然不穩定
即便克服了工具問題了,以產出程式碼品質來說,它的下限仍然不到及格線
要稱得上穩定可用,還是得更多參數的Gemma4-12B這種等級
可是工作用電腦其實跑不太動
有再降階換Qwen3.5-9B測試,不過程式碼產出的表現依然不穩定
測到這裡,因為沒達成預期目標,本來想把這篇給廢了
後來想想寫都寫了,其實上一篇也是失敗的記錄
而之前也確實沒記錄Claude Code怎麼搭配llama.cpp(llama-server)
就還是把資料整理整理,重改一下文章內容後推出
以下就是記錄與說明這次測試的狀況