※この記事はClaude Codeで書いています。評価もClaude Codeが実施しています。
※この記事には間違いがありました。自宅RTX 3060でローカルLLMを比べてみたら、エージェントとして使ったら全然違う結果になった話で続編を書いているのでご参照ください。
最近、自宅のLLMサーバーに色々なモデルを詰め込んでいて、「結局どれが一番使えるの?」という疑問が積もってきたので、ちゃんとテストしてみました。
環境は以前書いた通り、Ollama + RTX 3060 (12GB VRAM) の構成です。
テストしたモデル
今回は「agentとして使う」という想定で、以下の5モデルを対象にしました。
| モデル | ベース | サイズ |
|---|---|---|
| coder14b-agent | Qwen2.5-Coder-14B | 9.0GB |
| qwen3-agent | Qwen3:14B | 9.3GB |
| gemma4-e4b-agent | Gemma4 E4B | 9.6GB |
| qwen35-agent | Qwen3.5:9B | 6.6GB |
| mistral-nemo-agent | Mistral Nemo 12B | 7.1GB |
モデルはすべてOllamaのカスタムエイリアスとして登録済みで、コンテキスト長を8192〜16384に制限して運用しています(VRAMが12GBしかないので)。
評価した3つの能力
AIエージェントとして使うことを想定して、以下の3カテゴリで評価しました。
① 指示理解力 複数の条件(出力形式・文字数・テーマ)を同時に守れるか。「全部読んでちゃんとやって」ができるかどうかですね。
② Pythonコーディング力 関数の実装 + unittestの作成をセットで依頼。正しいアルゴリズムを選べるかも見ました。
③ WEBサーチ&要約力 ツール呼び出しの記述と、渡した検索結果を構造化してレポートにまとめる力を評価。エージェントとして一番重要なスキルかもしれません。
結果
| モデル | 指示理解 | コーディング | WEBサーチ | 合計 | 速度 |
|---|---|---|---|---|---|
| coder14b-agent | 3/3 | 4/4 | 4/4 | 11/11 | 35 tok/s |
| gemma4-e4b-agent | 3/3 | 4/4 | 4/4 | 11/11 | 66 tok/s |
| mistral-nemo-agent | 3/3 | 4/4 | 4/4 | 11/11 | 30 tok/s |
| qwen3-agent | 3/3 | 0/4 | 3/4 | 6/11 | 19 tok/s |
| qwen35-agent | 1/3 | 4/4 | 0/4 | 5/11 | 47 tok/s |
各モデルの感想
coder14b-agent(Qwen2.5-Coder-14B)
安定感が抜群です。コーディングテストでは seen = set() を使った素直な実装で、unittestも丁寧に書いてくれました。WEBサーチも手順を分けて記述してくれて、「指示通りに動く」という信頼感があります。
gemma4-e4b-agent(Gemma4 E4B)🏆 今回のMVPです。全項目満点で、しかも66 tok/sと断トツの速さ。コードには型アノテーションまで付いてきて、品質も高い。RTX 3060で66 tok/sは体感でもかなり快適です。これをメインに使います。
mistral-nemo-agent(Mistral Nemo 12B)
dict.fromkeys(items) というPythonicな1行実装を使ってきたのがツボでした 🙂。出力が無駄なく簡潔で、サブタスクをこなすエージェントとして向いている気がします。
qwen3-agent / qwen35-agent
正直、期待を裏切られました。Qwen3系はいわゆる「思考モード(<think>タグ)」を持っていて、num_predictの上限まで思考トークンを消費し切った結果、実際の回答が空っぽになるケースが発生。qwen3-agentはPythonコーディングで0点、qwen35-agentはWEBサーチで0点でした。
思考モードを無効化するオプションを試せばまた変わるかもしれないので、別途チューニングしてみます。
まとめ
| 用途 | おすすめ |
|---|---|
| 普段使いのエージェント | gemma4-e4b-agent(速くて賢い) |
| コーディング特化 | coder14b-agent(丁寧・安定) |
| 軽量サブタスク | mistral-nemo-agent(簡潔) |
| Qwen3系 | 要チューニング |
ローカルLLMは「ランキング上位のモデルが実用でも強いとは限らない」という教訓がありますが、今回はGemma4が思いのほか優秀でした。Googleのモデルを見直しています 笑。
「自宅RTX 3060でローカルLLMを5モデル比べてみた結果が面白かった」への1件のフィードバック