はじめに
LLMの運用環境構築と運用において、いくつかの試行錯誤を経て現在の構成に落ち着きました。その変遷をまとめます。
1. ローカルLLM時代(RTX 3060 12GB)
最初はコストの観点から、ローカル環境での運用を試みました。
- 環境: NVIDIA RTX 3060 (VRAM 12GB)
- 課題: 12GBというVRAM容量の制限から、ロードできるモデルのサイズに限界がありました。結果として、「知能(賢さ)」と「推論スピード」のどちらを優先しても満足いくレベルに達せず、複雑なタスクを完結させるには力不足を感じました。
2. OpenRouter 移行期
次に、多様なモデルをAPI経由で利用できるOpenRouterをメインに据えました。
- メリット: 最新の高性能モデルを即座に切り替えて利用でき、知能レベルは飛躍的に向上しました。
- 課題: 運用量が増えるにつれ、APIコストが無視できない金額になってきました。特にHERMESのようなエージェント的な使い方(多回数のツール利用や長いコンテキストのやり取り)をすると、コストの消費速度が速いのがネックでした。
3. 現在:NVIDIA Build API の活用
現在は、NVIDIAの無償枠(NVIDIA Build API)をメインに稼働させています。
- ここが素晴らしい: 毎分リミット(約40 RPM / Requests Per Minute)がリセットされる仕組みのため、HERMESのような自律型エージェントとしての運用において、実質的に無料で高性能なモデルを使い続けることができます。コストを気にせず、思考プロセスを回せるため、運用効率が劇的に改善しました。もっと大きなモデルも無償で使えるのですが、やはり人気があり一時的に制限が掛ること多かったので、gemma-4-31b-itを使っています。2週間ほど使っていますが、Qwen3.6-35b-a3bと同等な推論力でこっちの方が色々と素直(Qwenはなんでそうなる?的なことが結構あった。思想の違い?)な印象でした。フォールバック先としては、OpenRouterとollamaを指定しています。2週間使ってますが、フォールバックしたことないですね。
現在のLLM設定(config.yamlより)
知能とコストのバランスを最適化するため、以下の優先順位でフェイルオーバーするように設定しています。
優先順位: NVIDIA (Primary) $\rightarrow$ OpenRouter (Fallback 1) $\rightarrow$ Ollama (Fallback 2)
# メインモデル設定
model:
default: google/gemma-4-31b-it
provider: nvidia
# フェイルバック設定
fallback_providers:
- model: google/gemma-4-31b-it:free
provider: openrouter
- model: qwen3-8b-agent:latest
provider: ollama-launch
ここ1か月の利用状況です。 gemma-4-31b-it にする前に、短期間、 qwen3-next-80b-a3b-instructを使っていましたが、日本語で書けと言ってるのに無視して英語で書いてくるのが嫌になって乗り換えました(笑)
$ hermes insights
╔══════════════════════════════════════════════════════════╗
║ 📊 Hermes Insights ║
║ Last 30 days ║
╚══════════════════════════════════════════════════════════╝
Period: Jun 12, 2026 — Jun 19, 2026
📋 Overview
────────────────────────────────────────────────────────
Sessions: 102 Messages: 3,002
Tool calls: 1,317 User messages: 219
Input tokens: 48,455,313 Output tokens: 276,229
Total tokens: 50,096,764
Active time: ~28.8d Avg session: ~8h 19m
Avg msgs/session: 29.4
🤖 Models Used
────────────────────────────────────────────────────────
Model Sessions Tokens
qwen3-next-80b-a3b-instruct 44 36,590,024
gemma-4-31b-it 58 13,506,740
📱 Platforms
────────────────────────────────────────────────────────
Platform Sessions Messages Tokens
discord 53 2,017 34,742,567
cron 49 985 15,354,197
🔧 Top Tools
────────────────────────────────────────────────────────
Tool Calls %
terminal 430 32.6%
read_file 348 26.4%
browser_navigate 143 10.9%
write_file 66 5.0%
search_files 59 4.5%
patch 42 3.2%
skill_view 34 2.6%
browser_console 33 2.5%
execute_code 26 2.0%
browser_snapshot 16 1.2%
session_search 16 1.2%
cronjob 15 1.1%
memory 15 1.1%
browser_type 14 1.1%
todo 13 1.0%
... and 15 more tools
🧠 Top Skills
────────────────────────────────────────────────────────
Skill Loads Edits Last used
fx-bot-development-cycle 17 3 Jun 19
llm-wiki 7 0 Jun 19
vibe-trading 2 0 Jun 16
daytrade-bot-automation-setu 2 0 Jun 14
fx-bot-development-developme 1 0 Jun 19
hermes-agent 1 0 Jun 18
arxiv 1 0 Jun 14
blogwatcher 1 0 Jun 14
google-workspace 1 0 Jun 14
xread-free 1 0 Jun 14
Distinct skills: 10 Loads: 34 Edits: 3
📅 Activity Patterns
────────────────────────────────────────────────────────
Mon ██████ 12
Tue ████ 8
Wed ████ 8
Thu █████████ 16
Fri ███████████████ 26
Sat ███████████ 20
Sun ██████ 12
Peak hours: 4PM (17), 6AM (13), 7AM (12), 8AM (12), 9AM (10)
Active days: 8
Best streak: 8 consecutive days
🏆 Notable Sessions
────────────────────────────────────────────────────────
Longest session 4.3d (Jun 13, 20260613_162936_)
Most messages 226 msgs (Jun 12, 20260612_135409_)
Most tokens 3,265,770 tokens (Jun 12, 20260612_110119_)
Most tool calls 106 calls (Jun 12, 20260612_135409_)
この構成により、まずはNVIDIAの高性能な無料枠を最大限に活用し、リミットに達した場合はOpenRouterの無料モデル、最終的にはローカルのOllamaへと切り替わるため、システムが完全に停止することなく稼働し続けることができます。これが無料ってすごくないですか?さすが大儲けしてるNVIDIAさんですね(笑)