MV: LOCAL AI — The Revolution
まずこれを見てほしい。2分で全部わかる。
<div style='position:relative;max-width:640px;margin:0 auto 32px;'><a href='https://yukihamada.jp/mv/local-ai.html' target='_blank' style='display:block;background:#111;border:1px solid #333;border-radius:12px;padding:20px;text-align:center;text-decoration:none;color:#fff;'><div style='font-size:2rem;margin-bottom:8px;'>▶</div><div style='font-size:1.1rem;font-weight:bold;color:#58a6ff;'>LOCAL AI — The Revolution (MV)</div><div style='font-size:0.8rem;color:#888;margin-top:4px;'>ターミナルで流れるMV。bash setup.sh一発の世界。</div></a></div>
---
きっかけ: Mac M5 (128GB) を手に入れた
Mac Studio M5、ユニファイドメモリ128GB。Qwen3.5-122Bクラスのモデルが丸ごと載る。
クラウドAPIに月何万も払い続けるのがバカらしくなった。自分のマシンで動かせば:
- APIコスト$0 — 電気代だけ
- データが外に出ない — 完全プライバシー
- レイテンシなし — ネットワーク往復ゼロ
まずOllamaを入れた。brew install ollamaしてollama run qwen3。動く。でも——もっと速くしたい。
---
Ollamaでは物足りなかった
Ollamaは素晴らしい。でもApple SiliconのMLXを使えばもっと速くなるはず。
そこで自分でセットアップスクリプトを書いた。MLX-LM(Appleの推論エンジン)を直接使って、Anthropic互換のプロキシを立てる。これでClaude Codeがそのままローカルモデルで動く。
---
作ったもの: bash setup.sh 一発セットアップ
GitHubに公開済み: github.com/yukihamada/local-claude
git clone https://github.com/yukihamada/local-claude.git
cd local-claude
bash setup.sh
これだけ。あとは勝手にやってくれる:
1. RAMを自動検出 → 最適なモデルを選択 2. MLX-LMをインストール → Apple Silicon最適化推論 3. Anthropic互換プロキシを起動 → Claude Code互換API 4. シェルエイリアスを設定 → clmコマンドが使えるようになる
RAMに応じた自動モデル選択
| RAM | メインモデル | 速度 |
|---|---|---|
| 16GB | Qwen3.5-4B | 快適 |
| 24GB | Qwen3.5-9B | 快適 |
| 32GB | Qwen3.5-35B (MoE) | 快適 |
| 64GB | 35B + 9B デュアル | 爆速 |
| 96GB | Qwen3.5-122B (MoE) | 爆速 |
| 128GB | 122B + 35B + Vision | フル装備 |
僕の128GB環境では、メイン122B + 高速用35B + Vision用8Bの3モデルが同時に動く。
---
使い方: clm と打つだけ
セットアップ後の日常:
# 1. サーバー起動(初回だけ)
~/ai.sh start
# 2. Claude Codeをローカルモデルで起動
clm
clm = Claude Local Mode。これだけでClaude Codeのインターフェースがそのまま立ち上がる。ファイル編集、コード生成、ターミナル操作——全部ローカルのLLMが処理する。
裏側の仕組み
clm コマンド
↓
ANTHROPIC_BASE_URL=http://localhost:4001 に切り替え
↓
claude --bare が起動
↓
Anthropic互換プロキシがリクエストを受ける
↓
リクエスト内容に応じてルーティング:
claude-sonnet/opus → Qwen3.5-122B (:5000)
claude-haiku → Qwen3.5-35B (:5001)
画像付きメッセージ → Qwen3-VL-8B (:5002)
↓
MLX-LMがApple Silicon上で推論
↓
Claude Code互換のレスポンスを返す
Claude Codeは「自分がクラウドのClaudeと話してる」と思ってる。実際はローカルのQwen3.5が応答してる。
その他のコマンド
~/ai.sh start # サーバー起動
~/ai.sh stop # サーバー停止
~/ai.sh status # 稼働状況確認
~/ai.sh test # 動作テスト
~/ai.sh restart # 再起動
clm # Claude Code (ローカル)
clc # Claude Code (クラウド) に切り替え
---
MacBookでも動く
Mac Studio専用ではない。MacBook Pro/Air (Apple Silicon) でも動く。16GBのMacBook Airなら4Bモデル、36GBのMacBook Proなら35Bモデルが動く。setup.shがRAMを見て自動で最適なモデルを選ぶ。
(僕はMacBookには入れてないけど笑。M5 Studioが快適すぎて。)
---
正直な感想: Claudeにはまだ及ばない、でも可能性しかない
ローカルモデル(Qwen3.5-122B)は普通に使う分には超賢い。コード生成、ファイル操作、デバッグ——日常的な開発タスクはこなせる。
ただし正直に言うと、Claude Opus/Sonnetには及ばない場面がある:
- 複雑な推論チェーン
- 長いコンテキストの一貫性
- ニュアンスのある日本語
でも改善の余地は大きい:
- プロンプトの最適化 — Claude向けに書かれたシステムプロンプトをローカルモデル向けにチューニングすればもっと良くなる
- モデルの進化 — Qwen3.5は数ヶ月前には存在しなかった。半年後にはさらに賢いモデルが出る
- ファインチューニング — 自分の用途に特化させれば特定タスクではClaudeを超えられる
可能性しか感じてない。
---
まとめ
| クラウドClaude | Ollama | clm (自作) | |
|---|---|---|---|
| セットアップ | 不要 | brew install | bash setup.sh |
| コスト | 月額$20〜$200 | 無料 | 無料 |
| プライバシー | データ送信 | ローカル | ローカル |
| 推論エンジン | Anthropic | llama.cpp | MLX (Apple最適化) |
| Claude Code互換 | ネイティブ | ✕ | ✓ (clm一発) |
| 賢さ | ★★★★★ | ★★★☆☆ | ★★★★☆ |
# 今すぐ試す
git clone https://github.com/yukihamada/local-claude.git
cd local-claude && bash setup.sh
~/ai.sh start
clm
俺が使うものは、俺が作る。