Mac M5 (128GB) でローカルLLMを爆速にした話 — clm一発でClaude Codeがローカルで動く

MV: LOCAL AI — The Revolution

まずこれを見てほしい。2分で全部わかる。

<div style='position:relative;max-width:640px;margin:0 auto 32px;'><a href='https://yukihamada.jp/mv/local-ai.html' target='_blank' style='display:block;background:#111;border:1px solid #333;border-radius:12px;padding:20px;text-align:center;text-decoration:none;color:#fff;'><div style='font-size:2rem;margin-bottom:8px;'>▶</div><div style='font-size:1.1rem;font-weight:bold;color:#58a6ff;'>LOCAL AI — The Revolution (MV)</div><div style='font-size:0.8rem;color:#888;margin-top:4px;'>ターミナルで流れるMV。bash setup.sh一発の世界。</div></a></div>

---

きっかけ: Mac M5 (128GB) を手に入れた

Mac Studio M5、ユニファイドメモリ128GB。Qwen3.5-122Bクラスのモデルが丸ごと載る。

クラウドAPIに月何万も払い続けるのがバカらしくなった。自分のマシンで動かせば：

APIコスト$0 — 電気代だけ
データが外に出ない — 完全プライバシー
レイテンシなし — ネットワーク往復ゼロ

まずOllamaを入れた。brew install ollamaしてollama run qwen3。動く。でも——もっと速くしたい。

---

Ollamaでは物足りなかった

Ollamaは素晴らしい。でもApple SiliconのMLXを使えばもっと速くなるはず。

そこで自分でセットアップスクリプトを書いた。MLX-LM（Appleの推論エンジン）を直接使って、Anthropic互換のプロキシを立てる。これでClaude Codeがそのままローカルモデルで動く。

---

作ったもの: `bash setup.sh` 一発セットアップ

GitHubに公開済み: github.com/yukihamada/local-claude

git clone https://github.com/yukihamada/local-claude.git
cd local-claude
bash setup.sh

これだけ。あとは勝手にやってくれる：

1. RAMを自動検出 → 最適なモデルを選択 2. MLX-LMをインストール → Apple Silicon最適化推論 3. Anthropic互換プロキシを起動 → Claude Code互換API 4. シェルエイリアスを設定 → clmコマンドが使えるようになる

RAMに応じた自動モデル選択

RAM	メインモデル	速度
16GB	Qwen3.5-4B	快適
24GB	Qwen3.5-9B	快適
32GB	Qwen3.5-35B (MoE)	快適
64GB	35B + 9B デュアル	爆速
96GB	Qwen3.5-122B (MoE)	爆速
128GB	122B + 35B + Vision	フル装備

僕の128GB環境では、メイン122B + 高速用35B + Vision用8Bの3モデルが同時に動く。

---

使い方: `clm` と打つだけ

セットアップ後の日常：

# 1. サーバー起動（初回だけ）
~/ai.sh start

# 2. Claude Codeをローカルモデルで起動
clm

clm = Claude Local Mode。これだけでClaude Codeのインターフェースがそのまま立ち上がる。ファイル編集、コード生成、ターミナル操作——全部ローカルのLLMが処理する。

裏側の仕組み

clm コマンド
  ↓
ANTHROPIC_BASE_URL=http://localhost:4001 に切り替え
  ↓
claude --bare が起動
  ↓
Anthropic互換プロキシがリクエストを受ける
  ↓
リクエスト内容に応じてルーティング:
  claude-sonnet/opus → Qwen3.5-122B (:5000)
  claude-haiku       → Qwen3.5-35B  (:5001)
  画像付きメッセージ  → Qwen3-VL-8B  (:5002)
  ↓
MLX-LMがApple Silicon上で推論
  ↓
Claude Code互換のレスポンスを返す

Claude Codeは「自分がクラウドのClaudeと話してる」と思ってる。実際はローカルのQwen3.5が応答してる。

その他のコマンド

~/ai.sh start    # サーバー起動
~/ai.sh stop     # サーバー停止
~/ai.sh status   # 稼働状況確認
~/ai.sh test     # 動作テスト
~/ai.sh restart  # 再起動

clm              # Claude Code (ローカル)
clc              # Claude Code (クラウド) に切り替え

---

MacBookでも動く

Mac Studio専用ではない。MacBook Pro/Air (Apple Silicon) でも動く。16GBのMacBook Airなら4Bモデル、36GBのMacBook Proなら35Bモデルが動く。setup.shがRAMを見て自動で最適なモデルを選ぶ。

（僕はMacBookには入れてないけど笑。M5 Studioが快適すぎて。）

---

正直な感想: Claudeにはまだ及ばない、でも可能性しかない

ローカルモデル（Qwen3.5-122B）は普通に使う分には超賢い。コード生成、ファイル操作、デバッグ——日常的な開発タスクはこなせる。

ただし正直に言うと、Claude Opus/Sonnetには及ばない場面がある：

複雑な推論チェーン
長いコンテキストの一貫性
ニュアンスのある日本語

でも改善の余地は大きい：

プロンプトの最適化 — Claude向けに書かれたシステムプロンプトをローカルモデル向けにチューニングすればもっと良くなる
モデルの進化 — Qwen3.5は数ヶ月前には存在しなかった。半年後にはさらに賢いモデルが出る
ファインチューニング — 自分の用途に特化させれば特定タスクではClaudeを超えられる

可能性しか感じてない。

---

まとめ

	クラウドClaude	Ollama	clm (自作)
セットアップ	不要	`brew install`	`bash setup.sh`
コスト	月額$20〜$200	無料	無料
プライバシー	データ送信	ローカル	ローカル
推論エンジン	Anthropic	llama.cpp	MLX (Apple最適化)
Claude Code互換	ネイティブ	✕	✓ (`clm`一発)
賢さ	★★★★★	★★★☆☆	★★★★☆

# 今すぐ試す
git clone https://github.com/yukihamada/local-claude.git
cd local-claude && bash setup.sh
~/ai.sh start
clm

俺が使うものは、俺が作る。

ソースコード: github.com/yukihamada/local-claude