Engineering

Mac M5 (128GB) でローカルLLMを爆速にした話 — clm一発でClaude Codeがローカルで動く

Mac Studio M5に128GBメモリ。Ollamaを入れたけどもっと速くしたい。自作セットアップで爆速になった。clmと打つだけでClaude Codeがローカルモデルで動く世界。作り方と使い方を全部書く。

#local-ai #llm #apple-silicon #mlx #llama-cpp #elio #mac #ollama #gguf #inference

MV: LOCAL AI — The Revolution

まずこれを見てほしい。2分で全部わかる。

<div style='position:relative;max-width:640px;margin:0 auto 32px;'><a href='https://yukihamada.jp/mv/local-ai.html' target='_blank' style='display:block;background:#111;border:1px solid #333;border-radius:12px;padding:20px;text-align:center;text-decoration:none;color:#fff;'><div style='font-size:2rem;margin-bottom:8px;'>▶</div><div style='font-size:1.1rem;font-weight:bold;color:#58a6ff;'>LOCAL AI — The Revolution (MV)</div><div style='font-size:0.8rem;color:#888;margin-top:4px;'>ターミナルで流れるMV。bash setup.sh一発の世界。</div></a></div>

---

きっかけ: Mac M5 (128GB) を手に入れた

Mac Studio M5、ユニファイドメモリ128GB。Qwen3.5-122Bクラスのモデルが丸ごと載る。

クラウドAPIに月何万も払い続けるのがバカらしくなった。自分のマシンで動かせば:

  • APIコスト$0 — 電気代だけ
  • データが外に出ない — 完全プライバシー
  • レイテンシなし — ネットワーク往復ゼロ

まずOllamaを入れた。brew install ollamaしてollama run qwen3。動く。でも——もっと速くしたい。

---

Ollamaでは物足りなかった

Ollamaは素晴らしい。でもApple SiliconのMLXを使えばもっと速くなるはず。

そこで自分でセットアップスクリプトを書いた。MLX-LM(Appleの推論エンジン)を直接使って、Anthropic互換のプロキシを立てる。これでClaude Codeがそのままローカルモデルで動く。

---

作ったもの: bash setup.sh 一発セットアップ

GitHubに公開済み: github.com/yukihamada/local-claude

git clone https://github.com/yukihamada/local-claude.git
cd local-claude
bash setup.sh

これだけ。あとは勝手にやってくれる:

1. RAMを自動検出 → 最適なモデルを選択 2. MLX-LMをインストール → Apple Silicon最適化推論 3. Anthropic互換プロキシを起動 → Claude Code互換API 4. シェルエイリアスを設定clmコマンドが使えるようになる

RAMに応じた自動モデル選択

RAMメインモデル速度
16GBQwen3.5-4B快適
24GBQwen3.5-9B快適
32GBQwen3.5-35B (MoE)快適
64GB35B + 9B デュアル爆速
96GBQwen3.5-122B (MoE)爆速
128GB122B + 35B + Visionフル装備

僕の128GB環境では、メイン122B + 高速用35B + Vision用8Bの3モデルが同時に動く。

---

使い方: clm と打つだけ

セットアップ後の日常:

# 1. サーバー起動(初回だけ)
~/ai.sh start

# 2. Claude Codeをローカルモデルで起動
clm

clm = Claude Local Mode。これだけでClaude Codeのインターフェースがそのまま立ち上がる。ファイル編集、コード生成、ターミナル操作——全部ローカルのLLMが処理する。

裏側の仕組み

clm コマンド
  ↓
ANTHROPIC_BASE_URL=http://localhost:4001 に切り替え
  ↓
claude --bare が起動
  ↓
Anthropic互換プロキシがリクエストを受ける
  ↓
リクエスト内容に応じてルーティング:
  claude-sonnet/opus → Qwen3.5-122B (:5000)
  claude-haiku       → Qwen3.5-35B  (:5001)
  画像付きメッセージ  → Qwen3-VL-8B  (:5002)
  ↓
MLX-LMがApple Silicon上で推論
  ↓
Claude Code互換のレスポンスを返す

Claude Codeは「自分がクラウドのClaudeと話してる」と思ってる。実際はローカルのQwen3.5が応答してる。

その他のコマンド

~/ai.sh start    # サーバー起動
~/ai.sh stop     # サーバー停止
~/ai.sh status   # 稼働状況確認
~/ai.sh test     # 動作テスト
~/ai.sh restart  # 再起動

clm              # Claude Code (ローカル)
clc              # Claude Code (クラウド) に切り替え

---

MacBookでも動く

Mac Studio専用ではない。MacBook Pro/Air (Apple Silicon) でも動く。16GBのMacBook Airなら4Bモデル、36GBのMacBook Proなら35Bモデルが動く。setup.shがRAMを見て自動で最適なモデルを選ぶ。

(僕はMacBookには入れてないけど笑。M5 Studioが快適すぎて。)

---

正直な感想: Claudeにはまだ及ばない、でも可能性しかない

ローカルモデル(Qwen3.5-122B)は普通に使う分には超賢い。コード生成、ファイル操作、デバッグ——日常的な開発タスクはこなせる。

ただし正直に言うと、Claude Opus/Sonnetには及ばない場面がある:

  • 複雑な推論チェーン
  • 長いコンテキストの一貫性
  • ニュアンスのある日本語

でも改善の余地は大きい:

  • プロンプトの最適化 — Claude向けに書かれたシステムプロンプトをローカルモデル向けにチューニングすればもっと良くなる
  • モデルの進化 — Qwen3.5は数ヶ月前には存在しなかった。半年後にはさらに賢いモデルが出る
  • ファインチューニング — 自分の用途に特化させれば特定タスクではClaudeを超えられる

可能性しか感じてない。

---

まとめ

クラウドClaudeOllamaclm (自作)
セットアップ不要brew installbash setup.sh
コスト月額$20〜$200無料無料
プライバシーデータ送信ローカルローカル
推論エンジンAnthropicllama.cppMLX (Apple最適化)
Claude Code互換ネイティブ✓ (clm一発)
賢さ★★★★★★★★☆☆★★★★☆
# 今すぐ試す
git clone https://github.com/yukihamada/local-claude.git
cd local-claude && bash setup.sh
~/ai.sh start
clm

俺が使うものは、俺が作る。

ソースコード: github.com/yukihamada/local-claude