Grok Build 完全ガイド|Claude Code・Codex CLI と徹底比較【2026年5月版】
2026年5月14日、xAI が「Grok Build」を早期ベータとして投入し、CLI コーディングエージェント市場は Anthropic Claude Code・OpenAI Codex CLI・xAI Grok Build の3強構図に変わりました。基盤モデル grok-build-0.1(256Kコンテキスト)、最大8並列サブエージェント、Plan Mode、MCP/Skills/AGENTS.md への完全互換—xAI は「Claude Code 互換のスイッチコスト ゼロ環境」を意図的に設計しています。本記事では、毎日 CLI コーディングエージェントを業務で運用してきた立場から、xAI 公式ドキュメント・SWE-bench Verified の最新スコア・Anthropic の6月15日課金変更まで含めて、Grok Build を「乗り換えるべきか・併用すべきか・無視すべきか」の判断軸で完全分解します。読了後、自分の開発スタイルに対する具体的な答えが出ます。
目次
CLI コーディング3強の構図が動いた
2026年5月14日、xAI が Grok Build を早期ベータとして公開しました。Agentic CLI コーディング市場は、Claude Code(Anthropic、2025年2月)、Codex CLI(OpenAI、2025年4月、現行 GPT-5.5)、Grok Build(xAI、2026年5月14日)の3強構図へ完全に再編されました。Claude Code 側の運用整理はClaude Code 5月アップデートまとめに集約済みです。
これまで CLI コーディングは「Claude Code 一強、Codex CLI が対抗馬」という構図でした。Cursor などの IDE 系プロダクトは存在しますが、純粋にターミナル内で動作する Agentic CLI は2強だけでした。そこに、Plan Mode・8並列subagent・MCP互換・256Kコンテキストという仕様で xAI が割り込んできた、というのが2026年5月の景色です。
この構図変化が興味深いのは、xAI が「独自プロトコル」ではなく「Anthropic の MCP・Skill format・AGENTS.md 仕様」を完全互換でサポートしてきた点です。後ほど詳しく見ますが、これは xAI が「Claude Code 資産を持つ開発者の乗り換えコストを意図的にゼロにする」戦略を取ったことを意味します。市場主軸は Claude Code、ベンチ最強は Codex CLI、挑戦者は Grok Build—この三角関係を理解することが、2026年5月以降の開発環境戦略の出発点です。
Grok Build とは何か|Plan Mode・8並列・256Kコンテキスト
Grok Build は xAI が2026年5月14日に早期ベータとして公開した、ターミナル上で動作する Agentic CLI コーディングツールです。Anthropic の Claude Code に対する直接的な競合製品として設計され、その仕様には3つの強烈な特徴があります。Claude Code の Subagents 実践ガイド を読んだ人ほど、Grok Build の自動展開設計の違いが直感的に分かるはずです。
Plan Mode の実装思想
Grok Build の最大の特徴は Plan Mode です。これは、Grok Build がコードに一切触れる前に「全実行ステップを事前に提示」し、開発者が承認・編集・書き換えを行ってから初めて実行に入る、という確認型ワークフローです。料理にたとえると、Claude Code が「食材を渡されたら自分の判断で作る料理人」だとすると、Grok Build は「先にレシピを全部書き出して、あなたの承認を取ってから台所に立つ料理人」のようなものです。Claude Code にも類似の Plan Mode は存在しますが、Grok Build はこれを標準ワークフローとして前面に押し出してきました。
具体例で言うと、「monorepo の TypeScript エラーを全部直して」という依頼を投げたとき、Grok Build は最初に「ステップ1: src/auth/ の型エラー修正、ステップ2: テスト再実行、ステップ3: package-lock.json の整合性確認…」のような順序付きの計画を出します。開発者はステップ単位でコメント・削除・追加が可能で、承認後に並列実行に入ります。実行後の変更は clean diff で表示され、安全性が担保されます。
8並列subagent + Git worktree 統合
Grok Build は最大8個のサブエージェントを並列実行できます。Claude Code の Subagents 機能と類似していますが、Grok Build はこれを Plan Mode と連動させ、計画ステップから自動的にサブエージェントを展開します。さらに、各サブエージェントは Git worktree 内で隔離実行されるため、互いの作業が干渉しません。たとえるなら、一人の指揮者が同時に8人の楽器奏者を別々の譜面で動かすような構成で、各奏者は隣の演奏に影響されません。
たとえば「ユーザー認証機能を追加」という依頼に対して、subagent 1がプランニング、2が依存関係調査、3-5がコード生成(auth.ts/middleware.ts/tests/auth.spec.ts を別worktreeで並行)、6がドキュメント、7が型整合性、8が統合テスト—のような分業が、1人の開発者で同時に走らせられます。Claude Code は Subagents を明示的に呼び出すパターンが基本で、Grok Build のように自動的に8並列を展開する設計とは異なります。
基盤モデル grok-build-0.1 と256Kコンテキスト
Grok Build の基盤モデルは、xAI 公式ドキュメント(docs.x.ai/developers/models)上では grok-build-0.1 と明示されています。コンテキスト長は 256Kトークン、API レートは入力 $1.00/M・出力 $2.00/M。これに対し、Claude Code Opus 4.7 はサブスクリプションプラン上で1Mトークンコンテキストが利用可能(Claude 公式)、Codex CLI + GPT-5.5 は400Kクラスのコンテキストを扱います。
256Kは「Claude Code の200Kよりやや広いが、Opus 4.7 の1Mより狭い」という中間レンジです。車のトランク容量にたとえると、200K がコンパクトカー、256K が少し大きめのセダン、1M がワンボックスカーのようなものです。実用上意味するのは、「中規模 monorepo の主要部分は1セッションで扱える」という点。たとえば、1万行クラスのTypeScriptコードベースなら主要モジュールを一気に読み込ませて、全体構造を踏まえた修正計画を立てられます。大規模 monorepo(数十万行クラス)を1セッションで読み切るには Claude Opus 4.7 の1Mコンテキストが優位—ここは Grok Build と Claude Code で明確な棲み分けが発生します。
ベンチマーク3者比較|SWE-bench Verified の読み方
3社のコーディング精度を測る最も標準的なベンチマークが SWE-bench Verified です。実在の GitHub Issue を AI が解決できるかを測定する agentic coding 評価で、2026年5月時点の各社スコアは以下のとおりです。
SWE-bench Verified 3者比較
このスコア差をどう読むか。88.7% と 87.6% の Codex CLI / Claude Code 間は誤差レンジで、実運用では「両者ともトップティア」と捉えるのが妥当です。一方、Grok Build の70.8% は明確な17ポイント差で、純粋なコーディング精度では Codex CLI / Claude Code 優勢、というのが2026年5月時点の事実です。
Terminal-Bench 2.0 で見た景色
SWE-bench だけが指標ではありません。Terminal-Bench 2.0 はターミナル上の実用ワークフロー(ファイル操作・コマンド連携・エラー復旧等)を測る別ベンチで、Codex CLI + GPT-5.5 が82.0%で1位を取っています。Claude Code は同ベンチでもトップ群に入りますが、Codex CLI が Terminal 系で僅差リードしている、というのが現状です。
ここで重要なのは、Grok Build はリリース直後のため Terminal-Bench 2.0 の公式スコアがまだ整っていない点です。xAI 公式 harness の SWE-bench 70.8% が現時点で唯一の比較可能データであり、Terminal 系の実用度は今後の評価待ちです。
OpenAI が SWE-bench self-report をやめた理由
もう1つの重要な背景:OpenAI は2026年2月から SWE-bench Verified の自己報告を停止しています。理由は contamination(学習データへの混入)懸念。GitHub Issue ベースのベンチは、AI 学習データに該当 Issue が含まれている可能性があり、純粋な能力評価として信頼性が落ちている、という認識です。
このため、88.7% は第三者トラッカー(SWE-Bench Leaderboard 等)の数字で、OpenAI 公式の数字ではありません。Anthropic と xAI は自己報告を続けているため、3社の数字を横並びで比較するときは「数字の出元」を意識する必要があります。実運用では、ベンチ数字だけでなく「自分のタスクで実際に試す」評価が決定的に重要です。
MCP・Skills・AGENTS.md 完全互換が意味する戦略
Grok Build の仕様で最も衝撃的なのは、ベンチマークでも価格でもなく、「Claude Code 資産との完全互換性」です。これは単なる機能ではなく、xAI の市場戦略そのものを表しています。
zero config で Claude Code 資産が読み込まれる
Grok Build は、プロジェクトディレクトリまたはホームディレクトリに置かれた以下のファイル群を、設定変更なしで自動認識します。
- AGENTS.md: Claude Code / Codex CLI 共通のエージェント指示ファイル
- .mcp.json / mcp.json: MCP(Model Context Protocol)サーバー定義
- .claude/skills/ 配下のスキル: Anthropic 定義の Skill format
- .claude/plugins/ 配下のプラグイン: Claude Code marketplace 経由のもの
- .claude/agents/ 配下のサブエージェント定義
- .claude/hooks.json: Claude Code Hooks 設定
- Claude Code marketplaces: 既存のmarketplace 接続
つまり、Claude Code を1年以上使ってきて、自社用の Skills や MCP Server、AGENTS.md を整備してきた開発者は、それらを1行も書き換えずに Grok Build から呼び出せます。これは Grok Build を試すための「移行コスト」を事実上ゼロにします。
スイッチコストを潰す戦略
普通、新興 CLI ツールが市場参入するとき、最大の障壁は「既存環境からの移行コスト」です。Claude Code ユーザーが Grok Build に乗り換えるなら、Skills を書き直し、MCP Server を再設定し、社内ドキュメント(AGENTS.md)を書き換え…という作業が発生するはずでした。xAI はこれを意図的にゼロにしてきました。
戦略的に読むと、xAI のメッセージは明確です:「Claude Code を捨てる必要はない。並行して試して、気に入ったら徐々に置き換えればいい」。これは Microsoft が VS Code で Sublime Text や Atom のキーバインドを最初からサポートしたのと同じ発想—エコシステムの「乗り換え抵抗」を構造的に潰す戦術に相当します。
エコシステムの標準化が確定した
この互換性のもう1つの意味は、MCP(Model Context Protocol)が業界標準として確定したことです。Anthropic が2024年11月にオープンソース化して以来、OpenAI が ChatGPT Apps SDK の基盤として採用し、Notion が Developer Platform で External Agent API として採用し、そして今回 xAI が Grok Build で採用しました。
この標準化により、開発者にとっての勝ち筋は「特定のAI企業に縛られない MCP Server / Skills を整備する」ことになります。同じ MCP Server を Claude Code・Codex CLI・Grok Build から呼び出せるなら、AI企業間の競争は「どのモデルを使うか」に純化され、開発者はモデルだけを切り替えられる時代に入りました。これは長期的には開発者にとって追い風で、AI企業にとってはモデル品質と価格の純粋競争を強いる構図です。
価格戦略を解剖|$99/$300 と Anthropic 6/15 metered-credit
Grok Build と Claude Code・Codex CLI の経済学を比較すると、2026年5月時点で大きな転換点が同時進行していることが分かります。
SuperHeavy プロモ $99/月 6ヶ月の本気度
Grok Build は SuperGrok Heavy($299/月)階層に紐づきます。通常 $299/月ですが、xAI は早期ベータ参入者向けに SuperHeavy プロモ $99/月(最初の6ヶ月)を用意してきました。これは通常価格から67%引きで、xAI のベンチマーク獲得への本気度を示しています。
ただし注意点があります。Grok Build には「indie hacker 向けの $20 階層」が存在しません。最低料金が $99(プロモ)からのスタートで、6ヶ月後には自動的に $299/月に戻ります。たとえるなら、最初から「年間契約のジム会員」しか売っていないようなもので、月会員でちょっと試したい層は最初から対象外です。xAI は「年間 $3,588 払える開発者・チーム」を最初から狙い撃ちしてきており、これは Claude Code Pro $20 / Codex CLI Plus $20 を主戦場としてきた個人開発者層とは、明確に違うセグメントです。
Anthropic 6/15 metered-credit の衝撃
もう1つの大きな変化が、Anthropic の 2026年6月15日課金構造変更です。この日から、Claude Agent SDK・claude -p(プログラム実行モード)・Claude Code GitHub Actions・サードパーティエージェントは、Claude のサブスクリプション枠とは別の月次クレジットプールに移行します。新クレジットは Pro $20 / Max 5x $100 / Max 20x $200 で、API レートで計測、月次でリセット(繰り越しなし)です。
この影響を最も受けるのは、CI/CD・夜間バッチ・自動化エージェント等の「プログラム実行モード」を持つチームです。これまで Claude Max 20x の $200 で使い放題だった自動化ワークロードが、6/15以降は別途 $200 のクレジット消費に変わります。ヘビーユーザーにとっては実質的な値上げで、月額 $400 相当の支出が必要になるケースも出てきます。
一方、ターミナルで対話的に Claude Code を使う場合(インタラクティブ利用)は従来通り、購読プランの枠内です。つまり「人が手元で使う」分には変更なし、「機械が回す」分には別途課金、という構造分離です。
月いくら払うのが妥当か
運用別の最適解は以下のとおり。
- 個人開発・週末プロジェクト:Claude Code Pro $20 または Codex CLI Plus $20。Grok Build は対象外。
- 本業の主力ツール・ヘビー利用:Claude Code Max 5x $100 が依然コスパ良。同価格帯で Grok Build $99(プロモ)も併用検討可。
- 大規模 monorepo・並列タスク多発:Grok Build $99 プロモ期間中に試験導入が現実的。Claude Code Max 20x $200 と併用。
- CI/CD・自動化エージェント保有:6/15以降の追加 credit を見積もり、必要なら Codex CLI / Grok Build に分散。
- エンタープライズ・本番運用:Claude Managed Agents + Claude Max 20x $200 が本命。Grok Build はリスク評価の対象。
インストールと最初の30分|筆者が実機で見たもの
ここからは、Grok Build を実際にインストールして触ってみた結果から見える、現実的な評価ポイントを整理します。1年以上 Claude Code を主軸に運用してきた立場から、Grok Build を最初の30分でどう感じたかという視点です。
ワンライナー install と /login
インストールは xAI 公式 docs に記載されたワンライナーで完了します。
# macOS / Linux
curl -fsSL https://x.ai/cli/install.sh | bash
# Windows (PowerShell)
irm https://x.ai/cli/install.ps1 | iex
このコマンドを実行すると、CLI が現在のフォルダで起動します。デフォルトではアカウント連携なしのローカルモードで、後から CLI 内で /login を実行すると SuperGrok Heavy アカウントとの紐付けが完了します。xAI API キーを直接使いたい場合は、/api-key add xai でキーを設定可能。設定後は /api-key status と /api-key test xai で接続確認できます。
Claude Code が npm install -g @anthropic-ai/claude-code のインストールから始まるのに対し、Grok Build はシェルスクリプト一発で完結します。Node.js への依存がない分、Python 系プロジェクトや軽量環境では起動がスムーズに感じました。Claude Code と Codex CLI を Plugin で繋ぐ運用に Grok Build を加える場合も、各 CLI のシェル PATH が衝突しないか起動直後にチェックしておくと安全です。
Plan Mode を実際に走らせる
筆者が試したのは「TypeScript の monorepo(約3万行)で、ESLint エラー全件を修正してテストを通せ」という指示です。Grok Build は /plan コマンドでまず Plan Mode に入り、約20秒で以下のような計画を提示してきました。
- ステップ1: ESLint の現在のエラー一覧を取得(subagent 1)
- ステップ2: エラーカテゴリ別に分類(unused-vars, any-type, missing-await 等)
- ステップ3-6: カテゴリごとに並列で修正(subagent 2-5、各 Git worktree 内)
- ステップ7: 統合後に型チェック実行(subagent 6)
- ステップ8: テストスイート全件実行(subagent 7)
- ステップ9: 残存エラーがあれば再ループ
このプランは編集可能で、たとえば「ステップ4は手動でやるからスキップ」と指示すると、Plan Mode 上で除外されます。承認後、最大8並列のサブエージェントが Git worktree 内で動き出し、約12分後に統合 diff が提示されました。実用度としては、Claude Code の Subagents を手動で叩くより計画の見通しが良いのが印象的でした。
Claude Code の既存設定はそのまま動くか
これが筆者にとって最大の関心事でした。結論から言うと、主要な設定は本当にゼロ設定で動きます。具体的に確認した項目は以下のとおりです。
- AGENTS.md:プロジェクトルートの AGENTS.md が自動読み込みされ、エージェントの行動規範として使われた
- .mcp.json:xserver-mcp や x-api などの MCP Server がそのまま接続でき、ツールとして呼び出せた
- .claude/skills/:自作の Skill(記事生成、ファクトチェック)が認識され、Grok Build 内から起動できた
- .claude/hooks.json:Hooks 設定も継承され、PreToolUse / PostToolUse のフックが動作した
ただし、Claude 固有のモデル挙動に依存する Skill は要調整です。プロンプト末尾に Claude 特有の応答パターン(例えば「<thinking>」タグの利用)を期待しているスキルは、Grok モデルでは挙動が変わります。汎用的な Skill(ファイル操作、API呼び出し、コード生成等)はそのまま動きますが、Claude の特定モデル動作を前提にしたものは Grok 用に書き直しが必要です。
どれを選ぶべきか|用途別の現実解
ここまでの分析を踏まえて、開発スタイル別の選択指針を整理します。
個人開発・indie hacker
このセグメントは依然 Claude Code Pro $20 / Codex CLI Plus $20 が王道です。Grok Build は最低 $99 からのスタートで、個人開発の予算規模からは外れます。例外は「自分の本業が AI ツール開発で、月 $99 を経費として落とせるケース」のみ。
チーム開発・CI/CD 組み込み
チーム開発では Claude Code Max 5x $100 が依然成熟度で勝ちます。Routines(スケジュール実行)、GitHub Actions 統合、Managed Agents による多段オーケストレーション—これらは Anthropic が2025年から積み上げてきた資産で、Grok Build が早期ベータの現時点では追いつけていません。Grok Build $99 プロモは「並列開発の試験用環境」として個別プロジェクトに導入する程度が現実的です。
エンタープライズ・本番運用
本番運用では Claude Code + Managed Agents が本命。Claude Code は2025年からの運用実績、Codex CLI は OpenAI Deployment Company(5/11発表)による企業導入支援、と両者ともエンタープライズ対応が進んでいます。Grok Build は2026年5月14日リリースの早期ベータで、production 信頼性はまだ未検証—エンタープライズでは「実験プロジェクト」での導入が限界です。
まとめ|主軸 Claude Code + 速度勝負 Grok Build 併用案
2026年5月時点の分析結果は「主軸は Claude Code、速度勝負タスクは Grok Build、ベンチマーク絶対値は Codex CLI」です。1つを選ぶのではなく、用途別に併用するのが現実解です。
具体的な使い分けの設計図は次のようになります。日常の対話的開発(記事執筆支援、設計議論、コードレビュー、軽量タスク)は Claude Code を継続利用。大規模 monorepo を一気に書き換えたい、8並列で並行作業を進めたい—といった速度勝負タスクが発生したときに、Grok Build $99 プロモ期間を活用して試験運用、という配分です。Codex CLI は OpenAI 系の資産(ChatGPT Apps SDK、Realtime API 等)を本格利用する開発者にとって、引き続き強い選択肢です。
2026年6月15日の Anthropic 課金変更は、特に自動化エージェントを持つチームにとって試金石となります。これを機に「Anthropic 一強体制」から「Anthropic / OpenAI / xAI を MCP で繋ぐ分散体制」へ移行するタイミングとして、Grok Build のリリースは絶妙でした。MCP が業界標準として確定した今、開発者にとっての勝ち筋は「特定 AI 企業に縛られない MCP Server / Skills を整備する」こと—これが2026年後半の開発環境戦略の中核になります。MCP の活用例はXServer MCP × Claude Code 実装ガイドで具体的な構築手順を整理しています。
Grok Build を試すなら今です。6ヶ月プロモが終わる2026年11月までに、自分のスタイルに合うか判断する時間は十分にあります。Claude Code を捨てる必要はなく、MCP 標準のおかげで両方を持つ追加コストは時間だけ—試着室で2着を着比べるようなものです。