AIエージェント比較2026|Claude Code・Codex・Devin・Manus・Cursor採点【5月版】
2026年4月、AIコーディングエージェント市場は主要4社が同月にメジャー更新を畳みかけ、市場の景色が一気に変わりました。Claude Opus 4.7対応のClaude Code(4月16日)、Computer UseとプラグインマーケットプレイスでOSを丸ごと触るOpenAI Codex(4月16日)、月20ドルから試せるDevinサーブプラン刷新(4月14日)、Agents Windowを追加したCursor 3。さらに4月27日には中国NDRCがManusのMeta買収を阻止という地政学イベントまで重なり、「結局どれを使えばいいか」が一気に見えなくなった月になりました。
本記事では、AIコーディングエージェントの主要5社(Claude Code・OpenAI Codex・Devin・Manus・Cursor)を、2026年5月1日時点の最新情報を一次ソースで揃え直し、月額料金・SWE-bench Verified・自走時間・向き不向きの4軸で徹底採点します。Claude Opus 4.7の機能解説やCodex Desktop appの全機能解説といった個別ガイドを書いてきましたが、本記事はそれらを横並びで突き合わせて比較する決定版です。読み終わる頃には、自分の用途と予算に合う1本(または2本の組み合わせ)が決められる構成にしています。
結論を先に言うと、「正解は1つではなく、用途で割り切れば最短で決まる」のが2026年5月の現実です。コード書き中心ならClaude Code Max、IDE体験重視ならCursor、ChatGPT既契約でOS全体まで触りたいならCodex Desktop、投げ切り非同期ならDevin、コード以外のリサーチも自動化したいならManusという棲み分けです。いわば、5社それぞれが異なる得意レーンを走るF1チームのようなもので、優劣ではなく走る環境で順位が変わります。
結論:用途別おすすめ早見表(30秒で答えが出る)
細かい比較に入る前に、用途別の最短結論を提示します。各エージェントを大量に試した上で「この用途ならまずこれ」と言えるラインだけを絞った早見表です。詳しい根拠は次章以降で展開しますが、迷っている方はまずこの表で第一候補を決めてしまうと判断が速くなります。
| 用途 | 第一候補 | 第二候補 | 主な決め手 |
|---|---|---|---|
| コード書きが業務の中核(個人〜小規模チーム) | Claude Code Max | Cursor Pro+ | Opus 4.7と1Mコンテキスト、CLI/IDE/Web全部使える |
| IDE体験を最優先したい | Cursor Pro+ | Claude Code(VS Code拡張) | Composerでマルチファイル一括変更、IDE統合 |
| ChatGPTを既に契約しOS全体を自動化したい | OpenAI Codex(Plus〜Pro) | Manus | Computer Use、90+プラグイン、ChatGPT統合 |
| 非同期でPRまで投げ切りたい | Devin | Codex Cloud Tasks | Slack/Linear連携、DeepWiki、自走特化 |
| リサーチ・資料作成を含む業務全般を自動化したい | Manus | Codex Desktop | Web操作とドキュメント生成までこなす |
| 日本のエンタープライズで機密コードを扱う | Claude Code(Bedrock/Vertex) | Codex(Azure) | データレジデンシー設定可、SOC2/ISO対応 |
| 月額3,000円から試したい個人 | Devin Pro / Codex Plus / Cursor Pro | Claude Pro | 3社とも月20ドル帯のエントリープラン提供 |
| 長期的に20倍枠を使い倒すヘビーユーザー | Claude Max 200ドル | Codex Pro 200ドル / Cursor Ultra 200ドル | 3社とも20x相当の上限プランが揃った |
この表が指している通り、2026年5月時点ではどの陣営も「月20ドル帯のエントリー」と「200ドル帯の20倍枠」を揃え、価格帯では横並びになりました。差がつくのはモデルの賢さ、サーフェスの広さ(CLI/IDE/Web/Desktop/Cloud)、自走の深さ、そしてデータ主権です。次章から具体的な数字で見ていきます。
5社のポジショニング|汎用度とコード特化度の地図
料金やベンチマークに入る前に、5社が「そもそも何のためのエージェントか」を一段階上の視点で整理します。同じ「AIエージェント」と呼ばれていても、走るレーンが違うとそもそも比較の前提が成立しません。家電に例えるなら、電子レンジと炊飯器を「どっちが優秀か」と並べても意味がないのと同じです。
Claude Code(Anthropic)
Anthropicが2025年2月にCLI版を投入、2026年4月16日のClaude Opus 4.7対応で1Mコンテキスト・xhighモード・task budgets・/ultrareviewといった大型アップデートを投入しました。動作面はTerminal CLI、VS Code、JetBrains、macOS/Windows Desktop、Web(claude.ai/code)、iOS、GitHub Actionsまで分散。一台で全レーンに乗っているような構成です。SWE-bench Verifiedで87.6%(Adaptive構成)と、研究プレビュー扱いのMythosを除けば事実上トップ。MCP・Skills・Hooks・Memoryで拡張できる土台があり、SOC2 Type 2とISO 27001も取得済みです。
OpenAI Codex(OpenAI)
2026年4月16日のDesktop appメジャーアップデートで、Computer Use(OS全体の自動操作)と90以上のプラグインマーケットプレイス、in-app browserを追加した汎用寄りのエージェントです。CLI(npm経由)、Desktop、Web(chatgpt.com/codex)、iOS、VS Code拡張、GitHub PR連携、cloud devbox(SSH)と、こちらもサーフェスは広い。GPT-5.5がフロンティアモデルとして2026年4月23日に追加され、CLI v0.128.0(2026年4月30日)でpersistent goal workflowsとpermission profilesを実装。週300万人の開発者が使っている規模感はこのカテゴリ最大級です。
Devin(Cognition AI)
「AI Software Engineer」を打ち出したCognition AIの非同期型エージェント。2026年4月14日にサーブプランを大幅刷新し、月500ドルから始まっていた料金がFree・Pro 20ドル・Max 200ドル・Teams 80ドルの4階層に再編されました。ブラウザ越しに案件を投げて待つ、PRまで自走させる、Slack/Linear/Windsurf IDEと連携するという設計思想で、対話より「投げ切り」が向いています。Devin 2.0で標準搭載されたAsk Devin、DeepWiki、Devin Reviewが、リポジトリ理解とPRレビューを支える3点セットです。
Manus(Butterfly Effect)
2025年3月に招待制ベータで登場した、コード専用ではなくWeb操作・資料・スライド・サイト生成まで含めた汎用業務エージェント。GAIAベンチマークでLevel 1=86.5%、Level 2=70.1%、Level 3=57.7%と、2025年時点でOpenAI Deep Researchを上回る数値を出しました。サンドボックスVM上のブラウザと端末を実際に操作する設計で、Pro系で最大20同時タスクの並列実行が可能。料金は2026年版でBasic 約20ドル/Plus 約40ドル/Pro 約200ドルへリネーム。地政学的には、2026年4月27日に中国NDRCがMetaによる買収提案を実質的にブロックしたと報じられ、中国系サービスとして扱う必要があります。
Cursor(Anysphere)
IDE体験を最優先したエージェントで、2026年4月のCursor 3でAgents Window(複数リポジトリ横断オーケストレーション)とDesign Modeを追加しました。Background Agentsはシングルプロンプトで最大8並列をクラウド側で走らせ、完了時にPRで返してくる仕組みで、Enterprise契約ではさらに上限を引き上げ可能です。Opus 4.7・GPT-5.5・Gemini 3.1 Proを切り替えながら使えるのが強みで、特定のモデル陣営に縛られたくないチームに刺さります。Hobby・Pro・Pro+・Ultra・Teams・Enterpriseの料金体系で、Auto modeは無制限利用のクレジットプール枠です。
月額料金の本当の差|固定3万円と従量8万円のどっちが安いか
料金を語るときに罠になるのが、「月額20ドル」という入口価格だけ見て決めることです。Devinは月20ドルから始まりますが、Pro/Maxの含有枠を超えるとドル建ての従量課金が乗り、Enterprise契約ではACU単位の課金が継続します。ヘビーに使うと月数百ドル規模に届く例も報告されており、たとえるなら携帯電話の格安SIMで、基本料金は安いが動画を見すぎると速度制限に達するイメージとしては近いです。Codexも2026年4月2日からメッセージベース課金がトークンベース課金に切り替わり、コスト試算の前提が変わりました。月額固定で読みやすい3社(Claude・Codex・Cursor)と、従量で振れ幅が大きい2社(Devin・Manus)では、「20倍枠を使い倒すと結局どこが安いか」の答えが変わります。
使用イメージ別の選び方を整理します。月40時間以上コードを書く層には、Claude Max 20倍枠(200ドル)でOpus 4.7をxhighで回しつつ、サブエージェントを並列で走らせる構成が王道です。Cursor Pro+の60ドルはモデル切替で逃げ道があるのが効くタイプ。Codex Pro 200ドルはChatGPT Pro全機能を含めて20倍枠で動く設計で、Plus 20ドルからの乗り換え先として位置づけが明確です。Devin Pro 20ドルは「投げ切り型タスクが月3〜5本」程度なら最安、ChatGPT ProとClaude Maxの料金比較記事で深掘りしたとおり、料金は使い方次第で逆転します。
従量制のDevinとManusは、「読めない」のが最大の弱点です。DevinはPro/Maxの含有枠を超えるとドル建てで上乗せが入り、Manusも複雑タスクで500〜900クレジットを一度に飲みます。月予算を硬く管理したい組織には固定3社が向きます。逆に使う月と使わない月の差が大きい個人には従量制が結局安い場面もあります。
SWE-bench Verifiedで実力を見る|Opus 4.7が87.6%で頂点
料金が横並びになった以上、次に見るのは「実際にどれだけ正確に動くか」です。コーディングエージェントの定番ベンチマークSWE-bench Verifiedで、2026年4月時点のllm-stats公開リーダーボードを整理すると、頂点はAnthropicが研究プレビューで公開したClaude Mythos Preview(93.9%)。商用提供されている範囲ではClaude Opus 4.7(Adaptive構成)が87.6%で2位、その下にOpus 4.5(80.9%)、GPT-5.2(80.0%)、Sonnet 4.6(79.6%)が並びます。
このランキングが意味するのは、Claude CodeとCursorはどちらもOpus 4.7を呼べるため、ベンチマーク上は最先端を共有するということです。CodexはGPT-5.2/5.5世代を主軸に運用しますが、OpenAI自身が2026年に入ってSWE-bench Verifiedの汚染問題を理由にSWE-bench Proへの移行を推奨し始めました。Pro換算では各モデルが46〜57%帯に下がり順位もばらつくため、「ベンチマークで決め打ちする時代は終わりつつある」のが現状です。
とはいえ実務では、Opus 4.7のguide記事で詳述したとおり、Claude Codeで複雑な大規模リファクタを投げると確かにOpus 4.7が一段抜けて落ちにくい印象があります。CodexはCloud Tasksで非同期に長時間走らせる側で安定感を出すタイプ。ベンチマークの絶対値より、「自分のリポジトリで実タスクを5本投げてみて、自分の感覚で決める」のが結局いちばん速い判断です。
自走時間と並列実行|「投げ切り」と「対話」の境界線
同じ「エージェント」でも、人とのやり取りの粒度が違うとそれだけで使い勝手は別物になります。一日中横で作業を見ているドラフト副操縦士のような存在か、案件を投げて翌朝結果を受け取るリモート職人みたいなものか、走らせるレーンで設計が変わります。5社を「自走の長さ」と「並列タスク数」の2軸で並べ直すと、棲み分けが見えてきます。
「投げ切り」型の代表格がDevinとCodex Cloud Tasks。Devinは最初から非同期向けに設計されていて、Slackで「これ直して」と投げて他の作業に戻る使い方がもっとも自然です。Codexは2026年4月のCLI v0.128.0でpersistent goal workflowsとSchedule機能を持ち、days-weeks単位のタスクを自動再起動しながら走らせる構成が組めるようになりました。
「対話」型寄りなのがCursor ComposerとClaude Code(CLI/IDE)。横で常時走らせて、こちらの意図を都度伝えながら進めるレースカーのピットインのような使い方が得意です。CursorはBackground Agentsで投げ切りも併走でき、Claude CodeはRoutinesガイドで扱った定期実行の仕組みでバックグラウンドにも回せるため、両軸を持っているのが強みです。
Manusは並列性で頭ひとつ抜けています。Pro系で最大20同時タスクを走らせ、コードだけでなくWeb操作・資料作成・サイト生成までこなすため、企画書ドラフトと競合調査を同時進行させて、空いた時間に仕様書まで先に作ってもらう、という業務全般の自動化に向きます。コード専用エージェントとは走るレーンがそもそも違う、と捉えるのが正確です。
日本市場・データ主権で見るAIエージェント
日本のチームでエージェントを採用するときに、見落とされがちで実は大きい論点がデータ主権と日本語対応の質です。コードや顧客情報を扱うため、データがどこに保管され、誰が学習に使えるかは契約前に詰めておく必要があります。2026年5月時点の整理は次のとおりです。
| 項目 | Claude Code | Codex | Devin | Manus | Cursor |
|---|---|---|---|---|---|
| 日本語UI | 対応 | 対応 | 英語のみ | 対応 | 対応進行中 |
| 日本語コード生成 | 実用レベル | 実用レベル | 実用レベル | 実用レベル | 安定 |
| SOC2 / ISO 27001 | 取得済み | 取得済み | Enterprise tierで対応 | 未公表 | Enterpriseで対応 |
| データレジデンシー | Bedrock/Vertex/Foundry経由で設定可 | Azure経由で設定可 | Enterprise VPC可 | 中国管轄リスクあり | Enterpriseで対応 |
| API学習利用(既定) | なし | Business以上でなし | Enterpriseでなし | 規約要確認 | Privacy Modeでなし |
| SSO(SAML/OIDC) | Team以上 | Business以上 | Enterprise | Team以上 | Enterprise |
日本のエンタープライズで機密コードを扱う場合、Bedrock/Vertex AI/Microsoft Foundry経由のClaude Codeか、Azure経由のCodexが現実的な初手です。両者ともデータレジデンシーの設定が可能で、AnthropicとOpenAIはどちらもSOC2 Type 2を取得済み。CursorはEnterpriseでaudit logsとSAML/OIDC SSOが提供され、上場企業の調達基準にも乗ります。
Manusは性能面では魅力がある一方、2026年4月27日のNDRCによる買収ブロック報道後も中国側親会社の管轄が継続する構図のため、機密度が低い業務(公開情報のリサーチ、社内資料のラフ案、勉強用の試作)から始めるのが安全です。会社のお金が絡む話を投げる前に、契約書のデータ条項とサーバ所在地を確認するひと手間を必ず挟むようにしてください。Devinは英語UIが続いていますが、日本語のIssueや日本語コメントは問題なく処理でき、Slack/Linear連携を介して日本語ワークフローに馴染ませることはできます。
向き不向きマトリクス|8シナリオで5社を採点
ここまでの料金・実力・自走・データ主権を1枚に圧縮し、「自分の状況なら誰が一番か」がひと目で分かる採点表を用意しました。各セルは三段階(◎=最有力/◯=有力/△=条件付き)で、Claude Code×Codexプラグインの組み合わせ記事でも触れた「片方を主軸にもう片方を補助で使う」運用も含めて読んでください。
| シナリオ | Claude Code | Codex | Devin | Manus | Cursor |
|---|---|---|---|---|---|
| 個人・コード書き中心・月100ドル予算 | ◎ | ◯ | △ | △ | ◯ |
| 個人・IDE中心・月60ドル予算 | ◯ | △ | △ | △ | ◎ |
| ChatGPT既契約・OS全体を自動化したい | ◯ | ◎ | △ | ◯ | ◯ |
| 非同期で投げ切りたいシニア | ◯ | ◎ | ◎ | ◯ | ◯ |
| リサーチ・資料作成も自動化したい | △ | ◯ | △ | ◎ | △ |
| 機密コード扱う日本のエンタープライズ | ◎ | ◎ | ◯ | △ | ◯ |
| 10名超のチームでエージェント横展開 | ◯ | ◎ | ◎ | ◯ | ◎ |
| マルチモデル切替を重視(Opus/GPT/Gemini) | △ | △ | ◯ | ◯ | ◎ |
表を眺めると万能選手は存在せず、シナリオ毎にエースが入れ替わることが分かります。Claude CodeとCursorは「コード書き中心」シナリオでは最有力ですが、リサーチや資料作成までやらせたい場面ではManusに軍配が上がる。逆にManusはエンタープライズ機密の文脈では条件付きにとどまる。言い換えれば、各社は野球チームの異なるポジションのスター選手のようなもので、ピッチャーがホームランバッターを兼ねる必要はないのと同じ構図です。1社で全ての引き出しを持っている陣営はなく、「主軸+補助」の2社運用が結局合理的になりやすい構造が見えてきます。
失敗しない選び方フローチャート|3つの問いで決める
採点表を眺めても迷うときは、3つの問いに順番に答えると最短で第一候補が決まります。所属する組織の事情、扱うデータの機密度、月額予算の3つだけ意識してください。あれもこれもと条件を増やさないのが、後悔しない選び方のコツです。
第一候補が決まったら、必ず月20ドル帯のエントリープランで2週間試すのがおすすめです。SWE-benchの数字も大事ですが、自分のリポジトリと自分の作業スタイルとの相性は触ってみないと分かりません。ちょうど車を試乗してから購入を決めるように、20ドルで実タスクを5〜10本投げて手応えを確認してから本命プランに切り替えるのが、無駄な月額を発生させない正解ルートです。月100〜200ドル枠にいきなり飛ぶのは、試乗せずに高級車を契約するのに相当する買い物の仕方になってしまいます。
もう一つ業界で広がっているのが「主軸+補助」の2社運用。例えばClaude Code Maxを主軸にしつつ、Codex Plus 20ドルでDesktop appのComputer UseとPRレビュープラグインだけ補助として使う、というハイブリッド構成で両陣営の強みを取り込む形です。Cursor Pro+を主軸にDevin Proを月3〜5本の投げ切りタスク用に併用する、というパターンも増えています。1社で完結させようとせず、足りない部分をもう1社で補う設計のほうが、結果的にコスパが良くなる傾向にあります。
まとめと2026年後半の展望|SWE-bench Proの時代へ
2026年5月時点でAIコーディングエージェントを選ぶときの整理は、次の3点に集約できます。
- 料金は3階層(20/100/200ドル)で5社とも横並びに揃った。差がつくのはモデルの賢さ、サーフェスの広さ、自走の深さ、データ主権の4軸。
- SWE-bench Verifiedの頂点はOpus 4.7(87.6%)でClaude CodeとCursorが共有。CodexはGPT-5.5世代でVerified値非公表、SWE-bench Pro移行が業界トレンド。
- 「主軸+補助」の2社運用が現実的な最適解。1社完結は1万円安いが、シナリオが増えるほど力負けしやすい。
2026年後半の展望としては、まずベンチマーク基準がSWE-bench VerifiedからSWE-bench Proへ移行する流れが続きます。Verifiedで90%超えが出始めた今、ベンチマーク汚染問題が無視できない段階に入りました。Pro換算では各モデルが46〜57%帯に下がるため、「ベンチマーク絶対値で決める」時代は終わり、自社のリポジトリで実際に試した結果が判断材料になっていきます。
もう一つの注目点は、OpenAIのMicrosoft独占解除(4月27日)の波及効果。独占契約解消の解説記事で詳述しましたが、CodexがAWS BedrockやGoogle Cloudでも提供される構図になれば、エンタープライズの選択肢は2026年後半に一段広がります。Anthropicも2026年4月にGoogleから最大400億ドル規模の投資を受け、TPU・GPU両建ての計算資源を確保中。Claude CodeのレイテンシとAvailabilityがさらに改善する見込みです。Manusは中国NDRCの判断後の動きを読みづらい状態が続きます。
本記事の比較は2026年5月1日時点のスナップショットです。AIエージェントは月単位で景色が変わる領域なので、半年後にはこの記事も更新が必要になるはずです。それでも「自分の用途で割り切れば最短で決まる」という骨格は変わらないはず。本記事が、自分の業務スタイルと予算に合う1本(または2本)を選ぶ判断の地図として役立てば嬉しいです。
FAQ:よくある質問
Q. Claude Code Maxの100ドルと200ドルはどっちを選ぶべきですか?
使用枠で考えるのが基本です。100ドルは5倍枠、200ドルは20倍枠。月の作業時間が30〜40時間ならMax 5x(100ドル)で大半は収まり、コードレビューや大規模リファクタを含めて週末も触る場合は20x(200ドル)が無難です。最初は5xで始めて、上限に当たり始めたら20xへ切り替える順序がおすすめ。Opus 4.7のtask budgetsを20k〜128kで運用するなら20x側のほうがバッファに余裕が出ます。
Q. Devinはまだ「投げて待つ」設計のままですか?対話型として使えますか?
Devin 2.0で対話寄りの操作も可能になりましたが、強みは依然として非同期投げ切りです。Slackでチケットを起票して返ってくるのを待つ、Linearで自動アサインさせてPRが上がってくる、という運用がもっとも自然。対話で常時横にいてほしいケースはCursorかClaude Codeのほうが向きます。
Q. ManusとClaude Codeで悩んでいます。コードもリサーチも両方使いたい場合は?
機密度で割り切るのが最短です。社外秘コードを触る作業はClaude Code、公開情報のリサーチや社内資料のドラフトはManus、と棲み分けます。両方契約して月60ドル(Claude Pro 20+Manus Standard 20+Claude Code拡張で40〜60ドル帯)でスタートしてみると、自分の業務でどちらが多いかが2週間で見えてきます。
Q. 2026年後半にこの比較は陳腐化しますか?
料金とベンチマーク値は変わる可能性が高いです。Anthropicが2025〜2026年で見せたペースなら、Opus 5系が2026年後半〜2027年前半に登場する見込み。OpenAIもGPT-5.5以降の更新を続けます。それでも「コード専用 vs 汎用」「対話 vs 投げ切り」「データ主権」の3軸は構造的に変わりにくいため、軸の切り方は半年後も役立つはずです。
Q. 法人で5名規模のチームに導入する場合、どのプランから始めるのがおすすめ?
Claude Code Team Premium(最低5シート、月125ドル/シート)かCodex Business(pay-as-you-go)が現実的なスタートです。CursorはTeams(40ドル/seat)が安価で、IDEワークフローを統一したい組織には合います。Devin Teamsは80ドル/月(最低2名)で、PRレビューを非同期化したいエンジニアリングチームに刺さります。SSO(SAML/OIDC)と監査ログが必要な規模になったらEnterpriseに上げるのが定石です。
参照元・出典
- What’s new in Claude Opus 4.7(Anthropic公式ドキュメント)
- Claude Code Overview(Anthropic公式)
- Claude Pricing(公式)
- Codex for almost everything(OpenAI公式ブログ)
- Codex CLI Changelog(OpenAI公式)
- ChatGPT Codex Pricing(公式)
- New Self-Serve Plans for Devin(Cognition公式ブログ 2026/04/14)
- Devin Pricing(公式)
- Manus Pricing(公式)
- China blocks Meta’s acquisition of AI agent developer Manus(SiliconANGLE 2026/04/27)
- Cursor Pricing(公式)
- Cursor Opus 4.7 model docs(公式)
- SWE-bench Verified leaderboard(llm-stats)
- SWE-bench Pro 解説(Morphllm)