2026.05.30 · 16分で読める

Claude Opus 4.8 徹底解説|4.7からの進化・effort・Fast 3倍値下げを実機検証【2026年版】

目次

Claude Opus 4.8 とは:2026年5月28日リリースの最新フラッグシップ

2026年5月28日、Anthropic が新しいフラッグシップモデル Claude Opus 4.8 をリリースしました(Anthropic 公式発表「Introducing Claude Opus 4.8」)。前世代の Claude Opus 4.7 を土台に、コーディング・エージェント・推論・知識作業の各領域を底上げした「現行で最も高性能な一般提供モデル」と位置づけられています。

本記事は、実際に Opus 4.8 を動かしながら執筆しています。数字の部分は公式のベンチマークと System Card を出典として明記し、使ってみた所感は所感として正直に切り分けて書きます。新モデルの紹介記事にありがちな「とにかくすごい」一辺倒ではなく、4.7 から何が・どれだけ変わり、どの場面で恩恵があり、どこは据え置きなのかを、開発ドキュメントの一次情報で丁寧に整理するのが本稿の狙いです。

まず押さえたい全体像はシンプルです。Opus 4.8 は「劇的な作り直し」ではなく、4.7 の長所を残したまま弱点をていねいに潰したマイナーチェンジの集合体です。たとえるなら、フルモデルチェンジではなく、足回りと燃費を煮詰めた年次改良に近い性格のアップデートです。だからこそ、派手な見出しよりも「実務でどう効くか」を見極める価値があります。

主な変更点は、(1) effort(労力)パラメータの既定値と挙動の整理、(2) Fast モードの大幅値下げ、(3) 数百のサブエージェントを並列で走らせる「動的ワークフロー」、(4) 長時間エージェント作業・ツール呼び出し・コンパクション周りの安定性向上、の4点です。以下、順番に分解していきます。

図1: Claude Opus 4.7 → 4.8 進化マップ Opus 4.7 2026年4月 Opus 4.8 2026年5月28日 ① effort 既定 high を全面に統一・各段階の挙動を再キャリブレーション ② Fast 高速モードを従来比3倍の低価格で提供(リサーチプレビュー) ③ 並列化 動的ワークフローで数百サブエージェントを1セッションで起動 ④ 安定性 長文脈・ツール呼び出し・コンパクション回復の信頼性が向上

4.7 から 4.8 への進化点【一覧】

公式の「What’s new in Claude Opus 4.8」ドキュメント(Claude API Docs)をもとに、4.7 からの変更点を実務インパクト順に並べると次の通りです。

項目 Opus 4.7 Opus 4.8 実務での意味
コンテキスト 100万トークン 100万トークン(据え置き) 大規模リポジトリ・長い資料を一度に扱える
最大出力 12.8万トークン 12.8万トークン(据え置き) 長い生成物も一括出力
長時間コーディング コンパクション頻発・脱線あり 圧縮回数減・回復が安定 長丁場の作業が途中で迷子になりにくい
ツール呼び出し 必要な呼び出しを飛ばす報告あり 取りこぼしが減少 「検索すべき場面で検索しない」が減る
アダプティブ思考 対応 判断が洗練・無駄思考減 同じ effort でもトークン効率が改善
Fast モード 2.5倍速・従来比3倍安 速度重視の用途のコストが下がる
会話途中のシステム指示 対応(role:”system”) 長い会話で指示を追加してもキャッシュが効く
プロンプトキャッシュ最小長 より長い 1,024トークンに低下 短いプロンプトでもキャッシュが効く

表を見て分かる通り、コンテキスト100万トークンや最大出力12.8万トークンといった「器の大きさ」は4.7から据え置きです。机の広さは同じまま、その机の上での仕事の段取りが上手くなった、というイメージが近いでしょう。特に効くのが長時間エージェント作業の安定性です。

長い作業では、AI は途中で文脈が膨らみすぎないように、それまでのやり取りを要約して圧縮する「コンパクション」を行います。これは長い会議の途中で議事録を要約して引き継ぐようなもので、要約が雑だと後半で話が噛み合わなくなります。4.8 はこの圧縮の回数を減らし、圧縮後も作業の軸がぶれにくくなりました。実際に長めのコード修正タスクを任せると、4.7 で時々あった「途中から目的を見失う」挙動が体感で減っています。

もう一つ地味ですが重要なのがツール呼び出しの取りこぼし減少です。4.7 では「検索すべき場面で検索せずに推測で答える」ケースが一部ユーザーから報告されていました。4.8 は必要なツール呼び出しを飛ばしにくくなっており、調査系のエージェントで「確認せずに思い込みで進む」事故が減ります。地味ですが、業務でAIに任せるときの信頼性に直結する改善です。

effort 設定の全貌:5段階と「ultracode」の正体

4.8 を語るうえで避けて通れないのが effort(労力)パラメータです。これは「Claude がどれだけトークンを使って粘り強く取り組むか」を1つのつまみで調整する仕組みで、車のアクセルの踏み込み加減に例えると分かりやすいでしょう。深く踏めば力強いが燃料(トークン)を食う、軽く踏めば省エネだが頑張りは控えめ、という関係です。

公式の Effort ドキュメントによると、API が受け付ける effort は次の5段階です。重要なのは、effort が思考だけでなくテキスト・ツール呼び出しを含むすべてのトークン消費に効く点です。低い effort では、ツール呼び出しの回数自体が減り、前置きを省いて即行動する傾向になります。

図2: effort 5段階(トークン消費 × 能力) → トークン消費・粘り強さ 能力・思考の深さ → low medium high (既定) xhigh max コーディング/エージェントは xhigh が推奨開始点
effort 性格 向いている用途
low 最も省トークン。速度・コスト最優先 分類・簡単な検索・大量処理・サブエージェント
medium バランス型。そこそこの品質で節約 速度とコストの均衡が欲しいエージェント作業
high(既定) 高能力。設定省略時と同じ 複雑な推論・難しいコーディング・通常のエージェント
xhigh 長時間作業向けの拡張能力 30分超の長丁場コーディング、反復的なツール呼び出し・詳細検索
max 制約なしの最大能力 本当に難しいフロンティア課題のみ

4.8 の既定は API・Claude Code を含むすべての面で high です。公式の推奨は明快で、「コーディングとエージェント作業は xhigh から始め、それ以外の知能を要する作業は high、コストを抑えたいときだけ評価で品質を確認しながら medium・low に下げる」という順番です。逆に max は、構造化された出力タスクでは「考えすぎ」になってコストの割に品質が上がらないこともあるため、公式も「真にフロンティアな課題のために取っておく」と注意を促しています。何でも最大にすればよい、という単純な話ではないわけです。

「ultra」「ultracode」の正体

ここで多くの人が混乱するのが「ultra という段階はあるのか?」という点です。結論から言うと、API の effort 段階に「ultra」は存在しません。受け付ける値は low・medium・high・xhigh・max の5つだけです。

ただし Claude Code の effort メニューには ultracode という項目が表示されます。これが「ultra」の正体です。公式ドキュメントは明確に「ultracode は Claude Code の effort メニューに現れるが、API が追加で受け付ける effort 段階ではない」と説明しています。ultracode の実体は、xhigh の effort に、マルチエージェント・ワークフローを自動起動する常時許可を組み合わせたモードです。会話途中のシステムメッセージを通じて Claude Code に「必要なら複数エージェントを勝手に立ち上げてよい」という権限を渡している、という構造になっています。いわば xhigh というエンジンに、自動で増援を呼ぶ権限をセットにしたパッケージ、と捉えると理解しやすいでしょう。

つまり「Xhigh とか ultra とか max の違い」を正確に言い直すと、能力段階としては xhigh と max が本物、ultra(ultracode)は xhigh をベースにした Claude Code 上の運用モード、ということになります。ここを取り違えると「API で ultra を指定したのに動かない」といったハマり方をするので注意してください。

ベンチマーク比較:SWE-bench・Terminal-bench・GPQA

性能の話に移ります。Anthropic は Opus 4.8 がコーディング・エージェント・推論・財務分析・知識作業の主要ベンチマークで競合を上回ったとしています。各メディアが公式 System Card から報じた主な数値は次の通りです(数値は公式 System Card を出典とし、本記事末尾の参照元も確認してください)。

図3: 主要ベンチマーク 4.7 vs 4.8 SWE-bench Verified 4.7: 87.6% 4.8: 88.6% Terminal-bench 2.1 4.7: 66.1%※ 4.8: 74.6% GPQA Diamond 4.7: 94.2% 4.8: 93.6% 傾向 ・コーディングは伸長 ・推論は飽和域で横ばい ・エージェント実務で差 ※Terminal-bench は 2.0→2.1 へ更新のため4.7値と厳密には非互換。出典: 公式System Card・各社報道

読み解きのポイントは3つあります。第一に、コーディングは着実に伸びていること。実際のソフトウェア課題を解く SWE-bench Verified は87.6%から88.6%へと約1ポイント上昇しました。ターミナル操作を評価する Terminal-bench は2.1で74.6%と大きく見えますが、これはベンチ自体が2.0から2.1へ更新されたため4.7の値と単純比較はできません。フェアに見るなら「コーディング系は確実に前進、ただし数値の伸び幅は控えめ」が正確な表現です。

第二に、推論系は飽和域で横ばいであること。大学院レベルの科学問題を解く GPQA Diamond は94.2%から93.6%へとわずかに下がっていますが、両モデルとも93%超で、これは満点近くに張り付いた「天井効果」によるノイズの範囲です。テストが簡単すぎて差が出ない、というのが実態に近い。ここを「劣化した」と煽るのは誤読です(ベンチマークの読み方は AIベンチマーク完全初心者ガイドで詳しく解説しています)。

第三に、数値以上に効くのは「実務での粘り強さ」だという点です。ベンチマークは単発の問題を解く力を測りますが、業務で AI を使うときに効くのは「30分・1時間と長く走らせても脱線しない」「必要な確認をサボらない」といった持久力です。4.8 の本当の進化は、ベンチの小数点ではなく、この長時間運用の安定性にあると実機では感じます。マラソンでいえばタイムよりも「失速しにくくなった」改良に近いイメージです。

Fast モード3倍値下げの意味と料金早見

料金面の最大のニュースが Fast モードの大幅値下げです。Fast モードは同じ Opus 4.8 を最大2.5倍の出力速度で動かす機能で、Claude API のリサーチプレビューとして提供されます(Fast mode ドキュメント)。新幹線でいう特急料金のようなもので、追加料金を払って到着を速める仕組みです。今回その特急料金が従来比3倍安くなりました。

図4: Opus 4.8 料金早見(100万トークンあたり) 通常モード 入力 $5 出力 $25 4.7から据え置き Fast モード 入力 $10 出力 $50 最大2.5倍速・従来比3倍安 通常は入力$5/出力$25、Fastは入力$10/出力$50。速度が要る用途だけ使い分け

通常モードの料金は100万トークンあたり入力5ドル・出力50ドル……ではなく出力25ドルで、これは4.7から据え置きです。一方 Fast モードは入力10ドル・出力50ドル。単価は通常モードの2倍ですが、速度が2.5倍になるため「時間あたりの処理量」で見ると割に合う場面が出てきます。たとえば、ユーザーを待たせたくない対話アプリや、大量のタスクを短時間でさばきたいエージェントループでは、Fast モードのコスト効率が一気に現実的になりました。

ここで運用上のコツが1つあります。速度が要らない処理にまで Fast を使うのは無駄です。夜間のバッチ処理や、結果を急がない調査タスクは通常モードで十分。逆に、人が画面の前で待っている処理だけ Fast に切り替える、という「使い分け」が費用対効果を最大化します。effort と Fast モードは独立したつまみなので、「low effort × Fast モード」で高速・低コストの定型処理、「xhigh effort × 通常モード」でじっくり難所攻略、といった組み合わせも可能です。

具体的な目安を1つ挙げます。たとえばカスタマーサポート向けに、ユーザーの質問へリアルタイムで回答するチャットを組むとします。この用途は「待たせない」ことが価値なので Fast モードが向きますが、同時に1問あたりのトークン量はさほど多くないため、effort は low〜medium に抑えるのが定石です。一方、社内向けに夜間バッチで大量の議事録を要約するような処理は、速度より安さが正義なので通常モード × low effort で十分。「誰が待っているか」を基準に Fast の要否を決め、「どれだけ難しいか」を基準に effort を決めると、2つのつまみの使い分けがすっきり整理できます。料金そのものは 主要AIモデルの比較記事で他社モデルと並べて見ると相場感がつかみやすいでしょう。

動的ワークフロー:数百サブエージェント並列

開発者にとって今回いちばんのインパクトが 動的ワークフロー(dynamic workflow)です。これは Claude がまず作業計画を立て、その後1つのセッションの中で数百のサブエージェントを並列に走らせる機能です(TechCrunch の報道)。たとえば、数十万行規模のコードベースを横断する大規模な移行作業を、一気に分担処理できます。

イメージとしては、現場監督が1人で全部やるのではなく、数百人の作業員に同時に指示を出して並行で進めさせるのに近い。1人で順番に直していけば日が暮れる作業を、対象ファイルごとに小さなエージェントを割り当てて同時並行で片付ける、という発想です。サブエージェントの考え方そのものは Claude Code サブエージェント実践活用ガイドで解説してきましたが、4.8 ではそれが「数百規模・1セッション完結」へとスケールした格好です。

図5: 動的ワークフローの仕組み ① 計画を立案 タスクを分解 サブAgent 1 サブAgent 2 サブAgent 3 …数百並列 ② 結果を統合 Claude Code の Enterprise / Team / Max プランで利用可能

この機能は Claude Code の Enterprise・Team・Max プランで利用できます。加えて、応答にどれだけ「労力」をかけるかを選べるコントロールパネルも追加され、effort の調整がメニューから直感的に行えるようになりました。中小企業の現場目線で言えば、いきなり数百並列を使う場面は少ないものの、「リポジトリ全体の一括リネーム」「全ドキュメントの表記ゆれ統一」のような横断的で単調な大量作業を一晩で片付けられる可能性がある、という点は覚えておく価値があります。

実機で使った所感と乗り換え判断

ここからは、実際に Opus 4.8 を使いながら書いている立場での所感です。数値ではなく定性的な印象なので、その前提で読んでください。

まず、4.7 からの移行はほぼ無痛です。temperature などのサンプリングパラメータ非対応、思考はアダプティブ思考のみ、といった API 制約は4.7から引き継がれているため、4.7 で動いていたコードはそのまま動きます。プロンプトの書き換えも基本不要です。公式も「4.7 で動くコードは変更不要」と明言しており、移行ガイドはあくまで「さらに最適化したい人向け」の位置づけです。

体感で最もありがたいのは、やはり長時間タスクの安定感です。長いコード修正やリサーチを任せたとき、4.7 では時々「途中から指示の半分を忘れる」ような挙動がありましたが、4.8 はコンパクション後も作業の芯がぶれにくい。アダプティブ思考も洗練され、簡単な確認には即答し、難所だけ深く考えるメリハリが効くようになりました。結果として、同じ effort でも「考えなくていいところで延々考えて遅い」というストレスが減っています。

乗り換え判断のチェックリスト

あなたの状況 おすすめ
4.7 でコーディング・エージェントを常用している そのまま 4.8 へ。設定変更ほぼ不要で安定性が上がる
長時間の自動作業で脱線・取りこぼしに悩んでいた 4.8 + xhigh を試す価値が大きい
速度が要る対話・大量処理のコストが課題 Fast モードの値下げで再検討の好機
コストを最優先したい定型処理 4.8 + low/medium effort で十分。max は不要
これから AI 活用を始める中小企業 まず high(既定)で小さな業務を試し、効果を測ってから拡大

注意点として、「とにかく max にすれば最強」という発想は損です。前述の通り max は構造化タスクで考えすぎになりやすく、コストの割に品質が伸びないことがあります。公式の推奨どおり、コーディング・エージェントは xhigh から、通常作業は high から始め、評価で品質を確かめながら必要な分だけ上げ下げするのが、費用対効果の面でも最も賢い使い方です。Claude Code 自体の使い込み方は Claude Code コンポーネント完全ガイドも合わせてどうぞ。

安全性と「正直さ」の改善が実務に効く理由

Opus 4.8 で見落とされがちですが、業務利用で地味に効くのが「正直さ(honesty)」の改善です。Anthropic は4.8を「より鋭い判断力、自分の進捗についてより正直、前世代より長く自律的に作業できる」と説明しています。ここでいう「正直さ」とは、たとえば「テストを通していないのに通したと報告する」「終わっていないのに完了したと言う」といった、AI にありがちな“話を盛る”挙動が減る、という意味です。

これは精度の数字には表れにくいものの、AI に業務を任せる現場では決定的に重要です。人間の部下に例えるなら、できないことを「できました」と report する部下は、能力が高くても安心して任せられません。逆に「ここは確認できていません」と正直に言う部下なら、こちらもどこを点検すればいいか分かる。4.8 は後者に近づいた、というのが実機で使ったときの率直な印象です。調査タスクで「確証はないが」と前置きを添えてくる頻度が上がり、結果として人間側のレビュー負荷が下がりました。VentureBeat も、4.8 のアライメント(安全性の整合)が次世代の Mythos クラスに迫る水準だと報じています。

最後に文脈を1つ。Opus 4.7 は「危険すぎて非公開」とされた Mythos から派生したモデルでした。4.8 はその系譜を受け継ぎつつ、安全性・正直さの面でも一段の改善が報告されています。Anthropic は Mythos クラスの一般提供モデルも「数週間以内」に投入すると示唆しており、2026年のモデル競争はさらに加速しそうです。今のうちに effort の使い分けに慣れておくことが、次世代モデルをスムーズに使いこなす助走になります。背景となる Mythos の経緯は Claude Opus 4.7完全ガイドで詳しく触れています。

AI を自社の業務に組み込みたい方へ

「Opus 4.8 のような最新 AI を、自社の見積・調査・書類作成にどう使えばいいか」「effort やコストをどう設計すれば費用対効果が出るか」といった実務の落とし込みを、無料相談で承っています。横浜・川崎エリアの中小企業を中心に、AI 導入の伴走支援を行っています。

お問い合わせは X の DM にてお気軽にどうぞ。

よくある質問(FAQ)

Q. Opus 4.8 はいつリリースされましたか?

2026年5月28日(木)です。Opus 4.7 の後継となる現行フラッグシップで、料金は通常利用で4.7と据え置きの100万トークンあたり入力5ドル・出力25ドルです。

Q. effort の high・xhigh・max はどう違いますか?

effort は Claude のトークン消費と粘り強さを決める5段階(low/medium/high/xhigh/max)のつまみです。high が既定、xhigh は長時間コーディングの推奨開始点、max は本当に難しい課題向けで、構造化タスクでは考えすぎになることもあります。

Q. ultracode は新しい effort 段階ですか?

いいえ。ultracode は Claude Code のメニューにある運用モードで、API の effort 段階ではありません。実体は xhigh effort + マルチエージェント自動起動の常時許可です。

Q. コンテキストはどのくらいですか?

Claude API・Bedrock・Vertex AI で既定100万トークン(Microsoft Foundry は20万)、最大出力12.8万トークンです。長文脈の品質とコンパクション回復が4.7より安定しました。

Q. 4.7 から乗り換えにコード修正は必要ですか?

基本的に不要です。API 制約は4.7から引き継がれ、4.7 で動くコードはそのまま動きます。プロンプトの見直しは「さらに最適化したい人向け」の任意作業です。

Q. 中小企業が業務に使う価値はありますか?

あります。長時間作業の安定とツール呼び出しの取りこぼし減で、調査・書類作成・データ整理を任せやすくなりました。effort を下げてコストを抑えつつ、難所だけ上げる運用が現実的です。

まとめ

Claude Opus 4.8 は、派手なフルモデルチェンジではなく、4.7 の長所を残したまま実務の弱点をていねいに潰した堅実なアップデートです。要点を5つに整理します。

新モデルが出るたびに「最強」という言葉が飛び交いますが、本当に大事なのは「自分の業務でどう効くか」です。まずは既定の high で小さなタスクを任せ、長時間作業なら xhigh、コスト最優先なら low と、つまみを実際に回して体で覚えるのが、Opus 4.8 を使いこなす最短ルートです。

参考・引用元

← Blog一覧へ