2026.05.10 · 18分で読める

AIベンチマーク完全初心者ガイド|MMLU・SWE-bench・ARC-AGIの読み方【2026年5月】

「Claude Opus 4.7 が SWE-bench で 87.6%」「GPT-5.5 が ARC-AGI 2 で 85%」——AI関連のニュースを読むと、こうした数字が次々と飛び込んできます。でも、「で、それって何が良いの?」「85% って凄いの?普通なの?」と感じたことはないでしょうか。本記事は、AIモデルの実力を測るために業界が使っている主要7つのベンチマーク(MMLU・GPQA・SWE-bench・AIME・ARC-AGI 2・MRCR・IFEval)を、専門知識ゼロでも読めるように初心者向けで完全解説します。

結論を先に言うと、ベンチマークは「AIモデル版の学力試験」です。MMLU は5教科の総合学力テスト、SWE-bench はプログラミングの実技試験、ARC-AGI は IQ テスト、MRCR は読解力試験——というように、能力の軸ごとに別々のテストがあります。本記事では、これらの試験が「何を測るのか・何点なら凄いのか・落とし穴は何か・自分の業務に使うならどれを見るべきか」を一気通貫で整理しました。Claude Opus 4.7・GPT-5.5・Gemini 3.1 Pro の最新スコア横比較も収録しているので、AIニュースで出てくる数字を「読める目」が身につきます。

AIベンチマークとは何か|なぜたくさんあるのか

AIベンチマークは、AIモデルの能力を「同じ試験」で測るために業界が共同で使っている標準テストセットです。たとえるなら、大学受験における共通テストのようなもの。共通の問題に対して各モデルが回答し、得点で実力を比較します。これがなければ、各社が「うちのモデルは凄い」と言うだけで比較できません。

では、なぜ種類がたくさんあるのか。答えは「AIに求められる能力の軸が複数ある」から。人間でも、IQテストが高い人がプログラミングが得意とは限らないし、英語が得意でも数学が苦手な人もいる。AIモデルも同じで、汎用知識・コーディング・数学・抽象推論・長文理解・指示追従と、能力の軸はバラバラです。無料AIツール25選でも触れたとおり、AIを使いこなすには「自分の用途に向いた能力軸」を見極めるのが鉄則で、ベンチマークはその判断材料です。

歴史的に見ると、ベンチマークは「飽和→新指標→飽和→新指標」のサイクルで進化しています。2020年に登場したMMLUは2024年までに飽和(モデルが軒並み90%超)して差がつかなくなり、MMLU-Pro・GPQA Diamondという難化版が登場。SWE-benchも飽和傾向で、より難しいSWE-bench Proが2026年に主要指標に。ARC-AGI 1も飽和直前でARC-AGI 2が登場。たとえるなら、模試業界が毎年問題を更新して受験生の実力を正確に測り続けるのと同じで、ベンチマークの世代交代を追わないと「古い数字を信じて判断ミス」が起きます。

主要7ベンチマークを「何を測るか」で整理

2026年5月時点で押さえておくべきベンチマークは7つ。それぞれが「何を測るのか」を1パラグラフずつで整理します。

① MMLU / MMLU-Pro(汎用知識)。Massive Multitask Language Understanding の略で、57科目(人文・社会・理工・医療など)から出題される選択式テスト。MMLU は飽和済み、MMLU-Pro は PhDレベル問題を混ぜた難化版で、2026年5月時点でも差が見える指標です。読書感想文やリサーチ系の業務で「このAIは何を知ってるか」を判断する時に見る指標。

② GPQA Diamond(PhDレベル科学)。Graduate-Level Google-Proof Q&A の略で、生物・化学・物理のPhDレベル難問が出題されます。「Google検索しても答えられない」レベルに調整されており、深い専門知識と推論を要求。研究開発・医療・科学計算の業務で AI を使うなら必ず見るべき指標です。

③ SWE-bench Verified / SWE-bench Pro(コーディング)。実際のGitHub上のバグ修正課題をAIに解かせる、最も実務に近いコーディングベンチマーク。Verifiedは検証済み500題、Proはその中の上位難問。AIエージェント比較2026でも触れたとおり、コーディングAI選定の決定打になる指標です。

④ AIME(数学)。American Invitational Mathematics Examination の略で、米国の高校生向け数学コンテスト。AIMEレベルの問題は単なる計算ではなく「証明思考・数論・組合せ論」を要求するため、論理的推論能力の指標として使われます。財務モデリングや統計解析の業務でAIを使う場合に見る指標。

⑤ ARC-AGI / ARC-AGI 2(抽象推論)。Abstraction and Reasoning Corpus の略で、色付きグリッドの変換ルールを推測する抽象パズル。訓練データに依存しない新規問題への適応力を測るため、「マニュアルにない例外処理」を任せられるかの指標になります。人間の個人テスターの平均が約60%、複数人で議論すれば100%、ARC Prize公式の human-level 到達閾値は85%(個人テスターと複数人パネルの中間ライン)。AIが閾値ラインに到達しつつある現在、最も注目される指標です。

⑥ MRCR(長文コンテキスト保持)。Multi-Round Coreference Resolution の略で、1Mトークン級の長文の中から複数の手がかりを正確に拾う能力を測ります。契約書全文・論文・コードベース全体をAIに読ませる業務で、性能が直接的に効くベンチマーク。長文系の業務には欠かせません。

⑦ IFEval / IFBench(指示追従)。Instruction Following Evaluation の略で、「400字以上で書け」「特定の単語を1度だけ使え」のような明示的な制約を守れるかを測ります。IFEval は2023年に登場し飽和したため、汚染対策版のIFBench が2026年に主流に。たとえるなら、料理人がレシピの細かい指示通りに作れるかを測る試験。業務自動化でAIを使うなら、ここが弱いと運用が崩壊します。

「何点なら凄い?」初心者向けスコア感覚表

ベンチマークは数字を見ても、それが何を意味するか分からないと判断できません。主要ベンチマークの「初心者向けスコア感覚」を表にまとめます(2026年5月時点)。横スクロールで全カラムを確認できます。

ベンチマーク 凄いライン 実用ライン 物足りない 参考:人間平均
MMLU-Pro 90% 以上 80% 以上 70% 未満 専門家 80%前後
GPQA Diamond 90% 以上 80% 以上 70% 未満 PhD 65%前後
SWE-bench Pro 60% 以上 40% 以上 30% 未満 シニアSE 上限不明
AIME 90% 以上 70% 以上 50% 未満 数学得意な高校生 50%
ARC-AGI 2 80% 以上 70% 以上 50% 未満 個人60% / 閾値85%
MRCR v2 (1M) 70% 以上 50% 以上 35% 未満 人間 計測対象外
IFEval / IFBench 90% / 70% 以上 80% / 60% 70% / 50% 未満 人間 計測対象外

表を見て分かるとおり、ベンチマークごとに「何点なら凄いか」がぜんぜん違う。MMLU-Pro の 80% は「実用」だが、SWE-bench Pro の 80% は「フロンティアモデル超え」のレベル。この感覚を持たないと、ニュースの数字を見ても「凄いのか普通なのか」判断できないのが初心者の壁です。

主要7ベンチマークの「測る軸」マップ 能力の軸ごとに整理した7つのベンチマーク 主要7ベンチマーク|何を測るか 能力の軸ごとに整理 MMLU / MMLU-Pro 汎用知識・57科目 GPQA Diamond PhDレベル科学 SWE-bench 実GitHubコーディング AIME 数学コンテスト ARC-AGI 2 抽象推論パズル MRCR v2 1M長文コンテキスト IFEval / IFBench 指示追従の精度 単一ベンチで判断せず、複数軸で組み合わせて見る AI Lab OISHI

主要4モデル横比較(2026年5月時点の最新スコア)

「数字感覚」を押さえたら、次は主要モデルの実スコアを見ます。2026年5月時点で押さえるべきフロンティアモデル4つを横比較しました。

モデル SWE-bench V SWE-bench Pro GPQA Diamond ARC-AGI 2 MRCR (1M)
Claude Opus 4.7 87.6% 64.3% 94.2% 75.8% 4.6比退行
GPT-5.5 88.7% 参考値 94.4% 85.0% 74.0%
Gemini 3.1 Pro 80.6% 参考値 94.3% 77.1% 参考値
Claude Sonnet 4.6 参考値 参考値 参考値 参考値 参考値

表から見える構図はシンプルで、「コーディングの本物の難問(SWE-bench Pro)はClaude Opus 4.7が頭ひとつ抜けている/抽象推論(ARC-AGI 2)はGPT-5.5が圧勝/PhDレベル科学(GPQA Diamond)は3社横並び(94%台)/長文(MRCR)はGPT-5.5が劇的改善でClaude Opus 4.7は退行」という3すくみ。GPT-5.5完全解説Claude Opus 4.7ガイドでも触れたとおり、業務の中心が何かで「向く・向かない」が大きく変わるのが2026年5月のフロンティアモデルです。

主要4モデル × ベンチマーク勢力図 SWE-bench Pro / ARC-AGI 2 / MRCR で見える3すくみ 主要4モデル × ベンチマーク勢力図 能力軸ごとに「強い軸」が違う3すくみ Claude Opus 4.7 SWE-bench Pro 64.3% → コーディング最強 SWE-bench V: 87.6% GPQA Diamond: 94.2% ARC-AGI 2: 75.8% ⚠ MRCR は4.6比退行 GPT-5.5 ARC-AGI 2 85.0% → 抽象推論で人間並み SWE-bench V: 88.7% MMLU: 92.4% MRCR (1M): 74.0% 14ベンチでリード Gemini 3.1 Pro GPQA Diamond 94.3% → マルチモーダル強い SWE-bench V: 80.6% MMLU Pro: 90.99% ARC-AGI 2: 77.1% 3社横並び帯 AI Lab OISHI

ベンチマークの落とし穴|飽和・データ汚染・実用乖離

ベンチマーク数字は便利ですが、4つの落とし穴を知らないと判断ミスします。

① 飽和。MMLU は2024年に主要モデルが90%超で「天井」に達し、もう差が見えません。「MMLU 92%」と聞いても、それが2024年の水準かフロンティアかわからない。飽和したベンチマークは、判断材料として価値が下がる。MMLU-ProやGPQA Diamondのような「より難しいベンチ」を見るのが正しい付き合い方。

② データ汚染。ベンチマークの問題が訓練データに紛れ込むと、モデルは「答えを覚えただけ」で高得点を取れる。ARC-AGI 2 や IFBench が新しく登場した理由のひとつは、旧版の問題がネット上に拡散して訓練データに混入したから。「未公開の出題(hold-out)」を含むベンチマークほど信頼できるのが原則です。

③ 実用との乖離。ベンチマークは「同じ問題に対する正答率」を測りますが、実務は「問題が定義されていない状況でどう動くか」が問われます。たとえば SWE-bench で 87.6% を取るモデルでも、「お客様から曖昧な要件を聞き出してコード化する」業務は別の能力。たとえるなら、ペーパーテストで満点取る人が実際の現場で活躍するとは限らないのと同じです。

④ 選択バイアス。各社が発表会で見せるスコアは「自社が強いベンチマーク」に偏っています。OpenAIはGPT-5.5が強いARC-AGI 2を強調し、Anthropic は SWE-bench Pro を強調する。1社が出す数字だけを信じない、複数の独立リーダーボードを横で見るのが鉄則。Vellum・LLM Stats・Artificial Analysis などの第三者リーダーボードが頼りになります。

ベンチマーク4つの落とし穴 飽和・データ汚染・実用乖離・選択バイアス ベンチマーク4つの落とし穴 数字を読むときに必ず意識する4軸 ① 飽和 MMLU 90%超は天井で差が見えない → MMLU-Pro / GPQA Diamond を見る ② データ汚染 訓練データに紛れた問題は不正な高得点 → 未公開出題(hold-out)系を信頼 ③ 実用との乖離 テスト ≠ 業務「曖昧な要件」が解けない → 自分の業務で必ず実機検証 ④ 選択バイアス 各社が「自社が強い指標」だけ見せる → 第三者リーダーボードを横で見る AI Lab OISHI

ベンチマークと体感性能のズレ|なぜ高得点モデルが「使いにくい」

業務でAIを使っている人なら、こんな経験があるはず。「ベンチマークで高得点のモデルが、実際使うとイマイチ」。これは気のせいではなく、構造的に起きる現象です。理由を4つ。

① 議論モード化。Opus 4.7・GPT-5.5 のような新世代モデルは、ユーザーの訂正に対して「いや、それは違います」と粘る傾向があります。ベンチマークは「正答を出すか」だけを測るので、この性格は反映されない。しかし業務では「素直に直してくれない AI」は致命的にストレスフル。Claude劣化の真相でも触れたとおり、2026年に複数モデルで観測される共通課題です。

② 指示追従と推論性能の独立性。SWE-bench で 87% 取るモデルでも、「出力を JSON 形式で返して」「500字以内で書いて」のような明示的な指示を守るかは別問題。IFEval / IFBench を別軸で見ないと、実務ではガチガチに困ります。たとえるなら、東大入試の数学を解ける人が、上司の細かい指示を100%守れるとは限らないのと同じ。

③ 長文保持の退行。Opus 4.7 は SWE-bench で過去最高ですが、MRCR は Opus 4.6 比で退行しています。長文ドキュメントを扱う業務では、「最新版のほうが弱い」という逆転現象が起きる。新しいモデルが必ず良いわけではない、という事実を覚えておく必要があります。

④ 出力スタイル・トーン。同じ正答率でも、Claude は冗長すぎる、GPT は硬すぎる、Gemini は浅い、というように出力品質の「質感」が違う。これは数字には出ない。業務適性は「数字の上位3モデル」を実機で1〜2週間試してから判断するのが結局の正解です。

ベンチマーク vs 体感性能 4つのズレ要因 議論モード化・指示追従独立性・長文退行・出力スタイル ベンチマーク vs 体感性能 ズレの4要因 「数字は高いのに使いにくい」が起きる構造 ① 議論モード化 訂正に対して「いや違います」と粘る → ベンチには反映されない性格 ② 指示追従の独立性 SWE-bench 87% でも「JSON で返して」 が守れないモデルは別問題 ③ 長文保持の退行 Opus 4.7 は MRCR で 4.6 比退行 → 新しい=必ず良い、ではない ④ 出力スタイル Claude は冗長 / GPT は硬い / Gemini は浅い → 数字に出ない「質感」の違い AI Lab OISHI

業務シーン別「どのベンチマークを見るべきか」フローチャート

ベンチマークは無数にありますが、業務シーンを絞り込めば見るべき指標は3〜4個に減ります。シーン別の推奨ベンチをまとめます。

コーディング業務(バグ修正・新規開発・リファクタリング)→ 第一に SWE-bench Pro、補強で LiveCodeBench。Verified は飽和傾向で差が出にくいので、Pro を見るのが2026年5月の正解。Claude Opus 4.7 が現状トップクラス。

リサーチ・分析業務(市場調査・競合分析・論点整理)→ MMLU-Pro と GPQA Diamond。汎用知識と深い推論の両方が必要なので、両方を見る。3社94%台で横並び、ここはほぼ差なし。

数学・科学計算業務(財務モデリング・統計解析・実験設計)→ AIME と GPQA Diamond。論理的推論を要求するため、両方の高得点モデルを選ぶ。

長文ドキュメント処理(契約書レビュー・論文要約・コードベース全体読み)→ MRCR v2 を最優先。長文の「途中の重要事項」を取りこぼさないかが業務の死活問題。GPT-5.5 が現状リード、Opus 4.7 は退行があるので注意。

業務自動化・指示追従(バッチ処理・テンプレ運用・手順書通りの実行)→ IFEval と IFBench。「決まったフォーマットを守る」が崩れると運用が止まるので、ここの数字は妥協できない。

抽象判断・新規問題(マニュアル外の例外処理・前例なき判断)→ ARC-AGI 2。たとえるなら、ベテランが感覚で判断する領域。GPT-5.5 が85.0%でほぼ人間並み、ここを重視するならGPT-5.5 が強い。

業務シーン別 ベンチマーク選び方フローチャート 業務軸→推奨ベンチ→推奨モデルの3段マップ 業務シーン別 ベンチマーク選び方 業務 → 推奨ベンチ → 推奨モデル コーディング業務 SWE-bench Pro / LiveCodeBench リサーチ・分析業務 MMLU-Pro + GPQA Diamond 数学・科学計算 AIME + GPQA Diamond 長文ドキュメント MRCR v2 (1M) 業務自動化・指示追従 IFEval + IFBench 抽象判断・新規問題 ARC-AGI 2 推奨ベンチで上位2-3モデルを絞る 実機で1-2週間試してから決める AI Lab OISHI

2026年に出てきた新ベンチマークと業界トレンド

2026年に入ってから、新しいベンチマークが続々登場しました。背景は単純で、旧ベンチが飽和したから。具体的には次の4つが2026年の主役です。

SWE-bench Proは、Verified が飽和した(80%超が並ぶ)ため、上位難問だけを抽出した最新指標。Anthropic の Claude Opus 4.7 発表時に強調された指標で、64.3%という低めのスコア帯になっており、ここからしばらくは差が見える状態が続きます。

ARC-AGI 2は、ARC-AGI 1 が飽和してきた(GPT-5.4 Pro が2025年に85%超)ため、難化版として2025年末に登場。2026年5月時点で GPT-5.5 が85.0%で公式 human-level 閾値に到達、Opus 4.7 が75.8%、Gemini 3.1 Pro が77.1%の構図。抽象推論の最後の砦として注目されています。

MRCR v2 1Mは、長文コンテキスト保持を1Mトークン級で測る新指標。GPT-5.5 が74.0%でリード、Claude Opus 4.7 は4.6比で退行しているのが2026年5月のホットトピック。長文業務でモデル選定する人は、必ずここを見ないと事故る状態です。

IFBenchは、IFEval が訓練データ汚染で飽和したため、未公開の58種制約で測る汚染対策版。「未知の指示にも追従できるか」を測るため、業務自動化の本物の指標として2026年に主流化しました。

業界トレンドとして言えるのは、「能力の軸が細分化し、1モデルですべての軸でトップは取れない」時代に入ったこと。Opus 4.7 はSWE-bench Pro でトップ、GPT-5.5 はARC-AGI 2 と MRCR でトップ、Gemini 3.1 Pro はマルチモーダルでトップ。AIエージェント比較2026でも書いたとおり、1社集約より用途別併用が2026年の正解です。

ベンチマーク数字との付き合い方3原則

ここまでを踏まえて、初心者がベンチマーク数字と付き合うときの3原則を整理します。

原則① 単一ベンチで判断しない、複数軸で見る。「MMLU 92%だから凄い」は2026年では古い判断。SWE-bench Pro・GPQA Diamond・ARC-AGI 2・MRCR・IFBench を組み合わせて初めて、モデルの実力像が立ち上がります。1つの数字だけを見ると、各社の選択バイアスに引っかかります。

原則② 数字と体感のズレを前提にする、自分の業務で必ず試す。ベンチマークは「ペーパーテスト」、業務は「現場」。たとえるなら、模試で偏差値70の人がそのまま本番で結果を出すとは限らないのと同じで、ベンチマーク上位2〜3モデルを選んだら、必ず自分の業務で1〜2週間試して判断する。これを省略すると失敗します。

原則③ 「飽和済みベンチ」より「最新の未飽和ベンチ」を見る。MMLU 92% は2024年水準、SWE-bench Verified 87% は2025年水準。2026年に判断するなら、SWE-bench Pro・ARC-AGI 2・MRCR v2・IFBench のような未飽和ベンチを優先する。ベンチマークの世代交代を追わないと、古い情報で判断してしまうのが大きなリスクです。

まとめ|「数字=実力」は半分嘘、半分本当

本記事のまとめとして、「ベンチマーク数字=モデル実力」は半分嘘、半分本当と覚えてください。

「半分本当」の側面:ベンチマークがなければ、各社が「うちが最強」と言うだけで比較不能。共通指標で測ることで、初めて客観的な序列が見えます。SWE-bench Pro 64% と 30% のモデルがコーディング業務で同じ実力なわけがない。数字は判断の出発点として極めて重要です。

「半分嘘」の側面:ベンチマークは「同じ問題への正答率」しか測れず、業務の現場で起きる「曖昧な要件」「議論モード化」「指示追従の崩れ」「出力スタイルの質」は反映されない。たとえるなら、健康診断の数値は重要だが、それだけで「健康」を判断できないのと同じ。最後は実機で試して判断するしかありません。

2026年5月時点の実用解はシンプルで、「複数のベンチマークを横で見て上位2〜3モデルに絞り、自分の業務で1〜2週間試して決める」。本記事の主要4モデル比較表と業務シーン別フローチャートをそのまま選定の出発点として使ってください。次の壁が来た時にまた見直すのが、フロンティアモデル時代の付き合い方です。

FAQ|よくある質問

Q1. AIベンチマークって何ですか?なぜたくさん種類があるんですか?

AIモデルの能力を「同じ試験で測る」ための共通テストセットです。たくさんの種類がある理由は、AIに求められる能力の軸が複数あるから。汎用知識・コーディング・数学・抽象推論・長文理解・指示追従などは、それぞれ別の試験で測らないと差が見えません。たとえるなら、人間でも IQ テスト・TOEIC・プログラミング検定・数学オリンピックが別々にあるのと同じ。MMLUが汎用知識、SWE-benchがコーディング、ARC-AGIが抽象推論、MRCRが長文保持、IFEvalが指示追従、というように能力の軸ごとに別ベンチマークが用意されています。複数を組み合わせて見ることで、はじめてモデルの実力像が立ち上がります。

Q2. MMLUとMMLU-Proの違いは何ですか?

MMLU は2020年に登場した57科目の汎用知識テスト。当初は人間の専門家でも難しい難問でしたが、2024年にはほとんどのフロンティアモデルが90%超を取れるようになり「飽和」しました。差が出にくくなったため、難易度を引き上げた拡張版がMMLU-Proです。MMLU-ProはPhDレベルの問題が混じり、選択肢の数も増え、より深い推論が要求されます。2026年5月時点ではMMLU-Proも飽和に近づいていますが、まだ差は見える状態。AIモデル比較ではMMLU単体より、MMLU-Pro・GPQA Diamondなどの「より難しいテスト」のスコアが意味を持ちます。

Q3. SWE-bench Verified と SWE-bench Pro の違いは?

両方ともAIに「実際のGitHubのバグ修正タスクを解かせる」コーディング系ベンチマークですが、難易度と検証精度が違います。SWE-bench Verifiedは、SWE-bench全体(2,000+課題)から人間レビュアーが「明確に検証可能」と確認した500課題に絞ったセット。SWE-bench Proは、Verifiedの中でも特に難しい上位難問を抽出した最新版で、より「現場のシニアエンジニア相当」の能力を測ります。Claude Opus 4.7はSWE-bench Verifiedで87.6%、SWE-bench Proで64.3%を記録。Verifiedが飽和傾向の今、Proのスコア差が真のコーディング能力差を表します。

Q4. ARC-AGI 2 で 80% を超えるとどう凄いんですか?

ARC-AGI 2は抽象推論パズルで、人間並みの判定が可能な指標として設計されています。出題は色付きグリッドの変換ルールを推測する形式で、訓練データに依存しない「新規問題への適応力」を測ります。人間の個人テスター平均は約60%、複数人で議論すれば100%、ARC Prize公式の human-level 閾値は85%。ARC-AGI 1では2024年まで主要AIが30%程度でしたが、2026年5月時点で GPT-5.5 は 85.0% を達成し、公式の human-level 閾値に到達。Claude Opus 4.7 が75.8%、Gemini 3.1 Pro が77.1%の構図です。80%超は「初見の抽象問題でも人間個人を超えるレベル」で、業務でいえば「マニュアルにない例外処理を任せられる」目安と読めます。

Q5. ベンチマークが高いモデルなら必ず仕事で使いやすいんですか?

いいえ、ベンチマークと体感性能には明確なズレがあります。理由は4つ。① 飽和でMMLU90%超は差が見えにくく実用差にもならない。② データ汚染で訓練データに紛れた問題は正しく能力を測れない。③ 能力の独立性で推論ベンチが高くても指示追従や出力スタイルが弱いと使いにくい。④ 選択バイアスで各社が自社が強いベンチを選んで発表する。具体例として、GPT-5.5はARC-AGI 2で85%とトップですが、長文MRCRや議論モード化で使いにくいという声も多い。ベンチマーク数字は出発点であって絶対指標ではない、と理解した上で実際の業務で必ず試すのが鉄則です。

Q6. 業務でモデル選定するとき、どのベンチマークを見るべきですか?

業務シーン別の推奨ベンチマークは次のとおり。コーディング業務はSWE-bench ProとLiveCodeBench、リサーチ・分析業務はMMLU-Pro+GPQA Diamond数学・科学計算はAIME+GPQA長文ドキュメント処理はMRCR v2業務自動化・指示追従はIFEval+IFBench抽象判断・新規問題はARC-AGI 2。これらの組み合わせで「自分の業務に近い能力軸」を絞り込み、その軸で上位2-3モデルをピックアップ→実際にトライアルして決めるのが現実解です。1つのベンチマークだけで決めるのは危険ですが、複数軸で見ると意外と上位モデルは絞れます。

参照元・出典

← Blog一覧へ