2026.05.10 · 18分で読める

AIベンチマーク完全初心者ガイド｜MMLU・SWE-bench・ARC-AGIの読み方【2026年5月】

Q: AIベンチマークって何ですか？なぜたくさん種類があるんですか？

AIベンチマークは、AIモデルの能力を「同じ試験で測る」ための共通テストセットです。たくさんの種類がある理由は、AIに求められる能力の軸が複数あるからです。汎用知識・コーディング・数学・抽象推論・長文理解・指示追従などは、それぞれ別の試験で測らないと能力差が見えません。たとえるなら、人間の能力も「IQテスト」「英語のTOEIC」「プログラミング検定」「数学オリンピック」のように複数あるのと同じで、ひとつのテストで全能力を測るのは不可能です。MMLUが汎用知識、SWE-benchがコーディング、ARC-AGIが抽象推論、MRCRが長文保持、IFEvalが指示追従、というように能力の軸ごとに別ベンチマークが用意されています。複数を組み合わせて見ることで、はじめてモデルの実力像がつかめます。

Q: MMLUとMMLU-Proの違いは何ですか？

MMLUは2020年に登場した57科目の汎用知識テスト（人文・社会・理工・医療など）。当初は人間の専門家でも難しい難問でしたが、2024年にはほとんどのフロンティアモデルが90%超を取れるようになり「飽和」しました。差が出にくくなったため、難易度を引き上げた拡張版がMMLU-Proです。MMLU-ProはPhDレベルの問題が混じり、選択肢の数も増え、より深い推論が要求されます。2026年5月時点ではMMLU-Proも飽和に近づいていますが、まだ差は見える状態。AIモデル比較では、MMLU単体の数字より、MMLU-Pro・GPQA Diamondなどの「より難しいテスト」のスコアが意味を持ちます。

Q: ベンチマークが高いモデルなら必ず仕事で使いやすいんですか？

いいえ、ベンチマークと体感性能には明確なズレがあります。理由は4つ。1つ目は「飽和」で、MMLU90%超は差が見えにくく実用差にもならない。2つ目は「データ汚染」で、訓練データに紛れた問題は正しく能力を測れない。3つ目は「能力の独立性」で、推論ベンチが高くても指示追従や出力スタイルが弱いと使いにくい。4つ目は「自社が強いベンチを選んで発表する選択バイアス」。具体例として、GPT-5.5はARC-AGI 2で85%とトップですが、長文MRCRや議論モード化で使いにくいという声も多い。ベンチマーク数字は出発点であって絶対指標ではない、と理解した上で実際の業務で必ず試すのが鉄則です。

Q: 業務でモデル選定するとき、どのベンチマークを見るべきですか？

業務シーン別の推奨ベンチマークは次のとおり。コーディング業務はSWE-bench ProとLiveCodeBench。リサーチ・分析業務はMMLU-Pro+GPQA Diamond。数学・科学計算はAIME+GPQA。長文ドキュメント処理（契約書・論文）はMRCR v2。業務自動化・指示追従はIFEval+IFBench。抽象判断・新規問題はARC-AGI 2。これらの組み合わせで「自分の業務に近い能力軸」を絞り込み、その軸で上位2-3モデルをピックアップ→実際にトライアルして決めるのが現実解です。1つのベンチマークだけで決めるのは危険ですが、複数軸で見ると意外と上位モデルは絞れます。

「Claude Opus 4.7 が SWE-bench で 87.6%」「GPT-5.5 が ARC-AGI 2 で 85%」——AI関連のニュースを読むと、こうした数字が次々と飛び込んできます。でも、「で、それって何が良いの？」「85% って凄いの？普通なの？」と感じたことはないでしょうか。本記事は、AIモデルの実力を測るために業界が使っている主要7つのベンチマーク（MMLU・GPQA・SWE-bench・AIME・ARC-AGI 2・MRCR・IFEval）を、専門知識ゼロでも読めるように初心者向けで完全解説します。

結論を先に言うと、ベンチマークは「AIモデル版の学力試験」です。MMLU は5教科の総合学力テスト、SWE-bench はプログラミングの実技試験、ARC-AGI は IQ テスト、MRCR は読解力試験——というように、能力の軸ごとに別々のテストがあります。本記事では、これらの試験が「何を測るのか・何点なら凄いのか・落とし穴は何か・自分の業務に使うならどれを見るべきか」を一気通貫で整理しました。Claude Opus 4.7・GPT-5.5・Gemini 3.1 Pro の最新スコア横比較も収録しているので、AIニュースで出てくる数字を「読める目」が身につきます。

AIベンチマークとは何か｜なぜたくさんあるのか

AIベンチマークは、AIモデルの能力を「同じ試験」で測るために業界が共同で使っている標準テストセットです。たとえるなら、大学受験における共通テストのようなもの。共通の問題に対して各モデルが回答し、得点で実力を比較します。これがなければ、各社が「うちのモデルは凄い」と言うだけで比較できません。

では、なぜ種類がたくさんあるのか。答えは「AIに求められる能力の軸が複数ある」から。人間でも、IQテストが高い人がプログラミングが得意とは限らないし、英語が得意でも数学が苦手な人もいる。AIモデルも同じで、汎用知識・コーディング・数学・抽象推論・長文理解・指示追従と、能力の軸はバラバラです。無料AIツール25選でも触れたとおり、AIを使いこなすには「自分の用途に向いた能力軸」を見極めるのが鉄則で、ベンチマークはその判断材料です。

歴史的に見ると、ベンチマークは「飽和→新指標→飽和→新指標」のサイクルで進化しています。2020年に登場したMMLUは2024年までに飽和（モデルが軒並み90%超）して差がつかなくなり、MMLU-Pro・GPQA Diamondという難化版が登場。SWE-benchも飽和傾向で、より難しいSWE-bench Proが2026年に主要指標に。ARC-AGI 1も飽和直前でARC-AGI 2が登場。たとえるなら、模試業界が毎年問題を更新して受験生の実力を正確に測り続けるのと同じで、ベンチマークの世代交代を追わないと「古い数字を信じて判断ミス」が起きます。

主要7ベンチマークを「何を測るか」で整理

2026年5月時点で押さえておくべきベンチマークは7つ。それぞれが「何を測るのか」を1パラグラフずつで整理します。

① MMLU / MMLU-Pro（汎用知識）。Massive Multitask Language Understanding の略で、57科目（人文・社会・理工・医療など）から出題される選択式テスト。MMLU は飽和済み、MMLU-Pro は PhDレベル問題を混ぜた難化版で、2026年5月時点でも差が見える指標です。読書感想文やリサーチ系の業務で「このAIは何を知ってるか」を判断する時に見る指標。

② GPQA Diamond（PhDレベル科学）。Graduate-Level Google-Proof Q&A の略で、生物・化学・物理のPhDレベル難問が出題されます。「Google検索しても答えられない」レベルに調整されており、深い専門知識と推論を要求。研究開発・医療・科学計算の業務で AI を使うなら必ず見るべき指標です。

③ SWE-bench Verified / SWE-bench Pro（コーディング）。実際のGitHub上のバグ修正課題をAIに解かせる、最も実務に近いコーディングベンチマーク。Verifiedは検証済み500題、Proはその中の上位難問。AIエージェント比較2026でも触れたとおり、コーディングAI選定の決定打になる指標です。

④ AIME（数学）。American Invitational Mathematics Examination の略で、米国の高校生向け数学コンテスト。AIMEレベルの問題は単なる計算ではなく「証明思考・数論・組合せ論」を要求するため、論理的推論能力の指標として使われます。財務モデリングや統計解析の業務でAIを使う場合に見る指標。

⑤ ARC-AGI / ARC-AGI 2（抽象推論）。Abstraction and Reasoning Corpus の略で、色付きグリッドの変換ルールを推測する抽象パズル。訓練データに依存しない新規問題への適応力を測るため、「マニュアルにない例外処理」を任せられるかの指標になります。人間の個人テスターの平均が約60%、複数人で議論すれば100%、ARC Prize公式の human-level 到達閾値は85%（個人テスターと複数人パネルの中間ライン）。AIが閾値ラインに到達しつつある現在、最も注目される指標です。

⑥ MRCR（長文コンテキスト保持）。Multi-Round Coreference Resolution の略で、1Mトークン級の長文の中から複数の手がかりを正確に拾う能力を測ります。契約書全文・論文・コードベース全体をAIに読ませる業務で、性能が直接的に効くベンチマーク。長文系の業務には欠かせません。

⑦ IFEval / IFBench（指示追従）。Instruction Following Evaluation の略で、「400字以上で書け」「特定の単語を1度だけ使え」のような明示的な制約を守れるかを測ります。IFEval は2023年に登場し飽和したため、汚染対策版のIFBench が2026年に主流に。たとえるなら、料理人がレシピの細かい指示通りに作れるかを測る試験。業務自動化でAIを使うなら、ここが弱いと運用が崩壊します。

「何点なら凄い？」初心者向けスコア感覚表

ベンチマークは数字を見ても、それが何を意味するか分からないと判断できません。主要ベンチマークの「初心者向けスコア感覚」を表にまとめます（2026年5月時点）。横スクロールで全カラムを確認できます。

ベンチマーク	凄いライン	実用ライン	物足りない	参考：人間平均
MMLU-Pro	90% 以上	80% 以上	70% 未満	専門家 80%前後
GPQA Diamond	90% 以上	80% 以上	70% 未満	PhD 65%前後
SWE-bench Pro	60% 以上	40% 以上	30% 未満	シニアSE 上限不明
AIME	90% 以上	70% 以上	50% 未満	数学得意な高校生 50%
ARC-AGI 2	80% 以上	70% 以上	50% 未満	個人60% / 閾値85%
MRCR v2 (1M)	70% 以上	50% 以上	35% 未満	人間計測対象外
IFEval / IFBench	90% / 70% 以上	80% / 60%	70% / 50% 未満	人間計測対象外

表を見て分かるとおり、ベンチマークごとに「何点なら凄いか」がぜんぜん違う。MMLU-Pro の 80% は「実用」だが、SWE-bench Pro の 80% は「フロンティアモデル超え」のレベル。この感覚を持たないと、ニュースの数字を見ても「凄いのか普通なのか」判断できないのが初心者の壁です。

主要4モデル横比較（2026年5月時点の最新スコア）

「数字感覚」を押さえたら、次は主要モデルの実スコアを見ます。2026年5月時点で押さえるべきフロンティアモデル4つを横比較しました。

モデル	SWE-bench V	SWE-bench Pro	GPQA Diamond	ARC-AGI 2	MRCR (1M)
Claude Opus 4.7	87.6%	64.3%	94.2%	75.8%	4.6比退行
GPT-5.5	88.7%	参考値	94.4%	85.0%	74.0%
Gemini 3.1 Pro	80.6%	参考値	94.3%	77.1%	参考値
Claude Sonnet 4.6	参考値	参考値	参考値	参考値	参考値

表から見える構図はシンプルで、「コーディングの本物の難問（SWE-bench Pro）はClaude Opus 4.7が頭ひとつ抜けている／抽象推論（ARC-AGI 2）はGPT-5.5が圧勝／PhDレベル科学（GPQA Diamond）は3社横並び（94%台）／長文（MRCR）はGPT-5.5が劇的改善でClaude Opus 4.7は退行」という3すくみ。GPT-5.5完全解説とClaude Opus 4.7ガイドでも触れたとおり、業務の中心が何かで「向く・向かない」が大きく変わるのが2026年5月のフロンティアモデルです。

ベンチマークの落とし穴｜飽和・データ汚染・実用乖離

ベンチマーク数字は便利ですが、4つの落とし穴を知らないと判断ミスします。

① 飽和。MMLU は2024年に主要モデルが90%超で「天井」に達し、もう差が見えません。「MMLU 92%」と聞いても、それが2024年の水準かフロンティアかわからない。飽和したベンチマークは、判断材料として価値が下がる。MMLU-ProやGPQA Diamondのような「より難しいベンチ」を見るのが正しい付き合い方。

② データ汚染。ベンチマークの問題が訓練データに紛れ込むと、モデルは「答えを覚えただけ」で高得点を取れる。ARC-AGI 2 や IFBench が新しく登場した理由のひとつは、旧版の問題がネット上に拡散して訓練データに混入したから。「未公開の出題（hold-out）」を含むベンチマークほど信頼できるのが原則です。

③ 実用との乖離。ベンチマークは「同じ問題に対する正答率」を測りますが、実務は「問題が定義されていない状況でどう動くか」が問われます。たとえば SWE-bench で 87.6% を取るモデルでも、「お客様から曖昧な要件を聞き出してコード化する」業務は別の能力。たとえるなら、ペーパーテストで満点取る人が実際の現場で活躍するとは限らないのと同じです。

④ 選択バイアス。各社が発表会で見せるスコアは「自社が強いベンチマーク」に偏っています。OpenAIはGPT-5.5が強いARC-AGI 2を強調し、Anthropic は SWE-bench Pro を強調する。1社が出す数字だけを信じない、複数の独立リーダーボードを横で見るのが鉄則。Vellum・LLM Stats・Artificial Analysis などの第三者リーダーボードが頼りになります。

ベンチマークと体感性能のズレ｜なぜ高得点モデルが「使いにくい」

業務でAIを使っている人なら、こんな経験があるはず。「ベンチマークで高得点のモデルが、実際使うとイマイチ」。これは気のせいではなく、構造的に起きる現象です。理由を4つ。

① 議論モード化。Opus 4.7・GPT-5.5 のような新世代モデルは、ユーザーの訂正に対して「いや、それは違います」と粘る傾向があります。ベンチマークは「正答を出すか」だけを測るので、この性格は反映されない。しかし業務では「素直に直してくれない AI」は致命的にストレスフル。Claude劣化の真相でも触れたとおり、2026年に複数モデルで観測される共通課題です。

② 指示追従と推論性能の独立性。SWE-bench で 87% 取るモデルでも、「出力を JSON 形式で返して」「500字以内で書いて」のような明示的な指示を守るかは別問題。IFEval / IFBench を別軸で見ないと、実務ではガチガチに困ります。たとえるなら、東大入試の数学を解ける人が、上司の細かい指示を100%守れるとは限らないのと同じ。

③ 長文保持の退行。Opus 4.7 は SWE-bench で過去最高ですが、MRCR は Opus 4.6 比で退行しています。長文ドキュメントを扱う業務では、「最新版のほうが弱い」という逆転現象が起きる。新しいモデルが必ず良いわけではない、という事実を覚えておく必要があります。

④ 出力スタイル・トーン。同じ正答率でも、Claude は冗長すぎる、GPT は硬すぎる、Gemini は浅い、というように出力品質の「質感」が違う。これは数字には出ない。業務適性は「数字の上位3モデル」を実機で1〜2週間試してから判断するのが結局の正解です。

業務シーン別「どのベンチマークを見るべきか」フローチャート

ベンチマークは無数にありますが、業務シーンを絞り込めば見るべき指標は3〜4個に減ります。シーン別の推奨ベンチをまとめます。

コーディング業務（バグ修正・新規開発・リファクタリング）→ 第一に SWE-bench Pro、補強で LiveCodeBench。Verified は飽和傾向で差が出にくいので、Pro を見るのが2026年5月の正解。Claude Opus 4.7 が現状トップクラス。

リサーチ・分析業務（市場調査・競合分析・論点整理）→ MMLU-Pro と GPQA Diamond。汎用知識と深い推論の両方が必要なので、両方を見る。3社94%台で横並び、ここはほぼ差なし。

数学・科学計算業務（財務モデリング・統計解析・実験設計）→ AIME と GPQA Diamond。論理的推論を要求するため、両方の高得点モデルを選ぶ。

長文ドキュメント処理（契約書レビュー・論文要約・コードベース全体読み）→ MRCR v2 を最優先。長文の「途中の重要事項」を取りこぼさないかが業務の死活問題。GPT-5.5 が現状リード、Opus 4.7 は退行があるので注意。

業務自動化・指示追従（バッチ処理・テンプレ運用・手順書通りの実行）→ IFEval と IFBench。「決まったフォーマットを守る」が崩れると運用が止まるので、ここの数字は妥協できない。

抽象判断・新規問題（マニュアル外の例外処理・前例なき判断）→ ARC-AGI 2。たとえるなら、ベテランが感覚で判断する領域。GPT-5.5 が85.0%でほぼ人間並み、ここを重視するならGPT-5.5 が強い。

2026年に出てきた新ベンチマークと業界トレンド

2026年に入ってから、新しいベンチマークが続々登場しました。背景は単純で、旧ベンチが飽和したから。具体的には次の4つが2026年の主役です。

SWE-bench Proは、Verified が飽和した（80%超が並ぶ）ため、上位難問だけを抽出した最新指標。Anthropic の Claude Opus 4.7 発表時に強調された指標で、64.3%という低めのスコア帯になっており、ここからしばらくは差が見える状態が続きます。

ARC-AGI 2は、ARC-AGI 1 が飽和してきた（GPT-5.4 Pro が2025年に85%超）ため、難化版として2025年末に登場。2026年5月時点で GPT-5.5 が85.0%で公式 human-level 閾値に到達、Opus 4.7 が75.8%、Gemini 3.1 Pro が77.1%の構図。抽象推論の最後の砦として注目されています。

MRCR v2 1Mは、長文コンテキスト保持を1Mトークン級で測る新指標。GPT-5.5 が74.0%でリード、Claude Opus 4.7 は4.6比で退行しているのが2026年5月のホットトピック。長文業務でモデル選定する人は、必ずここを見ないと事故る状態です。

IFBenchは、IFEval が訓練データ汚染で飽和したため、未公開の58種制約で測る汚染対策版。「未知の指示にも追従できるか」を測るため、業務自動化の本物の指標として2026年に主流化しました。

業界トレンドとして言えるのは、「能力の軸が細分化し、1モデルですべての軸でトップは取れない」時代に入ったこと。Opus 4.7 はSWE-bench Pro でトップ、GPT-5.5 はARC-AGI 2 と MRCR でトップ、Gemini 3.1 Pro はマルチモーダルでトップ。AIエージェント比較2026でも書いたとおり、1社集約より用途別併用が2026年の正解です。

ベンチマーク数字との付き合い方3原則

ここまでを踏まえて、初心者がベンチマーク数字と付き合うときの3原則を整理します。

原則① 単一ベンチで判断しない、複数軸で見る。「MMLU 92%だから凄い」は2026年では古い判断。SWE-bench Pro・GPQA Diamond・ARC-AGI 2・MRCR・IFBench を組み合わせて初めて、モデルの実力像が立ち上がります。1つの数字だけを見ると、各社の選択バイアスに引っかかります。

原則② 数字と体感のズレを前提にする、自分の業務で必ず試す。ベンチマークは「ペーパーテスト」、業務は「現場」。たとえるなら、模試で偏差値70の人がそのまま本番で結果を出すとは限らないのと同じで、ベンチマーク上位2〜3モデルを選んだら、必ず自分の業務で1〜2週間試して判断する。これを省略すると失敗します。

原則③ 「飽和済みベンチ」より「最新の未飽和ベンチ」を見る。MMLU 92% は2024年水準、SWE-bench Verified 87% は2025年水準。2026年に判断するなら、SWE-bench Pro・ARC-AGI 2・MRCR v2・IFBench のような未飽和ベンチを優先する。ベンチマークの世代交代を追わないと、古い情報で判断してしまうのが大きなリスクです。

まとめ｜「数字＝実力」は半分嘘、半分本当

本記事のまとめとして、「ベンチマーク数字＝モデル実力」は半分嘘、半分本当と覚えてください。

「半分本当」の側面：ベンチマークがなければ、各社が「うちが最強」と言うだけで比較不能。共通指標で測ることで、初めて客観的な序列が見えます。SWE-bench Pro 64% と 30% のモデルがコーディング業務で同じ実力なわけがない。数字は判断の出発点として極めて重要です。

「半分嘘」の側面：ベンチマークは「同じ問題への正答率」しか測れず、業務の現場で起きる「曖昧な要件」「議論モード化」「指示追従の崩れ」「出力スタイルの質」は反映されない。たとえるなら、健康診断の数値は重要だが、それだけで「健康」を判断できないのと同じ。最後は実機で試して判断するしかありません。

2026年5月時点の実用解はシンプルで、「複数のベンチマークを横で見て上位2〜3モデルに絞り、自分の業務で1〜2週間試して決める」。本記事の主要4モデル比較表と業務シーン別フローチャートをそのまま選定の出発点として使ってください。次の壁が来た時にまた見直すのが、フロンティアモデル時代の付き合い方です。

FAQ｜よくある質問

Q1. AIベンチマークって何ですか？なぜたくさん種類があるんですか？

AIモデルの能力を「同じ試験で測る」ための共通テストセットです。たくさんの種類がある理由は、AIに求められる能力の軸が複数あるから。汎用知識・コーディング・数学・抽象推論・長文理解・指示追従などは、それぞれ別の試験で測らないと差が見えません。たとえるなら、人間でも IQ テスト・TOEIC・プログラミング検定・数学オリンピックが別々にあるのと同じ。MMLUが汎用知識、SWE-benchがコーディング、ARC-AGIが抽象推論、MRCRが長文保持、IFEvalが指示追従、というように能力の軸ごとに別ベンチマークが用意されています。複数を組み合わせて見ることで、はじめてモデルの実力像が立ち上がります。

Q2. MMLUとMMLU-Proの違いは何ですか？

MMLU は2020年に登場した57科目の汎用知識テスト。当初は人間の専門家でも難しい難問でしたが、2024年にはほとんどのフロンティアモデルが90%超を取れるようになり「飽和」しました。差が出にくくなったため、難易度を引き上げた拡張版がMMLU-Proです。MMLU-ProはPhDレベルの問題が混じり、選択肢の数も増え、より深い推論が要求されます。2026年5月時点ではMMLU-Proも飽和に近づいていますが、まだ差は見える状態。AIモデル比較ではMMLU単体より、MMLU-Pro・GPQA Diamondなどの「より難しいテスト」のスコアが意味を持ちます。

Q3. SWE-bench Verified と SWE-bench Pro の違いは？

両方ともAIに「実際のGitHubのバグ修正タスクを解かせる」コーディング系ベンチマークですが、難易度と検証精度が違います。SWE-bench Verifiedは、SWE-bench全体（2,000+課題）から人間レビュアーが「明確に検証可能」と確認した500課題に絞ったセット。SWE-bench Proは、Verifiedの中でも特に難しい上位難問を抽出した最新版で、より「現場のシニアエンジニア相当」の能力を測ります。Claude Opus 4.7はSWE-bench Verifiedで87.6%、SWE-bench Proで64.3%を記録。Verifiedが飽和傾向の今、Proのスコア差が真のコーディング能力差を表します。

Q4. ARC-AGI 2 で 80% を超えるとどう凄いんですか？

ARC-AGI 2は抽象推論パズルで、人間並みの判定が可能な指標として設計されています。出題は色付きグリッドの変換ルールを推測する形式で、訓練データに依存しない「新規問題への適応力」を測ります。人間の個人テスター平均は約60%、複数人で議論すれば100%、ARC Prize公式の human-level 閾値は85%。ARC-AGI 1では2024年まで主要AIが30%程度でしたが、2026年5月時点で GPT-5.5 は 85.0% を達成し、公式の human-level 閾値に到達。Claude Opus 4.7 が75.8%、Gemini 3.1 Pro が77.1%の構図です。80%超は「初見の抽象問題でも人間個人を超えるレベル」で、業務でいえば「マニュアルにない例外処理を任せられる」目安と読めます。

Q5. ベンチマークが高いモデルなら必ず仕事で使いやすいんですか？

いいえ、ベンチマークと体感性能には明確なズレがあります。理由は4つ。① 飽和でMMLU90%超は差が見えにくく実用差にもならない。② データ汚染で訓練データに紛れた問題は正しく能力を測れない。③ 能力の独立性で推論ベンチが高くても指示追従や出力スタイルが弱いと使いにくい。④ 選択バイアスで各社が自社が強いベンチを選んで発表する。具体例として、GPT-5.5はARC-AGI 2で85%とトップですが、長文MRCRや議論モード化で使いにくいという声も多い。ベンチマーク数字は出発点であって絶対指標ではない、と理解した上で実際の業務で必ず試すのが鉄則です。

Q6. 業務でモデル選定するとき、どのベンチマークを見るべきですか？

業務シーン別の推奨ベンチマークは次のとおり。コーディング業務はSWE-bench ProとLiveCodeBench、リサーチ・分析業務はMMLU-Pro+GPQA Diamond、数学・科学計算はAIME+GPQA、長文ドキュメント処理はMRCR v2、業務自動化・指示追従はIFEval+IFBench、抽象判断・新規問題はARC-AGI 2。これらの組み合わせで「自分の業務に近い能力軸」を絞り込み、その軸で上位2-3モデルをピックアップ→実際にトライアルして決めるのが現実解です。1つのベンチマークだけで決めるのは危険ですが、複数軸で見ると意外と上位モデルは絞れます。

参照元・出典

← Blog一覧へ