Benchmarkベンチマーク(ベンチマーク)中級Core Concepts特定のタスクにおける異なるAIモデルの性能を測定・比較するための標準化されたテストやデータセット。なぜ重要かベンチマークはモデル間の精度、速度、能力を比較し、適切なモデル選択を支援します。実際の活用例MMLU(大規模マルチタスク言語理解)が57科目にわたるモデルの回答能力をテストする。