Такие бенчмарки оценивают способности моделей к
рассуждениям, аргументации и ответам на вопросы. Некоторые из них предназначены для конкретных предметных областей, другие более общие.
HellaSwag (GitHub)Этот бенчмарк делает упор на
инференсах здравого смысла на естественном языке, то есть проверяет, может ли модель действительно завершать реалистичные предложения человека. Он содержит вопросы, которые тривиальны для людей, но могут представлять сложность для моделей.
Датасет содержит
70 тысяч вопросов с несколькими вариантами ответов (основанных на activitynet или wikihow) и с состязательным множеством сгенерированных машиной (и верифицированных человеком) ошибочных ответов. Модели должны выбрать один из четырёх вариантов того, как можно продолжить предложение.
BIG-Bench Hard (GitHub)Этот бенчмарк основан на
BIG-Bench (Beyond the Imitation Game Benchmark), который содержит более двухсот задач в
широком спектре типов задач и предметных областей.
В BIG-Bench Hard упор сделан на подмножество из 23 самых сложных задач BIG-Bench. Это задачи, в которых оценки модели не могут превзойти показатели среднестатистического живого оценщика (до использования бенчмарка).
SQuAD (GitHub)Stanford Question Answering Dataset (SQuAD) тестирует
понимание прочитанного. Этот бенчмарк содержит
107785 пар вопросов и ответов по 536 статьям Википедии; пары составлены людьми и собраны при помощи краудсорсинга. Кроме того, SQuAD 2.0
содержит 50 тысяч вопросов, на которые невозможно ответить, для тестирования того, могут ли модели определять, когда исходный материал не предусматривает ответа, и не отвечать на него.
Отдельный набор тестов оставлен конфиденциальным, чтобы не скомпрометировать целостность результатов (например, чтобы модели не могли на нём обучаться). Чтобы оценить модель по набору тестов SQuAD, необходимо передать её разработчикам бенчмарка.
IFEval (GitHub)IFEval оценивает способность моделей
следовать инструкциям на естественном языке. Он содержит
более пятисот промтов с поддающимися проверке инструкциями, например, «напиши более 400 слов» или «упомяни ключевое слово ИИ не менее трёх раз». IFEval содержится в
Open LLM Leaderboard Hugging Face.
MuSR (GitHub)Датасет MuSR (Multi-step Soft Reasoning) создан для оценки моделей в задачах с
цепочками рассуждений на основе здравого смысла, описанными на естественном языке. MuSR обладает двумя важными характеристиками, отличающими его от других бенчмарков:
- Алгоритмически сгенерированный датасет со сложными задачами
- Датасет содержит произвольные тексты, соответствующие предметным областям рассуждений из реального мира.
MuSR требует от моделей применять многоэтапные рассуждения для решения детективных задач про убийства, ответов на вопросы о расположении объектов и оптимизации распределения ролей в командах. Модели должны
парсить длинные тексты для того, чтобы понять контекст, а затем
применять рассуждения на основании этого контекста. MuSR включён в
Open LLM Leaderboard Hugging Face.
MMLU-PRO (GitHub)MMLU-PRO расшифровывается как Massive Multitask Language Understanding — Professional. Это улучшенная версия стандартного
датасета MMLU.
В этом бенчмарке модели должны
отвечать на вопросы с десятью вариантами ответов (а не с четырьмя, как в обычном MMLU); некоторые вопросы требуют рассуждений. Качество датасета выше, чем у MMLU, который содержит шумные данные и загрязнение данных (то есть многие новые модели, скорее всего, будут обучаться на содержащихся в нём вопросах), что снижает его сложность для модели, а значит, и его полезность. MMLU-PRO считается
более сложным, чем MMLU. MMLU-PRO включён в
Open LLM Leaderboard Hugging Face.
MT-BenchMT-Bench — это многоэтапный бенчмарк (с уточняющими вопросами), оценивающий способность модели участвовать в
целостных, информативных и увлекательных беседах. Этот бенчмарк делает упор на
способность создавать поток беседы и следовать инструкциям.
MT-Bench
содержит 80 вопросов и 3300 ответов (сгенерированных шестью моделями), отражающих человеческие предпочтения. В бенчмарке используется
методика LLM-as-a-judge: сильные LLM, например, GPT-4, оценивают качество ответов модели. Ответы аннотировались аспирантами, имеющими опыт в соответствующих предметных областях.