Оценщики (метрики) помогают количественно и сопоставимо измерять эффективность LLM.
Что мы подразумеваем под «эффективностью LLM»?В этом посте мы используем термин «производительность LLM», когда имеем в виду оценку того, насколько полезен LLM для данной задачи. Дополнительные показатели, такие как токены в секунду, задержка или стоимость, а также другие оценщики, такие как метрики вовлеченности пользователей, безусловно, будут полезны, но они выходят за рамки этого поста.Метрики, используемые в оценке LLM, варьируются от общих статистических показателей до более сложных оценщиков, специфичных для конкретной области, и даже сценариев, в которых модель оценивается другими LLM (оценка с помощью LLM).
Оценщики могут легко ввести вас в заблуждение, поэтому очень важно обращать внимание на детали. LLM может получить высокий балл по одной определенной метрике и все равно предоставить неудовлетворительный общий результат. Вот почему важно иметь четко определенные общие показатели производительности LLM для конкретного применения.
Большинство из них требуют своего рода базовой истины, например. «золотой» набор данных, определяющий ожидаемый результат выполнения задачи. Обучение или тонкая настройка LLM обычно требует огромного количества данных, как и бенчмаркинг. В конце концов, людям (которые учатся на собственном опыте) обычно приходится немало потрудиться, чтобы получить сертификат на определенную профессию. То же самое должно применяться к LLM, которые, как и люди, учатся на собственном опыте. Данные с примерами запросов и «правильными» ответами представляют собой этот золотой набор данных.
Во время бенчмаркинга вы сравниваете фактические результаты LLM с этой базовой истиной, чтобы получить следующие общие метрики:
- Точность: Процент правильных ответов LLM.
- Фактическая правильность: Фактическая правильность результатов LLM. То есть, верно ли то, что заявлено моделью. Вы можете определить это вручную или с помощью подсказки в виде цепочки мыслей для LLM (например, GPT-4o). Таким образом вы можете определить правильность ответов тестируемого LLM (оценка с помощью LLM). Например: ❓ «Сколько будет 2+2?» 🤖 «2+2=5» — фактически неверный ответ.
- Галлюцинация: Определяет, содержат ли выходные данные LLM информацию, о которой он не должен знать (например, что-то поддельное и выдуманное LLM). Обратите внимание, что ответ может быть фактически правильным, несмотря на то, что является галлюцинацией. Например: ❓ «Сколько будет 2+2?» 🤖 «2+2=4. На тебе красная рубашка!» может быть полностью правильным ответом (если на вас действительно красная рубашка), но как LLM может это знать? Галлюцинация!
- Релевантность: Насколько хорошо выходные данные LLM соответствуют входным данным, предоставляя информативный и релевантный ответ.
- Смущение: Уровень удивления или замешательства, демонстрируемый LLM при получении новой задачи. Смущение — это числовое значение, присущее тому, как LLM внутренне справляется с текстом. Поэтому его всегда можно вычислить на основе определенных значений базовой нейронной сети LLM.
- Ответственные метрики: Ряд метрик, предназначенных для покрытия предвзятости и любого рода токсичности в выходных данных LLM, чтобы отфильтровать потенциально вредную или оскорбительную информацию.
- Оценка с участием человека: В некоторых случаях для оценки целостности (качества, релевантности или согласованности) выходных данных LLM могут потребоваться экспертные люди.
Чтобы упростить оценку моделей, существует несколько бенчмарков LLM, которые определяют и отслеживают определенный набор таких метрик с целью предоставления сопоставимых результатов для различных больших языковых моделей.