Вы можете использовать тот же подход в своем evaluation prompt: попросите модель объяснить своё рассуждение или думать шаг за шагом, фактически реализуя
Zero-Shot-CoT. В этом случае модель будет выдавать как обоснование, так и итоговый результат в одном ответе. Дальнейшие
исследования показывают, что это значительно повышает качество оценок.
Кроме того, этот метод создаёт trace логики, который можно впоследствии проанализировать. Это особенно полезно при траблшутинге во время разбора ответов. Например, сгенерированное обоснование может показать, какие части текста привели модель к тому, чтобы пометить его как некорректный или содержащий лично идентифицируемую информацию (PII).
Multi-turn Chain of Thought: Некоторые исследователи изучают более сложные подходы к CoT. Например, одна из методик —
G-Eval (
см. Liu et al., 2023) — использует процесс, в котором ИИ сначала определяет задачу, затем планирует шаги, а потом заполняет форму оценки. Однако дальнейшие исследования показывают, что такая автоматически сгенерированная CoT-логика не всегда дает лучшие результаты. Напротив, простой запрос к LLM на объяснение или анализ зачастую превосходит этот метод (
см. Chiang et al., 2023).
6. Установите низкую температуруВ LLM temperature контролирует степень случайности вывода. Высокие значения приводят к большему разнообразию ответов, тогда как низкие делают генерацию более предсказуемой. При оценке вам не нужна креативность — установите низкую температуру, чтобы модель давала стабильные ответы на одинаковый ввод.
7. Используйте более мощную модельПри проведении оценки логично начинать с более сильной модели. Это, как правило, повышает согласованность ответов с человеческими суждениями. Получив надежную референтную точку, можно экспериментировать с меньшими или менее мощными моделями, чтобы понять, удовлетворяют ли они вашим требованиям.
8. Получайте структурированные выходные данныеНаконец, всегда стремитесь к структурированному формату вывода, например, JSON. Это значительно упрощает разбор и дальнейший анализ результатов оценки.
Итоги. Подытожим основные рекомендации по написанию evaluation prompts:
- Используйте бинарные или низкоточные оценки.
- Разбивайте сложные критерии на отдельные метрики.
- Чётко определяйте значение каждой оценки или метки, добавляйте примеры.
- Просите LLM думать шаг за шагом и объяснять свою логику.
- Устанавливайте низкую температуру.
- Используйте более мощную модель, если это возможно.
Начинать лучше с простых подходов. Пока вы оцениваете, насколько эффективно работает ваш LLM-судья, можно придерживаться базового метода и использовать его, если он дает устойчивые результаты. Если же вы хотите поэкспериментировать с более сложными техниками (например, многошаговой цепочкой рассуждений с дополнительными LLM-вызовами), этот базовый подход станет хорошей отправной точкой.
Для более глубокого обзора исследований по теме LLM-as-a-judge рекомендуем отличные материалы
Cameron Wolfe и
Eugene Yan.