Создание эталонного датасета — это нетривиальная по множеству причин задача: пользовательская обратная связь и другие «источники истины» крайне ограничены, а часто и вовсе не существуют; но даже когда разметка живыми людьми возможна, она всё равно дорого стоит. Поэтому многие исследуют возможности LLM в генерации синтетических эталонов, которые можно использовать для оценки других систем. Например,
«Judging LLM-as-a-judge» и
оценка Vicuna с использованием GPT-4 в качестве судьи. G-Eval — это новый фреймворк Microsoft, который использует LLM для Eval, состоящих из двух частей: первая генерирует этапы оценки, а вторая использует сгенерированные этапы для создания окончательной численной оценки.