Оценка всего диалога в целом полезна, потому что некоторые критерии оценки требуют весь диалог в качестве контекста. Представьте, что вы создаете чат-бота, чтобы помочь пользователям открыть банковский счет. Такой агент на основе LLM должен будет спросить имя пользователя, адрес, номер социального страхования (SSN) и другую информацию, но распространенная проблема, с которой вы можете столкнуться, заключается в том, что агент может забывать уже предоставленную пользователем информацию, что приводит к повторным вопросам и вызывает у пользователей раздражение.
Чтобы определить метрику для оценки способности LLM и промптов сохранять ранее полученные данные, вам придется анализировать весь диалог целиком. Первая метрика, которую я хотел бы представить, — это
метрика сохранения знаний (knowledge retention metric). Она оценивает, насколько хорошо чат-бот на основе LLM способен сохранять предоставленную информацию на протяжении всего диалога. Вы можете получить к ней доступ в DeepEval.
Еще одна ситуация, в которой оценка всего диалога полезна, — это когда вы хотите использовать все ходы в беседе для построения итогового оценочного показателя. (Если вас интересует, что я имею в виду под «оценочным показателем»,
рекомендую прочитать статью, где подробно объясняется, что такое метрика оценки LLM.)
Например, вы хотите измерить, насколько релевантны ответы чат-бота. Итоговая метрика релевантности диалога может быть определена как количество релевантных ответов, деленное на общее количество ходов в беседе. Но возникает вопрос: как определить, является ли ответ релевантным?
Разве вы не можете просто попросить судью LLM назвать вам количество нерелевантных ответов, предоставив ему всю историю ходов? Проблема с этим подходом состоит в том, что
судья LLM может галлюцинировать, когда разговор становится длинным. Но еще более важный вопрос, который вы должны задать себе, — какие предыдущие ходы следует учитывать при измерении релевантности ответа. Позвольте мне объяснить.
Представьте диалог из 100 ходов (да, это звучит как задача из учебника по математике). Вы оцениваете 50-й ход. Ответ может быть нерелевантным, если учитывать только два предыдущих хода (48-й и 49-й). Однако он оказывается крайне релевантным, если принять во внимание предыдущие 10 ходов (с 39-го по 49-й).