Когда речь заходит об оценке больших языковых моделей (LLM), первое, что приходит на ум, — это традиционный бенчмаркинг. Обычно он включает в себя использование датасетов вроде
ARC или
SWAG, известных своей ориентацией на задачи формата вопрос-ответ. Хотя такие бенчмарки отлично подходят для измерения базовых знаний и оценки здравого смысла модели, они не охватывают более глубокие аспекты безопасности и надёжности LLM-модели. Например, они не проверяют, может ли модель случайно сгенерировать оскорбительный контент, усилить негативные стереотипы или быть использована для написания вредоносного ПО и фишинговых писем.
Важно также понимать разницу между оценкой базовых (foundation) моделей и конкретных LLM-приложений. Хотя обе категории сталкиваются с общими рисками, такими как генерация токсичного контента или поддержка незаконных действий, в дальнейшем задачи могут существенно различаться. LLM-приложения, особенно те, что используются в чувствительных или строго регулируемых сферах, сталкиваются с уникальными проблемами: управление поведением, выходящим за рамки ожидаемого, или предотвращение галлюцинаций системы, которые могут ввести пользователей в заблуждение. Поскольку эта разница критически важна, давайте разберём её подробнее.
LLM-приложение — это не базовая модельРаспространённое заблуждение при оценке заключается в том, что базовые модели и LLM-приложения — это одно и то же. Хотя у них действительно есть ряд общих глобальных рисков — например, мы никогда не захотим, чтобы LLM-приложение сгенерировало токсичный или оскорбительный контент, поддерживало незаконные действия или распространяло негативные стереотипы, — существуют и специфические риски, связанные именно с развертыванием LLM-приложений.
В контексте LLM-приложения, особенно если это чат-бот, скорее всего, вам не нужно, чтобы он обсуждал конкурентов, политику или любые другие неуместные или нерелевантные темы. Более того, само понятие «неуместного» зависит от контекста использования приложения. Таким образом, существуют нежелательные сценарии поведения (out-of-scope behavior), которых необходимо избегать, специфические для конкретной области галлюцинации и набор ценностных ограничений, применимых только к LLM-приложению.
Это означает, что red teaming для LLM-приложений — это сложный и многогранный процесс. В зависимости от сферы применения LLM требования к red teaming должны обсуждаться со всеми заинтересованными сторонами, участвующими в его разработке.