Хотя современные методы оценки LLM-моделей дают ценные инсайты, они далеки от совершенства. Основные проблемы, с которыми сталкиваются исследователи:
OverfittingИсследование Scale AI показало, что некоторые LLM-модели переобучаются (overfitting) на популярных AI-бенчмарках. Для выявления этой проблемы они создали новый тест GSM1k, который представляет собой уменьшенную версию математического бенчмарка GSM8k. Модели LLM показали результаты на GSM1k значительно худшие по сравнению с GSM8k, что указывает на отсутствие подлинного понимания материала.
Модели Mistral и Phi провалили тест, а GPT-4, Claude, Gemini и Llama показали слабые результаты. Это демонстрирует, что существующие методы оценки могут вводить в заблуждение из-за эффекта overfitting, и подчеркивает необходимость новых тестов, подобных GSM1k
6.
Data contaminationFoundation-модели обучаются на широком наборе источников данных, однако организации-разработчики моделей LLM не всегда раскрывают полный состав этих данных. Это делает затруднительным проверку того, содержат ли данные предназначенные для обучения тестовые примеры.
Data contamination снижает надежность большинства бенчмарков для моделей LLM, поскольку они могут сталкиваться с тестовыми данными уже на этапе обучения.
Чрезмерная зависимость от perplexityPerplexity измеряет, насколько хорошо модель предсказывает текст, но не отражает таких аспектов, как когерентность, релевантность или понимание контекста.
Поэтому избыточное использование perplexity в качестве главной метрики может приводить к искаженной оценке качества LLM. Для более точного анализа нужны более комплексные показатели, включающие семантическую связность и контекстную релевантность.
Субъективность и высокая стоимость human evaluationHuman evaluation является ценным методом для анализа результатов работы больших языковых моделей (LLM), но она может быть субъективной, подверженной искажениям и значительно более затратной, чем автоматизированные методы оценки. Разные эксперты могут иметь разные мнения, а критерии оценки могут быть непоследовательными. Кроме того, оценка человеком может занимать много времени и быть дорогостоящей, особенно в масштабных проектах.
Bias в автоматизированных оценкахАвтоматизированные методы оценки LLM-моделей подвержены предсказуемым bias
7. В приведённом ниже списке представлен один пример для каждого типа bias, но возможны и обратные случаи (например, некоторые модели могут, наоборот, отдавать предпочтение последним элементам).
- Order bias – предпочтение первых элементов в списке.
- Compassion fade – модели отдают предпочтение именам вместо анонимизированных кодовых обозначений.
- Ego bias – модели склонны благоприятствовать ответам, похожим на их собственные предыдущие генерации.
- Salience bias – более длинные ответы могут считаться предпочтительными.
- Bandwagon effect – модели могут отдавать приоритет распространённым мнениям большинства.
- Attention bias – модели могут генерировать избыточную и нерелевантную информацию.
Ограниченность референсных данныхНекоторые методы оценки, такие как BLEU или ROUGE, требуют наличия эталонных данных для сравнения.
Однако получение качественных референсных данных затруднительно, особенно в задачах с множеством возможных корректных ответов или в открытых генеративных задачах. Ограниченные или предвзятые эталонные данные могут не охватывать весь спектр допустимых вариантов ответа модели.
Отсутствие метрик разнообразияСуществующие методы оценки часто не учитывают разнообразие и креативность генераций моделей LLM.
Метрики, сосредоточенные исключительно на точности и релевантности, упускают важность разнообразных и оригинальных ответов. Оценка разнообразия в выходных данных LLM-моделей остаётся актуальной научной задачей.
Обобщаемость на реальные сценарииБольшинство методов оценки ориентировано на фиксированные бенчмарк-даты и задачи, которые не всегда отражают сложности реального применения моделей LLM.
Тестирование в контролируемых условиях не всегда масштабируется на динамичные и разнообразные контексты, в которых разрабатываются и используются модели LLM.
Атаки с использованием adversarial inputБольшие языковые модели (LLM) могут быть уязвимы перед атаками, такими как манипуляция предсказаниями модели и «отравление» данных, когда тщательно подобранные вводные данные могут ввести модель в заблуждение или обмануть ее. Существующие методы оценки часто не учитывают такие атаки, и вопрос устойчивости моделей остаётся актуальной областью исследований.
Помимо этих проблем, генеративные ИИ-модели могут сталкиваться с правовыми и этическими вопросами, которые могут повлиять на использование LLM в вашем бизнесе.