ДилеммаДилемма измеряет, насколько хорошо модель предсказывает образец текста. Более низкий балл означает лучшую производительность. Она вычисляет экспоненциальную зависимость среднего логарифмического правдоподобия выборки:
Perplexity=exp(−1N∑logP(xi))
Perplexity=exp(−N1∑logP(xi))
где NN - количество слов, а P(xi)P(xi) - вероятность, которую модель назначает i-му слову.
Несмотря на свою полезность, дилемма не говорит нам о качестве или связности текста, и на нее может влиять то, как текст разбивается на токены.
Оценка BLEUИзначально оценка BLEU использовалась для машинного перевода, а теперь используется еще и для оценки генерации текста. Она сравнивает выходные данные модели с эталонными текстами, рассматривая перекрытие n-грамм.
Оценки варьируются от 0 до 1, причем более высокие оценки указывают на лучшее соответствие. Тем не менее, BLEU может ошибиться при оценке креативных или разнообразных текстов.
ROUGEROUGE отлично подходит для оценки резюме. Она измеряет, насколько контент, сгенерированный моделью, перекрывается с эталонными резюме с использованием n-грамм, последовательностей и пар слов.
Оценка F1Оценка F1 используется для задач классификации и ответов на вопросы. Она уравновешивает точность (релевантность ответов модели) и полноту (полноту релевантных ответов):
F1=2×(precision×recall) precision+recall
F1= precision+recall2×(precision×recall)
Она варьируется от 0 до 1, где 1 указывает на идеальную точность.
METEORMETEOR учитывает не только точные совпадения, но также синонимы и парафразы, стремясь лучше соответствовать человеческому суждению.
BERTScoreBERTScore оценивает тексты, сравнивая сходство контекстных вложений из таких моделей, как BERT, уделяя больше внимания значению, чем точному совпадению слов.
Расстояние Левенштейна, или расстояние редактирования, измеряет минимальное количество правок одного символа (вставок, удалений или замен), необходимых для изменения одной строки на другую. Этот показатель ценен для:
- Оценки сходства текста в задачах генерации.
- Оценки исправления орфографии и постобработки OCR.
- Дополнения к другим метрикам при оценке машинного перевода.
Нормализованная версия (от 0 до 1) позволяет сравнивать тексты разной длины. Несмотря на простоту и интуитивность, она не учитывает семантическое сходство, что делает ее наиболее эффективной при использовании вместе с другими метриками оценки.
Человеческая оценкаНесмотря на рост автоматизированных метрик, человеческая оценка по-прежнему имеет важное значение. Ее методы включают использование шкал Лайкерта для оценки беглости и релевантности, A/B-тестирование различных выходных данных модели и экспертные обзоры для специализированных областей.
Метрики для конкретных задачДля таких задач, как диалоговые системы, метрики могут включать уровни вовлеченности и показатели завершения задач. Для генерации кода необходимо посмотреть, как часто код компилируется или проходит тесты.
Надежность и справедливостьВажно проверять, как модели реагируют на неожиданные входные данные, и оценивать наличие предвзятых или вредных выходных данных.
Метрики эффективностиПо мере развития моделей растет и важность измерения их эффективности с точки зрения скорости, использования памяти и потребления энергии.
ИИ оценивает ИИПо мере того, как ИИ становится все более продвинутым, мы начинаем использовать один ИИ для оценки другого. Этот метод быстрый и позволяет без утомления обрабатывать огромные объемы данных. Кроме того, ИИ может выявлять сложные закономерности, которые люди могут упустить из виду, предлагая детальный анализ производительности.
Однако эта оценка не идеальна. Оценщики ИИ могут быть предвзятыми, иногда отдавая предпочтение определенным ответам или упуская тонкий контекст, который мог бы уловить человек. Также существует риск «эхо-камеры», когда оценщики ИИ отдают предпочтение ответам, похожим на те, которые они запрограммированы распознавать, потенциально упуская из виду уникальные или креативные ответы.
Другая проблема заключается в том, что ИИ часто не может хорошо объяснить свои оценки. Он может оценивать ответы, но не предлагать углубленную обратную связь, которую мог бы дать человек, что может быть похоже на получение оценки без объяснения того, почему.
Многие исследователи считают, что лучше всего работает сочетание ИИ с человеческой оценкой. ИИ обрабатывает большую часть данных, в то время как люди добавляют необходимый контекст и понимание.