Для учёта всего разнообразия сфер применения LLM бенчмарки часто разрабатываются с расчётом на спецификации типов систем, чтобы обеспечить эффективность и надёжность моделей в реальном использовании. Эти бенчмарки делают упор на оценку того, насколько точно LLM справляется в различных интегрированных системах. Основные типы систем:
- Системы Co-pilot: бенчмарки Co-pilot делают упор на то, насколько эффективно LLM может помогать пользователям в реальном времени, повышая продуктивность и эффективность в программных средах. Сюда входит способность модели понимать контекст, предлагать релевантные рекомендации, автоматизировать повторяющиеся задачи и интегрироваться с другими программными инструментами, поддерживающими рабочий процесс пользователей.
- системы Retrieval-Augmented Generation (RAG): системы RAG сочетают в себе сильные стороны LLM с мощными механизмами извлечения информации. Такие бенчмарки оценивают способность модели извлекать релевантную информацию из внешних баз данных и внедрять эту информацию в целостные и контекстно подходящие ответы. Они особенно важны для областей применения, требующих актуальной или крайне специфичной информации.
- Системы Tool-Use: бенчмарки Tool-use оценивают способности модели во взаимодействии с внешними инструментами и API. Сюда входит исполнение команд, получение данных и выполнение сложных операций на основании ввода пользователя. Эффективное tool-use позволяет LLM расширять их возможности, обеспечивая более универсальную и практичную работу в различных предметных областях, от анализа данных до разработки ПО.
- Мультимодальные системы: мультимодальные бенчмарки тестируют способность модели обрабатывать и генерировать выходные данные различного типа, например, текста, изображений и аудио. Это важно для таких областей, как производство медиа, обучение и техподдержка, где требуются интегрированные ответы с учётом контекста в различных типах медиа. Бенчмарки оценивают, насколько хорошо модель понимает и комбинирует информацию разных модальностей для обеспечения целостных и релевантных результатов.
- Встроенные системы: бенчмарки встроенных систем делают упор на интеграцию LLM в физические системы, например, в роботов или устройства IoT. Такие бенчмарки оценивают способность модели понимать физические пространства и перемещаться в них, взаимодействовать с объектами и выполнять задачи, требующие понимания физического мира. Это крайне важно для применения в робототехнике, домашних смарт-устройствах и других сферах, где LLM должны работать и реагировать в условиях реального мира.
Таблица 3. Бенчмарки спецификаций типов систем