Время чтения: 8 минут

Лучшие большие языковые модели в ноябре 2024 г

В ноябре в ТОП-10 в «LLM Benchmark» произошло много изменений. Также произошли некоторые изменения в том, как мы создаем продукты на основе LLM. Давайте приступим.

Обновление: Claude Sonnet 3.5 v2 — отличные возможности PDF
GPT-4o от 20 ноября — ТОП-3!
Qwen 2.5 Coder 32B Instruct — посредственный, но продвигает SotA!
Qwen QwQ 32B Preview — слишком умный
Gemini Experimental 1121 — достойный, но труднодоступный
Планы для бенчмарков LLM v2 — фокус на кейсах и возможностях
Бенчмарк Text-to-SQL

Бенчмарки LLM | Ноябрь 2024 г

Бенчмарки оценивают модели с точки зрения их пригодности для разработки цифровых продуктов. Чем выше оценка, тем лучше.

☁️ - Облачные модели с собственной лицензией
✅ - Модели с открытым исходным кодом, которые можно запускать локально без ограничений
🦙 - Локальные модели с лицензией Llama

Code — может ли модель генерировать код и помогать с программированием?
Cost — предполагаемая стоимость выполнения рабочей нагрузки. Для облачных моделей мы рассчитываем стоимость в соответствии с ценами. Для локальных моделей мы оцениваем стоимость на основе требований к графическому процессору для каждой модели, стоимости аренды графического процессора, скорости модели и эксплуатационных расходов.
CRM — насколько хорошо модель поддерживает работу с каталогами продуктов и торговыми площадками?
Docs — насколько хорошо модель может работать с большими документами и базами знаний?
Integration — может ли модель легко взаимодействовать с внешними API, сервисами и плагинами?
Marketing — насколько хорошо модель может поддерживать маркетинговые мероприятия, например, мозговой штурм, генерацию идей и текстов?
Reason — насколько хорошо модель может рассуждать и делать выводы в заданном контексте?
Speed — в столбце «Скорость» указана расчетная скорость модели в запросах в секунду (без пакетной обработки). Чем выше скорость, тем лучше.

Полная таблица по ссылке: https://www.timetoact-group.com/en/details/llm-benchmarks-november-2024

Обновление Claude 3.5 v2 и извлечение документов в производстве

В октябрьском «LLM Benchmark» мы написали, что Anthropic добилась небольшого улучшения возможностей своего Claude 3.5 v2. Это улучшение относительно небольшое, но недостаточное, чтобы поместить его в ТОП-10.

Тем не менее, Anthropic Claude 3.5 Sonnet v2 в настоящее время является нашим первым выбором для проектов по извлечению данных (например, в рамках автоматизации бизнеса в производственных отраслях). Вы спросите, почему?

Представьте, что вам нужно тщательно извлечь из 1000 паспортов данные о спецификациях продукта для 20 000 электрических компонентов. Эти PDF-файлы могут включать сложные таблицы и даже диаграммы. Извлеченные данные затем можно использовать для сравнения продуктов компании с продуктами конкурентов, предлагая эквивалентные компоненты во встроенной рекламе или управляя решениями по цепочке поставок.

Anthropic Claude 3.5 Sonnet v2 имеет две замечательные функции, которые хорошо работают вместе:

Встроенная обработка PDF — теперь мы можем загружать файлы PDF непосредственно в API вместе с инструкциями по извлечению данных. Anthropic API разбивает PDF-файл на страницы и загружает каждую страницу дважды: в виде изображения и в виде текста. Это решение работает достаточно хорошо «из коробки», чтобы заменить ранее сложные настройки, в которых использовались выделенные VLM (визуальные модели языка), работающие на локальных графических процессорах.

PDF-файлы могут потреблять много токенов, особенно если они сопровождаются большим системным запросом. Чтобы ускорить обработку, улучшить точность и снизить затраты, мы используем двухуровневое кэширование подсказок от Anthropic. Это позволяет заплатить полную стоимость токенизации PDF только один раз.

Вот как может выглядеть наш запрос для извлечения данных:

Системная подсказка: Ваша задача — извлечь данные о продукте из PDF. Вот схема (большая схема) и контекст компании.
Подсказка к документу: вот PDF-файл, из которого можно извлечь данные. В нем есть несколько продуктов (большой PDF).
Задача: извлечь продукт X из PDF.

Таким образом мы можем извлечь несколько продуктов из одного PDF-файла (следуя шаблону контрольного списка). Системная подсказка (1) и подсказка к документу (2) будут кэшироваться между всеми запросами на извлечение в один и тот же PDF. Система (1) будет кэшироваться между всеми запросами на извлечение PDF этого типа в целом.

Каждый раз, когда часть подсказки кэшируется на сервере, это обходится дешевле и выполняется быстрее. Например, на 30-70% быстрее и на 50-90% дешевле, как описано в документации Anthropic. В случаях извлечения данных экономия затрат, как правило, ближе к верхней границе этого диапазона.

Вот как это выглядит в действии: «Создание кэша» указывается, когда часть подсказки сохраняется в кэше, а «Чтение кэша» указывается, когда кэшированная подсказка используется повторно, что экономит время и деньги.

Есть небольшой нюанс. Модели Anthropic не имеют возможности структурированного вывода OpenAI. Поэтому вы можете подумать, что мы можем потерять две удивительные функции:

Точное следование схеме
Возможность жестко задавать пользовательскую цепочку рассуждений (chain-of-thought), которая направляет языковую модель в процессе извлечения данных.

Но это не так! Структурированный вывод — это всего лишь механизм вывода, который ограничивает декодирование (выбор токенов), чтобы строго следовать заданной схеме. Способная языковая модель сможет извлечь даже сложные структуры и без этого. При этом она будет следовать логике рассуждений, заложенной в определении схемы.

Anthropic Claude 3.5 Sonnet v2, безусловно, может это сделать. И в 5-7% случаев, когда результат незначительно отклоняется от схемы, мы можем передать результаты в GPT-4o для ее исправления.

Вот пример определения структурированного вывода из одного проекта (качество изображения было намеренно снижено).

Поможем выбрать лучшую модель для вашего бизнес-кейса

Хотите бесплатно проконсультироваться по вашему проекту?

GPT-4o от 20 ноября — ТОП 3

OpenAI не удосужилась опубликовать полноценный анонс этой модели (gpt-4o-2024-11-20 в API). Недавно они опубликовали обновление в Твиттере:

Модель заслуживает особого упоминания в наших бенчмарках. По сравнению с предыдущей GPT-4o v2/2024-08-06, модель показывает заметное улучшение, особенно в категории «Reason».

Вы также можете заметить обычную схему OpenAI с моделями:

Сначала они выпускают новую мощную модель (в данном случае GPT-4o v1)
Затем они выпускают следующую модель в том же семействе, которая намного дешевле в запуске
И, наконец, они улучшают модель, все еще работая с меньшими затратами.

Несколько моделей Qwen от Alibaba

Qwen 2.5 Coder 32B Instruct — это новая модель в семействе Qwen. Поначалу она расстроит вас, а затем обрадует.

Сама модель может быть загружена с HuggingFace и запущена локально на вашем оборудовании.

Печально то, что эта модель кодирования плохо справилась с нашей категорией задач Code+Eng. Она смогла справиться с задачами кодирования, но не справилась с более сложными задачами проверки и анализа кода. Кроме того, ее рассуждения, как правило, довольно низкие — 46.

Чего же можно ожидать от модели под названием «Coder», верно? И на самом деле в программировании эта модель довольно хороша. Эта модель показала себя так же хорошо, как Sonnet 3.5 в бенчмарке кодирования для сложных задач преобразования текста в SQL (подробнее об этом позже).

Что же такого хорошего в этой модели? Эта модель, ориентированная на программирование, представляет собой новое качественное улучшение для локальных моделей в категории «Она может работать на графическом процессоре A100/H100»!

Кстати, интересно отметить, что несколько других значительных улучшений качества, которые продвинули локальные модели на уровень State of the Art, также были реализованы благодаря Qwen.

Также интересно, что «o1-killer» от Qwen не набрал таких высоких баллов в нашем бенчмарке. Qwen: QwQ 32B Preview был разработан, чтобы продвинуться в возможностях рассуждения. Согласно некоторым бенчмаркам, он преуспел в этом. Однако он не подходит для задач продукта и автоматизации бизнеса. Почему? Он слишком много говорит и не следует инструкциям.

Учитывая приведенную ниже подсказку, это также подкрепляется парой примеров:

Вы извлекаете свойства продукта из предоставленного текста. Отвечайте в формате: "число единица измерения" или "N/A", если определить невозможно. Уберите кавычки, разделители тысяч и комментарии.

Модель будет стремиться начать ответ следующим образом:

Хорошо, у меня есть этот текст об электрической отвертке...

В то время как даже небольшая модель типа mistral-7b-instruct-f16 ответила бы что-то вроде 1300 об/мин.

Это может показаться несправедливым сравнением QwQ с топовой моделью o1-preview. У o1 есть возможность сначала провести рассуждение “в уме” перед тем, как дать ответ (для этого она использует токены рассуждений).

Чтобы сделать ситуацию более справедливой для новых поколений моделей рассуждения, мы немного изменим ситуацию в следующем крупном обновлении нашего бенчмарка — моделям будет разрешено рассуждать, прежде чем давать ответ. Те модели, которые размышляют слишком долго, будут автоматически получать штрафы за высокую стоимость и задержки.

Поможем выбрать лучшую модель для вашего бизнес-кейса

Хотите бесплатно проконсультироваться по вашему проекту?

LLM Benchmark v2

Мы запускаем текущую версию бенчмарка без серьезных изменений почти полтора года. Изменения были исключены, чтобы результаты бенчмарка были сопоставимы между моделями и тестовыми запусками.

Однако с июля 2023 года произошли значительные изменения:

Структурированные выходные данные — позволяют нам определять точный формат ответа и даже управлять пользовательской цепочкой рассуждений для сложных задач.
Мультимодальные языковые модели могут обрабатывать изображения и аудио в дополнение к текстовым входным данным. Входные данные изображений активно используются при извлечении документов.
Кэширование подсказок меняет подход к построению систем RAG, выполнению сложных чек-листов или извлечению данных из множества документов.
Новые модели рассуждений позволяют нам повышать производительность моделей, разбивая сложные задачи на небольшие шаги, а затем инвестируя (оплачиваемое) время в их размышление.

Кроме того, мы получили гораздо больше информации о создании систем на основе LLM и добавили больше кейсов в наше портфолио ИИ.

Настало время для большого обновления. Работа над бенчмарком TIMETOACT GROUP LLM v2 уже началась. Мы рассчитываем опубликовать первый проект отчета в начале следующего года.

Бенчмарк V2 сохранит основы из v1, но будет больше сосредоточен на конкретных случаях ИИ и новых возможностях модели. Также ожидается больше диаграмм.

Gemini Experimental 1121 — хорош, но «непонятен»

Gemini Experimental 1121 — это новая модель-прототип от Google. В настоящее время она доступна в тестовых средах, таких как AI Studio или OpenRouter. Эта модель не продвигает новейшие разработки для Gemini, но доказывает, что присутствие Google в ТОП-10 — вовсе не счастливое совпадение. Это третья модель Gemini, попавшая в ТОП-10.

Однако в настоящее время эту модель невозможно использовать. Она предоставляется бесплатно, но имеет жесткие ограничения по скорости. Потребовалось 3 дня и несколько ключей API только для того, чтобы запустить несколько сотен оценок из нашего бенчмарка.

Бенчмарк Text-to-SQL

Neo4j опубликовал видео с конференции NODES24 о бенчмаркинге различных LLM в задачах text-to-SQL и text-to-Cypher.

Примером задачи Text-to-SQL является использование LLM для перевода человеческого запроса в сложный запрос к базе данных SQL компании. Он используется для самостоятельной отчетности. Text-to-Cypher аналогичен, но выполняет запросы к таким базам данных, как Neo4j.

Исследование и презентация были выполнены в партнерстве с двумя компаниями из TIMETOACT GROUP: X-Integrate и TIMETOACT GROUP Austria.

Самый важный слайд презентации — ниже. Он показывает точность, с которой разные LLM генерировали запросы для сложной базы данных. Эта база данных содержала информацию о технических и организационных зависимостях в компании для целей управления рисками.

«Базовые» баллы — это баллы без каких-либо оптимизаций производительности, в то время как «полные» баллы учитывают ряд оптимизаций для повышения точности генерации запросов.

Некоторые из этих задач text-to-query будут даже включены в наш предстоящий бенчмарк LLM v2.

Автор оригинала: Martin Warnung