Создадим датасет для обучения LLM под ваш бизнес-кейс
Когда реальных данных недостаточно — мы генерируем их. Создаём сбалансированные и конфиденциальные датасеты, адаптированные под вашу задачу.
Обучаете LLM, но не хватает данных? Реальные данные недоступны?
Без качественного датасета сложно добиться точности и стабильности модели. Реальных данных может быть недостаточно, открытые датасеты не соответствуют бизнес-сценарию, а конфиденциальные данные использовать проблематично:
Реальный датасет слишком маленький или неполный — данных для обучения модели недостаточно
Нельзя использовать реальные пользовательские данные из-за регуляторных ограничений и передачи их третьим сторонам
В реальных данных мало сложных или редких сценариев, поэтому модель ошибается в таких случаях
Как мы помогаем компаниям с генерацией синтетических данных?
01
/03
Вклад LLMARENA.TEAM:
Анализ данных и определение критериев мошенничества: Проанализировали исторические данные о транзакциях, выявили паттерны мошеннического поведения и определили ключевые признаки, указывающие на подозрительные операции.
Генерация синтетических данных: Сгенерировали синтетические данные о транзакциях, имитирующих как легитимные, так и мошеннические операции. Учитывали контекст пользователя, суммы транзакций, местоположение и другие факторы. Использовались методы GAN для создания максимально реалистичных и правдоподобных данных.
Обучение и валидация модели: Предоставили сгенерированный датасет команде антифрода.
Банк испытывал трудности с обнаружением новых видов мошеннических транзакций. Реальные данные о мошенничестве были ограничены и не сбалансированы, что затрудняло обучение моделей.
Безопасность банковских транзакций с помощью генерации синтетических данных для обучения антифрод-моделей
Результат: Банк смог повысить точность моделей антифрода на 23%, снизить количество ложноположительных срабатываний на 17,5% и предотвратить значительные финансовые потери, связанные с мошенническими транзакциями.
Анализ данных и определение целей: Мы изучили существующие диалоги компании с клиентами, определили типы запросов, успешные стратегии продаж и проблемные области. Сформулировали цели для генерации синтетических данных: нам нужны были диалоги, имитирующие естественное общение, с вниманием к потребностям клиентов и продажей персонализированных страховых продуктов.
Генерация синтетических диалогов: Сгенерировали синтетические диалоги между клиентами и страховым агентом. При этом учитывали различные факторы: демографические данные клиента, его текущие страховые полисы, историю обращений, а также различные сценарии (ДТП, болезнь, имущественный ущерб). Были сгенерированы как вопросы клиентов, так и ответы агента. Дополнительно трекали логичность, релевантность и убедительность новых данных.
Валидация и дообучение: Сгенерированные диалоги были оценены страховыми агентами компании на предмет реалистичности и соответствия корпоративным стандартам и переданы LLM-core команде.
Домен:
Страхование, NLP.
Кейс:
Страховая компания разрабатывала LLM-based чат-бот для консультаций и продаж страховых продуктов. Однако имеющихся диалогов было недостаточно для обучения модели, способной обрабатывать различные запросы и адаптировать предложения под индивидуальные потребности клиентов.
Персонализация страховых предложений с помощью генерации синтетических диалогов
Результат: Компания смогла обучить свой чат-бот более эффективно предлагать персонализированные страховые продукты. Конверсия в продажу повысилась на 18,3%, а нагрузка на операторов колл-центра снизилась на 42%.
Анализ данных: Мы изучили доступные данные — данные об урожайности и агрономические отчеты с рекомендациями об удобрениях.
Генерация синтетических текстовых отчетов: Сгенерировали синтетический датасет из агрономических отчетов. На вход принимались векторизированные данные спутниковых снимков, а также информация о типе почвы, фазе роста культуры и исторических данных об урожайности. На выходе мы получили тексты отчётов, описывающие состояние поля и рекомендации по внесению удобрений.
Интеграция и валидация: Сгенерированные отчеты были интегрированы в LLM-based систему принятия решений. Агрономы холдинга протестировали систему и оценили качество рекомендаций. Обратная связь использовалась для дополнительной генерации синтетических отчётов, которые учитывали пограничные случаи.
Домен:
Агрокультура, NLP.
Кейс:
Агрохолдинг разрабатывал LLM-based систему для принятия решений об оптимальном внесении удобрений на полях. Система анализирует спутниковые снимки и сопоставляет их с историческими данными об урожайности. Однако недостаток размеченных текстовых данных (отчеты агрономов о состоянии полей, потребностях в удобрениях) ограничивал возможности обучения LLM для выдачи точных рекомендаций.
Оптимизация внесения удобрений
Результат: Банк смог повысить точность моделей антифрода на 23%, снизить количество ложноположительных срабатываний на 17,5% и предотвратить значительные финансовые потери, связанные с мошенническими транзакциями.
Мы — LLMARENA.TEAM, команда создателей бенчмарка LLM Arena. В 2024 году мы запустили открытый и независимый бенчмарк, основанный на краудсорсинге и пользовательской обратной связи о качестве ответов моделей, и уже достигли значительных результатов в понимании ландшафта российских больших языковых моделей.