DeepEvalDeepEval - очень популярный фреймворк с открытым исходным кодом. Он прост в использовании, гибок и предоставляет встроенные метрики, включая:
- G-Eval
- Обобщение
- Релевантность ответа
- Достоверность
- Контекстная отзывчивость
- Контекстная точность
- RAGAS
- Галлюцинация
- Токсичность
- Предвзятость
DeepEval также позволяет вам создавать пользовательские метрики и предлагает интеграцию CI/CD. Фреймворк
включает популярные наборы данных и конфигурации бенчмарков LLM (включая MMLU, HellaSwag, DROP, BIG-Bench Hard, TruthfulQA, HumanEval, GSM8K).
GiskardGiskard тоже имеет открытый исходный код. Этот фреймворк на основе Python можно использовать для обнаружения проблем производительности, предвзятости и безопасности в ваших приложениях ИИ. Он автоматически обнаруживает проблемы, включая галлюцинации, создание вредоносного контента или раскрытие конфиденциальной информации, внедрение подсказок, проблемы с надежностью и т. д. Одна из замечательных особенностей Giskard заключается в том, что он
поставляется с набором инструментов оценки RAG, специально предназначенным для тестирования приложений дополненной генерации (RAG).
Giskard работает со всеми моделями и средами и интегрируется с популярными инструментами.
PromptfooЕще одно решение с открытым исходным кодом позволяет
локально тестировать приложения LLM. Этот фреймворк, не зависящий от языка, предлагает кэширование, согласованность и живую перезагрузку для более быстрой оценки.
Promptfoo позволяет использовать различные модели, включая OpenAI, Anthropic, Azure, Google, HuggingFace и модели с открытым исходным кодом, такие как Llama. Он выдает подробные и практические результаты в удобной для обзора матричной структуре. API позволяет легко работать с
Promptfoo.
LangFuseLangFuse - еще один фреймворк с открытым исходным кодом, которым могут
бесплатно пользоваться любители. Он обеспечивает отслеживание, оценку, управление подсказками и метрики. LangFuse не зависит от модели и фреймворка и интегрируется с LlamaIndex, Langchain, OpenAI SDK, LiteLLM и др., а также предлагает доступ к API.
Eleuther AIEleuther AI - один из самых полных (и, следовательно, популярных) фреймворков. Он включает в себя
более 200 оценочных задач и более 60 бенчмарков. Этот фреймворк поддерживает использование пользовательских подсказок и метрик оценки, а также локальных моделей и бенчмарков для покрытия всех ваших потребностей в оценке.
Ключевым моментом, доказывающим ценность Eleuther AI, является то, что на этом фреймворке основана популярная
таблица лидеров Open LLM от Hugging Face.
RAGAs (оценка RAG)RAGAs - это фреймворк,
разработанный для оценки конвейеров RAG (Retrieval Augmented Generation). (RAG использует внешние данные для улучшения контекста для LLM).
Фреймворк фокусируется на основных метриках, включая достоверность, контекстную релевантность, релевантность ответа, контекстную отзывчивость и контекстную точность. Он предоставляет все инструменты, необходимые для оценки текста, сгенерированного LLM. Вы можете интегрировать RAGAs в свой конвейер CI/CD, чтобы обеспечить непрерывные проверки ваших моделей.
Weights & BiasesПомимо оценки приложений LLM, ключевым преимуществом
Weights & Biases является то, что вы
можете использовать его для обучения, точной настройки и управления моделями. Он также будет полезен для обнаружения регрессий, визуализации результатов и обмена ими с другими.
Несмотря на то, что он состоит из нескольких модулей (W&B Models, W&B Weave, W&B Core), его разработчики утверждают, что вы можете настроить систему всего за 5 минут.
Azure AI StudioAzure AI Studio от Microsoft - это
универсальный центр для создания, оценки и развертывания моделей ИИ. Он позволяет визуализировать результаты, помогая вам выбрать правильную модель ИИ для ваших нужд. Azure AI Studio также предоставляет центр управления, который помогает оптимизировать и устранять неполадки в моделях. Приятно осознавать, что это решение поддерживает варианты использования без кода, с легким кодом и с профессиональным кодом, поэтому энтузиасты LLM с любым уровнем знаний могут начать работу с ним.