Kareem-Rashed/rubric-eval

🏗️ ФреймворкKareem-Rashed

Локальный независимый фреймворк для тщательного тестирования и оценки LLM и AI-агентов.

Rubric-eval представляет собой специализированный набор инструментов для тестирования в жизненном цикле разработки AI, фокусируясь на необходимости локальной и воспроизводимой оценки. В отличие от облачных «черных ящиков», этот фреймворк дает разработчикам полный контроль над средой тестирования, что критически важно для конфиденциальных приложений и итеративной настройки моделей. Он поддерживает различных провайдеров LLM, включая Anthropic и OpenAI, и спроектирован для работы в связке с LangChain, что делает его гибким решением для RAG-конвейеров и рабочих процессов автономных агентов. Фреймворк использует структуры в стиле pytest, позволяя писать понятные модульные тест-кейсы для проверки поведения агентов по заданным критериям. Автоматизация оценки помогает выявлять регрессии, улучшать промпт-инжиниринг и проводить количественное сравнение версий моделей.

💡Основное

├─Локальный фреймворк для оценки
├─Интеграция с LangChain и pytest
└─Поддержка моделей Anthropic и OpenAI

🎯Для

├─AI-инженеры
└─Разработчики LLM-приложений

🔗Ссылки

└─Репозиторий GitHub