Kareem-Rashed/rubric-eval

🏗️ 프레임워크Kareem-Rashed

LLM 및 AI 에이전트의 엄격한 벤치마킹과 평가를 위한 로컬 독립형 프레임워크입니다.

Rubric-eval은 로컬에서 재현 가능한 평가의 중요성에 초점을 맞춘 AI 개발 수명 주기 전용 테스트 스위트입니다. 클라우드 기반의 블랙박스 평가 도구와 달리, 이 프레임워크는 개발자에게 테스트 환경에 대한 완전한 제어권을 제공하며, 이는 개인정보 보호가 중요한 애플리케이션과 반복적인 모델 튜닝에 필수적입니다. Anthropic 및 OpenAI를 포함한 다양한 LLM 제공업체를 지원하며, LangChain과 함께 작동하도록 설계되어 RAG(검색 증강 생성) 파이프라인 및 자율 에이전트 워크플로우에 매우 적합합니다. 이 프레임워크는 pytest 스타일의 구조를 활용하여, 개발자가 미리 정의된 루브릭(평가 기준)에 따라 에이전트 동작을 검증하는 명확하고 모듈화된 테스트 케이스를 작성할 수 있게 합니다. 평가 프로세스를 자동화함으로써 회귀 테스트를 조기에 수행하고, 프롬프트 엔지니어링 결과를 개선하며, 다양한 모델 버전이나 구성을 비교할 수 있는 정량적 근거를 제공합니다.

💡하이라이트

├─로컬 우선 평가 프레임워크 제공
├─LangChain 및 pytest 통합 지원
└─Anthropic 및 OpenAI 모델 호환

🎯대상

├─AI 엔지니어
└─LLM 애플리케이션 개발자

🔗링크

└─GitHub 저장소