Jwrede/llmprobe

🔌 MCP 서버Jwrede

LLM 추론 엔드포인트를 위한 합성 모니터링 도구로, 실시간 성능 지표와 관측 가능성을 제공합니다.

llmprobe는 LLM 기반 애플리케이션의 프로덕션급 관측 가능성에 대한 중요한 요구 사항을 해결합니다. 합성 모니터로서 추론 엔드포인트를 지속적으로 프로빙하여 실행 가능한 성능 데이터를 제공합니다. 주요 클라우드 API와 vLLM, SGLang, Ollama와 같은 자체 호스팅 추론 서버를 포함한 다양한 생태계를 지원합니다. 주요 기술적 특징으로는 Prometheus 및 OpenTelemetry에 대한 기본 지원이 포함되어 있어, 개발자가 LLM 성능 지표를 기존 관측 스택(예: Grafana)에 직접 통합할 수 있습니다. MCP 서버로서 AI 에이전트가 실시간으로 자신의 기반 추론 인프라의 상태와 성능을 쿼리할 수 있게 합니다. TTFT, 총 지연 시간, 처리량을 측정함으로써 팀은 병목 현상을 사전에 파악하고, 모델 구성을 최적화하며, LLM 서비스의 높은 가용성을 보장할 수 있습니다.

💡하이라이트

├─OpenAI, Anthropic, Bedrock 지원
├─TTFT, 지연 시간 및 처리량 추적
└─Prometheus 및 OpenTelemetry 기본 지원

🎯대상

├─MLOps 엔지니어
├─백엔드 개발자
└─AI 인프라 아키텍트

🔗링크

└─GitHub 저장소