Jwrede/llmprobe
🔌 MCP 服务器Jwrede
用于 LLM 推理端点的合成监控工具,提供实时性能指标与 AI 基础设施可观测性。
llmprobe 解决了 LLM 应用在生产环境中对可观测性的迫切需求。作为一种合成监控器,它通过持续探测推理端点来提供可操作的性能数据。它支持多样化的提供商生态,涵盖主流云 API 及自托管推理服务器(如 vLLM、SGLang 和 Ollama)。
核心技术特性包括对 Prometheus 和 OpenTelemetry 的原生支持,使开发者能够将 LLM 性能指标直接集成到现有的可观测性堆栈(如 Grafana)中。作为 MCP 服务器,它允许 AI 代理实时查询底层推理基础设施的健康状况与性能。通过测量 TTFT、总延迟和吞吐量,团队可以主动识别瓶颈、优化模型配置,并确保 LLM 服务的高可用性。
💡核心亮点
- ├─支持 OpenAI、Anthropic 及 Bedrock
- ├─追踪 TTFT、延迟及吞吐量指标
- └─原生支持 Prometheus 与 OpenTelemetry
🎯适用人群
- ├─MLOps 工程师
- ├─后端开发人员
- └─AI 基础设施架构师