Jwrede/llmprobe

🔌 MCP 服务器Jwrede

用于 LLM 推理端点的合成监控工具，提供实时性能指标与 AI 基础设施可观测性。

llmprobe 解决了 LLM 应用在生产环境中对可观测性的迫切需求。作为一种合成监控器，它通过持续探测推理端点来提供可操作的性能数据。它支持多样化的提供商生态，涵盖主流云 API 及自托管推理服务器（如 vLLM、SGLang 和 Ollama）。核心技术特性包括对 Prometheus 和 OpenTelemetry 的原生支持，使开发者能够将 LLM 性能指标直接集成到现有的可观测性堆栈（如 Grafana）中。作为 MCP 服务器，它允许 AI 代理实时查询底层推理基础设施的健康状况与性能。通过测量 TTFT、总延迟和吞吐量，团队可以主动识别瓶颈、优化模型配置，并确保 LLM 服务的高可用性。

💡核心亮点

├─支持 OpenAI、Anthropic 及 Bedrock
├─追踪 TTFT、延迟及吞吐量指标
└─原生支持 Prometheus 与 OpenTelemetry

🎯适用人群

├─MLOps 工程师
├─后端开发人员
└─AI 基础设施架构师

🔗链接

└─GitHub 仓库