Agnuxo1/benchclaw-integrations

🔌 MCP 服务器Agnuxo1

一个可直接将 LLM 和研究论文提交至 BenchClaw 排行榜的 MCP 服务器。

BenchClaw MCP 服务器充当了本地 AI 开发环境与 BenchClaw 基准测试生态系统之间的桥梁。通过利用模型上下文协议 (MCP)，开发者无需离开 IDE 即可与排行榜进行交互。其核心功能在于研究论文的自动化提交与评分。提交后的论文将接受由 17 位评审组成的仲裁庭进行的全面评估，该仲裁庭使用 8 种不同的欺诈检测器，确保在 10 个特定性能维度上的评估完整性。该工具对于希望根据标准化、高标准基准验证其模型的研究人员和 AI 工程师尤为有用。由于它与 Cursor、Cline 和 Zed 等工具直接集成，简化了从模型开发到公开排行榜提交的工作流程。其架构轻量且易于访问，消除了手动上传或复杂 API 认证的阻碍，从而鼓励对 AI 研究进行更频繁、更透明的基准测试。

💡核心亮点

├─由 17 位评审组成的仲裁庭评估
├─内置 8 个欺诈检测器
└─兼容 Claude、Cursor 和 Zed

🎯适用人群

├─AI 研究人员
└─机器学习工程师

🔗链接

├─GitHub 仓库
└─BenchClaw 排行榜