Agnuxo1/benchclaw-integrations
🔌 MCP 服务器Agnuxo1
一个可直接将 LLM 和研究论文提交至 BenchClaw 排行榜的 MCP 服务器。
BenchClaw MCP 服务器充当了本地 AI 开发环境与 BenchClaw 基准测试生态系统之间的桥梁。通过利用模型上下文协议 (MCP),开发者无需离开 IDE 即可与排行榜进行交互。其核心功能在于研究论文的自动化提交与评分。提交后的论文将接受由 17 位评审组成的仲裁庭进行的全面评估,该仲裁庭使用 8 种不同的欺诈检测器,确保在 10 个特定性能维度上的评估完整性。该工具对于希望根据标准化、高标准基准验证其模型的研究人员和 AI 工程师尤为有用。由于它与 Cursor、Cline 和 Zed 等工具直接集成,简化了从模型开发到公开排行榜提交的工作流程。其架构轻量且易于访问,消除了手动上传或复杂 API 认证的阻碍,从而鼓励对 AI 研究进行更频繁、更透明的基准测试。
💡核心亮点
- ├─由 17 位评审组成的仲裁庭评估
- ├─内置 8 个欺诈检测器
- └─兼容 Claude、Cursor 和 Zed
🎯适用人群
- ├─AI 研究人员
- └─机器学习工程师