PinchBench

开源、免费的OpenClaw智能体基准测试平台，通过真实任务评测模型执行能力

OpenClaw

04-29 收录至 AI 热度 64°C

PinchBench 是一个开源、免费的基准测试平台，专为评估大语言模型驱动 OpenClaw 智能体的真实表现而设计。它由 AI 基础设施初创公司 Kilo AI 开发，核心定位是帮助开发者精准筛选适配 Agent 工作流的最优模型，摆脱传统“考试型”评测的局限，直接聚焦模型“干活”的能力。

平台通过运行一系列标准化真实任务，从成功率、速度和成本三大维度对模型进行量化排名。其评测机制采用自动化脚本与顶尖 LLM 评委相结合的混合评分体系，确保结果客观公平。所有任务定义与评分逻辑完全开源，数据实时更新，已成为 AI 智能体领域的权威选型参考。

评论需填写称呼与联系方式

* 称呼

* 邮箱

* 评论内容

* 验证码

收藏夹

提交产品