SWE-Lancer揭秘:Claude 3.5 Sonnet击败GPT-4o,AI编码能力哪家强?

马斯克发布了号称“地表最聪明”的Grok 3模型,吸引了所有目光。OpenAI迅速做出反应,推出SWE-Lancer基准测试,旨在评估AI模型在现实任务中的赚钱能力。SWE-Lancer是一个贴近现实的编码性能评估基准,包含来自Upwork的1400多个自由软件工程任务,总报酬价值100万美元。参与评测的包括GPT-4o、o1和Anthropic的Claude 3.5 Sonnet等前沿模型。结果显示,Claude 3.5 Sonnet表现最佳,赚得403,325美元,超越OpenAI的GPT-4o和o1,这与用户对这些模型的实际体验相符。

现实世界中,软件工程师需处理整个技术栈,并推理复杂的跨代码库交互。SWE-Lancer通过端到端(E2E)测试,提供更全面、真实的评估,包含IC SWE(独立开发者)和SWE管理两类任务。前者要求生成代码补丁解决实际问题,后者要求作为技术负责人选择最佳方案。基准构建基于Expensify开源存储库,任务由100名专业工程师审查,确保高质量和代表性。每个IC SWE任务配备用户工具,支持模型模拟用户操作并迭代调试。

实验结果显示,所有模型在SWE-Lancer上的报酬远低于100万潜在总报酬。Claude 3.5 Sonnet表现最佳,在高质量数据集上赚得208,050美元,解决26.2%的IC SWE任务,但仍存在大量错误,距离可靠部署尚有差距。SWE管理任务的通过率普遍高于IC SWE任务,其中Claude 3.5 Sonnet在高质量数据集上的得分达45%。增加尝试次数能显著提升性能,例如o1在6次尝试后通过率接近翻倍,GPT-4o在6次尝试时达到o1首次尝试的水平。增加推理计算资源也能提高通过率,尤其在高报酬任务上表现明显,如o1的通过率从9.3%升至16.5%,报酬从1.6万美元增至2.9万美元。

移除用户工具对通过率影响有限,但较强模型能更有效利用工具,因此性能下降更明显。研究还发现,所有模型在SWE管理任务上的表现优于IC SWE任务,尤其在UI/UX和新功能任务上,Claude 3.5 Sonnet领先o1近15%和10%。按任务类型划分,模型在Bug修复任务上表现较好,但在新功能任务上较差。研究表明,顶级模型通过高效使用用户工具,在问题定位上表现突出,但常因未能解决根本原因而导致解决方案不完整。这反映出AI智能体在理解复杂跨组件问题上的局限性,未来需提升可靠性以应对真实自由职业任务的挑战。

标签



热门标签