Claude Opus 4.1發布:智能體、代碼、推理能力全面提升
8月6日,Anthropic 突然發布了 Claude Opus 4.1,這是對 Claude Opus 4 在 agentic 任務、真實世界編程和推理能力上的全面升級,并稱計劃在未來幾周內發布對模型的大幅改進。據介紹,Claude Opus 4.1 將編碼性能提升至 SWE-bench Verified 測試中的 74.5%,同時還提升了深度研究和數據分析能力,尤其在細節追蹤和 agentic 搜索方面。
Anthropic 還提到了第三方合作伙伴對 Claude Opus 4.1 的真實感受。除此之外,GitHub 指出,與 Opus 4 相比,Claude Opus 4.1 在大多數能力上均有提升,其中多文件代碼重構的性能提升尤為顯著。
Rakuten Group 發現,Opus 4.1 在大型代碼庫中精準定位具體修正點時表現優異,不會進行不必要的調整或引入 bug,他們更傾向于在日常調試任務中使用這種精準度。Windsurf 報告稱,Opus 4.1 在其初級開發者基準測試中較 Opus 4 提升了一個標準差,與從 Sonnet 3.7 到 Sonnet 4 的性能飛躍大致相當。