Anthropic 发布 Claude Opus 4.8:写代码更强了,也更"老实"

big 发布于 阅读:17


Anthropic 近日正式端出了新一代大语言模型 Claude Opus 4.8,重点升级了代码编写、多学科推理、电脑操控、知识工作和金融分析这类"代理型"任务的表现。官方的说法是——"更得力的协作搭档"。

参与内测的用户反馈倒是挺实在的:Opus 4.8 在处理复杂代理任务时更稳了,判断也更敏锐,而且诚实度也有肉眼可见的改善

不瞎编了,没把握就直说

Anthropic 表示,早期测试结果显示,Opus 4.8 现在更倾向于主动标注自己拿不准的地方,那些没根没据的断言明显少了。内部评估数据说话:和上一版比,Opus 4.8 在自己写的代码里藏着错误不吭声的概率,差不多降了四倍。也就是说,模型"自我纠错"的能力上了一个台阶。

在对齐性测试中,Opus 4.8 在"支持用户做决策"和"维护用户利益"这类亲社会特质上拿下了新高。而隐性欺骗、误导性行为这类"翻车操作",发生率比 Opus 4.7 还低,跟之前只对少数机构开放的 Claude Mythos 预览模型相当。

跑分说话:有的第一,有的第二

Anthropic 甩了一组公开基准数据:

性能方面也有亮点——Opus 4.8 的快速模式推理速度比之前快了 2.5 倍,价格却降到了旧款的三分之一左右。高性能使用的门槛确实拉低了不少。

顺便放了一波新功能

配合新模型,Anthropic 还加了不少料:

动态工作流(研究预览版) ——针对企业开发者。Claude 可以在 Claude Code 环境里把大任务拆碎、规划步骤,一个会话内并行调度数百个子代理,完成几十万行代码级别的代码库迁移。目前面向企业版、团队版和 Max 订阅用户开放。

努力程度控制 ——用户可以在 Claude.ai 和 Cowork 里选择模型"出多少力"。选低努力,响应更快、配额消耗更少。Opus 4.8 默认走"高努力"模式,官方说这是质量和使用体验的最佳平衡点。

Messages API 更新 ——开发者现在可以在消息数组里塞系统级指令条目了。这意味着在任务运行中能动态调整 Claude 的行为和角色设定,不用重启新会话,多步骤自动化工作流和企业应用写起来更灵活。

价格不变,更强的在后面

Claude Opus 4.8 即日起全球开放,常规用量的定价跟 Opus 4.7 保持一致。Anthropic 还透露了两条路线:

  1. 更便宜的模型——在同等功能水平下降低成本
  2. 更强的模型——能力超过 Opus 4.8 的"下一代"产品

至于那个代号 Claude Mythos 的高阶模型,目前还在跟少数合作机构测试中。Anthropic 说正在给这模型加固安全护栏和规范,预计"未来几周内"会向所有客户开放。到时候在企业级安全审计、代码分析和复杂决策支持这些场景上,应该又能卷一波。