Anthropic 发布 Claude Opus 4.8：写代码更强了，也更"老实"

big 发布于 2026-6-1 09:01 阅读：17

Anthropic 近日正式端出了新一代大语言模型 Claude Opus 4.8，重点升级了代码编写、多学科推理、电脑操控、知识工作和金融分析这类"代理型"任务的表现。官方的说法是——"更得力的协作搭档"。

参与内测的用户反馈倒是挺实在的：Opus 4.8 在处理复杂代理任务时更稳了，判断也更敏锐，而且诚实度也有肉眼可见的改善。

不瞎编了，没把握就直说

Anthropic 表示，早期测试结果显示，Opus 4.8 现在更倾向于主动标注自己拿不准的地方，那些没根没据的断言明显少了。内部评估数据说话：和上一版比，Opus 4.8 在自己写的代码里藏着错误不吭声的概率，差不多降了四倍。也就是说，模型"自我纠错"的能力上了一个台阶。

在对齐性测试中，Opus 4.8 在"支持用户做决策"和"维护用户利益"这类亲社会特质上拿下了新高。而隐性欺骗、误导性行为这类"翻车操作"，发生率比 Opus 4.7 还低，跟之前只对少数机构开放的 Claude Mythos 预览模型相当。

Anthropic 甩了一组公开基准数据：

SWE-Bench Pro（软件工程基准）：Opus 4.8 拿下了 69.2%，超过了 GPT-5.5 和 Gemini 3.1 Pro 等对手
不过在终端编码类基准上，领先的还是 GPT-5.5

性能方面也有亮点——Opus 4.8 的快速模式推理速度比之前快了 2.5 倍，价格却降到了旧款的三分之一左右。高性能使用的门槛确实拉低了不少。

配合新模型，Anthropic 还加了不少料：

动态工作流（研究预览版） ——针对企业开发者。Claude 可以在 Claude Code 环境里把大任务拆碎、规划步骤，一个会话内并行调度数百个子代理，完成几十万行代码级别的代码库迁移。目前面向企业版、团队版和 Max 订阅用户开放。

努力程度控制 ——用户可以在 Claude.ai 和 Cowork 里选择模型"出多少力"。选低努力，响应更快、配额消耗更少。Opus 4.8 默认走"高努力"模式，官方说这是质量和使用体验的最佳平衡点。

Messages API 更新 ——开发者现在可以在消息数组里塞系统级指令条目了。这意味着在任务运行中能动态调整 Claude 的行为和角色设定，不用重启新会话，多步骤自动化工作流和企业应用写起来更灵活。

Claude Opus 4.8 即日起全球开放，常规用量的定价跟 Opus 4.7 保持一致。Anthropic 还透露了两条路线：

至于那个代号 Claude Mythos 的高阶模型，目前还在跟少数合作机构测试中。Anthropic 说正在给这模型加固安全护栏和规范，预计"未来几周内"会向所有客户开放。到时候在企业级安全审计、代码分析和复杂决策支持这些场景上，应该又能卷一波。