互联网

Claude Opus 4.7 发布:更费token了,用户评价两极

来源:TechWeb 作者:果青 2026-04-17 14:47:18 我要评论

4月17日消息,Anthropic宣布去最新模型 Claude Opus 4.7 已全面可用。相比 Opus 4.6,新模型在高级软件工程领域实现了显著进步,

4月17日消息,Anthropic宣布去最新模型 Claude Opus 4.7 已全面可用。相比 Opus 4.6,新模型在高级软件工程领域实现了显著进步,在多模态能力上视觉能力也大幅增强能产出更高质量的界面、幻灯片等。

Opus 4.7 的定价与 Opus 4.6 相同,每百万输入 token 5 美元,每百万输出 token 25 美元。

Anthropic在官方在公告里明确写道:新分词器会导致相同内容的token数变为原来的1.0到1.35倍。而API单价没变,实际成本就是变相上涨了10%-35%。

目前,已经有不少用户连夜试用了最新的Claude Opus 4.7,从社交平台上的信息来看,用户对Opus 4.7的评价较为两极。

大部分用户认可Opus 4.7在编程能力的提升,但是在文案撰写、对话沟通方面槽点较多。

Claude Opus 4.7主要能力提升

根据Anthropic官方贴出来的数据,在编码与推理方面,Opus 4.7 在处理复杂、长期运行的任务时更加严谨和一致,能够自行验证输出结果。用户反馈称,原本需要密切监督的复杂编码工作,现在可以放心交给 Opus 4.7。该模型能够严谨且一致地处理长时间、多步骤的任务,精确遵循指令,并在汇报前主动验证自身输出。

Opus 4.7支持更高分辨率的图像输入,长边最大可达 2,576 像素(约 375 万像素),是前代 Claude 模型的 3 倍以上。这使得模型可以处理依赖精细视觉细节的多模态任务,如读取密集截图、从复杂图表中提取数据、像素级参考等。

Opus 4.7 严格按字面意思理解并执行指令。这意味着为旧模型编写的提示词可能会产生意外结果(因为旧模型会宽松解释或跳过部分内容),用户需要据此重新调整提示词和工具链。

内部测试显示,Opus 4.7 是更高效的金融分析师,能生成严谨的分析模型、更专业的演示文稿,并实现更紧密的任务整合。此外,在第三方评估 GDPval-AA(涵盖金融、法律等领域的经济价值知识工作)上,Opus 4.7 也达到了最先进水平。

Opus 4.7 更擅长使用基于文件系统的记忆,能够在多轮长时间工作中记住重要笔记,并在新任务中直接利用这些记忆,减少前期的上下文输入。

安全性方面,Opus 4.7 配备了自动检测和拦截功能,可阻止涉及禁止或高风险网络安全用途的请求。Anthropic表示,安全专业人士如需将 Opus 4.7 用于合法网络安全目的(如漏洞研究、渗透测试、红队演练),可申请加入新推出的“网络验证计划”。

总体而言,Opus 4.7 的安全性与 Opus 4.6 相似:在欺骗、谄媚、协助滥用等令人担忧的行为上发生率较低。在诚实性和抵御恶意“提示注入”攻击方面,Opus 4.7 优于 Opus 4.6;但在某些方面(例如对受管制物质给出过于详细的减害建议)则略有不足。

新增xhigh级别选择,更费token了

Anthropic发布的blog显示,Opus 4.7上还同步更新了不少新功能,包括:

Opus 4.7 在 high和 max之间新增了xhigh(极高)努力级别,让用户在困难问题上更精细地权衡推理质量和延迟。

在 Claude Code 中,所有计划的默认努力级别已提升为xhigh。对于编码和智能体用例,建议从high或 xhigh开始测试。

除了支持更高分辨率图像外,还公开测试了“任务预算”(task budgets),让开发者可以引导 Claude 的 token 开销,使其在较长运行中合理分配工作。

Claude Code 新命令/ultrareview命令会启动专门的审查会话,通读代码变更并标记出细心审查者才能发现的 bug 和设计问题。Pro 和 Max 用户可免费试用 3 次。

此外,auto mode(自动模式)已向 Max 用户开放,Claude 可代为做出权限决定,从而以更少的中断运行更长的任务,同时降低风险。

另外,值得注意的是,Opus 4.7 是 Opus 4.6 的直接升级版,但有两点变化会影响 token 使用量,需要提前规划:

一是,新分词器改进了文本处理方式,但同样的输入可能会映射为更多的 token,具体比例约为 1.0~1.35 倍(取决于内容类型)。

二是,更高努力级别下的思考量增加,尤其是在智能体场景的后续轮次中,Opus 4.7 会产生更多输出 token。

用户可以通过调整努力参数、设置任务预算或提示模型更简洁来控制 token 使用量。

Anthropic 的内部测试显示,在内部编码评估中,所有努力级别的 token 效率均有提升。

用户评价两极

对Opus 4.7的编程能力,不少用户在实际体验后均给出了肯定的评价,能力确实更强大了。

让不少用户破防的,是token消耗。有用户表示,官方通篇吹视觉提升,一个字没提这玩意儿吃token跟喝水一样。拿同一张设计稿试了下,Opus4.7的输入token直接飙到Opus4.6的3倍多。

另外,Opus 4.7一些能力不升反降。

在长上下文检索上,Opus 4.6评分能到78.3%,Opus 4.7直接掉到32.2%。Anthropic解释说新模型遇到缺信息会直接报错,不像以前那样瞎编。用户实际试下来,就算信息明明白白在上下文里,它也能给你漏掉。法律、金融这种靠长文档吃饭的,慎用。

Opus 4.7的联网搜索和Agent能力也微降了。其Agentic search评测BrowseComp评分从Opus 4.6 的83.7%掉到Opus 4.7的79.3%,更是被GPT-5.4(89.3%)甩开一截。

被吐槽最多的是Claude Opus 4.7的文笔大变味。

好多写作者表示,Opus 4.7现在满嘴“稳稳接住”“压实闭环”这种大厂黑话,破折号乱用,续写内容干巴巴。用户吐槽:“以前用它改文案,现在改它的文案花两倍时间”。

最后,思考过程还给藏了。Opus 4.7默认不输出推理摘要,想看逻辑得手动加命令。复杂任务出错,你根本不知道它哪一步想岔了,排查成本翻倍。有人说官方怕被蒸馏,但开发者体验真的喂狗了。

总之,Opus 4.7不是无痛升级。你要不是硬核编码场景,建议先观望。

 

转载请注明出处。

本站页面、图片和视频等资料部分由互联网编辑生成,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,若本站收录的页面无意侵犯了贵司版权,请 联系我们

网友点评
0相关评论