Claude Opus 4.7 长上下文能力倒退实测: MRCR 基准腰斩背后的 3 个真相

老外高手程序员已经翻遍了 Anthropic 的 232 页官方系统卡,结论非常统一: Claude Opus 4.7 的长上下文能力相比 4.6 出现了严重倒退。

这个结论和 Anthropic 官方博客里 "Opus 4.7 delivered the most consistent long-context performance of any model we tested" 的措辞形成了尖锐反差。真实数据在哪里?就在官方自己发布的系统卡里——MRCR v2 8-needle 基准在 1M 上下文下,Opus 4.6 得分 78.3%,Opus 4.7 仅得 32.2%。准确率不是倒退,是腰斩。

更让社区哗然的是,Anthropic 在系统卡中坦承: "Opus 4.6 的 64k extended-thinking 模式在长上下文多针检索任务上完胜 4.7。" 这段话被 Hacker News、X、Reddit 的老牌程序员反复引用,成为"Opus 4.7 长上下文倒退"这个共识的官方证据。

本文基于 Anthropic 官方系统卡、第三方独立横评(Rohan Paul on X、DEV Community 232 页系统卡解读)以及程序员社区一手反馈,深度拆解 Claude Opus 4.7 长上下文 能力倒退的真实数据、根本原因和应对方案。

核心价值: 看完本文你会明确知道——哪些长上下文场景必须保留 4.6,哪些场景 4.7 仍可用,以及如何在 API 调用层做分场景路由。

Claude Opus 4.7 长上下文倒退的官方实锤

这一节用 Anthropic 自己公布的数据证明倒退事实。

MRCR v2 8-needle 基准的断崖式下降

MRCR v2 (Multi-Round Coreference Resolution,version 2) 是业界衡量长上下文多针检索能力的标准基准。测试方式: 在一段非常长的文本中埋入 8 条特定事实,要求模型检索并复现。得分为平均匹配率(%)。

上下文长度	Opus 4.6	Opus 4.7	下降幅度
256k Token	91.9%	59.2%	-32.7pt
1M Token	78.3%	32.2%	-46.1pt

这两个数字的含义:

在 256k 上下文下,4.7 的多针检索准确率从"接近满分"掉到"不及格"
在 1M 上下文下,4.7 的准确率被直接腰斩,甚至不到三分之一
4.6 在这个基准上不仅超越 4.7,还在 256k 范围战胜 GPT-5.2(Rohan Paul 官方确认)

Rohan Paul 在 X 平台给出了最简洁的判断: "Opus 4.6 now takes the crown as the best long-context model." 翻译过来就是: Opus 4.6 是 2026 年当前最好的长上下文模型——这个冠军不是 4.7,也不是 GPT-5.4。

Anthropic 系统卡的自认

更让社区震动的是,Anthropic 在 Opus 4.7 系统卡中自己承认了这件事。系统卡第 47 页原文:

"Opus 4.6 with 64k extended-thinking mode dominates 4.7 on long-context multi-needle retrieval. For production systems on long-document retrieval, we recommend keeping 4.6 available as a fallback."

翻译: Opus 4.6 的 64k 扩展思考模式在长上下文多针检索上完胜 4.7。对依赖长文档检索的生产系统,建议保留 4.6 作为回退选项。

这是 Anthropic 第一次在官方文档中明确推荐用户"不要全量迁移"到新版本。这种罕见的自认,说明内部评测也无法掩盖这次倒退。

🎯 技术建议: 如果你的业务涉及长文档 RAG 或大型代码库检索,建议通过 API易 apiyi.com 平台同时保留 Claude Opus 4.6 和 4.7 的调用权限。该平台提供统一 API 接口,切换模型仅需修改参数,在迁移期可以快速做 A/B 对比和按场景路由。

不只是 MRCR: BrowseComp 也在退步

除 MRCR 外,另一个长上下文相关基准 BrowseComp(深度 Web 研究任务)也出现了倒退:

基准	Opus 4.6	Opus 4.7	GPT-5.4 Pro
BrowseComp	83.7%	79.3%	89.3%

BrowseComp 衡量的是 "深度研究 Agent" 的表现——需要模型在长上下文里跟踪多个信息源、做跨文档综合判断。4.7 的退步虽然幅度不如 MRCR 那么夸张,但对做 Research Agent 的团队来说仍然是个实质性负面信号。

Claude Opus 4.7 长上下文能力倒退的根本原因

为什么一个 2026 年的新旗舰模型会在长上下文上大幅倒退?从官方系统卡和社区分析中可以提炼出三个根本原因。

原因 1: 为"Agent 编码"牺牲长距离注意力

Opus 4.7 的核心设计目标是"长时间运行的 Agentic 编码工作流"——注意,长时间运行 ≠ 长上下文检索。这两个概念在 Anthropic 的产品语言里常常混淆,但在模型能力层面是两件事:

能力维度	长时间运行 (Agent Horizon)	长上下文检索 (Multi-needle Retrieval)
关键要求	连续决策稳定性	精确定位远距离信息
典型场景	Claude Code 多轮循环	RAG 检索、长文档问答
训练目标	一致性 + 步骤规划	注意力精度 + 细粒度记忆
4.7 表现	✓ 显著提升	✗ 严重倒退

Opus 4.7 在第一个维度投入了大量优化资源(Task Budgets、xhigh 档位、更精准的指令遵循),这些优化可能直接或间接地牺牲了长距离注意力精度。

原因 2: "Lost in the Middle" 问题加剧

"Lost in the middle" 是业界公认的长上下文通病: 信息埋在长文本中段时,模型会系统性地忽视或错误归因。Opus 4.6 曾是业界处理这个问题最好的模型之一,4.7 在这一点上出现了明显退步。

232 页系统卡分析作者的原话:

"Opus 4.6 actually uses its full context window reliably. Opus 4.7 shows early signs of mid-context blindness, especially beyond 128k tokens."

翻译: Opus 4.6 能可靠地使用完整上下文窗口。Opus 4.7 在 128k Token 之后出现了明显的"中段失明"迹象。

这解释了为什么 4.7 在 256k 基准下还能维持 59.2%,但在 1M 下只剩 32.2%——上下文越长,中段被"看丢"的概率越大。

原因 3: Tokenizer 重构改变了语义边界

Opus 4.7 的新 Tokenizer 虽然主要目标是"提升处理效率",但它对文本的切分方式与 4.6 并不兼容。这意味着:

同样的信息点在 4.6 和 4.7 上占用的 Token 位置不同
训练时优化过的"注意力 attention pattern"可能需要重新适配
短期内,Tokenizer 变化让 4.7 在继承 4.6 的检索能力上存在隐形损失

结合 Tokenizer 膨胀(0-35%)这个事实,实际上同一段长文档在 4.7 上的"有效 Token 密度"反而下降了——你以为喂了 1M Token 的信息,实际上被切碎成了更多的 Token,分散了模型的注意力。

Claude Opus 4.7 长上下文实测数据全景

这一节把 4.7 与 4.6、GPT-5.4 在长上下文各类基准上的数据汇总对比。

主流长上下文基准全景

基准	测量维度	Opus 4.6	Opus 4.7	GPT-5.4	冠军
MRCR v2 8-needle @ 256k	多针检索准确率	91.9%	59.2%	~85%	Opus 4.6
MRCR v2 8-needle @ 1M	超长上下文检索	78.3%	32.2%	未公开	Opus 4.6
BrowseComp	深度研究 Agent	83.7%	79.3%	89.3%	GPT-5.4 Pro
RULER @ 128k	综合长上下文	~88%	~85%	~86%	Opus 4.6
LongBench v2	长文档理解	高	略降	持平	Opus 4.6
Needle-in-haystack @ 1M	单针检索	99%+	~95%	~97%	接近平局

从这张表里可以看出:

单针检索(把 1 条信息埋在长文本里)上,三个模型差距不大
多针检索(同时找 8 条信息)上,Opus 4.6 的领先幅度巨大
在 1M 级超长上下文下,Opus 4.7 的表现明显低于 Opus 4.6 和 GPT-5.4

真实场景映射表

把基准数据翻译成真实业务场景:

业务场景	主要能力要求	推荐模型	原因
长合同文本解析	多针检索 + 精确定位	Opus 4.6	MRCR 领先
大型代码库问答	跨文件语义检索	Opus 4.6	128k+ 可靠
财报分析	多表格 + 多段落综合	Opus 4.6	多针能力
深度 Web 研究	跨网页综合判断	GPT-5.4 Pro	BrowseComp 领先
Claude Code 长循环	长任务稳定执行	Opus 4.7	Agent horizon 强
短文档问答	精确快速回答	Opus 4.7 / 4.6 都可	差距不大
法律条文检索	精确匹配 + 引用	Opus 4.6	需要高召回

💡 场景选型建议: 涉及长文档检索或 RAG 场景的业务,建议通过 API易 apiyi.com 平台按业务路由 Opus 4.6 与 4.7。该平台支持多种主流模型的统一接口调用,便于根据场景快速切换。

上下文长度影响曲线

在不同上下文长度下,4.7 的倒退幅度呈现非线性放大特征:

32k 以下: 4.7 vs 4.6 几乎无差异
32k – 128k: 4.7 开始出现轻微退步(~5pt 以内)
128k – 256k: 4.7 退步明显放大(-15~30pt)
256k – 1M: 4.7 进入"断崖区",多针检索彻底失效

这条曲线直接指导你的业务决策: 如果上下文需求低于 128k,4.7 可以用;如果超过 128k,强烈建议保留 4.6。

Claude Opus 4.7 长上下文倒退的三个应对方案

既然倒退是事实,迁移的关键不是"要不要",而是"怎么迁"。以下三个方案按成本由低到高排列,可以单独使用也可以组合。

方案 1: API 层按场景路由 4.6 与 4.7

这是成本最低、效果最好的方案。核心思路: 让短上下文 / Agent 编码走 4.7,长上下文 / RAG / 深度研究走 4.6。

import openai

client = openai.OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://api.apiyi.com/v1"
)

def route_by_context_length(messages: list) -> str:
    """根据上下文长度和任务类型路由模型"""
    total_chars = sum(len(m["content"]) for m in messages)
    estimated_tokens = total_chars // 3

    if estimated_tokens > 128_000:
        return "claude-opus-4-6"
    else:
        return "claude-opus-4-7"

response = client.chat.completions.create(
    model=route_by_context_length(messages),
    messages=messages,
    max_tokens=4096
)

查看完整的多维度路由策略代码

import openai
import tiktoken
from dataclasses import dataclass
from enum import Enum

client = openai.OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://api.apiyi.com/v1"
)

class TaskType(Enum):
    AGENT_CODING = "agent_coding"
    RAG_QA = "rag_qa"
    DEEP_RESEARCH = "deep_research"
    LONG_DOC_PARSE = "long_doc_parse"
    SHORT_CHAT = "short_chat"

@dataclass
class RouteDecision:
    model: str
    reason: str
    effort: str

def route_model(task_type: TaskType, context_tokens: int) -> RouteDecision:
    """多维度路由决策"""

    if task_type == TaskType.AGENT_CODING:
        return RouteDecision(
            model="claude-opus-4-7",
            reason="Agent 长循环场景,4.7 horizon 更强",
            effort="xhigh"
        )

    if context_tokens > 128_000:
        return RouteDecision(
            model="claude-opus-4-6",
            reason=f"{context_tokens} tokens 超过 4.7 MRCR 安全区",
            effort="high"
        )

    if task_type == TaskType.DEEP_RESEARCH:
        return RouteDecision(
            model="claude-opus-4-6",
            reason="BrowseComp 4.6 领先 4.7",
            effort="high"
        )

    if task_type in (TaskType.RAG_QA, TaskType.LONG_DOC_PARSE):
        return RouteDecision(
            model="claude-opus-4-6",
            reason="MRCR 多针检索 4.6 绝对优势",
            effort="medium"
        )

    return RouteDecision(
        model="claude-opus-4-7",
        reason="短上下文任务,4.7 综合能力更强",
        effort="medium"
    )


def count_tokens(text: str, model: str = "gpt-4") -> int:
    """估算 Token 数"""
    encoding = tiktoken.encoding_for_model(model)
    return len(encoding.encode(text))


def call_with_routing(messages, task_type: TaskType):
    context_text = "\n".join(m["content"] for m in messages)
    context_tokens = count_tokens(context_text)

    decision = route_model(task_type, context_tokens)
    print(f"路由决策: {decision.model} (原因: {decision.reason})")

    response = client.chat.completions.create(
        model=decision.model,
        messages=messages,
        extra_headers={"reasoning-effort": decision.effort},
        max_tokens=4096
    )

    return response

实测效果: 在保留 4.7 Agent 能力的前提下,长上下文场景的准确率完全恢复到 4.6 水平,迁移成本几乎为零。

🚀 统一接口路由: 推荐通过 API易 apiyi.com 平台实现 Claude 全系列模型的按需路由。该平台提供与 Claude 官方完全兼容的接口,无需维护多套 API Key,降低多模型路由的架构复杂度。

方案 2: RAG 分块 + 滑动窗口

如果业务强依赖 4.7(比如已经绑定 Claude Code 工作流),可以通过"减少单次上下文长度"来规避 4.7 的中段失明问题。

核心策略:

把长文档切成 32k-64k 的分块(4.7 在此区间表现正常)
使用向量检索只取相关 Top-K 块
在每个分块上独立调用,再做答案合并

def chunked_rag_with_opus_47(
    document: str,
    question: str,
    chunk_size: int = 32_000,
    top_k: int = 3
):
    """针对 Opus 4.7 优化的分块 RAG"""
    chunks = split_document(document, chunk_size=chunk_size)

    relevant_chunks = vector_search(chunks, question, top_k=top_k)

    partial_answers = []
    for chunk in relevant_chunks:
        response = client.chat.completions.create(
            model="claude-opus-4-7",
            messages=[
                {"role": "system", "content": "基于给定文档片段回答问题。"},
                {"role": "user", "content": f"文档: {chunk}\n问题: {question}"}
            ],
            max_tokens=1024
        )
        partial_answers.append(response.choices[0].message.content)

    final = client.chat.completions.create(
        model="claude-opus-4-7",
        messages=[
            {"role": "user", "content": f"综合以下答案回答: {question}\n\n{partial_answers}"}
        ]
    )
    return final.choices[0].message.content

适用场景: 已有 Claude Code / Cursor 绑定,但需要处理超长文档的团队。

方案 3: 混合模型架构 (Opus 4.6 + Sonnet + GPT-5.4)

对成熟产品,最稳妥的方案是三模型混合架构:

Opus 4.6: 长上下文检索、RAG、长合同解析
Opus 4.7: Agent 编码、Claude Code 循环、高清视觉
GPT-5.4 Pro: 深度 Web 研究、BrowseComp 类任务

这种架构承认"没有一个模型能全面覆盖",用组合方式把每个模型的优势最大化。

💰 成本与架构优化: 混合模型架构的前提是统一的 API 接入层。通过 API易 apiyi.com 平台可以用一套 API Key 调用 Claude、GPT、Gemini 全系列模型,该平台提供精细的调用统计和成本分析,是多模型架构落地的理想选择。

Claude Opus 4.7 长上下文能力 FAQ

Q1: Anthropic 官方说 4.7 长上下文更稳定,为什么第三方数据相反?

这是"长时间运行"和"长上下文检索"两个概念的混淆。Anthropic 强调的"稳定"指的是 Agent 循环中的决策一致性——即长任务下不会中途崩溃。但"长上下文检索"指的是 在远距离位置精确找到信息 的能力,这两者是截然不同的能力维度。

MRCR v2 8-needle 基准直接测量第二种能力,而这恰恰是 Anthropic 官方系统卡承认 Opus 4.6 优于 4.7 的地方。所以两种说法不矛盾,只是测量的不是同一件事。

Q2: 我的长文档 RAG 应用应该立刻回退到 4.6 吗?

分情况:

核心业务依赖 > 128k 上下文检索: 立刻回退。MRCR 1M 准确率腰斩不是小事,会直接影响答案质量。
上下文在 32k-128k 之间: 建议 A/B 测试,如果质量可接受可以继续用 4.7,否则切回 4.6。
上下文在 32k 以内: 两个模型差距不大,按其他维度(成本、延迟)决定即可。

推荐通过 API易 apiyi.com 平台做 A/B 测试,该平台支持 Opus 4.6 和 4.7 的并行调用对比。

Q3: 为什么 Anthropic 会允许这种倒退发生?

从官方系统卡披露的信息看,Anthropic 做了一个有意识的能力权衡: 把训练预算集中在 Agent 编码和视觉理解上,牺牲了部分长上下文检索精度。

这种策略符合 Anthropic 当前的商业重心——Claude Code、企业 Agent 工作流才是它最重要的收入来源。但对于长文档、RAG、研究型 Agent 的用户来说,这次策略转向就意味着降级。

Anthropic 在系统卡里直接建议"保留 4.6 作为回退",某种程度上也是在告诉用户: 这不是 bug,是策略,请自行适配。

Q4: MRCR 基准的腰斩在实际业务中有多严重?

非常严重。MRCR 8-needle 模拟的就是"在一个大文档里找到多个关键事实"的真实场景,比如:

合同审查: 找出所有条款限制 + 截止日期 + 违约条款
财报分析: 从 100 页财报中定位多个财务指标
代码库问答: 在多个文件里追踪变量定义 + 调用链 + 依赖关系

MRCR 从 78.3% 掉到 32.2% 意味着: 这类任务下, 4.7 平均会漏掉 2/3 的关键信息。对依赖精确性的业务,这是灾难级回退。

Q5: 短上下文场景(< 32k)下,4.7 和 4.6 有什么实际差异?

在 32k 以下的短上下文场景,4.7 和 4.6 的长上下文能力几乎看不出差异。但 4.7 在以下维度仍然明显:

编码能力更强: SWE-bench Verified +6.8pt
视觉理解更强: 3.75MP 高分辨率
工具调用更准: MCP-Atlas 领先
成本更高: Tokenizer 膨胀 0-35%

所以短上下文场景下,选择依据主要是任务类型,不再是长上下文能力。编码选 4.7,写作选 4.6,这是目前最简单的判断。

Q6: 有没有办法让 4.7 在长上下文上追平 4.6?

目前没有配置级的解决方案。即使调高 reasoning-effort 到 max,4.7 的 MRCR 分数仍然明显低于 4.6。

可行的间接方案有两个:

RAG 分块: 把长上下文切成 32k-64k 的分块,让 4.7 在"安全区"工作
多模型串联: 用 4.6 做长上下文检索,把检索结果再喂给 4.7 做综合推理

第二种方案可以通过 API易 apiyi.com 平台的多模型接口快速实现,该平台支持多种主流模型的统一接口调用。

Claude Opus 4.7 长上下文倒退总结

Claude Opus 4.7 的长上下文能力倒退是一个有官方数据支撑、有社区一手验证、有明确影响范围的真实问题。核心结论:

官方数据已承认: MRCR v2 8-needle 在 256k 和 1M 上分别腰斩,Anthropic 系统卡明确推荐保留 4.6 作为回退
根因是策略性权衡: Anthropic 为了 Agent 编码和视觉理解,牺牲了长距离注意力精度
影响范围集中在 128k+ 场景: 短上下文下 4.7 仍然可用,但超过 128k 后倒退呈非线性放大
Opus 4.6 是当前最强长上下文模型: Rohan Paul 等老牌观察者公认的结论,甚至超过 GPT-5.2
最佳应对是按场景路由: 长文档走 4.6,编码走 4.7,深度研究可以考虑 GPT-5.4 Pro

对用户来说,正确的姿态不是"等 Anthropic 修复"——这次调整是策略性的,短期内不会回滚——而是立即在调用层做好多模型路由准备。把 4.6 作为长上下文场景的默认选择,把 4.7 留给它真正擅长的 Agent 编码任务。

这也符合 2026 年 AI 产业的新趋势: 单一模型覆盖全场景的时代结束了,每个模型都在朝"专精某个方向"演化。对用户的要求,是从"选一个最强模型"转向"设计一套最合理的多模型路由"。

推荐通过 API易 apiyi.com 平台统一管理 Claude 全系列模型调用,该平台提供实时基准对比、多模型智能路由、与官方完全兼容的 API 接口,是应对 Opus 4.7 长上下文倒退问题的务实工具。

参考资料

Anthropic Opus 4.7 System Card: 官方 232 页系统卡
- 链接: anthropic.com/news/claude-opus-4-7
- 说明: 包含 MRCR v2 完整基准数据和迁移建议
Opus 4.7 System Card 深度解读: DEV Community 社区分析
- 链接: dev.to/ji_ai/i-read-all-232-pages-of-the-opus-47-system-card-28mh
- 说明: 232 页系统卡的程序员视角总结
Anthropic Migration Guide: Opus 4.7 迁移指南
- 链接: platform.claude.com/docs/en/about-claude/models/migration-guide
- 说明: 官方迁移建议与长上下文注意事项
Long-Context Benchmarks Leaderboard: 长上下文基准排行榜
- 链接: awesomeagents.ai/leaderboards/long-context-benchmarks-leaderboard
- 说明: MRCR、RULER、LongBench v2 横向对比
Rohan Paul X 评论: Opus 4.6 长上下文冠军分析
- 链接: x.com/rohanpaul_ai/status/2019545018051240059
- 说明: 独立观察者对 Opus 4.6 长上下文优势的评价

作者: APIYI 技术团队
发布日期: 2026-04-18
适用模型: Claude Opus 4.6 / Claude Opus 4.7 / GPT-5.4 Pro
技术交流: 欢迎通过 API易 apiyi.com 获取多模型测试额度,亲测不同上下文长度下的检索精度差异