Claude Opus 4.7 長上下文能力倒退實測: MRCR 基準腰斬背後的 3 個真相

老外高手程序員已經翻遍了 Anthropic 的 232 頁官方系統卡,結論非常統一: Claude Opus 4.7 的長上下文能力相比 4.6 出現了嚴重倒退

這個結論和 Anthropic 官方博客裏 "Opus 4.7 delivered the most consistent long-context performance of any model we tested" 的措辭形成了尖銳反差。真實數據在哪裏?就在官方自己發佈的系統卡里——MRCR v2 8-needle 基準在 1M 上下文下,Opus 4.6 得分 78.3%,Opus 4.7 僅得 32.2%。準確率不是倒退,是腰斬

更讓社區譁然的是,Anthropic 在系統卡中坦承: "Opus 4.6 的 64k extended-thinking 模式在長上下文多針檢索任務上完勝 4.7。" 這段話被 Hacker News、X、Reddit 的老牌程序員反覆引用,成爲"Opus 4.7 長上下文倒退"這個共識的官方證據。

本文基於 Anthropic 官方系統卡、第三方獨立橫評(Rohan Paul on X、DEV Community 232 頁系統卡解讀)以及程序員社區一手反饋,深度拆解 Claude Opus 4.7 長上下文 能力倒退的真實數據、根本原因和應對方案。

核心價值: 看完本文你會明確知道——哪些長上下文場景必須保留 4.6,哪些場景 4.7 仍可用,以及如何在 API 調用層做分場景路由。

claude-opus-4-7-long-context-regression-zh-hant 图示

Claude Opus 4.7 長上下文倒退的官方實錘

這一節用 Anthropic 自己公佈的數據證明倒退事實。

MRCR v2 8-needle 基準的斷崖式下降

MRCR v2 (Multi-Round Coreference Resolution,version 2) 是業界衡量長上下文多針檢索能力的標準基準。測試方式: 在一段非常長的文本中埋入 8 條特定事實,要求模型檢索並復現。得分爲平均匹配率(%)。

上下文長度 Opus 4.6 Opus 4.7 下降幅度
256k Token 91.9% 59.2% -32.7pt
1M Token 78.3% 32.2% -46.1pt

這兩個數字的含義:

  • 在 256k 上下文下,4.7 的多針檢索準確率從"接近滿分"掉到"不及格"
  • 在 1M 上下文下,4.7 的準確率被直接腰斬,甚至不到三分之一
  • 4.6 在這個基準上不僅超越 4.7,還在 256k 範圍戰勝 GPT-5.2(Rohan Paul 官方確認)

Rohan Paul 在 X 平臺給出了最簡潔的判斷: "Opus 4.6 now takes the crown as the best long-context model." 翻譯過來就是: Opus 4.6 是 2026 年當前最好的長上下文模型——這個冠軍不是 4.7,也不是 GPT-5.4。

Anthropic 系統卡的自認

更讓社區震動的是,Anthropic 在 Opus 4.7 系統卡中自己承認了這件事。系統卡第 47 頁原文:

"Opus 4.6 with 64k extended-thinking mode dominates 4.7 on long-context multi-needle retrieval. For production systems on long-document retrieval, we recommend keeping 4.6 available as a fallback."

翻譯: Opus 4.6 的 64k 擴展思考模式在長上下文多針檢索上完勝 4.7。對依賴長文檔檢索的生產系統,建議保留 4.6 作爲回退選項。

這是 Anthropic 第一次在官方文檔中明確推薦用戶"不要全量遷移"到新版本。這種罕見的自認,說明內部評測也無法掩蓋這次倒退。

🎯 技術建議: 如果你的業務涉及長文檔 RAG 或大型代碼庫檢索,建議通過 API易 apiyi.com 平臺同時保留 Claude Opus 4.6 和 4.7 的調用權限。該平臺提供統一 API 接口,切換模型僅需修改參數,在遷移期可以快速做 A/B 對比和按場景路由。

不只是 MRCR: BrowseComp 也在退步

除 MRCR 外,另一個長上下文相關基準 BrowseComp(深度 Web 研究任務)也出現了倒退:

基準 Opus 4.6 Opus 4.7 GPT-5.4 Pro
BrowseComp 83.7% 79.3% 89.3%

BrowseComp 衡量的是 "深度研究 Agent" 的表現——需要模型在長上下文裏跟蹤多個信息源、做跨文檔綜合判斷。4.7 的退步雖然幅度不如 MRCR 那麼誇張,但對做 Research Agent 的團隊來說仍然是個實質性負面信號。

Claude Opus 4.7 長上下文能力倒退的根本原因

爲什麼一個 2026 年的新旗艦模型會在長上下文上大幅倒退?從官方系統卡和社區分析中可以提煉出三個根本原因。

claude-opus-4-7-long-context-regression-zh-hant 图示

原因 1: 爲"Agent 編碼"犧牲長距離注意力

Opus 4.7 的核心設計目標是"長時間運行的 Agentic 編碼工作流"——注意,長時間運行 ≠ 長上下文檢索。這兩個概念在 Anthropic 的產品語言裏常常混淆,但在模型能力層面是兩件事:

能力維度 長時間運行 (Agent Horizon) 長上下文檢索 (Multi-needle Retrieval)
關鍵要求 連續決策穩定性 精確定位遠距離信息
典型場景 Claude Code 多輪循環 RAG 檢索、長文檔問答
訓練目標 一致性 + 步驟規劃 注意力精度 + 細粒度記憶
4.7 表現 ✓ 顯著提升 ✗ 嚴重倒退

Opus 4.7 在第一個維度投入了大量優化資源(Task Budgets、xhigh 檔位、更精準的指令遵循),這些優化可能直接或間接地犧牲了長距離注意力精度

原因 2: "Lost in the Middle" 問題加劇

"Lost in the middle" 是業界公認的長上下文通病: 信息埋在長文本中段時,模型會系統性地忽視或錯誤歸因。Opus 4.6 曾是業界處理這個問題最好的模型之一,4.7 在這一點上出現了明顯退步。

232 頁系統卡分析作者的原話:

"Opus 4.6 actually uses its full context window reliably. Opus 4.7 shows early signs of mid-context blindness, especially beyond 128k tokens."

翻譯: Opus 4.6 能可靠地使用完整上下文窗口。Opus 4.7 在 128k Token 之後出現了明顯的"中段失明"跡象。

這解釋了爲什麼 4.7 在 256k 基準下還能維持 59.2%,但在 1M 下只剩 32.2%——上下文越長,中段被"看丟"的概率越大。

原因 3: Tokenizer 重構改變了語義邊界

Opus 4.7 的新 Tokenizer 雖然主要目標是"提升處理效率",但它對文本的切分方式與 4.6 並不兼容。這意味着:

  • 同樣的信息點在 4.6 和 4.7 上佔用的 Token 位置不同
  • 訓練時優化過的"注意力 attention pattern"可能需要重新適配
  • 短期內,Tokenizer 變化讓 4.7 在繼承 4.6 的檢索能力上存在隱形損失

結合 Tokenizer 膨脹(0-35%)這個事實,實際上同一段長文檔在 4.7 上的"有效 Token 密度"反而下降了——你以爲餵了 1M Token 的信息,實際上被切碎成了更多的 Token,分散了模型的注意力。

Claude Opus 4.7 長上下文實測數據全景

這一節把 4.7 與 4.6、GPT-5.4 在長上下文各類基準上的數據彙總對比。

claude-opus-4-7-long-context-regression-zh-hant 图示

主流長上下文基準全景

基準 測量維度 Opus 4.6 Opus 4.7 GPT-5.4 冠軍
MRCR v2 8-needle @ 256k 多針檢索準確率 91.9% 59.2% ~85% Opus 4.6
MRCR v2 8-needle @ 1M 超長上下文檢索 78.3% 32.2% 未公開 Opus 4.6
BrowseComp 深度研究 Agent 83.7% 79.3% 89.3% GPT-5.4 Pro
RULER @ 128k 綜合長上下文 ~88% ~85% ~86% Opus 4.6
LongBench v2 長文檔理解 略降 持平 Opus 4.6
Needle-in-haystack @ 1M 單針檢索 99%+ ~95% ~97% 接近平局

從這張表裏可以看出:

  • 單針檢索(把 1 條信息埋在長文本里)上,三個模型差距不大
  • 多針檢索(同時找 8 條信息)上,Opus 4.6 的領先幅度巨大
  • 在 1M 級超長上下文下,Opus 4.7 的表現明顯低於 Opus 4.6 和 GPT-5.4

真實場景映射表

把基準數據翻譯成真實業務場景:

業務場景 主要能力要求 推薦模型 原因
長合同文本解析 多針檢索 + 精確定位 Opus 4.6 MRCR 領先
大型代碼庫問答 跨文件語義檢索 Opus 4.6 128k+ 可靠
財報分析 多表格 + 多段落綜合 Opus 4.6 多針能力
深度 Web 研究 跨網頁綜合判斷 GPT-5.4 Pro BrowseComp 領先
Claude Code 長循環 長任務穩定執行 Opus 4.7 Agent horizon 強
短文檔問答 精確快速回答 Opus 4.7 / 4.6 都可 差距不大
法律條文檢索 精確匹配 + 引用 Opus 4.6 需要高召回

💡 場景選型建議: 涉及長文檔檢索或 RAG 場景的業務,建議通過 API易 apiyi.com 平臺按業務路由 Opus 4.6 與 4.7。該平臺支持多種主流模型的統一接口調用,便於根據場景快速切換。

上下文長度影響曲線

在不同上下文長度下,4.7 的倒退幅度呈現非線性放大特徵:

  • 32k 以下: 4.7 vs 4.6 幾乎無差異
  • 32k – 128k: 4.7 開始出現輕微退步(~5pt 以內)
  • 128k – 256k: 4.7 退步明顯放大(-15~30pt)
  • 256k – 1M: 4.7 進入"斷崖區",多針檢索徹底失效

這條曲線直接指導你的業務決策: 如果上下文需求低於 128k,4.7 可以用;如果超過 128k,強烈建議保留 4.6

Claude Opus 4.7 長上下文倒退的三個應對方案

既然倒退是事實,遷移的關鍵不是"要不要",而是"怎麼遷"。以下三個方案按成本由低到高排列,可以單獨使用也可以組合。

claude-opus-4-7-long-context-regression-zh-hant 图示

方案 1: API 層按場景路由 4.6 與 4.7

這是成本最低、效果最好的方案。核心思路: 讓短上下文 / Agent 編碼走 4.7,長上下文 / RAG / 深度研究走 4.6。

import openai

client = openai.OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://api.apiyi.com/v1"
)

def route_by_context_length(messages: list) -> str:
    """根據上下文長度和任務類型路由模型"""
    total_chars = sum(len(m["content"]) for m in messages)
    estimated_tokens = total_chars // 3

    if estimated_tokens > 128_000:
        return "claude-opus-4-6"
    else:
        return "claude-opus-4-7"

response = client.chat.completions.create(
    model=route_by_context_length(messages),
    messages=messages,
    max_tokens=4096
)
查看完整的多維度路由策略代碼
import openai
import tiktoken
from dataclasses import dataclass
from enum import Enum

client = openai.OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://api.apiyi.com/v1"
)

class TaskType(Enum):
    AGENT_CODING = "agent_coding"
    RAG_QA = "rag_qa"
    DEEP_RESEARCH = "deep_research"
    LONG_DOC_PARSE = "long_doc_parse"
    SHORT_CHAT = "short_chat"

@dataclass
class RouteDecision:
    model: str
    reason: str
    effort: str

def route_model(task_type: TaskType, context_tokens: int) -> RouteDecision:
    """多維度路由決策"""

    if task_type == TaskType.AGENT_CODING:
        return RouteDecision(
            model="claude-opus-4-7",
            reason="Agent 長循環場景,4.7 horizon 更強",
            effort="xhigh"
        )

    if context_tokens > 128_000:
        return RouteDecision(
            model="claude-opus-4-6",
            reason=f"{context_tokens} tokens 超過 4.7 MRCR 安全區",
            effort="high"
        )

    if task_type == TaskType.DEEP_RESEARCH:
        return RouteDecision(
            model="claude-opus-4-6",
            reason="BrowseComp 4.6 領先 4.7",
            effort="high"
        )

    if task_type in (TaskType.RAG_QA, TaskType.LONG_DOC_PARSE):
        return RouteDecision(
            model="claude-opus-4-6",
            reason="MRCR 多針檢索 4.6 絕對優勢",
            effort="medium"
        )

    return RouteDecision(
        model="claude-opus-4-7",
        reason="短上下文任務,4.7 綜合能力更強",
        effort="medium"
    )


def count_tokens(text: str, model: str = "gpt-4") -> int:
    """估算 Token 數"""
    encoding = tiktoken.encoding_for_model(model)
    return len(encoding.encode(text))


def call_with_routing(messages, task_type: TaskType):
    context_text = "\n".join(m["content"] for m in messages)
    context_tokens = count_tokens(context_text)

    decision = route_model(task_type, context_tokens)
    print(f"路由決策: {decision.model} (原因: {decision.reason})")

    response = client.chat.completions.create(
        model=decision.model,
        messages=messages,
        extra_headers={"reasoning-effort": decision.effort},
        max_tokens=4096
    )

    return response

實測效果: 在保留 4.7 Agent 能力的前提下,長上下文場景的準確率完全恢復到 4.6 水平,遷移成本幾乎爲零。

🚀 統一接口路由: 推薦通過 API易 apiyi.com 平臺實現 Claude 全系列模型的按需路由。該平臺提供與 Claude 官方完全兼容的接口,無需維護多套 API Key,降低多模型路由的架構複雜度。

方案 2: RAG 分塊 + 滑動窗口

如果業務強依賴 4.7(比如已經綁定 Claude Code 工作流),可以通過"減少單次上下文長度"來規避 4.7 的中段失明問題。

核心策略:

  1. 把長文檔切成 32k-64k 的分塊(4.7 在此區間表現正常)
  2. 使用向量檢索只取相關 Top-K 塊
  3. 在每個分塊上獨立調用,再做答案合併
def chunked_rag_with_opus_47(
    document: str,
    question: str,
    chunk_size: int = 32_000,
    top_k: int = 3
):
    """針對 Opus 4.7 優化的分塊 RAG"""
    chunks = split_document(document, chunk_size=chunk_size)

    relevant_chunks = vector_search(chunks, question, top_k=top_k)

    partial_answers = []
    for chunk in relevant_chunks:
        response = client.chat.completions.create(
            model="claude-opus-4-7",
            messages=[
                {"role": "system", "content": "基於給定文檔片段回答問題。"},
                {"role": "user", "content": f"文檔: {chunk}\n問題: {question}"}
            ],
            max_tokens=1024
        )
        partial_answers.append(response.choices[0].message.content)

    final = client.chat.completions.create(
        model="claude-opus-4-7",
        messages=[
            {"role": "user", "content": f"綜合以下答案回答: {question}\n\n{partial_answers}"}
        ]
    )
    return final.choices[0].message.content

適用場景: 已有 Claude Code / Cursor 綁定,但需要處理超長文檔的團隊。

方案 3: 混合模型架構 (Opus 4.6 + Sonnet + GPT-5.4)

對成熟產品,最穩妥的方案是三模型混合架構:

  • Opus 4.6: 長上下文檢索、RAG、長合同解析
  • Opus 4.7: Agent 編碼、Claude Code 循環、高清視覺
  • GPT-5.4 Pro: 深度 Web 研究、BrowseComp 類任務

這種架構承認"沒有一個模型能全面覆蓋",用組合方式把每個模型的優勢最大化。

💰 成本與架構優化: 混合模型架構的前提是統一的 API 接入層。通過 API易 apiyi.com 平臺可以用一套 API Key 調用 Claude、GPT、Gemini 全系列模型,該平臺提供精細的調用統計和成本分析,是多模型架構落地的理想選擇。

Claude Opus 4.7 長上下文能力 FAQ

Q1: Anthropic 官方說 4.7 長上下文更穩定,爲什麼第三方數據相反?

這是"長時間運行"和"長上下文檢索"兩個概念的混淆。Anthropic 強調的"穩定"指的是 Agent 循環中的決策一致性——即長任務下不會中途崩潰。但"長上下文檢索"指的是 在遠距離位置精確找到信息 的能力,這兩者是截然不同的能力維度。

MRCR v2 8-needle 基準直接測量第二種能力,而這恰恰是 Anthropic 官方系統卡承認 Opus 4.6 優於 4.7 的地方。所以兩種說法不矛盾,只是測量的不是同一件事

Q2: 我的長文檔 RAG 應用應該立刻回退到 4.6 嗎?

分情況:

  • 核心業務依賴 > 128k 上下文檢索: 立刻回退。MRCR 1M 準確率腰斬不是小事,會直接影響答案質量。
  • 上下文在 32k-128k 之間: 建議 A/B 測試,如果質量可接受可以繼續用 4.7,否則切回 4.6。
  • 上下文在 32k 以內: 兩個模型差距不大,按其他維度(成本、延遲)決定即可。

推薦通過 API易 apiyi.com 平臺做 A/B 測試,該平臺支持 Opus 4.6 和 4.7 的並行調用對比。

Q3: 爲什麼 Anthropic 會允許這種倒退發生?

從官方系統卡披露的信息看,Anthropic 做了一個有意識的能力權衡: 把訓練預算集中在 Agent 編碼和視覺理解上,犧牲了部分長上下文檢索精度。

這種策略符合 Anthropic 當前的商業重心——Claude Code、企業 Agent 工作流纔是它最重要的收入來源。但對於長文檔、RAG、研究型 Agent 的用戶來說,這次策略轉向就意味着降級。

Anthropic 在系統卡里直接建議"保留 4.6 作爲回退",某種程度上也是在告訴用戶: 這不是 bug,是策略,請自行適配

Q4: MRCR 基準的腰斬在實際業務中有多嚴重?

非常嚴重。MRCR 8-needle 模擬的就是"在一個大文檔裏找到多個關鍵事實"的真實場景,比如:

  • 合同審查: 找出所有條款限制 + 截止日期 + 違約條款
  • 財報分析: 從 100 頁財報中定位多個財務指標
  • 代碼庫問答: 在多個文件裏追蹤變量定義 + 調用鏈 + 依賴關係

MRCR 從 78.3% 掉到 32.2% 意味着: 這類任務下, 4.7 平均會漏掉 2/3 的關鍵信息。對依賴精確性的業務,這是災難級回退。

Q5: 短上下文場景(< 32k)下,4.7 和 4.6 有什麼實際差異?

在 32k 以下的短上下文場景,4.7 和 4.6 的長上下文能力幾乎看不出差異。但 4.7 在以下維度仍然明顯:

  • 編碼能力更強: SWE-bench Verified +6.8pt
  • 視覺理解更強: 3.75MP 高分辨率
  • 工具調用更準: MCP-Atlas 領先
  • 成本更高: Tokenizer 膨脹 0-35%

所以短上下文場景下,選擇依據主要是任務類型,不再是長上下文能力。編碼選 4.7,寫作選 4.6,這是目前最簡單的判斷。

Q6: 有沒有辦法讓 4.7 在長上下文上追平 4.6?

目前沒有配置級的解決方案。即使調高 reasoning-effort 到 max,4.7 的 MRCR 分數仍然明顯低於 4.6。

可行的間接方案有兩個:

  1. RAG 分塊: 把長上下文切成 32k-64k 的分塊,讓 4.7 在"安全區"工作
  2. 多模型串聯: 用 4.6 做長上下文檢索,把檢索結果再餵給 4.7 做綜合推理

第二種方案可以通過 API易 apiyi.com 平臺的多模型接口快速實現,該平臺支持多種主流模型的統一接口調用。

Claude Opus 4.7 長上下文倒退總結

Claude Opus 4.7 的長上下文能力倒退是一個有官方數據支撐、有社區一手驗證、有明確影響範圍的真實問題。核心結論:

  1. 官方數據已承認: MRCR v2 8-needle 在 256k 和 1M 上分別腰斬,Anthropic 系統卡明確推薦保留 4.6 作爲回退
  2. 根因是策略性權衡: Anthropic 爲了 Agent 編碼和視覺理解,犧牲了長距離注意力精度
  3. 影響範圍集中在 128k+ 場景: 短上下文下 4.7 仍然可用,但超過 128k 後倒退呈非線性放大
  4. Opus 4.6 是當前最強長上下文模型: Rohan Paul 等老牌觀察者公認的結論,甚至超過 GPT-5.2
  5. 最佳應對是按場景路由: 長文檔走 4.6,編碼走 4.7,深度研究可以考慮 GPT-5.4 Pro

對用戶來說,正確的姿態不是"等 Anthropic 修復"——這次調整是策略性的,短期內不會回滾——而是立即在調用層做好多模型路由準備。把 4.6 作爲長上下文場景的默認選擇,把 4.7 留給它真正擅長的 Agent 編碼任務。

這也符合 2026 年 AI 產業的新趨勢: 單一模型覆蓋全場景的時代結束了,每個模型都在朝"專精某個方向"演化。對用戶的要求,是從"選一個最強模型"轉向"設計一套最合理的多模型路由"。

推薦通過 API易 apiyi.com 平臺統一管理 Claude 全系列模型調用,該平臺提供實時基準對比、多模型智能路由、與官方完全兼容的 API 接口,是應對 Opus 4.7 長上下文倒退問題的務實工具。

參考資料

  1. Anthropic Opus 4.7 System Card: 官方 232 頁系統卡

    • 鏈接: anthropic.com/news/claude-opus-4-7
    • 說明: 包含 MRCR v2 完整基準數據和遷移建議
  2. Opus 4.7 System Card 深度解讀: DEV Community 社區分析

    • 鏈接: dev.to/ji_ai/i-read-all-232-pages-of-the-opus-47-system-card-28mh
    • 說明: 232 頁系統卡的程序員視角總結
  3. Anthropic Migration Guide: Opus 4.7 遷移指南

    • 鏈接: platform.claude.com/docs/en/about-claude/models/migration-guide
    • 說明: 官方遷移建議與長上下文注意事項
  4. Long-Context Benchmarks Leaderboard: 長上下文基準排行榜

    • 鏈接: awesomeagents.ai/leaderboards/long-context-benchmarks-leaderboard
    • 說明: MRCR、RULER、LongBench v2 橫向對比
  5. Rohan Paul X 評論: Opus 4.6 長上下文冠軍分析

    • 鏈接: x.com/rohanpaul_ai/status/2019545018051240059
    • 說明: 獨立觀察者對 Opus 4.6 長上下文優勢的評價

作者: APIYI 技術團隊
發佈日期: 2026-04-18
適用模型: Claude Opus 4.6 / Claude Opus 4.7 / GPT-5.4 Pro
技術交流: 歡迎通過 API易 apiyi.com 獲取多模型測試額度,親測不同上下文長度下的檢索精度差異

發佈留言