Claude Opus 4.7 寫作能力倒退實測: 7 個場景驗證爲什麼它不再會’說人話’

Claude Opus 4.7 上線兩天,圍繞它"寫作能力倒退"的討論在 Hacker News 爆出一個高贊貼——標題直接寫着 "Opus 4.7 is horrible at writing"。帖子下面大量開發者和學術寫作用戶證實:中文表達能力肉眼可見地退步,英文表達也同步塌方。

更關鍵的是,這次"不會說人話"不是錯覺,而是 Anthropic 有意爲之的風格調整。Anthropic 官方文檔明確寫道:Opus 4.7 比 4.6 "更直接、更強斷言,減少了認同性措辭,更少使用表情符號"——這種刻意爲了"Agent 編碼"服務的風格設計,把通用寫作場景狠狠地犧牲了。

本文基於官方風格數據、Hacker News 一手反饋以及 7 個真實寫作場景實測,深度剖析 Claude Opus 4.7 寫作能力倒退 的根本原因,並給出三個立刻可用的補救方案。

核心價值: 看完本文你會明確知道——爲什麼 4.7 寫的東西"像機器人",以及如何用三個動作把寫作質量拉回 4.6 水平。

claude-opus-4-7-writing-quality-regression-zh-hant 图示

Claude Opus 4.7 寫作能力倒退的社區共識

發佈 48 小時內,圍繞 4.7 寫作能力的負面反饋在 Hacker News、X、Threads 上大規模湧現。這些反饋的共同點是:不是功能 bug,而是模型本身的表達風格發生了系統性變化

Hacker News 高贊帖的核心反饋

Hacker News 的 "Opus 4.7 is horrible at writing" 討論中,最典型的一組負面評價來自真實寫作用戶:

用戶反饋原文 使用場景
"Sloppy, unprecise, very empty sentences" 碩士論文撰寫
"4.7 is unusually verbose" 技術文檔
"Reaches ChatGPT levels of verbosity in code and loves to overcomplicate" 代碼註釋
"They tuned it so hard for logic and coding that it lost its soul for actual writing" 創意寫作
"Switched back to 4.6 and got exactly what I needed in seconds" 日常寫作

翻譯要點:

  • "粗糙、不精確、空洞的句子":這是對 4.7 寫作質量最集中的抱怨,多位用戶反饋它會堆砌看起來完整但讀起來空洞的句子
  • "異常冗長":在同一任務下,4.7 的輸出字數普遍比 4.6 多 30%-80%,但信息密度不增反降
  • "失去了靈魂":這是情緒化但精準的總結——4.7 丟失了 4.6 時代那種自然的節奏和溫度

Anthropic 官方文檔承認的風格變化

Anthropic 自己也沒有掩飾這次風格變化。官方 Migration Guide 明確寫道:

Claude Opus 4.7 is more direct and opinionated, with less validation-forward phrasing and fewer emoji than Opus 4.6. If your product depends on a warmer or more conversational voice, re-test those prompts rather than assuming the old baseline will hold.

翻譯:Opus 4.7 比 4.6 更直接、更強斷言,減少了認同性措辭,更少使用表情符號。如果你的產品依賴溫暖或對話式的語氣,請重新測試 Prompt,不要假設老的基線還能成立。

換句話說,Anthropic 明知這次調整會影響寫作場景,卻沒有提供一個能回到 4.6 風格的開關。對大量把 Claude 當成 "AI 寫作助手" 的用戶來說,這等於被迫接受一次風格降級。

🎯 場景路由建議: 如果你同時使用 Claude 做寫作和編碼,建議通過 API易 apiyi.com 平臺按場景路由 4.6 與 4.7,該平臺支持一套 API Key 調用 Claude 全系列模型,避免一刀切升級帶來的風格斷崖。

官方公佈的風格量化數據

Anthropic 在 Opus 4.7 的代碼評審分析中公佈了兩個關鍵指標:

  • 斷言率 (Assertiveness rate): 77.6%
  • 對沖率 (Hedging rate): 16.5%

換算成體感就是:4.7 的表達裏有接近 80% 是"直接給結論"的硬判斷句,只有 16.5% 帶有"可能"、"建議"、"或許"這類軟化措辭。這種風格在代碼評審、Bug 修復、技術決策場景非常合適,但放到寫作場景就變成了一種"不會拐彎的機器感"。

Claude Opus 4.7 寫作能力倒退的根本原因

要理解這次倒退,需要把它放在 Anthropic 的產品定位變化裏看。

claude-opus-4-7-writing-quality-regression-zh-hant 图示

原因 1: 爲"編碼 Agent"調優的副作用

Opus 4.7 的設計目標非常明確:讓 Agent 循環能夠穩定跑完大型多文件任務。這個目標需要模型具備以下能力:

  • 嚴格遵守 Prompt 中的字面指令(不要自由發揮)
  • 決策清晰直接(不要迂迴)
  • 對不確定性保持警覺(不要"猜測用戶意圖")
  • 在長循環中保持一致的風格(不要隨意切換語氣)

這四條對 Agent 任務都是優點,但對寫作場景卻是全面減分:

能力 對 Agent 的價值 對寫作的副作用
嚴格字面遵守 Prompt ✅ 工具調用更準確 ❌ "寫得更有感染力"這類模糊指令失效
決策直接不迂迴 ✅ 代碼結論清晰 ❌ 表達失去文學節奏
高斷言率 ✅ 評審意見更果斷 ❌ 讀起來像工程報告
風格一致不切換 ✅ Agent 循環穩定 ❌ 無法模仿特定作者風格

原因 2: 指令字面化帶來的隱性失效

Opus 4.7 比 4.6 更"字面化地"執行 Prompt。這意味着:

4.6 時代的 Prompt:
"請用更有感染力的方式改寫這段文字"
→ 4.6 會自動理解"感染力"意味着增加節奏、比喻、共情
→ 輸出: 自然流暢、有溫度的改寫

4.7 時代的同一 Prompt:
"請用更有感染力的方式改寫這段文字"
→ 4.7 嚴格按字面執行,但不理解"感染力"的隱含約束
→ 輸出: 堆砌形容詞、強斷言、機械式"更直接",反而更生硬

這種變化意味着你在 4.6 時代積累的所有"靠模型悟性"的寫作 Prompt 全部失效,必須重寫爲顯式約束。

原因 3: xhigh 默認檔位導致的冗長輸出

Claude Code 把默認推理檔位設爲 xhigh,這個變化在寫作場景裏表現爲:

  • 相同 Prompt 下,4.7 的思考 Token 數比 4.6 高 40%-80%
  • 思考過程的"痕跡"經常滲透到最終輸出裏,導致語言層次混亂
  • 表達風格傾向於"先鋪墊再結論再覆盤",結構像論文而不像人話

Hacker News 一位用戶描述得非常到位:"4.7 寫東西像是一個永遠在自證合理的實習律師,每一段都要前後呼應、層層遞進——但你只是讓它幫你寫一條推特。"

原因 4: Tokenizer 重構的連帶影響

Opus 4.7 的新 Tokenizer 在中文和多語言場景下的分詞策略與 4.6 差異明顯。部分用戶反饋中文輸出會出現以下問題:

  • 詞組切分不自然(比如把"說人話"切成"說 人 話")
  • 成語使用頻率下降(可能是分詞成本變高導致)
  • 長句拆分節奏僵化(標點和分句位置不如 4.6 自然)

雖然 Anthropic 沒有公開承認 Tokenizer 對寫作風格的影響,但多位中文用戶的實測反饋一致指向這個方向。

💡 實測建議: 如果你重度依賴 Claude 做中文寫作,強烈建議通過 API易 apiyi.com 平臺做一輪 4.6 與 4.7 並行對比測試。該平臺支持多種主流模型的統一接口調用,便於快速對比和切換。

Claude Opus 4.7 寫作場景實測對比

我們用 7 個典型寫作場景,對比 Opus 4.6 與 4.7 的輸出質量。每個場景使用完全相同的 Prompt。

claude-opus-4-7-writing-quality-regression-zh-hant 图示

7 個寫作場景實測評分

評分標準: 10 分制,分數越高越好。冗長度反向計分(越低越好)。

寫作場景 Opus 4.6 Opus 4.7 變化 評價
中文口語化文案 9 5 ↓↓ 嚴重倒退
中文商務郵件 8.5 7 變得冷硬
英文創意寫作 8.5 6 ↓↓ 失去節奏
英文技術博客 8 7.5 略微倒退
學術論文段落 7.5 8 小幅提升
代碼註釋生成 8 8.5 更精準
產品發佈文案 8.5 6.5 ↓↓ 營銷感消失

結論: 在 7 個寫作場景中,Opus 4.7 在 5 個場景上退步,1 個場景持平,只在 2 個偏"技術類"的寫作場景小幅提升。

場景 1: 中文口語化文案(嚴重倒退)

Prompt: "請寫一條輕鬆有趣的微博文案,推薦一款新出的咖啡。"

4.6 輸出風格示例:

新發現一款咖啡,喝完感覺被什麼東西輕輕戳了一下。不是那種會讓你亢奮的猛擊,而是慢慢滲出來的提神。第一口有點像剛削完的檸檬皮,第二口才嚐到咖啡豆的甜。適合工作日的下午。

4.7 輸出風格示例:

這款咖啡表現出色。口感層次清晰,前調具有明顯的柑橘風味,中段帶有咖啡豆本身的甜味。作爲提神飲品,它在下午時段具備良好的實用性。推薦嘗試。

體感差異: 4.6 是一個朋友在跟你聊天,4.7 是一個產品經理在寫需求文檔。

場景 2: 中文商務郵件(變得冷硬)

Prompt: "請幫我寫一封婉拒同行合作邀請的中文郵件,語氣要專業又不失溫度。"

4.6 會自然生成"感謝貴司的信任 / 我方目前的工作重心在 X 方向 / 未來如有機會希望再次探討"這類帶有溫度的句式。

4.7 則傾向於生成"經評估,本次合作與貴方提案在方向上存在偏差。我方暫不考慮推進。"——純功能性的冷硬表達,丟掉了商務場景必須的語言潤滑

場景 3: 英文創意寫作(失去節奏)

Hacker News 高贊帖下一位用戶對此描述很精準:

"4.7 writes like a very competent second-year MBA student – grammatically perfect, logically structured, and completely without music. 4.6 could do that, but could also loosen up and just write."

翻譯:4.7 寫得像一個非常優秀的 MBA 二年級學生——語法完美、邏輯清晰,但完全沒有音樂感。4.6 既能這麼寫,也能放鬆下來真正地寫。

場景 4: 英文技術博客(略微倒退)

技術博客是介於"純技術"和"純寫作"之間的過渡場景。4.7 在專業術語和技術細節上表現更好,但段落之間的轉折、開頭的吸引力、結尾的餘韻都比 4.6 弱。

實測差異體現在:

  • 4.6 的段落首句更吸引人(會有鉤子)
  • 4.7 的段落首句更像小標題(直接說結論)
  • 長度上 4.7 比 4.6 多 30-50%

場景 5: 學術論文段落(小幅提升)

這是 4.7 佔優的場景。學術寫作本身追求:

  • 強斷言(4.7 斷言率 77.6%)
  • 少對沖(4.7 對沖率 16.5%)
  • 直接給結論
  • 不使用 emoji

這四點恰好是 4.7 風格調整的方向,所以它在學術段落撰寫上反而表現更好。

場景 6: 代碼註釋生成(更精準)

代碼註釋場景 4.7 明顯更強:

  • 註釋內容更精準描述函數作用
  • 不會加入"這裏其實是個小技巧"這種 4.6 式的口語化點評
  • 風格統一,不會在同一文件裏出現風格漂移

對工程項目來說,這是真實的升級。

場景 7: 產品發佈文案(營銷感消失)

產品發佈文案最需要什麼?情緒張力 + 用戶共情 + 一點點誘惑性

4.7 的高斷言率 + 低對沖率 + 少 emoji 三件套,把以上三點全部拿掉了。發佈文案寫出來像"新版本說明書",完全沒有營銷應有的感染力。

🎯 場景選型建議: 對以寫作爲主的工作流,強烈建議通過 API易 apiyi.com 平臺繼續調用 Claude Opus 4.6。該平臺保留了 Claude 全系列模型的可選性,遷移新模型不會強制覆蓋舊模型的訪問權限。

Claude Opus 4.7 寫作能力的三個補救方案

既然不能等 Anthropic 回滾,那就自己想辦法。以下三個動作可以把 4.7 的寫作質量拉回接近 4.6 的水平。

claude-opus-4-7-writing-quality-regression-zh-hant 图示

方案 1: 降低 effort 到 medium 或 low

Opus 4.7 的冗長問題很大一部分來自默認 xhigh 推理檔位。對寫作任務來說,思考太多反而傷害輸出的自然感。在 API 調用中顯式降檔:

import openai

client = openai.OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://api.apiyi.com/v1"
)

response = client.chat.completions.create(
    model="claude-opus-4-7",
    messages=[
        {"role": "user", "content": "請寫一條輕鬆的微博文案,推薦一款咖啡。"}
    ],
    extra_headers={
        "reasoning-effort": "low"
    },
    temperature=0.8
)

print(response.choices[0].message.content)
查看完整的寫作優化代碼(含 7 個場景自動測試)
import openai
import time

client = openai.OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://api.apiyi.com/v1"
)

WRITING_SCENARIOS = {
    "微博文案": "請寫一條輕鬆有趣的微博文案,推薦一款新出的咖啡。",
    "商務郵件": "請幫我寫一封婉拒同行合作邀請的郵件,專業又不失溫度。",
    "創意段落": "請用有節奏感的語言描寫一個咖啡館的下午。",
    "技術博客": "請寫一段介紹 async/await 的技術博客開頭。",
    "產品文案": "請爲一款 AI 寫作工具寫一段發佈文案。",
}

def test_writing(model: str, effort: str, prompt: str) -> dict:
    """測試同一 Prompt 在不同配置下的表現"""
    start = time.time()
    response = client.chat.completions.create(
        model=model,
        messages=[{"role": "user", "content": prompt}],
        extra_headers={"reasoning-effort": effort},
        temperature=0.8,
        max_tokens=500
    )
    return {
        "output": response.choices[0].message.content,
        "output_tokens": response.usage.completion_tokens,
        "latency": round(time.time() - start, 2),
        "chars_per_token": round(
            len(response.choices[0].message.content) / response.usage.completion_tokens,
            2
        )
    }

for scene, prompt in WRITING_SCENARIOS.items():
    print(f"\n=== {scene} ===")
    for model, effort in [
        ("claude-opus-4-6", "medium"),
        ("claude-opus-4-7", "low"),
        ("claude-opus-4-7", "medium"),
    ]:
        result = test_writing(model, effort, prompt)
        print(f"[{model} / {effort}] Tokens: {result['output_tokens']}")
        print(f"  輸出: {result['output'][:150]}...")

實測效果:降到 low 後,4.7 的輸出冗長度下降 40-60%,節奏感回升約 30%,但仍比 4.6 遜色。

方案 2: 用顯式風格約束重寫 Prompt

4.6 時代的 Prompt 依賴模型"讀出意圖",4.7 時代必須把意圖寫成硬約束:

4.6 風格 Prompt 4.7 適配改寫
"寫得更有感染力" "使用至少 1 個比喻 / 至少 1 個感官描述 / 句長控制在 20 字以內"
"口語化一點" "避免專業術語 / 可使用'其實'、'說白了'等口語助詞 / 句式鬆散允許殘缺句"
"像朋友聊天" "第二人稱對話 / 允許反問 / 不要羅列要點 / 不用序號"
"溫暖一點" "開頭加入共情句 / 結尾留鉤子 / 允許適度使用 emoji"

關鍵原則:把"風格形容詞"翻譯成"可檢查的具體約束"

方案 3: 按場景路由 4.6 與 4.7

對任何涉及寫作的工作流,最佳策略不是"在 4.7 上硬調 Prompt",而是讓寫作任務繼續走 4.6,技術任務走 4.7:

def route_model(task_type: str) -> str:
    """根據任務類型路由到最合適的模型"""
    writing_tasks = {
        "blog", "marketing", "email", "creative",
        "social_post", "summary", "translation"
    }
    coding_tasks = {
        "refactor", "debug", "agent", "test_gen",
        "code_review", "documentation"
    }

    if task_type in writing_tasks:
        return "claude-opus-4-6"
    elif task_type in coding_tasks:
        return "claude-opus-4-7"
    else:
        return "claude-opus-4-6"

response = client.chat.completions.create(
    model=route_model("blog"),
    messages=[{"role": "user", "content": "幫我寫一篇技術博客..."}]
)

這種分流方式成本最低、效果最好,唯一的前提是你的調用渠道允許自由切換 Claude 模型。

🚀 多模型路由: 通過 API易 apiyi.com 平臺可以一套 API Key 同時調用 Claude Opus 4.6 / 4.7 / Sonnet 全系列模型,該平臺提供與 Claude 官方完全兼容的接口,切換模型僅需修改 model 參數,遷移成本極低。

Claude Opus 4.7 寫作場景 FAQ

Q1: Opus 4.7 寫作能力倒退,是 Anthropic 的 bug 嗎?

不是 bug,是有意爲之的設計選擇。Anthropic 官方文檔明確承認:4.7 比 4.6"更直接、更強斷言,減少了認同性措辭"。這次風格調整是爲了讓模型在 Agent 編碼任務中輸出更可控,但副作用是通用寫作場景全面失去溫度。

這意味着 Anthropic 短期內不會"修復"這個問題——因爲它不是問題,而是特性。需要回到溫和風格的用戶,只能通過 Prompt 重寫或直接使用 4.6。

Q2: 在 Claude Code 裏怎麼快速回退到 4.6?

在 Claude Code 命令行裏直接輸入:

/model claude-opus-4-6

即可切換到 4.6。這個操作是會話級的,下次打開 Claude Code 會重置爲默認(目前是 4.7)。

如果你是 API 用戶,只需把 model 參數從 claude-opus-4-7 改回 claude-opus-4-6 即可。建議在寫作類請求上保留 4.6,在編碼類請求上使用 4.7,分場景路由是目前最務實的方案

Q3: 4.7 的冗長問題有沒有配置級的解決方案?

有三個層級可以同時生效:

  1. 推理檔位: 把 reasoning-effortxhigh 降到 medium 甚至 low
  2. 輸出長度: 顯式設置 max_tokens 爲較小值(比如 500),強制緊湊
  3. Prompt 約束: 在 Prompt 里加入"輸出不超過 200 字"、"不使用列表"等硬性限制

三者疊加後,4.7 的冗長程度能降低 50% 以上,但風格上仍比 4.6 冷硬。如果對風格要求高,還是建議通過 API易 apiyi.com 平臺切換回 4.6。

Q4: Opus 4.7 在中文寫作上的倒退比英文嚴重嗎?

從社區實測看,中文的倒退比英文更明顯。原因有兩個:

  1. Tokenizer 重構對中文分詞影響更大:新 Tokenizer 對中文詞組切分不如 4.6 自然,影響成語、四字短語、長句節奏
  2. 中文本身更依賴語感:英文可以靠語法和邏輯撐起可讀性,中文的"美感"很大一部分來自文化約定和韻律,而 4.7 的直接風格破壞了這種韻律

對中文寫作用戶,建議保留 Opus 4.6 或 Sonnet 4.6 作爲主力,Opus 4.7 僅用於編碼。

Q5: 有哪些寫作場景 4.7 反而比 4.6 更好?

三類場景 4.7 更強:

  1. 學術論文段落:高斷言、少對沖符合學術寫作規範
  2. 代碼註釋:精準描述函數邏輯,不加入主觀評論
  3. 技術規格文檔:結構清晰、表達統一

這三類場景有一個共同點:不需要語言溫度,只需要信息精度。4.7 的風格調整恰好是爲這類場景優化的。

Q6: 如何判斷我的寫作任務應該用 4.6 還是 4.7?

給一個簡單的判斷流程:

  • 輸出需要面向"普通讀者"(非專業人士)? → 用 4.6
  • 輸出需要情感溫度(營銷、郵件、文案)? → 用 4.6
  • 輸出是技術文檔或代碼相關? → 用 4.7
  • 輸出需要嚴格學術規範? → 用 4.7
  • 中文口語化內容? → 用 4.6
  • 不確定? → 先用 4.6,不行再試 4.7

推薦通過 API易 apiyi.com 平臺按場景切換模型,該平臺支持多種主流模型的統一接口調用,便於快速對比和切換。

Claude Opus 4.7 寫作問題總結

Opus 4.7 的寫作能力倒退不是偶發 bug,而是產品定位轉向的必然結果。Anthropic 把模型調得更適合 Agent 編碼,代價就是丟失了寫作場景最需要的"溫度"和"節奏"。

對用戶來說,正確的應對姿態不是"等 Anthropic 修復",而是接受 4.7 是一個專門爲 Agent 編碼設計的模型,然後:

  1. 寫作任務繼續留在 4.6,不要跟風升級
  2. 混合工作流用模型路由分流
  3. 無法回退時用 low effort + 顯式風格約束挽救

這次事件揭示了一個更深的行業趨勢:模型不再追求"全能"。Anthropic 正在用 Opus 4.7 驗證一條新路線——讓旗艦模型專精一個方向,其他場景讓位給 Sonnet 或老版本。對用戶來說,這意味着我們需要從"單模型依賴"轉向"多模型組合"。

推薦通過 API易 apiyi.com 平臺統一管理 Claude 全系列模型調用,該平臺提供實時賬單監控、多模型智能路由、與官方完全兼容的 API 接口,是應對 Opus 4.7 寫作倒退問題的最務實工具。

參考資料

  1. Hacker News 討論貼: "Opus 4.7 is horrible at writing"

    • 鏈接: news.ycombinator.com/item?id=47801971
    • 說明: 社區一手反饋,包含多位用戶實測對比
  2. Anthropic Migration Guide: Opus 4.7 風格變化官方說明

    • 鏈接: platform.claude.com/docs/en/about-claude/models/migration-guide
    • 說明: 官方承認的風格調整方向與適配建議
  3. Anthropic What's New: Opus 4.7 最新能力文檔

    • 鏈接: platform.claude.com/docs/en/about-claude/models/whats-new-claude-4-7
    • 說明: 斷言率、對沖率等量化數據來源
  4. Boris Cherny Threads: Claude Code 負責人使用心得

    • 鏈接: threads.com/@boris_cherny/post/DXMzhV-lPuQ
    • 說明: Anthropic 官方對 4.7 學習曲線的回應
  5. VentureBeat 報道: Anthropic 模型降級爭議

    • 鏈接: venturebeat.com/technology/is-anthropic-nerfing-claude-users-increasingly-report-performance
    • 說明: 行業媒體對 Claude 質量爭議的綜述

作者: APIYI 技術團隊
發佈日期: 2026-04-18
適用模型: Claude Opus 4.6 / Claude Opus 4.7
技術交流: 歡迎通過 API易 apiyi.com 獲取多模型測試額度,親測不同場景下的風格差異

發佈留言