Qwen3.5 35B 創下開源編程新紀錄:僅 3B 活躍參數在 SWE-bench 達到 69.2 的 5 個關鍵解讀

作者注:Qwen3.5-35B-A3B 以僅 3B 活躍參數在 SWE-bench Verified 達到 69.2 分,超越上一代 Qwen3-235B,被 r/LocalLLaMA 社區視爲開源追趕閉源的里程碑,本文深度分析技術架構和實際價值

r/LocalLLaMA 社區最近在熱議一件事:Qwen3.5-35B-A3B 以僅 3B 活躍參數在 SWE-bench Verified 上取得 69.2 分,不僅超越了上一代 235B 參數的 Qwen3,更在本地可運行的模型中刷新了編程能力記錄。社區將此視爲開源模型趕超閉源的重要標誌——一個可以在消費級硬件上運行的 35B 模型,編程能力已經接近 GPT-5 mini 級別。

核心價值: 讀完本文,你將瞭解 Qwen3.5-35B 爲什麼在開源社區引發轟動,它的 MoE 架構如何實現"小身材大能力",以及如何在本地和雲端使用它。

qwen-3-5-35b-swe-bench-open-source-coding-record-local-llm-guide-zh-hant 图示


Qwen3.5-35B 核心要點

要點 說明 意義
總參數 350 億 (35B) MoE 架構
活躍參數 僅 30 億 (3B) 極致效率
SWE-bench Verified 69.2 分 超越 Qwen3-235B
GPQA Diamond 84.2 分 研究生級推理
上下文窗口 原生 256K / 擴展 1M+ YaRN 擴展
運行需求 22GB 內存/顯存 消費級可用
開源協議 Apache 2.0 完全開放

爲什麼 r/LocalLLaMA 社區在討論 Qwen3.5-35B

r/LocalLLaMA 是 Reddit 上最活躍的本地大模型社區,成員關注的核心問題是:什麼模型能在我的硬件上跑,同時能力足夠強?

Qwen3.5-35B-A3B 恰好命中了這個需求:

  • 35B 總參數,但每次推理只激活 3B——這意味着它可以在 22GB 內存的 Mac 或 GPU 上流暢運行
  • 編程能力(SWE-bench 69.2)超越了上一代參數量 7 倍的 Qwen3-235B
  • Apache 2.0 完全開源,無任何商業限制

社區評價:"Run Qwen 35B. It's a great chatbot, good enough for task automation." 這代表了本地部署玩家的核心訴求——夠用、夠快、夠便宜


Qwen3.5-35B 架構深度解析

256 個專家的 MoE 架構

Qwen3.5-35B-A3B 採用了極爲精細的混合專家(MoE)架構:

架構參數 數值 說明
總參數 35B 全部專家參數之和
活躍參數 3B 每次推理激活
專家總數 256 個 極細粒度分工
激活專家 8 路由 + 1 共享 每次選 9 個專家
層數 40 層 深度網絡
隱藏維度 2048 緊湊設計

混合注意力機制

Qwen3.5-35B 不是純 Transformer,而是採用了混合注意力設計:

每 4 層中的結構爲:3 層 Gated DeltaNet(線性注意力) + 1 層 Gated Attention(標準注意力)

注意力類型 層佔比 特點
Gated DeltaNet 75% 線性注意力,推理快
Gated Attention 25% 標準注意力,精度高

這種混合設計的精妙之處在於:大部分計算使用高效的線性注意力完成,只在關鍵層使用計算量更大的標準注意力。這就是 35B 參數但僅需 22GB 內存的祕密——不只是專家稀疏激活,連注意力機制本身也被優化了

🎯 技術洞察: Qwen3.5-35B 的架構設計代表了 2026 年 MoE 模型的最新趨勢——256 專家極細粒度 + 混合注意力。如果你想體驗這種架構帶來的效率提升,可以通過 API易 apiyi.com 直接調用 Qwen3.5 系列 API,無需本地部署。

qwen-3-5-35b-swe-bench-open-source-coding-record-local-llm-guide-zh-hant 图示


Qwen3.5-35B 評測數據全面解讀

Qwen3.5-35B 編程評測

評測基準 Qwen3.5 35B-A3B 對比參考 說明
SWE-bench Verified 69.2 Qwen3-235B: <69 超越 7 倍體量前代
LiveCodeBench v6 74.6 實時編程強
CodeForces 2,028 競賽級水平

Qwen3.5-35B 推理與知識評測

評測基準 Qwen3.5 35B-A3B 說明
GPQA Diamond 84.2 研究生級科學推理
MMLU-Pro 85.3 多學科知識
MMLU-Redux 93.3 知識理解
HMMT Feb 2025 89.0 數學競賽
IFEval 91.9 指令遵循

Qwen3.5-35B 多模態評測

評測基準 Qwen3.5 35B-A3B 說明
MMMU 81.4 多模態理解(接近 Claude Sonnet 4.5 的 79.6)
MMMU-Pro 75.1 高難度多模態
MathVision 83.9 視覺數學推理
VideoMME 86.6 視頻理解

Qwen3.5-35B 與閉源模型對比

這是社區最關心的問題——35B 開源模型到底能追上閉源多少?

維度 Qwen3.5 35B GPT-5 Mini Claude Sonnet 4.5 差距
SWE-bench 69.2 ~72 ~75 差 3-6 分
MMMU 81.4 79.6 反超
GPQA Diamond 84.2 頂級
活躍參數 3B ~數十B 未知 效率碾壓
本地可運行 是 (22GB) 獨有優勢

社區的核心觀點: Qwen3.5-35B 在編程上與 GPT-5 Mini 級別模型差距已縮小到 3-6 分,在多模態上甚至反超 Claude Sonnet 4.5。考慮到它僅需 3B 活躍參數且可以本地運行,效率/能力比在所有公開模型中可能是最高的

💡 實用建議: 如果你想對比 Qwen3.5-35B 和閉源模型的實際表現差異,可以通過 API易 apiyi.com 同時調用 Qwen3.5、Claude、GPT,在你自己的任務上做 A/B 對比。

qwen-3-5-35b-swe-bench-open-source-coding-record-local-llm-guide-zh-hant 图示


Qwen3.5-35B 本地部署指南

硬件要求與部署方式

部署方式 硬件要求 推薦場景
Ollama 22GB+ RAM/VRAM 最簡單,一鍵運行
vLLM GPU + 24GB+ VRAM 生產級吞吐
SGLang GPU + 24GB+ VRAM 高吞吐推薦
KTransformers CPU + GPU 混合 低配硬件
LM Studio 22GB+ RAM 圖形界面友好

Ollama 一鍵部署

# 安裝後一行命令即可運行
ollama run qwen3.5:35b

通過 API 調用(無需本地部署)

如果你不想折騰本地部署,直接通過 API 調用是最簡單的方式:

import openai

client = openai.OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://vip.apiyi.com/v1"
)

response = client.chat.completions.create(
    model="qwen3.5-35b-a3b",
    messages=[{
        "role": "user",
        "content": "幫我review這段Python代碼,找出性能瓶頸"
    }],
    temperature=0.6,  # 編程任務推薦 0.6
    max_tokens=32768
)
print(response.choices[0].message.content)

查看 Thinking 模式與非 Thinking 模式切換
import openai

client = openai.OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://vip.apiyi.com/v1"
)

# Thinking 模式 (深度推理,適合複雜任務)
response_thinking = client.chat.completions.create(
    model="qwen3.5-35b-a3b",
    messages=[{"role": "user", "content": "分析這個算法的時間複雜度"}],
    temperature=1.0,
    top_p=0.95,
    max_tokens=32768
)

# 非 Thinking 模式 (快速回答)
response_fast = client.chat.completions.create(
    model="qwen3.5-35b-a3b",
    messages=[{"role": "user", "content": "寫一個快排函數"}],
    temperature=0.7,
    top_p=0.8,
    max_tokens=32768,
    extra_body={"chat_template_kwargs": {"enable_thinking": False}}
)

🚀 部署建議: 本地部署適合隱私敏感和離線場景。日常開發推薦通過 API易 apiyi.com 調用——速度更快、無需維護硬件,同時可以在 Qwen3.5 和 Claude、GPT 之間自由切換。


Qwen3.5 全家族模型一覽

Qwen3.5 系列規格對比

模型 總參數 活躍參數 SWE-bench 最低內存 定位
Qwen3.5-4B 4B 4B (Dense) 8GB 輕量入門
Qwen3.5-9B 9B 9B (Dense) 12GB 高效日常
Qwen3.5-27B 27B 27B (Dense) 72.4 22GB 密集高精度
Qwen3.5-35B-A3B 35B 3B (MoE) 69.2 22GB 效率之王
Qwen3.5-122B-A10B 122B 10B (MoE) 中高端
Qwen3.5-397B-A17B 397B 17B (MoE) 76.4 旗艦

選型建議:

  • 22GB 設備: 35B-A3B(MoE,快但精度稍低)或 27B(Dense,稍慢但更精準)
  • 追求極致性價比: 35B-A3B,每次推理僅 3B 參數
  • 追求最高精度: 27B Dense,不走 MoE 路線

🎯 API 選型: 通過 API易 apiyi.com 可以調用 Qwen3.5 全系列模型,從 4B 到 397B 按需選擇。一個 Key 即可在不同規模的 Qwen 模型和 Claude、GPT 等閉源模型之間靈活切換。


常見問題

Q1: Qwen3.5-35B 和 27B 該選哪個?

兩者都需要約 22GB 內存。35B-A3B 是 MoE 架構(快 3-5 倍但精度略低),27B 是 Dense 架構(更精準但更慢)。編程任務兩者差距不大(SWE-bench 69.2 vs 72.4),日常對話建議選 35B(更快),精細任務選 27B(更準)。通過 API易 apiyi.com 可以同時調用兩者對比。

Q2: 開源模型真的在追趕閉源了嗎?

是的,但有前提。Qwen3.5-35B 在 MMMU 上超越 Claude Sonnet 4.5(81.4 vs 79.6),SWE-bench 與 GPT-5 Mini 差距僅 3 分。但在最難的編程任務和複雜推理上,閉源旗艦(Claude Opus 4.5、GPT-5.4)仍有明顯優勢。開源正在縮小差距,但尚未完全追平頂尖閉源。

Q3: 22GB Mac 能跑 Qwen3.5-35B 嗎?

可以。Qwen3.5-35B-A3B 每次推理僅激活 3B 參數,22GB 統一內存的 Mac(如 M2/M3/M4 起步配置)可以流暢運行。推薦使用 Ollama(ollama run qwen3.5:35b)一鍵啓動。如不想本地部署,通過 API易 apiyi.com 雲端調用更方便。


總結

Qwen3.5-35B 創下開源編程新紀錄的 5 個關鍵解讀:

  1. 效率革命: 35B 總參數僅 3B 活躍,22GB 即可運行,編程能力超越上一代 235B 模型
  2. 編程實力: SWE-bench 69.2、CodeForces 2028、LiveCodeBench 74.6,本地模型新標杆
  3. 架構創新: 256 專家 MoE + 混合注意力(DeltaNet + 標準 Attention),效率/能力比最優
  4. 開源追趕閉源: MMMU 超越 Claude Sonnet 4.5,SWE-bench 接近 GPT-5 Mini,差距在縮小
  5. 完全開放: Apache 2.0 協議,無商業限制,本地部署零成本

Qwen3.5-35B 證明了一件事:開源模型不再只是閉源的低配版,而是正在以更高的效率追趕甚至反超。推薦通過 API易 apiyi.com 同時接入 Qwen3.5 全系列和閉源模型,一個 Key 對比開源與閉源在你實際任務上的表現差異。


📚 參考資料

  1. Qwen3.5-35B-A3B 模型卡 – Hugging Face: 完整的技術參數和評測數據

    • 鏈接: huggingface.co/Qwen/Qwen3.5-35B-A3B
    • 說明: 包含架構細節、評測分數和推理參數推薦
  2. Qwen3.5 GitHub 倉庫: 開源代碼和部署指南

    • 鏈接: github.com/QwenLM/Qwen3.5
    • 說明: 包含完整模型權重下載和部署文檔
  3. Qwen3.5 完整指南: 全系列評測和架構分析

    • 鏈接: techie007.substack.com/p/qwen-35-the-complete-guide-benchmarks
    • 說明: 詳細的全家族模型對比和閉源模型橫評
  4. Ollama – Qwen3.5:35B: 本地一鍵部署

    • 鏈接: ollama.com/library/qwen3.5:35b
    • 說明: 最簡單的本地運行方式

作者: APIYI 技術團隊
技術交流: 歡迎在評論區分享你的 Qwen3.5 本地部署體驗,更多 AI 模型接入資料可訪問 API易 docs.apiyi.com 文檔中心

發佈留言