作者注:Qwen3.5-35B-A3B 以僅 3B 活躍參數在 SWE-bench Verified 達到 69.2 分,超越上一代 Qwen3-235B,被 r/LocalLLaMA 社區視爲開源追趕閉源的里程碑,本文深度分析技術架構和實際價值
r/LocalLLaMA 社區最近在熱議一件事:Qwen3.5-35B-A3B 以僅 3B 活躍參數在 SWE-bench Verified 上取得 69.2 分,不僅超越了上一代 235B 參數的 Qwen3,更在本地可運行的模型中刷新了編程能力記錄。社區將此視爲開源模型趕超閉源的重要標誌——一個可以在消費級硬件上運行的 35B 模型,編程能力已經接近 GPT-5 mini 級別。
核心價值: 讀完本文,你將瞭解 Qwen3.5-35B 爲什麼在開源社區引發轟動,它的 MoE 架構如何實現"小身材大能力",以及如何在本地和雲端使用它。

Qwen3.5-35B 核心要點
| 要點 | 說明 | 意義 |
|---|---|---|
| 總參數 | 350 億 (35B) | MoE 架構 |
| 活躍參數 | 僅 30 億 (3B) | 極致效率 |
| SWE-bench Verified | 69.2 分 | 超越 Qwen3-235B |
| GPQA Diamond | 84.2 分 | 研究生級推理 |
| 上下文窗口 | 原生 256K / 擴展 1M+ | YaRN 擴展 |
| 運行需求 | 22GB 內存/顯存 | 消費級可用 |
| 開源協議 | Apache 2.0 | 完全開放 |
爲什麼 r/LocalLLaMA 社區在討論 Qwen3.5-35B
r/LocalLLaMA 是 Reddit 上最活躍的本地大模型社區,成員關注的核心問題是:什麼模型能在我的硬件上跑,同時能力足夠強?
Qwen3.5-35B-A3B 恰好命中了這個需求:
- 35B 總參數,但每次推理只激活 3B——這意味着它可以在 22GB 內存的 Mac 或 GPU 上流暢運行
- 編程能力(SWE-bench 69.2)超越了上一代參數量 7 倍的 Qwen3-235B
- Apache 2.0 完全開源,無任何商業限制
社區評價:"Run Qwen 35B. It's a great chatbot, good enough for task automation." 這代表了本地部署玩家的核心訴求——夠用、夠快、夠便宜。
Qwen3.5-35B 架構深度解析
256 個專家的 MoE 架構
Qwen3.5-35B-A3B 採用了極爲精細的混合專家(MoE)架構:
| 架構參數 | 數值 | 說明 |
|---|---|---|
| 總參數 | 35B | 全部專家參數之和 |
| 活躍參數 | 3B | 每次推理激活 |
| 專家總數 | 256 個 | 極細粒度分工 |
| 激活專家 | 8 路由 + 1 共享 | 每次選 9 個專家 |
| 層數 | 40 層 | 深度網絡 |
| 隱藏維度 | 2048 | 緊湊設計 |
混合注意力機制
Qwen3.5-35B 不是純 Transformer,而是採用了混合注意力設計:
每 4 層中的結構爲:3 層 Gated DeltaNet(線性注意力) + 1 層 Gated Attention(標準注意力)
| 注意力類型 | 層佔比 | 特點 |
|---|---|---|
| Gated DeltaNet | 75% | 線性注意力,推理快 |
| Gated Attention | 25% | 標準注意力,精度高 |
這種混合設計的精妙之處在於:大部分計算使用高效的線性注意力完成,只在關鍵層使用計算量更大的標準注意力。這就是 35B 參數但僅需 22GB 內存的祕密——不只是專家稀疏激活,連注意力機制本身也被優化了。
🎯 技術洞察: Qwen3.5-35B 的架構設計代表了 2026 年 MoE 模型的最新趨勢——256 專家極細粒度 + 混合注意力。如果你想體驗這種架構帶來的效率提升,可以通過 API易 apiyi.com 直接調用 Qwen3.5 系列 API,無需本地部署。

Qwen3.5-35B 評測數據全面解讀
Qwen3.5-35B 編程評測
| 評測基準 | Qwen3.5 35B-A3B | 對比參考 | 說明 |
|---|---|---|---|
| SWE-bench Verified | 69.2 | Qwen3-235B: <69 | 超越 7 倍體量前代 |
| LiveCodeBench v6 | 74.6 | – | 實時編程強 |
| CodeForces | 2,028 | – | 競賽級水平 |
Qwen3.5-35B 推理與知識評測
| 評測基準 | Qwen3.5 35B-A3B | 說明 |
|---|---|---|
| GPQA Diamond | 84.2 | 研究生級科學推理 |
| MMLU-Pro | 85.3 | 多學科知識 |
| MMLU-Redux | 93.3 | 知識理解 |
| HMMT Feb 2025 | 89.0 | 數學競賽 |
| IFEval | 91.9 | 指令遵循 |
Qwen3.5-35B 多模態評測
| 評測基準 | Qwen3.5 35B-A3B | 說明 |
|---|---|---|
| MMMU | 81.4 | 多模態理解(接近 Claude Sonnet 4.5 的 79.6) |
| MMMU-Pro | 75.1 | 高難度多模態 |
| MathVision | 83.9 | 視覺數學推理 |
| VideoMME | 86.6 | 視頻理解 |
Qwen3.5-35B 與閉源模型對比
這是社區最關心的問題——35B 開源模型到底能追上閉源多少?
| 維度 | Qwen3.5 35B | GPT-5 Mini | Claude Sonnet 4.5 | 差距 |
|---|---|---|---|---|
| SWE-bench | 69.2 | ~72 | ~75 | 差 3-6 分 |
| MMMU | 81.4 | – | 79.6 | 反超 |
| GPQA Diamond | 84.2 | – | – | 頂級 |
| 活躍參數 | 3B | ~數十B | 未知 | 效率碾壓 |
| 本地可運行 | 是 (22GB) | 否 | 否 | 獨有優勢 |
社區的核心觀點: Qwen3.5-35B 在編程上與 GPT-5 Mini 級別模型差距已縮小到 3-6 分,在多模態上甚至反超 Claude Sonnet 4.5。考慮到它僅需 3B 活躍參數且可以本地運行,效率/能力比在所有公開模型中可能是最高的。
💡 實用建議: 如果你想對比 Qwen3.5-35B 和閉源模型的實際表現差異,可以通過 API易 apiyi.com 同時調用 Qwen3.5、Claude、GPT,在你自己的任務上做 A/B 對比。

Qwen3.5-35B 本地部署指南
硬件要求與部署方式
| 部署方式 | 硬件要求 | 推薦場景 |
|---|---|---|
| Ollama | 22GB+ RAM/VRAM | 最簡單,一鍵運行 |
| vLLM | GPU + 24GB+ VRAM | 生產級吞吐 |
| SGLang | GPU + 24GB+ VRAM | 高吞吐推薦 |
| KTransformers | CPU + GPU 混合 | 低配硬件 |
| LM Studio | 22GB+ RAM | 圖形界面友好 |
Ollama 一鍵部署
# 安裝後一行命令即可運行
ollama run qwen3.5:35b
通過 API 調用(無需本地部署)
如果你不想折騰本地部署,直接通過 API 調用是最簡單的方式:
import openai
client = openai.OpenAI(
api_key="YOUR_API_KEY",
base_url="https://vip.apiyi.com/v1"
)
response = client.chat.completions.create(
model="qwen3.5-35b-a3b",
messages=[{
"role": "user",
"content": "幫我review這段Python代碼,找出性能瓶頸"
}],
temperature=0.6, # 編程任務推薦 0.6
max_tokens=32768
)
print(response.choices[0].message.content)
查看 Thinking 模式與非 Thinking 模式切換
import openai
client = openai.OpenAI(
api_key="YOUR_API_KEY",
base_url="https://vip.apiyi.com/v1"
)
# Thinking 模式 (深度推理,適合複雜任務)
response_thinking = client.chat.completions.create(
model="qwen3.5-35b-a3b",
messages=[{"role": "user", "content": "分析這個算法的時間複雜度"}],
temperature=1.0,
top_p=0.95,
max_tokens=32768
)
# 非 Thinking 模式 (快速回答)
response_fast = client.chat.completions.create(
model="qwen3.5-35b-a3b",
messages=[{"role": "user", "content": "寫一個快排函數"}],
temperature=0.7,
top_p=0.8,
max_tokens=32768,
extra_body={"chat_template_kwargs": {"enable_thinking": False}}
)
🚀 部署建議: 本地部署適合隱私敏感和離線場景。日常開發推薦通過 API易 apiyi.com 調用——速度更快、無需維護硬件,同時可以在 Qwen3.5 和 Claude、GPT 之間自由切換。
Qwen3.5 全家族模型一覽
Qwen3.5 系列規格對比
| 模型 | 總參數 | 活躍參數 | SWE-bench | 最低內存 | 定位 |
|---|---|---|---|---|---|
| Qwen3.5-4B | 4B | 4B (Dense) | – | 8GB | 輕量入門 |
| Qwen3.5-9B | 9B | 9B (Dense) | – | 12GB | 高效日常 |
| Qwen3.5-27B | 27B | 27B (Dense) | 72.4 | 22GB | 密集高精度 |
| Qwen3.5-35B-A3B | 35B | 3B (MoE) | 69.2 | 22GB | 效率之王 |
| Qwen3.5-122B-A10B | 122B | 10B (MoE) | – | – | 中高端 |
| Qwen3.5-397B-A17B | 397B | 17B (MoE) | 76.4 | – | 旗艦 |
選型建議:
- 22GB 設備: 35B-A3B(MoE,快但精度稍低)或 27B(Dense,稍慢但更精準)
- 追求極致性價比: 35B-A3B,每次推理僅 3B 參數
- 追求最高精度: 27B Dense,不走 MoE 路線
🎯 API 選型: 通過 API易 apiyi.com 可以調用 Qwen3.5 全系列模型,從 4B 到 397B 按需選擇。一個 Key 即可在不同規模的 Qwen 模型和 Claude、GPT 等閉源模型之間靈活切換。
常見問題
Q1: Qwen3.5-35B 和 27B 該選哪個?
兩者都需要約 22GB 內存。35B-A3B 是 MoE 架構(快 3-5 倍但精度略低),27B 是 Dense 架構(更精準但更慢)。編程任務兩者差距不大(SWE-bench 69.2 vs 72.4),日常對話建議選 35B(更快),精細任務選 27B(更準)。通過 API易 apiyi.com 可以同時調用兩者對比。
Q2: 開源模型真的在追趕閉源了嗎?
是的,但有前提。Qwen3.5-35B 在 MMMU 上超越 Claude Sonnet 4.5(81.4 vs 79.6),SWE-bench 與 GPT-5 Mini 差距僅 3 分。但在最難的編程任務和複雜推理上,閉源旗艦(Claude Opus 4.5、GPT-5.4)仍有明顯優勢。開源正在縮小差距,但尚未完全追平頂尖閉源。
Q3: 22GB Mac 能跑 Qwen3.5-35B 嗎?
可以。Qwen3.5-35B-A3B 每次推理僅激活 3B 參數,22GB 統一內存的 Mac(如 M2/M3/M4 起步配置)可以流暢運行。推薦使用 Ollama(ollama run qwen3.5:35b)一鍵啓動。如不想本地部署,通過 API易 apiyi.com 雲端調用更方便。
總結
Qwen3.5-35B 創下開源編程新紀錄的 5 個關鍵解讀:
- 效率革命: 35B 總參數僅 3B 活躍,22GB 即可運行,編程能力超越上一代 235B 模型
- 編程實力: SWE-bench 69.2、CodeForces 2028、LiveCodeBench 74.6,本地模型新標杆
- 架構創新: 256 專家 MoE + 混合注意力(DeltaNet + 標準 Attention),效率/能力比最優
- 開源追趕閉源: MMMU 超越 Claude Sonnet 4.5,SWE-bench 接近 GPT-5 Mini,差距在縮小
- 完全開放: Apache 2.0 協議,無商業限制,本地部署零成本
Qwen3.5-35B 證明了一件事:開源模型不再只是閉源的低配版,而是正在以更高的效率追趕甚至反超。推薦通過 API易 apiyi.com 同時接入 Qwen3.5 全系列和閉源模型,一個 Key 對比開源與閉源在你實際任務上的表現差異。
📚 參考資料
-
Qwen3.5-35B-A3B 模型卡 – Hugging Face: 完整的技術參數和評測數據
- 鏈接:
huggingface.co/Qwen/Qwen3.5-35B-A3B - 說明: 包含架構細節、評測分數和推理參數推薦
- 鏈接:
-
Qwen3.5 GitHub 倉庫: 開源代碼和部署指南
- 鏈接:
github.com/QwenLM/Qwen3.5 - 說明: 包含完整模型權重下載和部署文檔
- 鏈接:
-
Qwen3.5 完整指南: 全系列評測和架構分析
- 鏈接:
techie007.substack.com/p/qwen-35-the-complete-guide-benchmarks - 說明: 詳細的全家族模型對比和閉源模型橫評
- 鏈接:
-
Ollama – Qwen3.5:35B: 本地一鍵部署
- 鏈接:
ollama.com/library/qwen3.5:35b - 說明: 最簡單的本地運行方式
- 鏈接:
作者: APIYI 技術團隊
技術交流: 歡迎在評論區分享你的 Qwen3.5 本地部署體驗,更多 AI 模型接入資料可訪問 API易 docs.apiyi.com 文檔中心