Qwen3.5 35Bがオープンソースプログラミングの新記録を樹立：アクティブパラメータわずか3BでSWE-benchにて69.2を達成した5つの重要なポイント

作者注：Qwen3.5-35B-A3B は、わずか 3B のアクティブパラメータで SWE-bench Verified において 69.2 点を記録しました。これは前世代の Qwen3-235B を凌駕するスコアであり、r/LocalLLaMA コミュニティではオープンソースがクローズドソースに追いついたマイルストーンとして注目されています。本記事では、その技術アーキテクチャと実用的な価値を深く分析します。

r/LocalLLaMA コミュニティで今、大きな話題になっていることがあります。それは、Qwen3.5-35B-A3B がわずか 3B のアクティブパラメータで SWE-bench Verified において 69.2 点を叩き出したことです。これは前世代の 235B パラメータを持つ Qwen3 を超えただけでなく、ローカル環境で実行可能なモデルとしてプログラミング能力の記録を塗り替えました。コミュニティでは、これをオープンソースモデルがクローズドソースに追いつく重要な兆候と捉えています。コンシューマー向けハードウェアで動作する 35B モデルが、GPT-5 mini レベルのプログラミング能力を備えているのです。

コアバリュー: 本記事を読めば、なぜ Qwen3.5-35B がオープンソースコミュニティでこれほど騒がれているのか、その MoE アーキテクチャがどのようにして「小さな体で大きな力」を実現しているのか、そしてローカルやクラウドでどのように活用できるのかが分かります。

Qwen3.5-35B 核心要点

要点	説明	意義
総パラメータ	350億 (35B)	MoE アーキテクチャ
アクティブパラメータ	わずか 30億 (3B)	究極の効率性
SWE-bench Verified	69.2 点	Qwen3-235B を凌駕
GPQA Diamond	84.2 点	大学院レベルの推論
コンテキストウィンドウ	ネイティブ 256K / 拡張 1M+	YaRN 拡張
実行要件	22GB メモリ/VRAM	コンシューマー環境で利用可能
オープンソースライセンス	Apache 2.0	完全オープン

なぜ r/LocalLLaMA コミュニティで Qwen3.5-35B が議論されているのか

r/LocalLLaMA は Reddit 上で最も活発なローカル大規模言語モデルコミュニティであり、メンバーが注目している核心的な問いは「自分のハードウェアで動作し、かつ十分に強力なモデルはどれか？」という点です。

Qwen3.5-35B-A3B は、まさにこのニーズを射抜いています。

35B の総パラメータを持ちながら、推論ごとにアクティブになるのは 3B のみ。つまり、22GB メモリの Mac や GPU でスムーズに動作します。
プログラミング能力（SWE-bench 69.2）は、パラメータ数が 7 倍の旧世代 Qwen3-235B を上回っています。
Apache 2.0 で完全オープンソース化されており、商用利用の制限もありません。

コミュニティの評価は「Run Qwen 35B. It's a great chatbot, good enough for task automation.（Qwen 35B を動かしてみろ。素晴らしいチャットボットであり、タスク自動化には十分だ）」というものです。これは、ローカル環境でモデルを運用するユーザーの核心的な要求である「十分な性能、十分な速度、そして低コスト」を体現しています。

Qwen3.5-35B アーキテクチャ詳細解説

256個の専門家によるMoEアーキテクチャ

Qwen3.5-35B-A3Bは、非常に精密な混合専門家（MoE）アーキテクチャを採用しています。

アーキテクチャパラメータ	数値	説明
総パラメータ数	35B	全専門家パラメータの合計
アクティブパラメータ数	3B	推論ごとにアクティブ化
専門家の総数	256個	超微細粒度の分業
アクティブな専門家	8ルーティング + 1共有	毎回9個の専門家を選択
層数	40層	深層ネットワーク
隠れ層の次元数	2048	コンパクトな設計

混合アテンションメカニズム

Qwen3.5-35Bは純粋なTransformerではなく、混合アテンション設計を採用しています。

4層ごとの構造は、3層のGated DeltaNet（線形アテンション）+ 1層のGated Attention（標準アテンション）となっています。

アテンションの種類	層の割合	特徴
Gated DeltaNet	75%	線形アテンション、推論が高速
Gated Attention	25%	標準アテンション、精度が高い

この混合設計の巧妙な点は、計算の大部分を効率的な線形アテンションで処理し、重要な層でのみ計算量の多い標準アテンションを使用していることです。これが、35Bパラメータでありながらわずか22GBのメモリで動作する秘密です。専門家のスパース（疎）アクティベーションだけでなく、アテンションメカニズム自体も最適化されています。

🎯 技術的洞察: Qwen3.5-35Bのアーキテクチャ設計は、2026年のMoEモデルの最新トレンドである「256個の専門家による超微細粒度 + 混合アテンション」を象徴しています。このアーキテクチャによる効率向上を体験したい場合は、APIYI (apiyi.com) を通じてQwen3.5シリーズのAPIを直接呼び出すことができ、ローカル環境へのデプロイは不要です。

Qwen3.5-35B 評価データ徹底解説

Qwen3.5-35B プログラミング評価

評価ベンチマーク	Qwen3.5 35B-A3B	比較参考	説明
SWE-bench Verified	69.2	Qwen3-235B: <69	7倍の規模を持つ前世代を凌駕
LiveCodeBench v6	74.6	–	リアルタイムプログラミングに強み
CodeForces	2,028	–	競技プログラミングレベル

Qwen3.5-35B 推論・知識評価

評価ベンチマーク	Qwen3.5 35B-A3B	説明
GPQA Diamond	84.2	大学院レベルの科学的推論
MMLU-Pro	85.3	多分野の知識
MMLU-Redux	93.3	知識理解
HMMT Feb 2025	89.0	数学オリンピックレベル
IFEval	91.9	指示追従能力

Qwen3.5-35B マルチモーダル評価

評価ベンチマーク	Qwen3.5 35B-A3B	説明
MMMU	81.4	マルチモーダル理解（Claude Sonnet 4.5の79.6に迫る）
MMMU-Pro	75.1	高難易度マルチモーダル
MathVision	83.9	視覚的数学推論
VideoMME	86.6	動画理解

Qwen3.5-35B とクローズドモデルの比較

コミュニティで最も関心が高いのは、「35Bのオープンソースモデルが、どこまでクローズドモデルに追いつけるのか？」という点です。

次元	Qwen3.5 35B	GPT-5 Mini	Claude Sonnet 4.5	差分
SWE-bench	69.2	~72	~75	3-6ポイント差
MMMU	81.4	–	79.6	逆転
GPQA Diamond	84.2	–	–	トップクラス
アクティブパラメータ	3B	~数十B	不明	圧倒的な効率
ローカル実行	可能 (22GB)	不可	不可	独自の強み

コミュニティの核心的な見解: Qwen3.5-35B はプログラミングにおいて GPT-5 Mini クラスのモデルとの差を 3-6 ポイントまで縮めており、マルチモーダル分野では Claude Sonnet 4.5 を上回っています。わずか 3B のアクティブパラメータでローカル実行も可能であることを考えると、効率と能力の比率は公開されている全モデルの中で最高クラスと言えるでしょう。

💡 活用アドバイス: Qwen3.5-35B とクローズドモデルの実際の性能差を比較したい場合は、APIYI (apiyi.com) を通じて Qwen3.5、Claude、GPT を同時に呼び出し、自身のタスクで A/B テストを行うのがおすすめです。

Qwen3.5-35B ローカルデプロイガイド

ハードウェア要件とデプロイ方法

デプロイ方法	ハードウェア要件	推奨シーン
Ollama	22GB+ RAM/VRAM	最も簡単、ワンクリックで実行
vLLM	GPU + 24GB+ VRAM	本番環境レベルのスループット
SGLang	GPU + 24GB+ VRAM	高スループット推奨
KTransformers	CPU + GPU 混合	低スペックハードウェア
LM Studio	22GB+ RAM	グラフィカルなUIで使いやすい

Ollama によるワンクリックデプロイ

# インストール後、以下のコマンド1行で実行可能です
ollama run qwen3.5:35b

API 呼び出し（ローカルデプロイ不要）

ローカル環境の構築が面倒な場合は、API 経由での呼び出しが最も簡単です：

import openai

client = openai.OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://vip.apiyi.com/v1"
)

response = client.chat.completions.create(
    model="qwen3.5-35b-a3b",
    messages=[{
        "role": "user",
        "content": "このPythonコードをレビューして、パフォーマンスのボトルネックを見つけてください"
    }],
    temperature=0.6,  # プログラミングタスクには 0.6 を推奨
    max_tokens=32768
)
print(response.choices[0].message.content)

Thinking モードと非 Thinking モードの切り替え

import openai

client = openai.OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://vip.apiyi.com/v1"
)

# Thinking モード (高度な推論、複雑なタスクに適しています)
response_thinking = client.chat.completions.create(
    model="qwen3.5-35b-a3b",
    messages=[{"role": "user", "content": "このアルゴリズムの時間計算量を分析してください"}],
    temperature=1.0,
    top_p=0.95,
    max_tokens=32768
)

# 非 Thinking モード (高速な回答)
response_fast = client.chat.completions.create(
    model="qwen3.5-35b-a3b",
    messages=[{"role": "user", "content": "クイックソートの関数を書いてください"}],
    temperature=0.7,
    top_p=0.8,
    max_tokens=32768,
    extra_body={"chat_template_kwargs": {"enable_thinking": False}}
)

🚀 デプロイのアドバイス: ローカルデプロイは、プライバシーが重要視される環境やオフライン環境に適しています。日常的な開発には、APIYI (apiyi.com) を通じた API 呼び出しをおすすめします。高速かつハードウェアのメンテナンスが不要で、Qwen3.5 と Claude、GPT を自由に切り替えて利用できます。

Qwen3.5 全モデルラインナップ一覧

Qwen3.5 シリーズのスペック比較

モデル	総パラメータ数	アクティブパラメータ数	SWE-bench	最低メモリ	特徴
Qwen3.5-4B	4B	4B (Dense)	–	8GB	軽量・入門用
Qwen3.5-9B	9B	9B (Dense)	–	12GB	高効率・日常用
Qwen3.5-27B	27B	27B (Dense)	72.4	22GB	高密度・高精度
Qwen3.5-35B-A3B	35B	3B (MoE)	69.2	22GB	効率の王様
Qwen3.5-122B-A10B	122B	10B (MoE)	–	–	中〜上位モデル
Qwen3.5-397B-A17B	397B	17B (MoE)	76.4	–	フラッグシップ

選定のアドバイス:

22GB デバイス: 35B-A3B（MoE、高速だが精度はやや控えめ）または 27B（Dense、少し遅いがより高精度）
究極のコストパフォーマンス: 35B-A3B（推論ごとにわずか 3B パラメータを使用）
最高精度を追求: 27B Dense（MoE を使用しない高精度モデル）

🎯 API の選定: APIYI (apiyi.com) を通じて Qwen3.5 全シリーズを呼び出せます。4B から 397B まで、必要に応じて選択可能です。一つの API キーで、さまざまな規模の Qwen モデルや、Claude、GPT といったクローズドソースモデルを柔軟に切り替えられます。

よくある質問

Q1: Qwen3.5-35B と 27B、どちらを選ぶべきですか？

どちらも約 22GB のメモリが必要です。35B-A3B は MoE アーキテクチャ（3〜5倍高速ですが精度はわずかに劣ります）、27B は Dense アーキテクチャ（より高精度ですが低速）です。プログラミングタスクでは両者に大きな差はありません（SWE-bench で 69.2 対 72.4）。日常的な会話には 35B（高速）、精緻なタスクには 27B（高精度）をおすすめします。APIYI (apiyi.com) を通じて両方を呼び出し、比較することも可能です。

Q2: オープンソースモデルは本当にクローズドモデルに追いついていますか？

はい、ただし条件付きです。Qwen3.5-35B は MMMU において Claude Sonnet 4.5 を上回り（81.4 対 79.6）、SWE-bench では GPT-5 Mini との差をわずか 3 ポイントに縮めました。しかし、最高難度のプログラミングタスクや複雑な推論においては、クローズドモデルのフラッグシップ（Claude Opus 4.5、GPT-5.4）が依然として明確な優位性を持っています。オープンソースは差を縮めていますが、トップクラスのクローズドモデルに完全に並んだわけではありません。

Q3: 22GB メモリの Mac で Qwen3.5-35B は動かせますか？

可能です。Qwen3.5-35B-A3B は推論時に 3B のパラメータのみをアクティブにするため、22GB のユニファイドメモリを搭載した Mac（M2/M3/M4 のベース構成など）でスムーズに動作します。Ollama（ollama run qwen3.5:35b）を使用したワンクリック起動がおすすめです。ローカル環境へのデプロイが難しい場合は、APIYI (apiyi.com) を経由したクラウド呼び出しがより便利です。

まとめ

Qwen3.5-35B がオープンソースのプログラミング分野で新記録を打ち立てた 5 つのポイント：

効率の革命: 総パラメータ 35B に対してアクティブパラメータはわずか 3B。22GB で動作し、前世代の 235B モデルを超えるプログラミング能力を実現。
プログラミングの実力: SWE-bench 69.2、CodeForces 2028、LiveCodeBench 74.6 を記録し、ローカルモデルの新たな基準に。
アーキテクチャの革新: 256 エキスパートの MoE とハイブリッドアテンション（DeltaNet + 標準 Attention）を組み合わせ、効率と能力のベストバランスを実現。
オープンソースの躍進: MMMU で Claude Sonnet 4.5 を超え、SWE-bench では GPT-5 Mini に肉薄するなど、差が着実に縮小。
完全オープン: Apache 2.0 ライセンスで商用利用の制限がなく、ローカルデプロイのコストはゼロ。

Qwen3.5-35B は一つの事実を証明しました。それは、オープンソースモデルはもはやクローズドモデルの廉価版ではなく、より高い効率で追いつき、追い越そうとしているということです。APIYI (apiyi.com) を通じて Qwen3.5 シリーズとクローズドモデルの両方にアクセスし、一つの API キーで実際のタスクにおけるパフォーマンスの違いを比較してみてください。

📚 参考資料

Qwen3.5-35B-A3B モデルカード – Hugging Face: 技術パラメータと評価データの詳細
- リンク: huggingface.co/Qwen/Qwen3.5-35B-A3B
- 説明: アーキテクチャの詳細、評価スコア、推奨される推論パラメータを掲載
Qwen3.5 GitHub リポジトリ: オープンソースコードとデプロイガイド
- リンク: github.com/QwenLM/Qwen3.5
- 説明: モデルの重みデータのダウンロードおよびデプロイ用ドキュメント
Qwen3.5 完全ガイド: 全シリーズの評価とアーキテクチャ分析
- リンク: techie007.substack.com/p/qwen-35-the-complete-guide-benchmarks
- 説明: ファミリーモデルの比較およびクローズドソースモデルとの横並び評価
Ollama – Qwen3.5:35B: ローカル環境へのワンクリックデプロイ
- リンク: ollama.com/library/qwen3.5:35b
- 説明: 最も手軽なローカル実行方法

著者: APIYI 技術チーム
技術交流: Qwen3.5 のローカルデプロイ体験をぜひコメント欄でシェアしてください。その他の AI モデル接続に関する資料は、APIYI ドキュメントセンター（docs.apiyi.com）をご覧ください。