Qwen3.5 35B Mencetak Rekor Baru Pemrograman Sumber Terbuka: 5 Interpretasi Kunci dari 3B Parameter Aktif yang Mencapai Skor 69.2 di SWE-bench

Catatan Penulis: Qwen3.5-35B-A3B mencapai skor 69,2 pada SWE-bench Verified dengan hanya 3B parameter aktif, melampaui generasi sebelumnya Qwen3-235B. Komunitas r/LocalLLaMA menganggapnya sebagai tonggak sejarah bagi model sumber terbuka (open-source) dalam mengejar model tertutup. Artikel ini menganalisis secara mendalam arsitektur teknis dan nilai praktisnya.

Komunitas r/LocalLLaMA baru-baru ini ramai membahas satu hal: Qwen3.5-35B-A3B mencapai skor 69,2 pada SWE-bench Verified dengan hanya 3B parameter aktif. Ini tidak hanya melampaui Qwen3-235B generasi sebelumnya, tetapi juga memecahkan rekor kemampuan pemrograman di antara model yang dapat dijalankan secara lokal. Komunitas melihat ini sebagai tanda penting bahwa model sumber terbuka mulai mengejar model tertutup—sebuah model 35B yang dapat berjalan di perangkat keras konsumen, dengan kemampuan pemrograman yang mendekati level GPT-5 mini.

Nilai Inti: Setelah membaca artikel ini, Anda akan memahami mengapa Qwen3.5-35B memicu kehebohan di komunitas sumber terbuka, bagaimana arsitektur MoE-nya mencapai "bodi kecil dengan kemampuan besar", serta cara menggunakannya di lokal maupun cloud.

qwen-3-5-35b-swe-bench-open-source-coding-record-local-llm-guide-id 图示


Poin Utama Qwen3.5-35B

Poin Penjelasan Signifikansi
Total Parameter 35 Miliar (35B) Arsitektur MoE
Parameter Aktif Hanya 3 Miliar (3B) Efisiensi Maksimal
SWE-bench Verified 69,2 poin Melampaui Qwen3-235B
GPQA Diamond 84,2 poin Penalaran tingkat pascasarjana
Jendela Konteks Native 256K / Ekspansi 1M+ Ekspansi YaRN
Kebutuhan Operasi 22GB RAM/VRAM Tersedia untuk konsumen
Lisensi Sumber Terbuka Apache 2.0 Terbuka sepenuhnya

Mengapa komunitas r/LocalLLaMA membahas Qwen3.5-35B

r/LocalLLaMA adalah komunitas Model Bahasa Besar lokal paling aktif di Reddit, di mana anggota berfokus pada pertanyaan inti: Model apa yang bisa berjalan di perangkat keras saya, namun memiliki kemampuan yang cukup kuat?

Qwen3.5-35B-A3B menjawab kebutuhan tersebut dengan tepat:

  • Total 35B parameter, tetapi hanya mengaktifkan 3B setiap inferensi—artinya model ini dapat berjalan lancar di Mac atau GPU dengan RAM 22GB.
  • Kemampuan pemrograman (SWE-bench 69,2) melampaui Qwen3-235B generasi sebelumnya yang memiliki jumlah parameter 7 kali lipat lebih besar.
  • Sumber terbuka sepenuhnya di bawah lisensi Apache 2.0, tanpa batasan komersial apa pun.

Komentar komunitas: "Run Qwen 35B. It's a great chatbot, good enough for task automation." Ini mewakili tuntutan inti dari para pemain deployment lokal—cukup, cepat, dan murah.

Analisis Mendalam Arsitektur Qwen3.5-35B

Arsitektur MoE dengan 256 Pakar

Qwen3.5-35B-A3B menggunakan arsitektur Mixture of Experts (MoE) yang sangat presisi:

Parameter Arsitektur Nilai Penjelasan
Total Parameter 35B Jumlah seluruh parameter pakar
Parameter Aktif 3B Diaktifkan setiap inferensi
Total Pakar 256 Pembagian tugas yang sangat detail
Pakar Aktif 8 Rute + 1 Bersama Memilih 9 pakar per langkah
Jumlah Layer 40 Layer Jaringan mendalam
Dimensi Tersembunyi 2048 Desain ringkas

Mekanisme Atensi Hibrida

Qwen3.5-35B bukanlah Transformer murni, melainkan menggunakan desain atensi hibrida:

Struktur setiap 4 layer terdiri dari: 3 layer Gated DeltaNet (atensi linear) + 1 layer Gated Attention (atensi standar)

Tipe Atensi Proporsi Layer Karakteristik
Gated DeltaNet 75% Atensi linear, inferensi cepat
Gated Attention 25% Atensi standar, akurasi tinggi

Keunggulan desain hibrida ini terletak pada efisiensinya: sebagian besar komputasi dilakukan menggunakan atensi linear yang cepat, sementara atensi standar yang lebih berat hanya digunakan pada layer-layer krusial. Inilah rahasia di balik performa 35B parameter namun hanya membutuhkan memori 22GB—bukan hanya aktivasi pakar yang jarang, mekanisme atensinya pun telah dioptimalkan.

🎯 Wawasan Teknis: Desain arsitektur Qwen3.5-35B mewakili tren terbaru model MoE tahun 2026—256 pakar dengan granularitas tinggi + atensi hibrida. Jika Anda ingin merasakan peningkatan efisiensi dari arsitektur ini, Anda dapat langsung memanggil API seri Qwen3.5 melalui APIYI di apiyi.com tanpa perlu melakukan deployment lokal.

qwen-3-5-35b-swe-bench-open-source-coding-record-local-llm-guide-id 图示

Interpretasi Menyeluruh Data Evaluasi Qwen3.5-35B

Evaluasi Pemrograman Qwen3.5-35B

Tolok Ukur Evaluasi Qwen3.5 35B-A3B Referensi Perbandingan Penjelasan
SWE-bench Verified 69.2 Qwen3-235B: <69 Melampaui pendahulu 7x lebih besar
LiveCodeBench v6 74.6 Kuat dalam pemrograman real-time
CodeForces 2,028 Level kompetisi

Evaluasi Penalaran dan Pengetahuan Qwen3.5-35B

Tolok Ukur Evaluasi Qwen3.5 35B-A3B Penjelasan
GPQA Diamond 84.2 Penalaran ilmiah tingkat pascasarjana
MMLU-Pro 85.3 Pengetahuan multidisiplin
MMLU-Redux 93.3 Pemahaman pengetahuan
HMMT Feb 2025 89.0 Kompetisi matematika
IFEval 91.9 Kepatuhan instruksi

Evaluasi Multimodal Qwen3.5-35B

Tolok Ukur Evaluasi Qwen3.5 35B-A3B Penjelasan
MMMU 81.4 Pemahaman multimodal (mendekati 79.6 milik Claude Sonnet 4.5)
MMMU-Pro 75.1 Multimodal tingkat kesulitan tinggi
MathVision 83.9 Penalaran matematika visual
VideoMME 86.6 Pemahaman video

Perbandingan Qwen3.5-35B dengan Model Closed-Source

Ini adalah pertanyaan yang paling banyak ditanyakan komunitas—seberapa jauh model open-source 35B dapat mengejar model closed-source?

Dimensi Qwen3.5 35B GPT-5 Mini Claude Sonnet 4.5 Selisih
SWE-bench 69.2 ~72 ~75 Beda 3-6 poin
MMMU 81.4 79.6 Melampaui
GPQA Diamond 84.2 Unggul
Parameter Aktif 3B ~Puluhan B Tidak diketahui Efisiensi tinggi
Bisa dijalankan lokal Ya (22GB) Tidak Tidak Keunggulan unik

Pandangan inti komunitas: Dalam pemrograman, selisih Qwen3.5-35B dengan model sekelas GPT-5 Mini telah menyempit hingga 3-6 poin, bahkan melampaui Claude Sonnet 4.5 dalam aspek multimodal. Mengingat model ini hanya membutuhkan 3B parameter aktif dan dapat dijalankan secara lokal, rasio efisiensi/kemampuannya mungkin yang tertinggi di antara semua model publik.

💡 Saran praktis: Jika Anda ingin membandingkan performa aktual antara Qwen3.5-35B dan model closed-source, Anda dapat menggunakan layanan proksi API APIYI di apiyi.com untuk memanggil Qwen3.5, Claude, dan GPT secara bersamaan guna melakukan perbandingan A/B pada tugas Anda sendiri.

qwen-3-5-35b-swe-bench-open-source-coding-record-local-llm-guide-id 图示

Panduan Deployment Lokal Qwen3.5-35B

Persyaratan Perangkat Keras dan Metode Deployment

Metode Deployment Persyaratan Perangkat Keras Skenario yang Disarankan
Ollama RAM/VRAM 22GB+ Paling mudah, sekali klik jalan
vLLM GPU + VRAM 24GB+ Throughput tingkat produksi
SGLang GPU + VRAM 24GB+ Direkomendasikan untuk throughput tinggi
KTransformers Hybrid CPU + GPU Perangkat keras spesifikasi rendah
LM Studio RAM 22GB+ Ramah dengan antarmuka grafis

Deployment Sekali Klik dengan Ollama

# Jalankan perintah ini setelah instalasi
ollama run qwen3.5:35b

Melalui Pemanggilan API (Tanpa Deployment Lokal)

Jika Anda tidak ingin repot dengan deployment lokal, menggunakan API adalah cara termudah:

import openai

client = openai.OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://vip.apiyi.com/v1"
)

response = client.chat.completions.create(
    model="qwen3.5-35b-a3b",
    messages=[{
        "role": "user",
        "content": "Bantu saya meninjau kode Python ini, temukan bottleneck kinerjanya"
    }],
    temperature=0.6,  # 0.6 disarankan untuk tugas pemrograman
    max_tokens=32768
)
print(response.choices[0].message.content)

Lihat cara beralih antara mode Thinking dan non-Thinking
import openai

client = openai.OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://vip.apiyi.com/v1"
)

# Mode Thinking (penalaran mendalam, cocok untuk tugas kompleks)
response_thinking = client.chat.completions.create(
    model="qwen3.5-35b-a3b",
    messages=[{"role": "user", "content": "Analisis kompleksitas waktu algoritma ini"}],
    temperature=1.0,
    top_p=0.95,
    max_tokens=32768
)

# Mode non-Thinking (jawaban cepat)
response_fast = client.chat.completions.create(
    model="qwen3.5-35b-a3b",
    messages=[{"role": "user", "content": "Tulis fungsi quicksort"}],
    temperature=0.7,
    top_p=0.8,
    max_tokens=32768,
    extra_body={"chat_template_kwargs": {"enable_thinking": False}}
)

🚀 Saran Deployment: Deployment lokal cocok untuk skenario yang sensitif terhadap privasi dan offline. Untuk pengembangan sehari-hari, disarankan menggunakan APIYI (apiyi.com)—lebih cepat, tidak perlu memelihara perangkat keras, dan Anda bisa bebas beralih antara Qwen3.5, Claude, dan GPT.


Sekilas Keluarga Model Qwen3.5

Perbandingan Spesifikasi Seri Qwen3.5

Model Total Parameter Parameter Aktif SWE-bench Memori Minimum Posisi
Qwen3.5-4B 4B 4B (Dense) 8GB Ringan untuk pemula
Qwen3.5-9B 9B 9B (Dense) 12GB Efisien untuk harian
Qwen3.5-27B 27B 27B (Dense) 72.4 22GB Presisi tinggi
Qwen3.5-35B-A3B 35B 3B (MoE) 69.2 22GB Raja efisiensi
Qwen3.5-122B-A10B 122B 10B (MoE) Menengah ke atas
Qwen3.5-397B-A17B 397B 17B (MoE) 76.4 Flagship

Saran Pemilihan:

  • Perangkat 22GB: 35B-A3B (MoE, cepat tapi presisi sedikit lebih rendah) atau 27B (Dense, sedikit lebih lambat tapi lebih akurat)
  • Mengejar efisiensi biaya terbaik: 35B-A3B, hanya menggunakan 3B parameter per inferensi
  • Mengejar presisi tertinggi: 27B Dense, tidak menggunakan jalur MoE

🎯 Pemilihan API: Melalui APIYI (apiyi.com), Anda dapat memanggil seluruh seri model Qwen3.5, mulai dari 4B hingga 397B sesuai kebutuhan. Satu kunci API sudah cukup untuk beralih secara fleksibel antara berbagai skala model Qwen serta model closed-source seperti Claude dan GPT.

Pertanyaan Umum

Q1: Antara Qwen3.5-35B dan 27B, mana yang harus dipilih?

Keduanya membutuhkan memori sekitar 22GB. 35B-A3B menggunakan arsitektur MoE (3-5 kali lebih cepat namun akurasi sedikit lebih rendah), sedangkan 27B menggunakan arsitektur Dense (lebih akurat namun lebih lambat). Untuk tugas pemrograman, perbedaannya tidak terlalu signifikan (SWE-bench 69.2 vs 72.4). Untuk percakapan sehari-hari, disarankan memilih 35B (lebih cepat), dan untuk tugas yang membutuhkan ketelitian, pilih 27B (lebih akurat). Anda bisa membandingkan keduanya secara langsung melalui APIYI di apiyi.com.

Q2: Apakah model sumber terbuka benar-benar mengejar model tertutup?

Ya, tetapi dengan catatan. Qwen3.5-35B melampaui Claude Sonnet 4.5 di MMMU (81.4 vs 79.6), dan selisihnya dengan GPT-5 Mini di SWE-bench hanya 3 poin. Namun, untuk tugas pemrograman tersulit dan penalaran kompleks, model unggulan tertutup (Claude Opus 4.5, GPT-5.4) masih memiliki keunggulan yang jelas. Model sumber terbuka sedang memperkecil jarak, tetapi belum sepenuhnya menyamai model tertutup papan atas.

Q3: Bisakah Mac dengan 22GB menjalankan Qwen3.5-35B?

Bisa. Qwen3.5-35B-A3B hanya mengaktifkan 3B parameter setiap kali inferensi, sehingga Mac dengan memori terpadu 22GB (seperti konfigurasi dasar M2/M3/M4) dapat menjalankannya dengan lancar. Disarankan menggunakan Ollama (ollama run qwen3.5:35b) untuk menjalankan dengan satu klik. Jika tidak ingin melakukan deployment lokal, pemanggilan via cloud melalui APIYI di apiyi.com jauh lebih praktis.


Kesimpulan

5 poin penting mengenai rekor baru pemrograman sumber terbuka oleh Qwen3.5-35B:

  1. Revolusi Efisiensi: Total parameter 35B dengan hanya 3B yang aktif, dapat berjalan di 22GB, dan kemampuan pemrograman melampaui model 235B generasi sebelumnya.
  2. Kekuatan Pemrograman: SWE-bench 69.2, CodeForces 2028, LiveCodeBench 74.6, menjadi standar baru untuk model lokal.
  3. Inovasi Arsitektur: 256 pakar MoE + atensi campuran (DeltaNet + Attention standar), memberikan rasio efisiensi/kemampuan yang optimal.
  4. Sumber Terbuka Mengejar Model Tertutup: MMMU melampaui Claude Sonnet 4.5, SWE-bench mendekati GPT-5 Mini, jarak semakin tipis.
  5. Terbuka Sepenuhnya: Lisensi Apache 2.0, tanpa batasan komersial, biaya deployment lokal nol.

Qwen3.5-35B membuktikan satu hal: Model sumber terbuka bukan lagi sekadar versi hemat dari model tertutup, melainkan sedang mengejar bahkan melampaui dengan efisiensi yang lebih tinggi. Disarankan untuk mengakses seluruh seri Qwen3.5 dan model tertutup melalui APIYI di apiyi.com, gunakan satu kunci API untuk membandingkan perbedaan performa antara model sumber terbuka dan tertutup pada tugas nyata Anda.

📚 Referensi

  1. Kartu Model Qwen3.5-35B-A3B – Hugging Face: Parameter teknis lengkap dan data evaluasi

    • Tautan: huggingface.co/Qwen/Qwen3.5-35B-A3B
    • Penjelasan: Berisi detail arsitektur, skor evaluasi, dan rekomendasi parameter inferensi
  2. Repositori GitHub Qwen3.5: Kode sumber terbuka dan panduan penerapan

    • Tautan: github.com/QwenLM/Qwen3.5
    • Penjelasan: Berisi unduhan bobot model lengkap dan dokumentasi penerapan
  3. Panduan Lengkap Qwen3.5: Evaluasi seluruh seri dan analisis arsitektur

    • Tautan: techie007.substack.com/p/qwen-35-the-complete-guide-benchmarks
    • Penjelasan: Perbandingan mendetail seluruh keluarga model dan tinjauan silang dengan model sumber tertutup
  4. Ollama – Qwen3.5:35B: Penerapan lokal sekali klik

    • Tautan: ollama.com/library/qwen3.5:35b
    • Penjelasan: Cara termudah untuk menjalankan model secara lokal

Penulis: Tim Teknis APIYI
Diskusi Teknis: Jangan ragu untuk berbagi pengalaman penerapan lokal Qwen3.5 Anda di kolom komentar. Untuk materi akses model AI lainnya, silakan kunjungi pusat dokumentasi APIYI di docs.apiyi.com

Tinggalkan komentar