Qwen3.5 35B Mencetak Rekor Baru Pemrograman Sumber Terbuka: 5 Interpretasi Kunci dari 3B Parameter Aktif yang Mencapai Skor 69.2 di SWE-bench

Catatan Penulis: Qwen3.5-35B-A3B mencapai skor 69,2 pada SWE-bench Verified dengan hanya 3B parameter aktif, melampaui generasi sebelumnya Qwen3-235B. Komunitas r/LocalLLaMA menganggapnya sebagai tonggak sejarah bagi model sumber terbuka (open-source) dalam mengejar model tertutup. Artikel ini menganalisis secara mendalam arsitektur teknis dan nilai praktisnya.

Komunitas r/LocalLLaMA baru-baru ini ramai membahas satu hal: Qwen3.5-35B-A3B mencapai skor 69,2 pada SWE-bench Verified dengan hanya 3B parameter aktif. Ini tidak hanya melampaui Qwen3-235B generasi sebelumnya, tetapi juga memecahkan rekor kemampuan pemrograman di antara model yang dapat dijalankan secara lokal. Komunitas melihat ini sebagai tanda penting bahwa model sumber terbuka mulai mengejar model tertutup—sebuah model 35B yang dapat berjalan di perangkat keras konsumen, dengan kemampuan pemrograman yang mendekati level GPT-5 mini.

Nilai Inti: Setelah membaca artikel ini, Anda akan memahami mengapa Qwen3.5-35B memicu kehebohan di komunitas sumber terbuka, bagaimana arsitektur MoE-nya mencapai "bodi kecil dengan kemampuan besar", serta cara menggunakannya di lokal maupun cloud.

Poin Utama Qwen3.5-35B

Poin	Penjelasan	Signifikansi
Total Parameter	35 Miliar (35B)	Arsitektur MoE
Parameter Aktif	Hanya 3 Miliar (3B)	Efisiensi Maksimal
SWE-bench Verified	69,2 poin	Melampaui Qwen3-235B
GPQA Diamond	84,2 poin	Penalaran tingkat pascasarjana
Jendela Konteks	Native 256K / Ekspansi 1M+	Ekspansi YaRN
Kebutuhan Operasi	22GB RAM/VRAM	Tersedia untuk konsumen
Lisensi Sumber Terbuka	Apache 2.0	Terbuka sepenuhnya

Mengapa komunitas r/LocalLLaMA membahas Qwen3.5-35B

r/LocalLLaMA adalah komunitas Model Bahasa Besar lokal paling aktif di Reddit, di mana anggota berfokus pada pertanyaan inti: Model apa yang bisa berjalan di perangkat keras saya, namun memiliki kemampuan yang cukup kuat?

Qwen3.5-35B-A3B menjawab kebutuhan tersebut dengan tepat:

Total 35B parameter, tetapi hanya mengaktifkan 3B setiap inferensi—artinya model ini dapat berjalan lancar di Mac atau GPU dengan RAM 22GB.
Kemampuan pemrograman (SWE-bench 69,2) melampaui Qwen3-235B generasi sebelumnya yang memiliki jumlah parameter 7 kali lipat lebih besar.
Sumber terbuka sepenuhnya di bawah lisensi Apache 2.0, tanpa batasan komersial apa pun.

Komentar komunitas: "Run Qwen 35B. It's a great chatbot, good enough for task automation." Ini mewakili tuntutan inti dari para pemain deployment lokal—cukup, cepat, dan murah.

Analisis Mendalam Arsitektur Qwen3.5-35B

Arsitektur MoE dengan 256 Pakar

Qwen3.5-35B-A3B menggunakan arsitektur Mixture of Experts (MoE) yang sangat presisi:

Parameter Arsitektur	Nilai	Penjelasan
Total Parameter	35B	Jumlah seluruh parameter pakar
Parameter Aktif	3B	Diaktifkan setiap inferensi
Total Pakar	256	Pembagian tugas yang sangat detail
Pakar Aktif	8 Rute + 1 Bersama	Memilih 9 pakar per langkah
Jumlah Layer	40 Layer	Jaringan mendalam
Dimensi Tersembunyi	2048	Desain ringkas

Mekanisme Atensi Hibrida

Qwen3.5-35B bukanlah Transformer murni, melainkan menggunakan desain atensi hibrida:

Struktur setiap 4 layer terdiri dari: 3 layer Gated DeltaNet (atensi linear) + 1 layer Gated Attention (atensi standar)

Tipe Atensi	Proporsi Layer	Karakteristik
Gated DeltaNet	75%	Atensi linear, inferensi cepat
Gated Attention	25%	Atensi standar, akurasi tinggi

Keunggulan desain hibrida ini terletak pada efisiensinya: sebagian besar komputasi dilakukan menggunakan atensi linear yang cepat, sementara atensi standar yang lebih berat hanya digunakan pada layer-layer krusial. Inilah rahasia di balik performa 35B parameter namun hanya membutuhkan memori 22GB—bukan hanya aktivasi pakar yang jarang, mekanisme atensinya pun telah dioptimalkan.

🎯 Wawasan Teknis: Desain arsitektur Qwen3.5-35B mewakili tren terbaru model MoE tahun 2026—256 pakar dengan granularitas tinggi + atensi hibrida. Jika Anda ingin merasakan peningkatan efisiensi dari arsitektur ini, Anda dapat langsung memanggil API seri Qwen3.5 melalui APIYI di apiyi.com tanpa perlu melakukan deployment lokal.

Interpretasi Menyeluruh Data Evaluasi Qwen3.5-35B

Evaluasi Pemrograman Qwen3.5-35B

Tolok Ukur Evaluasi	Qwen3.5 35B-A3B	Referensi Perbandingan	Penjelasan
SWE-bench Verified	69.2	Qwen3-235B: <69	Melampaui pendahulu 7x lebih besar
LiveCodeBench v6	74.6	–	Kuat dalam pemrograman real-time
CodeForces	2,028	–	Level kompetisi

Evaluasi Penalaran dan Pengetahuan Qwen3.5-35B

Tolok Ukur Evaluasi	Qwen3.5 35B-A3B	Penjelasan
GPQA Diamond	84.2	Penalaran ilmiah tingkat pascasarjana
MMLU-Pro	85.3	Pengetahuan multidisiplin
MMLU-Redux	93.3	Pemahaman pengetahuan
HMMT Feb 2025	89.0	Kompetisi matematika
IFEval	91.9	Kepatuhan instruksi

Evaluasi Multimodal Qwen3.5-35B

Tolok Ukur Evaluasi	Qwen3.5 35B-A3B	Penjelasan
MMMU	81.4	Pemahaman multimodal (mendekati 79.6 milik Claude Sonnet 4.5)
MMMU-Pro	75.1	Multimodal tingkat kesulitan tinggi
MathVision	83.9	Penalaran matematika visual
VideoMME	86.6	Pemahaman video

Perbandingan Qwen3.5-35B dengan Model Closed-Source

Ini adalah pertanyaan yang paling banyak ditanyakan komunitas—seberapa jauh model open-source 35B dapat mengejar model closed-source?

Dimensi	Qwen3.5 35B	GPT-5 Mini	Claude Sonnet 4.5	Selisih
SWE-bench	69.2	~72	~75	Beda 3-6 poin
MMMU	81.4	–	79.6	Melampaui
GPQA Diamond	84.2	–	–	Unggul
Parameter Aktif	3B	~Puluhan B	Tidak diketahui	Efisiensi tinggi
Bisa dijalankan lokal	Ya (22GB)	Tidak	Tidak	Keunggulan unik

Pandangan inti komunitas: Dalam pemrograman, selisih Qwen3.5-35B dengan model sekelas GPT-5 Mini telah menyempit hingga 3-6 poin, bahkan melampaui Claude Sonnet 4.5 dalam aspek multimodal. Mengingat model ini hanya membutuhkan 3B parameter aktif dan dapat dijalankan secara lokal, rasio efisiensi/kemampuannya mungkin yang tertinggi di antara semua model publik.

💡 Saran praktis: Jika Anda ingin membandingkan performa aktual antara Qwen3.5-35B dan model closed-source, Anda dapat menggunakan layanan proksi API APIYI di apiyi.com untuk memanggil Qwen3.5, Claude, dan GPT secara bersamaan guna melakukan perbandingan A/B pada tugas Anda sendiri.

Panduan Deployment Lokal Qwen3.5-35B

Persyaratan Perangkat Keras dan Metode Deployment

Metode Deployment	Persyaratan Perangkat Keras	Skenario yang Disarankan
Ollama	RAM/VRAM 22GB+	Paling mudah, sekali klik jalan
vLLM	GPU + VRAM 24GB+	Throughput tingkat produksi
SGLang	GPU + VRAM 24GB+	Direkomendasikan untuk throughput tinggi
KTransformers	Hybrid CPU + GPU	Perangkat keras spesifikasi rendah
LM Studio	RAM 22GB+	Ramah dengan antarmuka grafis

Deployment Sekali Klik dengan Ollama

# Jalankan perintah ini setelah instalasi
ollama run qwen3.5:35b

Melalui Pemanggilan API (Tanpa Deployment Lokal)

Jika Anda tidak ingin repot dengan deployment lokal, menggunakan API adalah cara termudah:

import openai

client = openai.OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://vip.apiyi.com/v1"
)

response = client.chat.completions.create(
    model="qwen3.5-35b-a3b",
    messages=[{
        "role": "user",
        "content": "Bantu saya meninjau kode Python ini, temukan bottleneck kinerjanya"
    }],
    temperature=0.6,  # 0.6 disarankan untuk tugas pemrograman
    max_tokens=32768
)
print(response.choices[0].message.content)

Lihat cara beralih antara mode Thinking dan non-Thinking

import openai

client = openai.OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://vip.apiyi.com/v1"
)

# Mode Thinking (penalaran mendalam, cocok untuk tugas kompleks)
response_thinking = client.chat.completions.create(
    model="qwen3.5-35b-a3b",
    messages=[{"role": "user", "content": "Analisis kompleksitas waktu algoritma ini"}],
    temperature=1.0,
    top_p=0.95,
    max_tokens=32768
)

# Mode non-Thinking (jawaban cepat)
response_fast = client.chat.completions.create(
    model="qwen3.5-35b-a3b",
    messages=[{"role": "user", "content": "Tulis fungsi quicksort"}],
    temperature=0.7,
    top_p=0.8,
    max_tokens=32768,
    extra_body={"chat_template_kwargs": {"enable_thinking": False}}
)

🚀 Saran Deployment: Deployment lokal cocok untuk skenario yang sensitif terhadap privasi dan offline. Untuk pengembangan sehari-hari, disarankan menggunakan APIYI (apiyi.com)—lebih cepat, tidak perlu memelihara perangkat keras, dan Anda bisa bebas beralih antara Qwen3.5, Claude, dan GPT.

Sekilas Keluarga Model Qwen3.5

Perbandingan Spesifikasi Seri Qwen3.5

Model	Total Parameter	Parameter Aktif	SWE-bench	Memori Minimum	Posisi
Qwen3.5-4B	4B	4B (Dense)	–	8GB	Ringan untuk pemula
Qwen3.5-9B	9B	9B (Dense)	–	12GB	Efisien untuk harian
Qwen3.5-27B	27B	27B (Dense)	72.4	22GB	Presisi tinggi
Qwen3.5-35B-A3B	35B	3B (MoE)	69.2	22GB	Raja efisiensi
Qwen3.5-122B-A10B	122B	10B (MoE)	–	–	Menengah ke atas
Qwen3.5-397B-A17B	397B	17B (MoE)	76.4	–	Flagship

Saran Pemilihan:

Perangkat 22GB: 35B-A3B (MoE, cepat tapi presisi sedikit lebih rendah) atau 27B (Dense, sedikit lebih lambat tapi lebih akurat)
Mengejar efisiensi biaya terbaik: 35B-A3B, hanya menggunakan 3B parameter per inferensi
Mengejar presisi tertinggi: 27B Dense, tidak menggunakan jalur MoE

🎯 Pemilihan API: Melalui APIYI (apiyi.com), Anda dapat memanggil seluruh seri model Qwen3.5, mulai dari 4B hingga 397B sesuai kebutuhan. Satu kunci API sudah cukup untuk beralih secara fleksibel antara berbagai skala model Qwen serta model closed-source seperti Claude dan GPT.

Pertanyaan Umum

Q1: Antara Qwen3.5-35B dan 27B, mana yang harus dipilih?

Keduanya membutuhkan memori sekitar 22GB. 35B-A3B menggunakan arsitektur MoE (3-5 kali lebih cepat namun akurasi sedikit lebih rendah), sedangkan 27B menggunakan arsitektur Dense (lebih akurat namun lebih lambat). Untuk tugas pemrograman, perbedaannya tidak terlalu signifikan (SWE-bench 69.2 vs 72.4). Untuk percakapan sehari-hari, disarankan memilih 35B (lebih cepat), dan untuk tugas yang membutuhkan ketelitian, pilih 27B (lebih akurat). Anda bisa membandingkan keduanya secara langsung melalui APIYI di apiyi.com.

Q2: Apakah model sumber terbuka benar-benar mengejar model tertutup?

Ya, tetapi dengan catatan. Qwen3.5-35B melampaui Claude Sonnet 4.5 di MMMU (81.4 vs 79.6), dan selisihnya dengan GPT-5 Mini di SWE-bench hanya 3 poin. Namun, untuk tugas pemrograman tersulit dan penalaran kompleks, model unggulan tertutup (Claude Opus 4.5, GPT-5.4) masih memiliki keunggulan yang jelas. Model sumber terbuka sedang memperkecil jarak, tetapi belum sepenuhnya menyamai model tertutup papan atas.

Q3: Bisakah Mac dengan 22GB menjalankan Qwen3.5-35B?

Bisa. Qwen3.5-35B-A3B hanya mengaktifkan 3B parameter setiap kali inferensi, sehingga Mac dengan memori terpadu 22GB (seperti konfigurasi dasar M2/M3/M4) dapat menjalankannya dengan lancar. Disarankan menggunakan Ollama (ollama run qwen3.5:35b) untuk menjalankan dengan satu klik. Jika tidak ingin melakukan deployment lokal, pemanggilan via cloud melalui APIYI di apiyi.com jauh lebih praktis.

Kesimpulan

5 poin penting mengenai rekor baru pemrograman sumber terbuka oleh Qwen3.5-35B:

Revolusi Efisiensi: Total parameter 35B dengan hanya 3B yang aktif, dapat berjalan di 22GB, dan kemampuan pemrograman melampaui model 235B generasi sebelumnya.
Kekuatan Pemrograman: SWE-bench 69.2, CodeForces 2028, LiveCodeBench 74.6, menjadi standar baru untuk model lokal.
Inovasi Arsitektur: 256 pakar MoE + atensi campuran (DeltaNet + Attention standar), memberikan rasio efisiensi/kemampuan yang optimal.
Sumber Terbuka Mengejar Model Tertutup: MMMU melampaui Claude Sonnet 4.5, SWE-bench mendekati GPT-5 Mini, jarak semakin tipis.
Terbuka Sepenuhnya: Lisensi Apache 2.0, tanpa batasan komersial, biaya deployment lokal nol.

Qwen3.5-35B membuktikan satu hal: Model sumber terbuka bukan lagi sekadar versi hemat dari model tertutup, melainkan sedang mengejar bahkan melampaui dengan efisiensi yang lebih tinggi. Disarankan untuk mengakses seluruh seri Qwen3.5 dan model tertutup melalui APIYI di apiyi.com, gunakan satu kunci API untuk membandingkan perbedaan performa antara model sumber terbuka dan tertutup pada tugas nyata Anda.

📚 Referensi

Kartu Model Qwen3.5-35B-A3B – Hugging Face: Parameter teknis lengkap dan data evaluasi
- Tautan: huggingface.co/Qwen/Qwen3.5-35B-A3B
- Penjelasan: Berisi detail arsitektur, skor evaluasi, dan rekomendasi parameter inferensi
Repositori GitHub Qwen3.5: Kode sumber terbuka dan panduan penerapan
- Tautan: github.com/QwenLM/Qwen3.5
- Penjelasan: Berisi unduhan bobot model lengkap dan dokumentasi penerapan
Panduan Lengkap Qwen3.5: Evaluasi seluruh seri dan analisis arsitektur
- Tautan: techie007.substack.com/p/qwen-35-the-complete-guide-benchmarks
- Penjelasan: Perbandingan mendetail seluruh keluarga model dan tinjauan silang dengan model sumber tertutup
Ollama – Qwen3.5:35B: Penerapan lokal sekali klik
- Tautan: ollama.com/library/qwen3.5:35b
- Penjelasan: Cara termudah untuk menjalankan model secara lokal

Penulis: Tim Teknis APIYI
Diskusi Teknis: Jangan ragu untuk berbagi pengalaman penerapan lokal Qwen3.5 Anda di kolom komentar. Untuk materi akses model AI lainnya, silakan kunjungi pusat dokumentasi APIYI di docs.apiyi.com