Qwen3.5 35B estabelece novo recorde em programação open source: 5 interpretações fundamentais sobre os 3B de parâmetros ativos atingirem 69.2 no SWE-bench

Nota do autor: O Qwen3.5-35B-A3B atingiu 69,2 pontos no SWE-bench Verified com apenas 3B de parâmetros ativos, superando o Qwen3-235B da geração anterior. A comunidade r/LocalLLaMA o considera um marco na corrida dos modelos open-source contra os proprietários. Este artigo analisa profundamente sua arquitetura técnica e valor prático.

A comunidade r/LocalLLaMA tem sido palco de um debate intenso recentemente: O Qwen3.5-35B-A3B atingiu 69,2 pontos no SWE-bench Verified com apenas 3B de parâmetros ativos, superando não apenas o Qwen3 de 235B da geração anterior, mas também estabelecendo um novo recorde de capacidade de programação entre modelos executáveis localmente. A comunidade vê isso como um sinal claro de que os modelos open-source estão alcançando os proprietários — um modelo de 35B que roda em hardware de consumo e possui capacidades de programação próximas ao nível do GPT-5 mini.

Valor central: Ao ler este artigo, você entenderá por que o Qwen3.5-35B causou tanto impacto na comunidade open-source, como sua arquitetura MoE consegue "grande capacidade em um corpo pequeno" e como utilizá-lo localmente ou na nuvem.

qwen-3-5-35b-swe-bench-open-source-coding-record-local-llm-guide-pt-pt 图示


Principais pontos do Qwen3.5-35B

Ponto Descrição Significado
Total de parâmetros 35 bilhões (35B) Arquitetura MoE
Parâmetros ativos Apenas 3 bilhões (3B) Eficiência extrema
SWE-bench Verified 69,2 pontos Supera o Qwen3-235B
GPQA Diamond 84,2 pontos Raciocínio de nível pós-graduação
Janela de contexto Nativa 256K / Expansível 1M+ Expansão via YaRN
Requisitos de execução 22GB de RAM/VRAM Disponível para hardware de consumo
Licença open-source Apache 2.0 Totalmente aberto

Por que a comunidade r/LocalLLaMA está discutindo o Qwen3.5-35B

O r/LocalLLaMA é a comunidade de modelos de linguagem grande locais mais ativa no Reddit, onde os membros focam na questão central: que modelo pode rodar no meu hardware e ser poderoso o suficiente?

O Qwen3.5-35B-A3B atende perfeitamente a essa demanda:

  • 35B de parâmetros totais, mas ativa apenas 3B por inferência — o que significa que ele pode rodar fluentemente em um Mac ou GPU com 22GB de memória.
  • Capacidade de programação (SWE-bench 69,2) superior ao Qwen3-235B da geração anterior, que possui 7 vezes mais parâmetros.
  • Totalmente open-source sob licença Apache 2.0, sem restrições comerciais.

A avaliação da comunidade: "Execute o Qwen 35B. É um ótimo chatbot, bom o suficiente para automação de tarefas." Isso representa a demanda central dos entusiastas de implantação local: eficiente, rápido e acessível.

Análise profunda da arquitetura do Qwen3.5-35B

Arquitetura MoE com 256 especialistas

O Qwen3.5-35B-A3B utiliza uma arquitetura de Mistura de Especialistas (MoE) extremamente refinada:

Parâmetro de Arquitetura Valor Descrição
Parâmetros totais 35B Soma de todos os parâmetros dos especialistas
Parâmetros ativos 3B Ativados a cada inferência
Total de especialistas 256 Divisão de trabalho de granulação fina
Especialistas ativos 8 roteados + 1 compartilhado 9 especialistas selecionados por vez
Camadas 40 camadas Rede profunda
Dimensão oculta 2048 Design compacto

Mecanismo de atenção híbrida

O Qwen3.5-35B não é um Transformer puro, mas adota um design de atenção híbrida:

A estrutura a cada 4 camadas é composta por: 3 camadas de Gated DeltaNet (atenção linear) + 1 camada de Gated Attention (atenção padrão)

Tipo de atenção Proporção de camadas Características
Gated DeltaNet 75% Atenção linear, inferência rápida
Gated Attention 25% Atenção padrão, alta precisão

A genialidade deste design híbrido reside no fato de que a maior parte do cálculo é realizada usando atenção linear eficiente, reservando a atenção padrão, que é computacionalmente mais pesada, apenas para as camadas críticas. Este é o segredo por trás de um modelo de 35B que requer apenas 22GB de memória — não apenas a ativação dos especialistas é esparsa, mas o próprio mecanismo de atenção foi otimizado.

🎯 Insight técnico: O design arquitetônico do Qwen3.5-35B representa a tendência mais recente dos modelos MoE em 2026 — 256 especialistas de granulação fina + atenção híbrida. Se você deseja experimentar o ganho de eficiência que essa arquitetura proporciona, pode invocar a API da série Qwen3.5 diretamente através do serviço proxy de API da APIYI (apiyi.com), sem a necessidade de implantação local.

qwen-3-5-35b-swe-bench-open-source-coding-record-local-llm-guide-pt-pt 图示

Interpretação completa dos dados de avaliação do Qwen3.5-35B

Avaliação de programação do Qwen3.5-35B

Benchmark Qwen3.5 35B-A3B Referência Observação
SWE-bench Verified 69.2 Qwen3-235B: <69 Supera a geração anterior 7x maior
LiveCodeBench v6 74.6 Forte em programação em tempo real
CodeForces 2.028 Nível de competição

Avaliação de raciocínio e conhecimento do Qwen3.5-35B

Benchmark Qwen3.5 35B-A3B Observação
GPQA Diamond 84.2 Raciocínio científico nível pós-graduação
MMLU-Pro 85.3 Conhecimento multidisciplinar
MMLU-Redux 93.3 Compreensão de conhecimento
HMMT Feb 2025 89.0 Competição de matemática
IFEval 91.9 Seguimento de instruções

Avaliação multimodal do Qwen3.5-35B

Benchmark Qwen3.5 35B-A3B Observação
MMMU 81.4 Compreensão multimodal (próximo aos 79.6 do Claude Sonnet 4.5)
MMMU-Pro 75.1 Multimodal de alta dificuldade
MathVision 83.9 Raciocínio matemático visual
VideoMME 86.6 Compreensão de vídeo

Comparação do Qwen3.5-35B com modelos de código fechado

Esta é a questão que mais interessa à comunidade: até onde um modelo open source de 35B consegue chegar em relação aos modelos fechados?

Dimensão Qwen3.5 35B GPT-5 Mini Claude Sonnet 4.5 Diferença
SWE-bench 69.2 ~72 ~75 3-6 pontos
MMMU 81.4 79.6 Superou
GPQA Diamond 84.2 Topo de linha
Parâmetros ativos 3B ~dezenas de B Desconhecido Eficiência superior
Execução local Sim (22GB) Não Não Vantagem exclusiva

A visão central da comunidade: A diferença do Qwen3.5-35B para modelos de nível GPT-5 Mini em programação caiu para apenas 3-6 pontos, e ele chega a superar o Claude Sonnet 4.5 em tarefas multimodais. Considerando que ele requer apenas 3B de parâmetros ativos e pode ser executado localmente, a relação eficiência/capacidade é provavelmente a mais alta entre todos os modelos públicos.

💡 Dica prática: Se você quiser comparar o desempenho real do Qwen3.5-35B com modelos de código fechado, você pode usar o serviço proxy de API da APIYI (apiyi.com) para invocar o Qwen3.5, Claude e GPT simultaneamente e realizar um teste A/B em suas próprias tarefas.

qwen-3-5-35b-swe-bench-open-source-coding-record-local-llm-guide-pt-pt 图示

Guia de implantação local do Qwen3.5-35B

Requisitos de hardware e métodos de implantação

Método de implantação Requisitos de hardware Cenário recomendado
Ollama 22GB+ RAM/VRAM O mais simples, execução com um clique
vLLM GPU + 24GB+ VRAM Vazão de nível de produção
SGLang GPU + 24GB+ VRAM Recomendado para alta vazão
KTransformers Híbrido CPU + GPU Hardware de baixo desempenho
LM Studio 22GB+ RAM Interface gráfica amigável

Implantação com um clique via Ollama

# Após a instalação, basta um comando para executar
ollama run qwen3.5:35b

Invocação do modelo via API (sem necessidade de implantação local)

Se você não quer ter o trabalho de configurar localmente, a forma mais simples é realizar a invocação do modelo diretamente via API:

import openai

client = openai.OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://vip.apiyi.com/v1"
)

response = client.chat.completions.create(
    model="qwen3.5-35b-a3b",
    messages=[{
        "role": "user",
        "content": "Ajude-me a revisar este código Python e encontrar gargalos de desempenho"
    }],
    temperature=0.6,  # 0.6 é recomendado para tarefas de programação
    max_tokens=32768
)
print(response.choices[0].message.content)

Ver alternância entre modo Thinking e modo sem Thinking
import openai

client = openai.OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://vip.apiyi.com/v1"
)

# Modo Thinking (raciocínio profundo, ideal para tarefas complexas)
response_thinking = client.chat.completions.create(
    model="qwen3.5-35b-a3b",
    messages=[{"role": "user", "content": "Analise a complexidade de tempo deste algoritmo"}],
    temperature=1.0,
    top_p=0.95,
    max_tokens=32768
)

# Modo sem Thinking (resposta rápida)
response_fast = client.chat.completions.create(
    model="qwen3.5-35b-a3b",
    messages=[{"role": "user", "content": "Escreva uma função de quicksort"}],
    temperature=0.7,
    top_p=0.8,
    max_tokens=32768,
    extra_body={"chat_template_kwargs": {"enable_thinking": False}}
)

🚀 Dica de implantação: A implantação local é ideal para cenários offline ou que exigem privacidade. Para o desenvolvimento diário, recomendamos a APIYI (apiyi.com) — é mais rápido, dispensa a manutenção de hardware e permite alternar livremente entre o Qwen3.5, Claude e GPT.


Visão geral da família de modelos Qwen3.5

Comparação de especificações da série Qwen3.5

Modelo Parâmetros totais Parâmetros ativos SWE-bench Memória mínima Posicionamento
Qwen3.5-4B 4B 4B (Denso) 8GB Entrada leve
Qwen3.5-9B 9B 9B (Denso) 12GB Eficiência diária
Qwen3.5-27B 27B 27B (Denso) 72.4 22GB Alta precisão densa
Qwen3.5-35B-A3B 35B 3B (MoE) 69.2 22GB Rei da eficiência
Qwen3.5-122B-A10B 122B 10B (MoE) Médio-alto desempenho
Qwen3.5-397B-A17B 397B 17B (MoE) 76.4 Flagship

Sugestão de escolha:

  • Equipamentos com 22GB: 35B-A3B (MoE, rápido, mas com precisão ligeiramente menor) ou 27B (Denso, um pouco mais lento, mas mais preciso).
  • Busca pelo melhor custo-benefício: 35B-A3B, utiliza apenas 3B de parâmetros por inferência.
  • Busca pela máxima precisão: 27B Denso, sem utilizar a arquitetura MoE.

🎯 Seleção de API: Através da APIYI (apiyi.com), você pode realizar a invocação do modelo de toda a série Qwen3.5, escolhendo conforme a necessidade, de 4B a 397B. Com uma única chave API, você alterna de forma flexível entre diferentes escalas do Qwen e modelos de código fechado como Claude e GPT.


Perguntas Frequentes

Q1: Qual escolher entre o Qwen3.5-35B e o 27B?

Ambos exigem cerca de 22 GB de memória. O 35B-A3B utiliza a arquitetura MoE (3 a 5 vezes mais rápido, porém com precisão ligeiramente menor), enquanto o 27B utiliza a arquitetura Dense (mais preciso, porém mais lento). Em tarefas de programação, a diferença entre eles não é grande (SWE-bench 69,2 vs 72,4). Para conversas do dia a dia, recomendo o 35B (mais rápido); para tarefas minuciosas, escolha o 27B (mais preciso). Você pode invocar ambos simultaneamente para comparação através do APIYI apiyi.com.

Q2: Os modelos de código aberto estão realmente alcançando os de código fechado?

Sim, mas com ressalvas. O Qwen3.5-35B superou o Claude Sonnet 4.5 no MMMU (81,4 vs 79,6) e a diferença no SWE-bench para o GPT-5 Mini é de apenas 3 pontos. No entanto, nas tarefas de programação mais difíceis e no raciocínio complexo, os modelos de código fechado de elite (Claude Opus 4.5, GPT-5.4) ainda mantêm uma vantagem clara. O código aberto está diminuindo a distância, mas ainda não empatou totalmente com o topo dos modelos fechados.

Q3: Um Mac com 22 GB consegue rodar o Qwen3.5-35B?

Sim. O Qwen3.5-35B-A3B ativa apenas 3B de parâmetros por inferência, então Macs com 22 GB de memória unificada (como as configurações de entrada dos chips M2/M3/M4) podem executá-lo fluentemente. Recomendo usar o Ollama (ollama run qwen3.5:35b) para iniciar com um clique. Se não quiser fazer a implantação local, a invocação na nuvem via APIYI apiyi.com é mais conveniente.


Resumo

5 pontos-chave sobre como o Qwen3.5-35B estabeleceu um novo recorde em programação de código aberto:

  1. Revolução na eficiência: 35B de parâmetros totais com apenas 3B ativos, roda com 22 GB, superando a capacidade de programação de modelos anteriores de 235B.
  2. Poder de programação: SWE-bench 69,2, CodeForces 2028, LiveCodeBench 74,6; o novo padrão para modelos locais.
  3. Inovação arquitetural: MoE com 256 especialistas + atenção híbrida (DeltaNet + Attention padrão), a melhor relação eficiência/capacidade.
  4. Código aberto alcançando o fechado: Superou o Claude Sonnet 4.5 no MMMU e se aproximou do GPT-5 Mini no SWE-bench; a lacuna está diminuindo.
  5. Totalmente aberto: Licença Apache 2.0, sem restrições comerciais, custo zero para implantação local.

O Qwen3.5-35B prova uma coisa: os modelos de código aberto não são mais apenas versões "lite" dos fechados, mas estão alcançando e até superando-os com maior eficiência. Recomendo acessar toda a série Qwen3.5 e modelos de código fechado via APIYI apiyi.com; use uma única chave API para comparar o desempenho de ambos em suas tarefas reais.

📚 Referências

  1. Cartão do modelo Qwen3.5-35B-A3B – Hugging Face: Parâmetros técnicos completos e dados de avaliação

    • Link: huggingface.co/Qwen/Qwen3.5-35B-A3B
    • Descrição: Contém detalhes da arquitetura, pontuações de avaliação e recomendações de parâmetros de inferência
  2. Repositório GitHub do Qwen3.5: Código-fonte aberto e guias de implantação

    • Link: github.com/QwenLM/Qwen3.5
    • Descrição: Inclui o download dos pesos completos do modelo e a documentação de implantação
  3. Guia Completo do Qwen3.5: Avaliação de toda a série e análise de arquitetura

    • Link: techie007.substack.com/p/qwen-35-the-complete-guide-benchmarks
    • Descrição: Comparação detalhada de toda a família de modelos e análise comparativa com modelos de código fechado
  4. Ollama – Qwen3.5:35B: Implantação local com um clique

    • Link: ollama.com/library/qwen3.5:35b
    • Descrição: A maneira mais simples de executar localmente

Autor: Equipe técnica da APIYI
Troca técnica: Sinta-se à vontade para compartilhar sua experiência de implantação local do Qwen3.5 na seção de comentários. Para mais materiais sobre integração de modelos de IA, acesse a central de documentação da APIYI em docs.apiyi.com

Deixe um comentário