Qwen3.5 35B установила новый рекорд в открытом программировании: 5 ключевых выводов о том, как 3B активных параметров достигли 69.2 в SWE-bench

Авторское примечание: Qwen3.5-35B-A3B с активными параметрами всего в 3B набрала 69.2 балла в SWE-bench Verified, обойдя предыдущее поколение Qwen3-235B. Сообщество r/LocalLLaMA считает это вехой в гонке открытых моделей за закрытыми. В статье — глубокий анализ архитектуры и практической ценности.

Сообщество r/LocalLLaMA сейчас активно обсуждает одну новость: Qwen3.5-35B-A3B с активными параметрами всего в 3B набрала 69.2 балла в SWE-bench Verified. Она не только превзошла Qwen3 с 235 млрд параметров, но и установила новый рекорд программирования среди моделей, запускаемых локально. Сообщество считает это важным сигналом: открытые модели догоняют закрытые. Теперь 35B-модель, способная работать на потребительском железе, по уровню программирования приближается к GPT-5 mini.

Основная ценность: Прочитав эту статью, вы узнаете, почему Qwen3.5-35B произвела фурор в open-source сообществе, как её архитектура MoE позволяет достичь «большой силы при малых габаритах» и как использовать её локально или в облаке.

qwen-3-5-35b-swe-bench-open-source-coding-record-local-llm-guide-ru 图示


Основные характеристики Qwen3.5-35B

Параметр Описание Значимость
Общие параметры 35 млрд (35B) Архитектура MoE
Активные параметры Всего 3 млрд (3B) Высокая эффективность
SWE-bench Verified 69.2 балла Превосходит Qwen3-235B
GPQA Diamond 84.2 балла Рассуждения уровня магистратуры
Контекстное окно Нативное 256K / расширение 1M+ Расширение YaRN
Требования 22 ГБ RAM/VRAM Доступно для потребительского железа
Лицензия Apache 2.0 Полностью открыта

Почему r/LocalLLaMA обсуждает Qwen3.5-35B

r/LocalLLaMA — самое активное сообщество по локальным большим языковым моделям на Reddit. Участников волнует главный вопрос: какая модель пойдет на моем железе и будет при этом достаточно мощной?

Qwen3.5-35B-A3B идеально отвечает этому запросу:

  • 35B общих параметров, но при каждом вызове модели активируется только 3B — это значит, что она плавно работает на Mac или GPU с 22 ГБ памяти.
  • Способности к программированию (69.2 балла в SWE-bench) превосходят Qwen3-235B, у которой параметров в 7 раз больше.
  • Полностью открыта по лицензии Apache 2.0, без каких-либо коммерческих ограничений.

Отзыв сообщества: «Запускайте Qwen 35B. Это отличный чат-бот, вполне подходящий для автоматизации задач». Это отражает главные требования локальных пользователей: эффективность, скорость и доступность.

Глубокий разбор архитектуры Qwen3.5-35B

MoE-архитектура с 256 экспертами

Модель Qwen3.5-35B-A3B использует архитектуру «смесь экспертов» (MoE) с очень высокой степенью детализации:

Параметр архитектуры Значение Описание
Общее число параметров 35B Сумма параметров всех экспертов
Активные параметры 3B Задействуются при каждом выводе
Всего экспертов 256 Ультратонкое разделение задач
Активные эксперты 8 маршрутизируемых + 1 общий 9 экспертов на каждый шаг
Количество слоев 40 Глубокая нейронная сеть
Размерность скрытого слоя 2048 Компактный дизайн

Механизм смешанного внимания

Qwen3.5-35B — это не классический Transformer, а модель с дизайном смешанного внимания:

Структура каждых 4 слоев выглядит так: 3 слоя Gated DeltaNet (линейное внимание) + 1 слой Gated Attention (стандартное внимание).

Тип внимания Доля слоев Особенности
Gated DeltaNet 75% Линейное внимание, высокая скорость вывода
Gated Attention 25% Стандартное внимание, высокая точность

Главная фишка такого дизайна в том, что большая часть вычислений выполняется с помощью эффективного линейного внимания, а стандартное внимание задействуется только на ключевых слоях. В этом и кроется секрет того, как модель с 35 млрд параметров потребляет всего 22 ГБ видеопамяти — оптимизирована не только разреженная активация экспертов, но и сам механизм внимания.

🎯 Технический инсайт: Архитектура Qwen3.5-35B задает тренд для MoE-моделей 2026 года: 256 экспертов с ультратонкой детализацией + смешанное внимание. Если хотите оценить эффективность этой архитектуры на практике, вы можете использовать API Qwen3.5 через сервис-прокси APIYI (apiyi.com) без необходимости локального развертывания.

qwen-3-5-35b-swe-bench-open-source-coding-record-local-llm-guide-ru 图示

Полный разбор данных тестирования Qwen3.5-35B

Тестирование программирования Qwen3.5-35B

Бенчмарк Qwen3.5 35B-A3B Сравнение Примечание
SWE-bench Verified 69.2 Qwen3-235B: <69 Превосходит модель предыдущего поколения в 7 раз большего размера
LiveCodeBench v6 74.6 Отличные навыки программирования в реальном времени
CodeForces 2,028 Уровень соревновательного программирования

Тестирование логических рассуждений и знаний Qwen3.5-35B

Бенчмарк Qwen3.5 35B-A3B Примечание
GPQA Diamond 84.2 Научные рассуждения уровня аспирантуры
MMLU-Pro 85.3 Междисциплинарные знания
MMLU-Redux 93.3 Понимание знаний
HMMT Feb 2025 89.0 Математические олимпиады
IFEval 91.9 Следование инструкциям

Мультимодальное тестирование Qwen3.5-35B

Бенчмарк Qwen3.5 35B-A3B Примечание
MMMU 81.4 Мультимодальное понимание (близко к 79.6 у Claude Sonnet 4.5)
MMMU-Pro 75.1 Сложные мультимодальные задачи
MathVision 83.9 Визуальные математические рассуждения
VideoMME 86.6 Понимание видео

Сравнение Qwen3.5-35B с закрытыми моделями

Это самый волнующий вопрос сообщества: насколько открытая модель на 35B параметров может приблизиться к закрытым аналогам?

Параметр Qwen3.5 35B GPT-5 Mini Claude Sonnet 4.5 Разрыв
SWE-bench 69.2 ~72 ~75 3-6 баллов
MMMU 81.4 79.6 Превосходство
GPQA Diamond 84.2 Топ-уровень
Активные параметры 3B ~десятки B Неизвестно Эффективность
Локальный запуск Да (22GB) Нет Нет Уникальное преимущество

Основной вывод сообщества: В задачах программирования разрыв между Qwen3.5-35B и моделями уровня GPT-5 Mini сократился до 3-6 баллов, а в мультимодальных задачах модель даже обходит Claude Sonnet 4.5. Учитывая, что для работы требуется всего 3B активных параметров и возможен локальный запуск, соотношение эффективности и возможностей у этой модели, пожалуй, лучшее среди всех публичных решений.

💡 Практический совет: Если вы хотите сравнить реальную производительность Qwen3.5-35B с закрытыми моделями, вы можете использовать сервис-прокси API APIYI (apiyi.com) для одновременного вызова Qwen3.5, Claude и GPT, чтобы провести A/B тестирование на ваших собственных задачах.

qwen-3-5-35b-swe-bench-open-source-coding-record-local-llm-guide-ru 图示

Руководство по локальному развертыванию Qwen3.5-35B

Аппаратные требования и способы развертывания

Способ развертывания Аппаратные требования Рекомендуемые сценарии
Ollama 22 ГБ+ RAM/VRAM Самый простой, запуск в один клик
vLLM GPU + 24 ГБ+ VRAM Промышленная производительность
SGLang GPU + 24 ГБ+ VRAM Рекомендуется для высокой пропускной способности
KTransformers Гибрид CPU + GPU Для слабого оборудования
LM Studio 22 ГБ+ RAM Удобный графический интерфейс

Развертывание через Ollama в один клик

# После установки достаточно одной команды
ollama run qwen3.5:35b

Вызов через API (без локального развертывания)

Если вы не хотите возиться с локальной установкой, самый простой способ — использовать API:

import openai

client = openai.OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://vip.apiyi.com/v1"
)

response = client.chat.completions.create(
    model="qwen3.5-35b-a3b",
    messages=[{
        "role": "user",
        "content": "Помоги мне провести ревью этого кода на Python и найти узкие места в производительности"
    }],
    temperature=0.6,  # Для задач программирования рекомендуется 0.6
    max_tokens=32768
)
print(response.choices[0].message.content)

Переключение между режимом Thinking и обычным режимом
import openai

client = openai.OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://vip.apiyi.com/v1"
)

# Режим Thinking (глубокое рассуждение, подходит для сложных задач)
response_thinking = client.chat.completions.create(
    model="qwen3.5-35b-a3b",
    messages=[{"role": "user", "content": "Проанализируй временную сложность этого алгоритма"}],
    temperature=1.0,
    top_p=0.95,
    max_tokens=32768
)

# Обычный режим (быстрый ответ)
response_fast = client.chat.completions.create(
    model="qwen3.5-35b-a3b",
    messages=[{"role": "user", "content": "Напиши функцию быстрой сортировки"}],
    temperature=0.7,
    top_p=0.8,
    max_tokens=32768,
    extra_body={"chat_template_kwargs": {"enable_thinking": False}}
)

🚀 Совет по развертыванию: Локальный запуск подходит для сценариев, чувствительных к конфиденциальности, или при работе офлайн. Для повседневной разработки рекомендуем использовать сервис-прокси API APIYI (apiyi.com) — это быстрее, не требует обслуживания оборудования, а также позволяет легко переключаться между Qwen3.5, Claude и GPT.


Обзор всего семейства моделей Qwen3.5

Сравнение характеристик серии Qwen3.5

Модель Всего параметров Активных параметров SWE-bench Мин. память Позиционирование
Qwen3.5-4B 4B 4B (Dense) 8 ГБ Легкая, для старта
Qwen3.5-9B 9B 9B (Dense) 12 ГБ Эффективная, для задач
Qwen3.5-27B 27B 27B (Dense) 72.4 22 ГБ Высокая точность
Qwen3.5-35B-A3B 35B 3B (MoE) 69.2 22 ГБ Король эффективности
Qwen3.5-122B-A10B 122B 10B (MoE) Средне-высокий сегмент
Qwen3.5-397B-A17B 397B 17B (MoE) 76.4 Флагман

Советы по выбору:

  • Устройство с 22 ГБ: 35B-A3B (MoE, быстро, но точность чуть ниже) или 27B (Dense, чуть медленнее, но точнее).
  • Максимальная эффективность: 35B-A3B, при каждом вызове модели задействуется всего 3B параметров.
  • Максимальная точность: 27B Dense, без использования архитектуры MoE.

🎯 Выбор API: Через сервис APIYI (apiyi.com) можно вызывать всю линейку моделей Qwen3.5, от 4B до 397B. Один API-ключ позволяет гибко переключаться между моделями Qwen разного масштаба, а также закрытыми моделями вроде Claude и GPT.

Часто задаваемые вопросы

Q1: Что выбрать: Qwen3.5-35B или 27B?

Обе модели требуют около 22 ГБ оперативной памяти. 35B-A3B использует архитектуру MoE (работает в 3–5 раз быстрее, но точность чуть ниже), а 27B — архитектуру Dense (более точная, но медленная). В задачах программирования разница между ними невелика (SWE-bench 69.2 против 72.4). Для повседневного общения лучше выбрать 35B (из-за скорости), а для сложных задач — 27B (из-за точности). Через APIYI apiyi.com можно вызывать обе модели одновременно для сравнения.

Q2: Действительно ли open-source модели догоняют закрытые?

Да, но с оговорками. Qwen3.5-35B превзошла Claude Sonnet 4.5 в тесте MMMU (81.4 против 79.6), а в SWE-bench отставание от GPT-5 Mini составляет всего 3 балла. Однако в самых сложных задачах по программированию и комплексным рассуждениям флагманские закрытые модели (Claude Opus 4.5, GPT-5.4) по-прежнему имеют заметное преимущество. Open-source сокращает разрыв, но еще не полностью сравнялся с топовыми закрытыми решениями.

Q3: Можно ли запустить Qwen3.5-35B на Mac с 22 ГБ памяти?

Да. Qwen3.5-35B-A3B активирует только 3 млрд параметров при каждом выводе, поэтому Mac с 22 ГБ объединенной памяти (например, базовые конфигурации M2/M3/M4) справятся с этим без проблем. Рекомендуем использовать Ollama (ollama run qwen3.5:35b) для запуска в один клик. Если не хотите возиться с локальным развертыванием, облачный вызов через APIYI apiyi.com будет удобнее.


Итоги

5 ключевых выводов о том, почему Qwen3.5-35B установила новый рекорд в open-source программировании:

  1. Революция эффективности: 35 млрд параметров при 3 млрд активных, достаточно 22 ГБ памяти для запуска, а навыки программирования превосходят модели предыдущего поколения на 235 млрд параметров.
  2. Сила в коде: SWE-bench 69.2, CodeForces 2028, LiveCodeBench 74.6 — новый эталон для локальных моделей.
  3. Инновации в архитектуре: 256 экспертов MoE + гибридное внимание (DeltaNet + стандартное Attention) обеспечивают оптимальное соотношение эффективности и возможностей.
  4. Open-source догоняет закрытые модели: превосходство над Claude Sonnet 4.5 в MMMU и близость к GPT-5 Mini в SWE-bench доказывают, что разрыв сокращается.
  5. Полная открытость: лицензия Apache 2.0, никаких коммерческих ограничений, нулевые затраты на локальное развертывание.

Qwen3.5-35B доказывает одно: open-source модели больше не являются «урезанными» версиями закрытых, они догоняют и даже обходят их за счет более высокой эффективности. Рекомендуем подключаться к APIYI apiyi.com, чтобы получить доступ ко всей линейке Qwen3.5 и закрытым моделям одновременно — используйте один ключ, чтобы сравнить, как они справляются с вашими реальными задачами.


📚 Справочные материалы

  1. Карточка модели Qwen3.5-35B-A3B — Hugging Face: полные технические характеристики и данные тестирования.

    • Ссылка: huggingface.co/Qwen/Qwen3.5-35B-A3B
    • Описание: содержит детали архитектуры, результаты бенчмарков и рекомендации по параметрам вывода.
  2. Репозиторий Qwen3.5 на GitHub: исходный код и руководство по развертыванию.

    • Ссылка: github.com/QwenLM/Qwen3.5
    • Описание: включает ссылки на скачивание весов модели и документацию по развертыванию.
  3. Полное руководство по Qwen3.5: анализ архитектуры и результаты тестирования всей серии.

    • Ссылка: techie007.substack.com/p/qwen-35-the-complete-guide-benchmarks
    • Описание: подробное сравнение всей линейки моделей и сопоставление с закрытыми аналогами.
  4. Ollama — Qwen3.5:35B: локальный запуск в один клик.

    • Ссылка: ollama.com/library/qwen3.5:35b
    • Описание: самый простой способ запустить модель локально.

Автор: Техническая команда APIYI
Техническое сообщество: Делитесь своим опытом локального развертывания Qwen3.5 в комментариях. Больше материалов по интеграции AI-моделей можно найти в центре документации APIYI по адресу docs.apiyi.com.

Оставьте комментарий