Qwen3.5 35B установила новый рекорд в открытом программировании: 5 ключевых выводов о том, как 3B активных параметров достигли 69.2 в SWE-bench

Авторское примечание: Qwen3.5-35B-A3B с активными параметрами всего в 3B набрала 69.2 балла в SWE-bench Verified, обойдя предыдущее поколение Qwen3-235B. Сообщество r/LocalLLaMA считает это вехой в гонке открытых моделей за закрытыми. В статье — глубокий анализ архитектуры и практической ценности.

Сообщество r/LocalLLaMA сейчас активно обсуждает одну новость: Qwen3.5-35B-A3B с активными параметрами всего в 3B набрала 69.2 балла в SWE-bench Verified. Она не только превзошла Qwen3 с 235 млрд параметров, но и установила новый рекорд программирования среди моделей, запускаемых локально. Сообщество считает это важным сигналом: открытые модели догоняют закрытые. Теперь 35B-модель, способная работать на потребительском железе, по уровню программирования приближается к GPT-5 mini.

Основная ценность: Прочитав эту статью, вы узнаете, почему Qwen3.5-35B произвела фурор в open-source сообществе, как её архитектура MoE позволяет достичь «большой силы при малых габаритах» и как использовать её локально или в облаке.

Основные характеристики Qwen3.5-35B

Параметр	Описание	Значимость
Общие параметры	35 млрд (35B)	Архитектура MoE
Активные параметры	Всего 3 млрд (3B)	Высокая эффективность
SWE-bench Verified	69.2 балла	Превосходит Qwen3-235B
GPQA Diamond	84.2 балла	Рассуждения уровня магистратуры
Контекстное окно	Нативное 256K / расширение 1M+	Расширение YaRN
Требования	22 ГБ RAM/VRAM	Доступно для потребительского железа
Лицензия	Apache 2.0	Полностью открыта

Почему r/LocalLLaMA обсуждает Qwen3.5-35B

r/LocalLLaMA — самое активное сообщество по локальным большим языковым моделям на Reddit. Участников волнует главный вопрос: какая модель пойдет на моем железе и будет при этом достаточно мощной?

Qwen3.5-35B-A3B идеально отвечает этому запросу:

35B общих параметров, но при каждом вызове модели активируется только 3B — это значит, что она плавно работает на Mac или GPU с 22 ГБ памяти.
Способности к программированию (69.2 балла в SWE-bench) превосходят Qwen3-235B, у которой параметров в 7 раз больше.
Полностью открыта по лицензии Apache 2.0, без каких-либо коммерческих ограничений.

Отзыв сообщества: «Запускайте Qwen 35B. Это отличный чат-бот, вполне подходящий для автоматизации задач». Это отражает главные требования локальных пользователей: эффективность, скорость и доступность.

Глубокий разбор архитектуры Qwen3.5-35B

MoE-архитектура с 256 экспертами

Модель Qwen3.5-35B-A3B использует архитектуру «смесь экспертов» (MoE) с очень высокой степенью детализации:

Параметр архитектуры	Значение	Описание
Общее число параметров	35B	Сумма параметров всех экспертов
Активные параметры	3B	Задействуются при каждом выводе
Всего экспертов	256	Ультратонкое разделение задач
Активные эксперты	8 маршрутизируемых + 1 общий	9 экспертов на каждый шаг
Количество слоев	40	Глубокая нейронная сеть
Размерность скрытого слоя	2048	Компактный дизайн

Механизм смешанного внимания

Qwen3.5-35B — это не классический Transformer, а модель с дизайном смешанного внимания:

Структура каждых 4 слоев выглядит так: 3 слоя Gated DeltaNet (линейное внимание) + 1 слой Gated Attention (стандартное внимание).

Тип внимания	Доля слоев	Особенности
Gated DeltaNet	75%	Линейное внимание, высокая скорость вывода
Gated Attention	25%	Стандартное внимание, высокая точность

Главная фишка такого дизайна в том, что большая часть вычислений выполняется с помощью эффективного линейного внимания, а стандартное внимание задействуется только на ключевых слоях. В этом и кроется секрет того, как модель с 35 млрд параметров потребляет всего 22 ГБ видеопамяти — оптимизирована не только разреженная активация экспертов, но и сам механизм внимания.

🎯 Технический инсайт: Архитектура Qwen3.5-35B задает тренд для MoE-моделей 2026 года: 256 экспертов с ультратонкой детализацией + смешанное внимание. Если хотите оценить эффективность этой архитектуры на практике, вы можете использовать API Qwen3.5 через сервис-прокси APIYI (apiyi.com) без необходимости локального развертывания.

Полный разбор данных тестирования Qwen3.5-35B

Тестирование программирования Qwen3.5-35B

Бенчмарк	Qwen3.5 35B-A3B	Сравнение	Примечание
SWE-bench Verified	69.2	Qwen3-235B: <69	Превосходит модель предыдущего поколения в 7 раз большего размера
LiveCodeBench v6	74.6	—	Отличные навыки программирования в реальном времени
CodeForces	2,028	—	Уровень соревновательного программирования

Тестирование логических рассуждений и знаний Qwen3.5-35B

Бенчмарк	Qwen3.5 35B-A3B	Примечание
GPQA Diamond	84.2	Научные рассуждения уровня аспирантуры
MMLU-Pro	85.3	Междисциплинарные знания
MMLU-Redux	93.3	Понимание знаний
HMMT Feb 2025	89.0	Математические олимпиады
IFEval	91.9	Следование инструкциям

Мультимодальное тестирование Qwen3.5-35B

Бенчмарк	Qwen3.5 35B-A3B	Примечание
MMMU	81.4	Мультимодальное понимание (близко к 79.6 у Claude Sonnet 4.5)
MMMU-Pro	75.1	Сложные мультимодальные задачи
MathVision	83.9	Визуальные математические рассуждения
VideoMME	86.6	Понимание видео

Сравнение Qwen3.5-35B с закрытыми моделями

Это самый волнующий вопрос сообщества: насколько открытая модель на 35B параметров может приблизиться к закрытым аналогам?

Параметр	Qwen3.5 35B	GPT-5 Mini	Claude Sonnet 4.5	Разрыв
SWE-bench	69.2	~72	~75	3-6 баллов
MMMU	81.4	—	79.6	Превосходство
GPQA Diamond	84.2	—	—	Топ-уровень
Активные параметры	3B	~десятки B	Неизвестно	Эффективность
Локальный запуск	Да (22GB)	Нет	Нет	Уникальное преимущество

Основной вывод сообщества: В задачах программирования разрыв между Qwen3.5-35B и моделями уровня GPT-5 Mini сократился до 3-6 баллов, а в мультимодальных задачах модель даже обходит Claude Sonnet 4.5. Учитывая, что для работы требуется всего 3B активных параметров и возможен локальный запуск, соотношение эффективности и возможностей у этой модели, пожалуй, лучшее среди всех публичных решений.

💡 Практический совет: Если вы хотите сравнить реальную производительность Qwen3.5-35B с закрытыми моделями, вы можете использовать сервис-прокси API APIYI (apiyi.com) для одновременного вызова Qwen3.5, Claude и GPT, чтобы провести A/B тестирование на ваших собственных задачах.

Руководство по локальному развертыванию Qwen3.5-35B

Аппаратные требования и способы развертывания

Способ развертывания	Аппаратные требования	Рекомендуемые сценарии
Ollama	22 ГБ+ RAM/VRAM	Самый простой, запуск в один клик
vLLM	GPU + 24 ГБ+ VRAM	Промышленная производительность
SGLang	GPU + 24 ГБ+ VRAM	Рекомендуется для высокой пропускной способности
KTransformers	Гибрид CPU + GPU	Для слабого оборудования
LM Studio	22 ГБ+ RAM	Удобный графический интерфейс

Развертывание через Ollama в один клик

# После установки достаточно одной команды
ollama run qwen3.5:35b

Вызов через API (без локального развертывания)

Если вы не хотите возиться с локальной установкой, самый простой способ — использовать API:

import openai

client = openai.OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://vip.apiyi.com/v1"
)

response = client.chat.completions.create(
    model="qwen3.5-35b-a3b",
    messages=[{
        "role": "user",
        "content": "Помоги мне провести ревью этого кода на Python и найти узкие места в производительности"
    }],
    temperature=0.6,  # Для задач программирования рекомендуется 0.6
    max_tokens=32768
)
print(response.choices[0].message.content)

Переключение между режимом Thinking и обычным режимом

import openai

client = openai.OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://vip.apiyi.com/v1"
)

# Режим Thinking (глубокое рассуждение, подходит для сложных задач)
response_thinking = client.chat.completions.create(
    model="qwen3.5-35b-a3b",
    messages=[{"role": "user", "content": "Проанализируй временную сложность этого алгоритма"}],
    temperature=1.0,
    top_p=0.95,
    max_tokens=32768
)

# Обычный режим (быстрый ответ)
response_fast = client.chat.completions.create(
    model="qwen3.5-35b-a3b",
    messages=[{"role": "user", "content": "Напиши функцию быстрой сортировки"}],
    temperature=0.7,
    top_p=0.8,
    max_tokens=32768,
    extra_body={"chat_template_kwargs": {"enable_thinking": False}}
)

🚀 Совет по развертыванию: Локальный запуск подходит для сценариев, чувствительных к конфиденциальности, или при работе офлайн. Для повседневной разработки рекомендуем использовать сервис-прокси API APIYI (apiyi.com) — это быстрее, не требует обслуживания оборудования, а также позволяет легко переключаться между Qwen3.5, Claude и GPT.

Обзор всего семейства моделей Qwen3.5

Сравнение характеристик серии Qwen3.5

Модель	Всего параметров	Активных параметров	SWE-bench	Мин. память	Позиционирование
Qwen3.5-4B	4B	4B (Dense)	—	8 ГБ	Легкая, для старта
Qwen3.5-9B	9B	9B (Dense)	—	12 ГБ	Эффективная, для задач
Qwen3.5-27B	27B	27B (Dense)	72.4	22 ГБ	Высокая точность
Qwen3.5-35B-A3B	35B	3B (MoE)	69.2	22 ГБ	Король эффективности
Qwen3.5-122B-A10B	122B	10B (MoE)	—	—	Средне-высокий сегмент
Qwen3.5-397B-A17B	397B	17B (MoE)	76.4	—	Флагман

Советы по выбору:

Устройство с 22 ГБ: 35B-A3B (MoE, быстро, но точность чуть ниже) или 27B (Dense, чуть медленнее, но точнее).
Максимальная эффективность: 35B-A3B, при каждом вызове модели задействуется всего 3B параметров.
Максимальная точность: 27B Dense, без использования архитектуры MoE.

🎯 Выбор API: Через сервис APIYI (apiyi.com) можно вызывать всю линейку моделей Qwen3.5, от 4B до 397B. Один API-ключ позволяет гибко переключаться между моделями Qwen разного масштаба, а также закрытыми моделями вроде Claude и GPT.

Часто задаваемые вопросы

Q1: Что выбрать: Qwen3.5-35B или 27B?

Обе модели требуют около 22 ГБ оперативной памяти. 35B-A3B использует архитектуру MoE (работает в 3–5 раз быстрее, но точность чуть ниже), а 27B — архитектуру Dense (более точная, но медленная). В задачах программирования разница между ними невелика (SWE-bench 69.2 против 72.4). Для повседневного общения лучше выбрать 35B (из-за скорости), а для сложных задач — 27B (из-за точности). Через APIYI apiyi.com можно вызывать обе модели одновременно для сравнения.

Q2: Действительно ли open-source модели догоняют закрытые?

Да, но с оговорками. Qwen3.5-35B превзошла Claude Sonnet 4.5 в тесте MMMU (81.4 против 79.6), а в SWE-bench отставание от GPT-5 Mini составляет всего 3 балла. Однако в самых сложных задачах по программированию и комплексным рассуждениям флагманские закрытые модели (Claude Opus 4.5, GPT-5.4) по-прежнему имеют заметное преимущество. Open-source сокращает разрыв, но еще не полностью сравнялся с топовыми закрытыми решениями.

Q3: Можно ли запустить Qwen3.5-35B на Mac с 22 ГБ памяти?

Да. Qwen3.5-35B-A3B активирует только 3 млрд параметров при каждом выводе, поэтому Mac с 22 ГБ объединенной памяти (например, базовые конфигурации M2/M3/M4) справятся с этим без проблем. Рекомендуем использовать Ollama (ollama run qwen3.5:35b) для запуска в один клик. Если не хотите возиться с локальным развертыванием, облачный вызов через APIYI apiyi.com будет удобнее.

Итоги

5 ключевых выводов о том, почему Qwen3.5-35B установила новый рекорд в open-source программировании:

Революция эффективности: 35 млрд параметров при 3 млрд активных, достаточно 22 ГБ памяти для запуска, а навыки программирования превосходят модели предыдущего поколения на 235 млрд параметров.
Сила в коде: SWE-bench 69.2, CodeForces 2028, LiveCodeBench 74.6 — новый эталон для локальных моделей.
Инновации в архитектуре: 256 экспертов MoE + гибридное внимание (DeltaNet + стандартное Attention) обеспечивают оптимальное соотношение эффективности и возможностей.
Open-source догоняет закрытые модели: превосходство над Claude Sonnet 4.5 в MMMU и близость к GPT-5 Mini в SWE-bench доказывают, что разрыв сокращается.
Полная открытость: лицензия Apache 2.0, никаких коммерческих ограничений, нулевые затраты на локальное развертывание.

Qwen3.5-35B доказывает одно: open-source модели больше не являются «урезанными» версиями закрытых, они догоняют и даже обходят их за счет более высокой эффективности. Рекомендуем подключаться к APIYI apiyi.com, чтобы получить доступ ко всей линейке Qwen3.5 и закрытым моделям одновременно — используйте один ключ, чтобы сравнить, как они справляются с вашими реальными задачами.

📚 Справочные материалы

Карточка модели Qwen3.5-35B-A3B — Hugging Face: полные технические характеристики и данные тестирования.
- Ссылка: huggingface.co/Qwen/Qwen3.5-35B-A3B
- Описание: содержит детали архитектуры, результаты бенчмарков и рекомендации по параметрам вывода.
Репозиторий Qwen3.5 на GitHub: исходный код и руководство по развертыванию.
- Ссылка: github.com/QwenLM/Qwen3.5
- Описание: включает ссылки на скачивание весов модели и документацию по развертыванию.
Полное руководство по Qwen3.5: анализ архитектуры и результаты тестирования всей серии.
- Ссылка: techie007.substack.com/p/qwen-35-the-complete-guide-benchmarks
- Описание: подробное сравнение всей линейки моделей и сопоставление с закрытыми аналогами.
Ollama — Qwen3.5:35B: локальный запуск в один клик.
- Ссылка: ollama.com/library/qwen3.5:35b
- Описание: самый простой способ запустить модель локально.

Автор: Техническая команда APIYI
Техническое сообщество: Делитесь своим опытом локального развертывания Qwen3.5 в комментариях. Больше материалов по интеграции AI-моделей можно найти в центре документации APIYI по адресу docs.apiyi.com.