Полный разбор TTL кэширования промптов в Claude Code: 5 минут или 1 час — что выбрать? Сравнение тарифов 3 платформ

Авторская заметка: подробный разбор механизма TTL кэширования промптов в Claude Code, различия между 5-минутным и 1-часовым интервалами, сравнение стоимости кэширования в Anthropic API и AWS Bedrock, а также советы по экономии.

«Можно ли изменить TTL кэширования промптов в Claude Code? В чем разница между 5 минутами и 1 часом? Что в итоге выгоднее?» — это вопросы, которые чаще всего задают пользователи Claude Code, пытаясь оптимизировать расходы.

Короткий ответ: TTL кэширования в Claude Code в настоящее время нельзя изменить напрямую — он определяется вашим тарифным планом. Пользователи с подпиской Max автоматически получают TTL 1 час, а пользователи с подпиской Pro и API-ключом — по умолчанию 5 минут. Однако при прямом вызове Claude API вы можете свободно выбирать между 5 минутами и 1 часом с помощью параметра cache_control.

Основная ценность: Прочитав эту статью, вы досконально разберетесь в механизме TTL кэширования промптов Claude, поймете разницу в тарификации между официальным API Anthropic и AWS Bedrock, а также научитесь выбирать стратегию кэширования, которая сэкономит ваши деньги.

Основные сведения о TTL кэширования промптов Claude

Кэширование промптов — один из важнейших механизмов экономии при работе с моделями семейства Claude. Он сохраняет префикс вашего промпта (системные инструкции, определения инструментов, историю диалога и т.д.) на сервере. При следующем запросе, если префикс совпадает, данные считываются напрямую из кэша, и вы платите лишь 10% от стандартной стоимости входных токенов.

Пункт	Описание	Реальное влияние
Два уровня TTL	5 минут (по умолчанию) и 1 час (опционально)	Правильный выбор TTL позволяет сэкономить на стоимости записи
Чтение из кэша — 10%	При попадании в кэш стоимость входных токенов снижается в 10 раз	В длинных диалогах экономия на входных данных составляет 80-90%
Запись 5 мин = 1.25x	При записи в кэш взимается наценка 25%	Окупается после первого же чтения из кэша
Запись 1 час = 2x	При записи в кэш взимается двойная стоимость	Окупается после двух чтений из кэша
Автоматизация Claude Code	Системные промпты, инструменты и CLAUDE.md кэшируются автоматически	Пользователю не нужно настраивать вручную

Можно ли изменить TTL в Claude Code?

Это самый частый вопрос. Ответ зависит от сценария:

Claude Code (интерактивный CLI-инструмент): изменить вручную нельзя. Кэширование в Claude Code управляется на стороне сервера — пользователи с подпиской Max получают TTL 1 час (управляется через серверный feature flag tengu_prompt_cache_1h_config), а пользователи с подпиской Pro и API-ключом — 5 минут. Вы можете только полностью отключить кэширование с помощью переменной окружения DISABLE_PROMPT_CACHING=1, но не переключать уровни TTL.

Claude API (прямой вызов): можно выбирать свободно. При вызове через API вы можете указать TTL в параметре cache_control:

// Кэширование на 5 минут (по умолчанию)
{ "cache_control": { "type": "ephemeral" } }

// Кэширование на 1 час
{ "cache_control": { "type": "ephemeral", "ttl": "1h" } }

🎯 Совет по выбору: Если вы используете Claude Code CLI, ваш TTL зависит от тарифного плана. Если вы делаете вызовы через API (например, через сервис-прокси APIYI apiyi.com), вы можете гибко выбирать между 5 минутами и 1 часом в зависимости от задачи, добиваясь более точного контроля над расходами.

Подробный разбор правил тарификации кэширования промптов в Claude

5 минут против 1 часа: сравнение стоимости

Ключевое различие между этими двумя значениями TTL (Time To Live) заключается в стоимости записи. Стоимость чтения абсолютно одинакова для обоих вариантов и составляет 0,1 от базовой цены ввода:

Операция	TTL 5 минут	TTL 1 час	Примечание
Запись в кэш	1,25x от базы	2,0x от базы	Наценка при первой записи в кэш
Чтение из кэша	0,1x от базы	0,1x от базы	Скидка при попадании в кэш (одинаковая)
Окупаемость	1 чтение	2 чтения	Частота использования определяет выгоду
Автопродление	Сброс на 5 мин при каждом попадании	Фиксированный срок 1 час	При частых диалогах 5 мин могут жить вечно

Актуальные цены на кэширование промптов для разных моделей

Ниже представлена полная таблица тарификации кэширования для моделей Anthropic API (март 2026 г.):

Модель	Базовая цена ввода	Запись (5 мин)	Запись (1 час)	Чтение из кэша	Цена вывода
Claude Opus 4.6	$5/млн токенов	$6,25/млн токенов	$10/млн токенов	$0,50/млн токенов	$25/млн токенов
Claude Sonnet 4.6	$3/млн токенов	$3,75/млн токенов	$6/млн токенов	$0,30/млн токенов	$15/млн токенов
Claude Haiku 4.5	$1/млн токенов	$1,25/млн токенов	$2/млн токенов	$0,10/млн токенов	$5/млн токенов

Ключевой вывод: скидка на чтение из кэша впечатляет. Возьмем для примера Claude Opus 4.6:

Обычный ввод 1 млн токенов = $5,00
Чтение из кэша 1 млн токенов = $0,50 (экономия $4,50, скидка 90%)
Именно поэтому подписка Claude Code Pro за $20 в месяц экономически оправдана: 100 диалогов с Opus без кэширования могли бы стоить $50–100, а с кэшированием — всего $10–19.

Минимальные требования к количеству токенов для кэширования

Не любой контент можно закэшировать. У моделей есть порог минимального количества токенов; если данных меньше, кэширование не сработает:

Модель	Мин. количество токенов для кэша
Claude Opus 4.6 / 4.5	4 096
Claude Sonnet 4.6	2 048
Claude Sonnet 4.5 / 4	1 024
Claude Haiku 4.5	4 096
Claude Haiku 3.5 / 3	2 048

🎯 Полезный совет: Если ваш системный промпт короткий (например, менее 2 048 токенов), при использовании Claude Sonnet 4.6 кэширование не активируется. Вы можете расширить системные инструкции или объединить определения инструментов, чтобы достичь минимального порога. При вызове через APIYI (apiyi.com) кэширование также поддерживается, причем на более выгодных условиях.

Anthropic API против AWS Bedrock: сравнение тарифов кэширования

Поддержка кэширования на трех основных платформах

Кэширование промптов в Claude поддерживается на официальном API Anthropic, AWS Bedrock и Google Vertex AI, но есть нюансы:

Параметр сравнения	Официальный API Anthropic	AWS Bedrock	Google Vertex AI
TTL 5 минут	✅ Все модели	✅ Все модели	✅ Все модели
TTL 1 час	✅ Все модели	✅ Частично (Opus/Sonnet/Haiku 4.5)	✅ Поддерживается
Наценка (5 мин)	1,25x	~1,25x	1,25x
Наценка (1 час)	2,0x	2,0x	2,0x
Скидка на чтение	0,1x	~0,1x	0,1x
Макс. точек разрыва	4	4	4
Автокэширование	✅ Поддерживается	✅ Поддерживается	✅ Поддерживается
Настройка TTL	✅ 5 мин / 1 час	✅ Выборочно	✅ Поддерживается

Основные различия между платформами

Официальный API Anthropic: Самая полная реализация кэширования, обе опции TTL (5 минут и 1 час) доступны для всех моделей. С 5 февраля 2026 года изоляция кэша перенесена с уровня организации на уровень рабочего пространства (workspace), поэтому кэши разных пространств внутри одной организации независимы.

AWS Bedrock: Поддержка TTL 1 час была анонсирована в январе 2026 года, но ограничена моделями Claude Opus 4.5, Sonnet 4.5 и Haiku 4.5. Поддержка 1-часового TTL для новейших Claude Sonnet 4.6 и Opus 4.6 на Bedrock требует уточнения. Если вы подключаетесь к Bedrock через Claude Code, обратите внимание на настройку совместимости CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS=1.

Google Vertex AI: Функционал кэширования практически идентичен официальному API, но требует аутентификации и оплаты через проект Google Cloud.

🎯 Совет по выбору платформы: Если вы не хотите разбираться в различиях платформ и настройках совместимости, использование единого интерфейса APIYI (apiyi.com) — самый простой вариант. Он поддерживает полный функционал кэширования без необходимости отдельной настройки AWS IAM или аутентификации Google Cloud.

Быстрый старт с кэшированием промптов Claude Code

Минималистичный пример: настройка кэша с TTL 1 час

import anthropic

client = anthropic.Anthropic(
    api_key="YOUR_API_KEY",
    base_url="https://vip.apiyi.com/v1"
)

response = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=1024,
    system=[{
        "type": "text",
        "text": "Ты — профессиональный помощник преподавателя физики, отвечающий на вопросы по физике для старших классов...(здесь длинный системный промпт)",
        "cache_control": {"type": "ephemeral", "ttl": "1h"}
    }],
    messages=[{"role": "user", "content": "Объясни третий закон Ньютона"}]
)
print(f"Токены чтения из кэша: {response.usage.cache_read_input_tokens}")
print(f"Токены записи в кэш: {response.usage.cache_creation_input_tokens}")

Полный код: комбинирование TTL 5 минут и 1 час

import anthropic

client = anthropic.Anthropic(
    api_key="YOUR_API_KEY",
    base_url="https://vip.apiyi.com/v1"
)

# Комбинированный TTL: системный промпт на 1 час (редко меняется), контекст диалога на 5 минут (часто меняется)
response = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=2048,
    system=[
        {
            "type": "text",
            "text": "Ты — профессиональный AI-консультант по технологиям...(длинный системный промпт, 2000+ токенов)",
            "cache_control": {"type": "ephemeral", "ttl": "1h"}  # Системный промпт на 1 час
        },
        {
            "type": "text",
            "text": "Ниже представлена история диалога пользователя...(история диалога)",
            "cache_control": {"type": "ephemeral"}  # Контекст диалога на 5 минут (по умолчанию)
        }
    ],
    messages=[{"role": "user", "content": "Сравни способности к рассуждению у Claude и GPT"}]
)

# Проверка использования кэша
usage = response.usage
print(f"Обычные входные токены: {usage.input_tokens}")
print(f"Токены чтения из кэша: {usage.cache_read_input_tokens}")
print(f"Токены записи в кэш: {usage.cache_creation_input_tokens}")

# Расчет экономии (на примере Sonnet 4.6)
base_cost = (usage.input_tokens / 1_000_000) * 3
cache_cost = (usage.cache_read_input_tokens / 1_000_000) * 0.3
saved = (usage.cache_read_input_tokens / 1_000_000) * 2.7
print(f"Экономия в этот раз: ${saved:.4f}")

Важное ограничение: При использовании двух типов TTL в одном запросе, контент с кэшем на 1 час должен идти перед контентом с кэшем на 5 минут, иначе возникнет ошибка.

Совет: При вызове Claude API через сервис-прокси API APIYI (apiyi.com) вы получаете полную поддержку параметра cache_control, включая свободный выбор между TTL 5 минут и 1 час.

TTL 5 минут vs 1 час: что выбрать?

Таблица принятия решений

Сценарий использования	Рекомендуемый TTL	Причина
Claude Code (интенсивное программирование)	5 минут	Таймер сбрасывается при каждом попадании, кэш не истекает
Чат-бот поддержки (ответы < 5 мин)	5 минут	Низкая стоимость записи (1.25x), высокая частота попаданий
Агент для анализа документов (интервал 5-60 мин)	1 час	Избегаем перезаписи из-за истечения срока кэша
Пакетная обработка (раз в 30 минут)	1 час	5-минутный TTL точно истечет, 1 час — идеально
Редкие вызовы API (интервал > 1 час)	Без кэша	Оба TTL истекут, затраты на запись будут напрасными
Системные промпты (почти не меняются)	1 час	Записываем один раз, читаем многократно
История диалога (меняется каждый ход)	5 минут	При частых изменениях низкая стоимость записи выгоднее

Формула расчета стоимости

Ключевая формула для оценки выгоды:

Условие окупаемости TTL 5 минут: контент считывается хотя бы 1 раз в течение 5 минут

Стоимость записи: 1.25x → доп. 0.25x
Экономия на чтении: 0.9x за каждый раз
Окупается с 1-го чтения (0.9 > 0.25)

Условие окупаемости TTL 1 час: контент считывается хотя бы 2 раза в течение 1 часа

Стоимость записи: 2.0x → доп. 1.0x
Экономия на чтении: 0.9x за каждый раз
Окупается со 2-го чтения (0.9 × 2 = 1.8 > 1.0)

Часто задаваемые вопросы

Q1: Можно ли изменить TTL с 5 минут на 1 час в Claude Code?

Сам инструмент Claude Code CLI не поддерживает ручное изменение TTL пользователем. Подписчики тарифа Max автоматически получают TTL 1 час (это управляется серверным feature flag), а для пользователей Pro и API-ключей TTL жестко зафиксирован на 5 минутах. Если вам нужен TTL 1 час, но вы не хотите переходить на подписку Max, вы можете использовать прямые вызовы API (установив cache_control.ttl: "1h") через такие платформы, как APIYI (apiyi.com), с оплатой по факту использования.

Q2: TTL 5 минут — это фиксированный срок или он автоматически продлевается?

TTL 5 минут автоматически сбрасывает таймер при каждом попадании в кэш (cache hit). Если вы отправляете сообщения каждые 1–2 минуты (например, при программировании в Claude Code), таймер постоянно обновляется, и кэш не истекает. Кэш станет недействительным только в том случае, если вы не будете отправлять сообщения в течение 5 минут подряд. Поэтому для сценариев с высокой частотой использования TTL 5 минут вполне достаточно.

Q3: Тарификация кэширования в AWS Bedrock такая же, как в официальном API Anthropic?

В целом да, но есть небольшие различия:

Наценка за запись составляет ~1,25x (для 5 минут) и ~2,0x (для 1 часа).
Скидка на чтение составляет ~0,1x.
Нюанс: TTL 1 час в Bedrock в настоящее время поддерживается только для некоторых моделей, таких как Opus 4.5, Sonnet 4.5, Haiku 4.5; для новейшей серии 4.6 стоит уточнить актуальность.
При вызове через APIYI (apiyi.com) вы получаете полную поддержку кэширования, идентичную официальному API.

Итоги

Ключевые моменты по TTL кэширования промптов Claude:

Два варианта TTL: 5 минут (наценка 1,25x, окупается за 1 чтение) и 1 час (наценка 2x, окупается за 2 чтения), чтение всегда со скидкой 0,1x.
Claude Code CLI не позволяет менять TTL: у Max-подписчиков автоматически 1 час, у Pro/API-ключей — фиксированные 5 минут; настройку нельзя переключить, только отключить.
Claude API дает свободу выбора: вы можете задать TTL через параметр cache_control.ttl, причем в одном запросе можно комбинировать разные TTL.
Для частых диалогов выбирайте 5 минут: каждое попадание в кэш продлевает время жизни, а стоимость записи ниже. Для эпизодического использования выбирайте 1 час, чтобы избежать истечения срока действия.

Попадание в кэш = снижение стоимости входных токенов в 10 раз, это главный способ экономии при работе с Claude. Рекомендуем использовать единый интерфейс APIYI (apiyi.com) для вызовов — он полностью поддерживает настройку кэширования, позволяя протестировать разницу в затратах при разных стратегиях TTL с помощью одного ключа.

📚 Справочные материалы

Официальная документация Anthropic — Кэширование промптов (Prompt Caching): Авторитетный источник по настройке TTL, правилам тарификации и синтаксису cache_control.
- Ссылка: platform.claude.com/docs/en/build-with-claude/prompt-caching
- Описание: Полные формулы расчета стоимости и примеры кода для TTL 5 минут / 1 час.
Официальная документация Anthropic — Ценообразование: Базовые цены и стоимость кэширования для всех моделей.
- Ссылка: platform.claude.com/docs/en/about-claude/pricing
- Описание: Тарифы на запись и чтение из кэша для моделей Opus, Sonnet и Haiku.
Официальная документация AWS — Кэширование промптов в Bedrock: Подробности поддержки кэширования на платформе Bedrock.
- Ссылка: docs.aws.amazon.com/bedrock/latest/userguide/prompt-caching.html
- Описание: Диапазоны поддержки TTL и стандарты тарификации для различных моделей в Bedrock.
Claude Code Camp — Как работает кэширование промптов: Глубокий разбор реализации кэширования в Claude Code.
- Ссылка: claudecodecamp.com/p/how-prompt-caching-actually-works-in-claude-code
- Описание: Узнайте, как Claude Code автоматически управляет точками кэширования.
GitHub Issue #19436 — Запрос функции многоуровневого TTL кэширования: Обсуждение сообществом более гибких настроек TTL.
- Ссылка: github.com/anthropics/claude-code/issues/19436
- Описание: Предложенные сообществом варианты многоуровневого TTL, основанные на частоте изменения контента.

Автор: Техническая команда APIYI
Техническое обсуждение: Приглашаем обсудить ваш опыт настройки кэширования Claude в комментариях. Больше руководств по вызову моделей доступно в документации APIYI по адресу docs.apiyi.com.