掌握 Claude API 缓存计费 3 大核心机制：5分钟 vs 1小时缓存写入价格对比与跨账号缓存隔离详解

作者注：深度解析 Claude API 缓存计费机制，对比5分钟与1小时缓存写入的价格差异，解答跨账号缓存命中问题，并对比 AWS Bedrock 与 Anthropic 官方 API 的缓存计费区别

Claude API 的 Prompt Caching 是降低 API 调用成本的核心手段，但很多开发者对缓存计费的细节存在疑惑：5 分钟缓存和 1 小时缓存到底该怎么选？跨账号能共享缓存吗？AWS Bedrock 的缓存计费和官方有什么不同？

核心价值：读完本文，你将彻底理解 Claude API 缓存计费的 3 大核心机制，掌握最优的缓存策略选择方法，避免不必要的成本浪费。

Claude API 缓存计费核心要点

要点	说明	价值
5分钟缓存写入	写入费用 = 基础输入价格 × 1.25	成本最低，适合高频调用
1小时缓存写入	写入费用 = 基础输入价格 × 2.0	TTL 更长，适合低频但大量缓存
缓存读取（命中）	读取费用 = 基础输入价格 × 0.1	命中后成本降低 90%
缓存隔离	Workspace 级别隔离，不同组织完全隔离	跨账号无法共享缓存

Claude 缓存计费的基础倍率

Claude API 的 Prompt Caching 采用统一的倍率计费体系，无论使用哪个模型（Opus 4.6、Sonnet 4.6 还是 Haiku 4.5），缓存操作的倍率规则完全一致：

缓存写入（5 分钟 TTL）：基础输入价格 × 1.25
缓存写入（1 小时 TTL）：基础输入价格 × 2.0
缓存读取（命中）：基础输入价格 × 0.1

这意味着每次缓存命中，你只需支付标准输入价格的 10%。以 Claude Sonnet 4.6 为例，标准输入价格为 $3/MTok，缓存命中价格仅为 $0.3/MTok，节省 90% 的输入成本。

Claude 缓存计费的回本计算

理解缓存的成本收益非常重要。缓存写入有额外费用，但缓存读取极其便宜，关键在于——缓存被命中几次后开始「回本」？

5 分钟缓存：写入 1.25x + 读取 0.1x = 首次写入后，只要命中 1 次就回本（因为正常读取是 1x，而缓存读取 0.1x，节省 0.9x > 额外支付的 0.25x）
1 小时缓存：写入 2.0x + 读取 0.1x = 首次写入后，需要命中 2 次才能回本（额外支付 1.0x，每次命中节省 0.9x）

所以 5 分钟缓存几乎是「稳赚」的选择，而 1 小时缓存则需要确保在有效期内至少命中 2 次。

Claude 缓存计费：5 分钟 vs 1 小时缓存对比

5 分钟缓存 vs 1 小时缓存的价格差异

下面以各模型为例，列出 5 分钟和 1 小时缓存写入的具体价格：

模型	基础输入价格	5分钟缓存写入 (×1.25)	1小时缓存写入 (×2.0)	缓存读取 (×0.1)
Claude Opus 4.6	$5.00/MTok	$6.25/MTok	$10.00/MTok	$0.50/MTok
Claude Sonnet 4.6	$3.00/MTok	$3.75/MTok	$6.00/MTok	$0.30/MTok
Claude Haiku 4.5	$1.00/MTok	$1.25/MTok	$2.00/MTok	$0.10/MTok

Claude 缓存计费的 TTL 选择策略

5 分钟缓存和 1 小时缓存并非二选一的关系。你可以根据实际场景灵活选择，甚至在同一个请求中混合使用。

5 分钟缓存适用场景：

高频 API 调用（每分钟多次请求），缓存在 5 分钟内持续被刷新
交互式对话场景，用户持续发消息，自动续期缓存
对成本敏感的项目，写入费用更低

1 小时缓存适用场景：

批处理任务，一批数据可能间隔几十分钟才跑一次
大型 System Prompt，写入成本高，希望缓存存活更久
定时任务场景，每 15-30 分钟执行一次

重要机制：5 分钟缓存在每次被命中时会自动刷新 TTL，等于「续期」。所以如果你的调用频率足够高（5 分钟内至少有一次请求），缓存实际上可以一直存活，无需选择 1 小时缓存。

🎯 技术建议：大多数场景下 5 分钟缓存已经足够。通过 API易 apiyi.com 平台调用 Claude API 时，缓存计费规则与官方完全一致，且支持统一接口管理多个模型的缓存策略。

Claude 缓存计费中的混合 TTL 使用

Anthropic 允许在同一个请求中同时使用 1 小时和 5 分钟两种缓存控制，但有一个关键约束：

TTL 从长到短排列：1 小时缓存标记必须出现在 5 分钟缓存标记之前。

实际应用中，你可以把变化频率低的 System Prompt 设为 1 小时缓存，把变化频率稍高的 Few-shot 示例设为 5 分钟缓存：

import anthropic

client = anthropic.Anthropic(
    api_key="YOUR_API_KEY",
    base_url="https://vip.apiyi.com"  # 通过 API易 调用
)

response = client.messages.create(
    model="claude-sonnet-4-6-20260320",
    max_tokens=1024,
    system=[
        {
            "type": "text",
            "text": "你是一个专业的技术文档助手...(大量系统提示词)...",
            "cache_control": {"type": "ephemeral", "ttl": "3600"}  # 1小时缓存
        }
    ],
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "以下是参考文档...(大量上下文)...",
                    "cache_control": {"type": "ephemeral"}  # 默认5分钟缓存
                },
                {
                    "type": "text",
                    "text": "请基于上述文档回答：什么是 Prompt Caching？"
                }
            ]
        }
    ]
)

查看缓存命中状态检查代码

import anthropic

client = anthropic.Anthropic(
    api_key="YOUR_API_KEY",
    base_url="https://vip.apiyi.com"
)

response = client.messages.create(
    model="claude-sonnet-4-6-20260320",
    max_tokens=1024,
    system=[
        {
            "type": "text",
            "text": "你的系统提示词内容（需 >= 1024 tokens 才能触发缓存）",
            "cache_control": {"type": "ephemeral"}
        }
    ],
    messages=[{"role": "user", "content": "你好"}]
)

# 检查缓存使用情况
usage = response.usage
print(f"输入 tokens: {usage.input_tokens}")
print(f"缓存写入 tokens: {usage.cache_creation_input_tokens}")
print(f"缓存命中 tokens: {usage.cache_read_input_tokens}")

# 判断缓存状态
if usage.cache_read_input_tokens > 0:
    print("缓存命中！节省了 90% 的输入成本")
elif usage.cache_creation_input_tokens > 0:
    print("首次写入缓存，后续请求将命中缓存")

💡 注意：缓存最小 token 数有要求。Claude Opus 4.6 要求至少 1024 tokens，Sonnet 4.6 和 Haiku 4.5 也要求至少 1024 tokens。低于此阈值的内容不会被缓存。

Claude 缓存计费：跨账号缓存隔离机制

这是很多开发者最关心的问题：A 账号写入的缓存，B 账号能命中吗？

Claude 缓存隔离的核心规则

答案很明确：不能。 缓存在不同组织（Organization）之间完全隔离。

自 2026 年 2 月 5 日起，Anthropic 将缓存隔离的粒度进一步从「组织级别」细化到了「Workspace 级别」。这意味着：

场景	缓存是否共享	说明
同一 Workspace 内的不同 API Key	✅ 可以共享	同一工作区内，相同 prompt 会命中缓存
同一 Organization 的不同 Workspace	❌ 不共享	即使在同一组织下，不同工作区也隔离
不同 Organization 的账号	❌ 完全不共享	完全独立，即使 prompt 100% 相同
通过 API易等中转平台的不同用户	❌ 不共享	不同用户的请求路由到不同的上游凭证

Claude 缓存隔离的实际影响

场景分析：假设你有两个 Claude API 账号（属于不同 Organization），同时跑一批数据处理任务。

账号 A 发送请求，触发缓存写入，支付 1.25x 的写入费用
账号 B 在 5 分钟内发送完全相同的 prompt
结果：账号 B 不会命中账号 A 的缓存，B 也会触发缓存写入，再次支付 1.25x

这是出于安全和隐私考虑的设计——缓存内容可能包含敏感的 System Prompt 或业务数据，跨组织共享会带来数据泄露风险。

优化策略：如果你需要多个服务共享缓存以降低成本，应该将它们的 API Key 放在同一个 Workspace 下，而不是使用不同的 Organization 账号。

🎯 实践建议：在 API易 apiyi.com 平台上，每个用户的请求会通过统一的上游通道处理。如果你需要在多个项目间共享缓存，建议在 Anthropic Console 中合理规划 Workspace 结构，将需要共享缓存的项目放在同一个 Workspace 内。

Claude 缓存命中的条件

除了 Workspace 隔离外，缓存命中还有一个关键条件——prompt 必须 100% 完全相同。

缓存键（Cache Key）是通过对 prompt 内容进行加密哈希生成的。匹配范围包括：

tools（工具定义）
system（系统提示词）
messages（消息历史）

以上三个部分按顺序拼接，直到 cache_control 标记位置。如果任何一个字符不同（包括空格、换行符），都不会命中缓存。

Claude 缓存计费：AWS Bedrock vs Anthropic 官方对比

AWS Bedrock 与 Anthropic API 的缓存计费差异

很多企业通过 AWS Bedrock 使用 Claude，其缓存计费与 Anthropic 官方 API 存在以下差异：

对比维度	Anthropic 官方 API	AWS Bedrock
5分钟缓存写入	1.25x 基础价格	1.25x 基础价格
1小时缓存写入	2.0x 基础价格	2.0x 基础价格（仅部分模型）
缓存读取	0.1x 基础价格	0.1x 基础价格
1小时缓存支持模型	所有支持缓存的模型	仅 Haiku 4.5、Sonnet 4.5、Opus 4.5
缓存隔离级别	Workspace 级别	Organization（AWS Account）级别
区域定价	统一全球定价	区域端点溢价约 10%
基础输入价格	官方标准价格	与官方基本一致

AWS Bedrock Claude 缓存计费的关键差异

差异一：1 小时缓存的模型支持范围

截至 2026 年 1 月，AWS Bedrock 仅对 Claude Haiku 4.5、Sonnet 4.5 和 Opus 4.5 支持 1 小时缓存 TTL。最新的 Opus 4.6 和 Sonnet 4.6 在 Bedrock 上可能尚未支持 1 小时缓存选项。如果你需要最新模型 + 1 小时缓存的组合，建议直接使用 Anthropic 官方 API。

差异二：缓存隔离粒度

AWS Bedrock 维持 Organization 级别的缓存隔离（即 AWS Account 级别），而 Anthropic 官方 API 已经细化到 Workspace 级别。这意味着在 Bedrock 上，同一个 AWS 账号下的所有调用可以共享缓存，粒度比官方 API 更粗。

差异三：区域定价差异

AWS Bedrock 的区域端点（如 us-east-1、eu-west-1）可能会比全球端点有约 10% 的价格溢价。这个溢价也会体现在缓存写入和读取的费用上。

💰 成本优化建议：如果你主要使用 Claude API 且对缓存策略有精细控制需求，通过 API易 apiyi.com 调用 Anthropic 原生 API 是更灵活的选择。平台支持完整的缓存控制参数传递，且提供更优惠的价格。

常见问题

Q1：5 分钟缓存和 1 小时缓存能否自主选择？

可以。通过在请求中设置 cache_control 参数来控制。默认不指定 TTL 时为 5 分钟缓存，显式设置 "ttl": "3600" 则为 1 小时缓存。你也可以在同一个请求中混合使用两种 TTL，但必须保证 1 小时缓存的内容排在 5 分钟缓存之前。大多数场景下，5 分钟缓存 + 自动续期已经足够，无需额外付费选择 1 小时缓存。

Q2：两个不同的 Claude API 账号能共享缓存命中吗？

不能。缓存在 Workspace 级别隔离（2026 年 2 月后）。如果两个账号属于不同的 Organization，缓存完全独立。如果属于同一个 Organization 但不同 Workspace，也不能共享。只有在同一个 Workspace 下使用不同 API Key 时，相同 prompt 才能命中同一份缓存。想要共享缓存降低成本，需要将多个 API Key 放在同一个 Workspace 内。

Q3：如何判断缓存是否命中？

API 响应的 usage 字段会包含 cache_creation_input_tokens 和 cache_read_input_tokens 两个指标。如果 cache_read_input_tokens > 0，说明缓存命中。通过 API易 apiyi.com 平台调用时，这些字段会原样返回，你可以直接监控缓存命中率来优化成本。

Q4：缓存内容有最小 token 数要求吗？

有。所有 Claude 模型的缓存最小阈值为 1024 tokens。如果你的 System Prompt 或上下文内容不足 1024 tokens，缓存不会生效。建议将大段的系统提示词、Few-shot 示例或参考文档作为缓存内容，以充分利用缓存机制降低成本。

总结

Claude API 缓存计费的核心要点：

5 分钟缓存写入 1.25x，1 小时写入 2.0x：大多数场景选 5 分钟缓存即可，高频调用下缓存自动续期，效果等同长期缓存
缓存读取仅 0.1x：命中缓存后节省 90% 输入成本，5 分钟缓存命中 1 次即回本
缓存 Workspace 级别隔离：不同组织、不同 Workspace 之间无法共享缓存，需合理规划 Workspace 结构

对于需要大量调用 Claude API 的开发者，合理使用缓存策略可以显著降低成本。推荐通过 API易 apiyi.com 平台进行 Claude API 调用，支持完整的缓存参数传递、统一接口管理，并提供免费测试额度帮助你验证缓存策略效果。

参考资料

Anthropic Prompt Caching 官方文档：Claude API 缓存功能完整说明
- 链接：platform.claude.com/docs/en/build-with-claude/prompt-caching
- 说明：包含缓存定价倍率、TTL 设置、最小 token 要求等核心参数
Anthropic API 定价页面：所有 Claude 模型的最新价格
- 链接：platform.claude.com/docs/en/about-claude/pricing
- 说明：包含基础输入/输出价格以及缓存操作的详细定价
AWS Bedrock Prompt Caching 文档：AWS 平台上的 Claude 缓存使用指南
- 链接：docs.aws.amazon.com/bedrock/latest/userguide/prompt-caching.html
- 说明：Bedrock 特有的缓存配置方式和支持模型列表
AWS Bedrock 1 小时缓存公告：1 小时缓存 TTL 功能发布说明
- 链接：aws.amazon.com/about-aws/whats-new/2026/01/amazon-bedrock-one-hour-duration-prompt-caching/
- 说明：Bedrock 支持 1 小时缓存的模型范围和使用方式

作者：APIYI 技术团队
技术交流：欢迎在评论区讨论 Claude 缓存计费相关问题，更多 API 使用技巧可访问 API易 docs.apiyi.com 文档中心