掌握 Claude API 缓存计费 3 大核心机制:5分钟 vs 1小时缓存写入价格对比与跨账号缓存隔离详解

作者注:深度解析 Claude API 缓存计费机制,对比5分钟与1小时缓存写入的价格差异,解答跨账号缓存命中问题,并对比 AWS Bedrock 与 Anthropic 官方 API 的缓存计费区别

Claude API 的 Prompt Caching 是降低 API 调用成本的核心手段,但很多开发者对缓存计费的细节存在疑惑:5 分钟缓存和 1 小时缓存到底该怎么选?跨账号能共享缓存吗?AWS Bedrock 的缓存计费和官方有什么不同?

核心价值:读完本文,你将彻底理解 Claude API 缓存计费的 3 大核心机制,掌握最优的缓存策略选择方法,避免不必要的成本浪费。

claude-api-prompt-caching-pricing-5min-1hour-aws-bedrock-guide 图示


Claude API 缓存计费核心要点

要点 说明 价值
5分钟缓存写入 写入费用 = 基础输入价格 × 1.25 成本最低,适合高频调用
1小时缓存写入 写入费用 = 基础输入价格 × 2.0 TTL 更长,适合低频但大量缓存
缓存读取(命中) 读取费用 = 基础输入价格 × 0.1 命中后成本降低 90%
缓存隔离 Workspace 级别隔离,不同组织完全隔离 跨账号无法共享缓存

Claude 缓存计费的基础倍率

Claude API 的 Prompt Caching 采用统一的倍率计费体系,无论使用哪个模型(Opus 4.6、Sonnet 4.6 还是 Haiku 4.5),缓存操作的倍率规则完全一致:

  • 缓存写入(5 分钟 TTL):基础输入价格 × 1.25
  • 缓存写入(1 小时 TTL):基础输入价格 × 2.0
  • 缓存读取(命中):基础输入价格 × 0.1

这意味着每次缓存命中,你只需支付标准输入价格的 10%。以 Claude Sonnet 4.6 为例,标准输入价格为 $3/MTok,缓存命中价格仅为 $0.3/MTok,节省 90% 的输入成本。

Claude 缓存计费的回本计算

理解缓存的成本收益非常重要。缓存写入有额外费用,但缓存读取极其便宜,关键在于——缓存被命中几次后开始「回本」?

  • 5 分钟缓存:写入 1.25x + 读取 0.1x = 首次写入后,只要命中 1 次就回本(因为正常读取是 1x,而缓存读取 0.1x,节省 0.9x > 额外支付的 0.25x)
  • 1 小时缓存:写入 2.0x + 读取 0.1x = 首次写入后,需要命中 2 次才能回本(额外支付 1.0x,每次命中节省 0.9x)

所以 5 分钟缓存几乎是「稳赚」的选择,而 1 小时缓存则需要确保在有效期内至少命中 2 次。


Claude 缓存计费:5 分钟 vs 1 小时缓存对比

5 分钟缓存 vs 1 小时缓存 计费对比 5 分钟缓存 (默认) 写入成本 1.25x 基础价格 读取成本 0.1x 缓存有效期 5 分钟 (可自动续期) 回本次数 1 次命中即回本 适用场景 – 高频交互式对话 – 实时 API 调用 – 成本敏感项目 推荐:大多数场景的首选 1 小时缓存 (可选) 写入成本 2.0x 基础价格 读取成本 0.1x 缓存有效期 1 小时 (固定时长) 回本次数 2 次命中才回本 适用场景 – 低频批处理任务 – 定时任务 (15-30分钟) – 大型 System Prompt 注意:仅在低频场景下选用 VS 数据来源: Anthropic 官方定价 | 制图: API易 apiyi.com

5 分钟缓存 vs 1 小时缓存的价格差异

下面以各模型为例,列出 5 分钟和 1 小时缓存写入的具体价格:

模型 基础输入价格 5分钟缓存写入 (×1.25) 1小时缓存写入 (×2.0) 缓存读取 (×0.1)
Claude Opus 4.6 $5.00/MTok $6.25/MTok $10.00/MTok $0.50/MTok
Claude Sonnet 4.6 $3.00/MTok $3.75/MTok $6.00/MTok $0.30/MTok
Claude Haiku 4.5 $1.00/MTok $1.25/MTok $2.00/MTok $0.10/MTok

Claude 缓存计费的 TTL 选择策略

5 分钟缓存和 1 小时缓存并非二选一的关系。你可以根据实际场景灵活选择,甚至在同一个请求中混合使用。

5 分钟缓存适用场景

  • 高频 API 调用(每分钟多次请求),缓存在 5 分钟内持续被刷新
  • 交互式对话场景,用户持续发消息,自动续期缓存
  • 对成本敏感的项目,写入费用更低

1 小时缓存适用场景

  • 批处理任务,一批数据可能间隔几十分钟才跑一次
  • 大型 System Prompt,写入成本高,希望缓存存活更久
  • 定时任务场景,每 15-30 分钟执行一次

重要机制:5 分钟缓存在每次被命中时会自动刷新 TTL,等于「续期」。所以如果你的调用频率足够高(5 分钟内至少有一次请求),缓存实际上可以一直存活,无需选择 1 小时缓存。

🎯 技术建议:大多数场景下 5 分钟缓存已经足够。通过 API易 apiyi.com 平台调用 Claude API 时,缓存计费规则与官方完全一致,且支持统一接口管理多个模型的缓存策略。

Claude 缓存计费中的混合 TTL 使用

Anthropic 允许在同一个请求中同时使用 1 小时和 5 分钟两种缓存控制,但有一个关键约束:

TTL 从长到短排列:1 小时缓存标记必须出现在 5 分钟缓存标记之前。

实际应用中,你可以把变化频率低的 System Prompt 设为 1 小时缓存,把变化频率稍高的 Few-shot 示例设为 5 分钟缓存:

import anthropic

client = anthropic.Anthropic(
    api_key="YOUR_API_KEY",
    base_url="https://vip.apiyi.com"  # 通过 API易 调用
)

response = client.messages.create(
    model="claude-sonnet-4-6-20260320",
    max_tokens=1024,
    system=[
        {
            "type": "text",
            "text": "你是一个专业的技术文档助手...(大量系统提示词)...",
            "cache_control": {"type": "ephemeral", "ttl": "3600"}  # 1小时缓存
        }
    ],
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "以下是参考文档...(大量上下文)...",
                    "cache_control": {"type": "ephemeral"}  # 默认5分钟缓存
                },
                {
                    "type": "text",
                    "text": "请基于上述文档回答:什么是 Prompt Caching?"
                }
            ]
        }
    ]
)

查看缓存命中状态检查代码
import anthropic

client = anthropic.Anthropic(
    api_key="YOUR_API_KEY",
    base_url="https://vip.apiyi.com"
)

response = client.messages.create(
    model="claude-sonnet-4-6-20260320",
    max_tokens=1024,
    system=[
        {
            "type": "text",
            "text": "你的系统提示词内容(需 >= 1024 tokens 才能触发缓存)",
            "cache_control": {"type": "ephemeral"}
        }
    ],
    messages=[{"role": "user", "content": "你好"}]
)

# 检查缓存使用情况
usage = response.usage
print(f"输入 tokens: {usage.input_tokens}")
print(f"缓存写入 tokens: {usage.cache_creation_input_tokens}")
print(f"缓存命中 tokens: {usage.cache_read_input_tokens}")

# 判断缓存状态
if usage.cache_read_input_tokens > 0:
    print("缓存命中!节省了 90% 的输入成本")
elif usage.cache_creation_input_tokens > 0:
    print("首次写入缓存,后续请求将命中缓存")

💡 注意:缓存最小 token 数有要求。Claude Opus 4.6 要求至少 1024 tokens,Sonnet 4.6 和 Haiku 4.5 也要求至少 1024 tokens。低于此阈值的内容不会被缓存。


Claude 缓存计费:跨账号缓存隔离机制

这是很多开发者最关心的问题:A 账号写入的缓存,B 账号能命中吗?

Claude 缓存隔离的核心规则

答案很明确:不能。 缓存在不同组织(Organization)之间完全隔离。

自 2026 年 2 月 5 日起,Anthropic 将缓存隔离的粒度进一步从「组织级别」细化到了「Workspace 级别」。这意味着:

场景 缓存是否共享 说明
同一 Workspace 内的不同 API Key ✅ 可以共享 同一工作区内,相同 prompt 会命中缓存
同一 Organization 的不同 Workspace ❌ 不共享 即使在同一组织下,不同工作区也隔离
不同 Organization 的账号 ❌ 完全不共享 完全独立,即使 prompt 100% 相同
通过 API易等中转平台的不同用户 ❌ 不共享 不同用户的请求路由到不同的上游凭证

Claude 缓存隔离的实际影响

场景分析:假设你有两个 Claude API 账号(属于不同 Organization),同时跑一批数据处理任务。

  • 账号 A 发送请求,触发缓存写入,支付 1.25x 的写入费用
  • 账号 B 在 5 分钟内发送完全相同的 prompt
  • 结果:账号 B 不会命中账号 A 的缓存,B 也会触发缓存写入,再次支付 1.25x

这是出于安全和隐私考虑的设计——缓存内容可能包含敏感的 System Prompt 或业务数据,跨组织共享会带来数据泄露风险。

claude-api-prompt-caching-pricing-5min-1hour-aws-bedrock-guide 图示

优化策略:如果你需要多个服务共享缓存以降低成本,应该将它们的 API Key 放在同一个 Workspace 下,而不是使用不同的 Organization 账号。

🎯 实践建议:在 API易 apiyi.com 平台上,每个用户的请求会通过统一的上游通道处理。如果你需要在多个项目间共享缓存,建议在 Anthropic Console 中合理规划 Workspace 结构,将需要共享缓存的项目放在同一个 Workspace 内。

Claude 缓存命中的条件

除了 Workspace 隔离外,缓存命中还有一个关键条件——prompt 必须 100% 完全相同

缓存键(Cache Key)是通过对 prompt 内容进行加密哈希生成的。匹配范围包括:

  • tools(工具定义)
  • system(系统提示词)
  • messages(消息历史)

以上三个部分按顺序拼接,直到 cache_control 标记位置。如果任何一个字符不同(包括空格、换行符),都不会命中缓存。


Claude 缓存计费:AWS Bedrock vs Anthropic 官方对比

AWS Bedrock 与 Anthropic API 的缓存计费差异

很多企业通过 AWS Bedrock 使用 Claude,其缓存计费与 Anthropic 官方 API 存在以下差异:

对比维度 Anthropic 官方 API AWS Bedrock
5分钟缓存写入 1.25x 基础价格 1.25x 基础价格
1小时缓存写入 2.0x 基础价格 2.0x 基础价格(仅部分模型)
缓存读取 0.1x 基础价格 0.1x 基础价格
1小时缓存支持模型 所有支持缓存的模型 仅 Haiku 4.5、Sonnet 4.5、Opus 4.5
缓存隔离级别 Workspace 级别 Organization(AWS Account)级别
区域定价 统一全球定价 区域端点溢价约 10%
基础输入价格 官方标准价格 与官方基本一致

AWS Bedrock Claude 缓存计费的关键差异

差异一:1 小时缓存的模型支持范围

截至 2026 年 1 月,AWS Bedrock 仅对 Claude Haiku 4.5、Sonnet 4.5 和 Opus 4.5 支持 1 小时缓存 TTL。最新的 Opus 4.6 和 Sonnet 4.6 在 Bedrock 上可能尚未支持 1 小时缓存选项。如果你需要最新模型 + 1 小时缓存的组合,建议直接使用 Anthropic 官方 API。

差异二:缓存隔离粒度

AWS Bedrock 维持 Organization 级别的缓存隔离(即 AWS Account 级别),而 Anthropic 官方 API 已经细化到 Workspace 级别。这意味着在 Bedrock 上,同一个 AWS 账号下的所有调用可以共享缓存,粒度比官方 API 更粗。

差异三:区域定价差异

AWS Bedrock 的区域端点(如 us-east-1eu-west-1)可能会比全球端点有约 10% 的价格溢价。这个溢价也会体现在缓存写入和读取的费用上。

💰 成本优化建议:如果你主要使用 Claude API 且对缓存策略有精细控制需求,通过 API易 apiyi.com 调用 Anthropic 原生 API 是更灵活的选择。平台支持完整的缓存控制参数传递,且提供更优惠的价格。


常见问题

Q1:5 分钟缓存和 1 小时缓存能否自主选择?

可以。通过在请求中设置 cache_control 参数来控制。默认不指定 TTL 时为 5 分钟缓存,显式设置 "ttl": "3600" 则为 1 小时缓存。你也可以在同一个请求中混合使用两种 TTL,但必须保证 1 小时缓存的内容排在 5 分钟缓存之前。大多数场景下,5 分钟缓存 + 自动续期已经足够,无需额外付费选择 1 小时缓存。

Q2:两个不同的 Claude API 账号能共享缓存命中吗?

不能。缓存在 Workspace 级别隔离(2026 年 2 月后)。如果两个账号属于不同的 Organization,缓存完全独立。如果属于同一个 Organization 但不同 Workspace,也不能共享。只有在同一个 Workspace 下使用不同 API Key 时,相同 prompt 才能命中同一份缓存。想要共享缓存降低成本,需要将多个 API Key 放在同一个 Workspace 内。

Q3:如何判断缓存是否命中?

API 响应的 usage 字段会包含 cache_creation_input_tokenscache_read_input_tokens 两个指标。如果 cache_read_input_tokens > 0,说明缓存命中。通过 API易 apiyi.com 平台调用时,这些字段会原样返回,你可以直接监控缓存命中率来优化成本。

Q4:缓存内容有最小 token 数要求吗?

有。所有 Claude 模型的缓存最小阈值为 1024 tokens。如果你的 System Prompt 或上下文内容不足 1024 tokens,缓存不会生效。建议将大段的系统提示词、Few-shot 示例或参考文档作为缓存内容,以充分利用缓存机制降低成本。


总结

Claude API 缓存计费的核心要点:

  1. 5 分钟缓存写入 1.25x,1 小时写入 2.0x:大多数场景选 5 分钟缓存即可,高频调用下缓存自动续期,效果等同长期缓存
  2. 缓存读取仅 0.1x:命中缓存后节省 90% 输入成本,5 分钟缓存命中 1 次即回本
  3. 缓存 Workspace 级别隔离:不同组织、不同 Workspace 之间无法共享缓存,需合理规划 Workspace 结构

对于需要大量调用 Claude API 的开发者,合理使用缓存策略可以显著降低成本。推荐通过 API易 apiyi.com 平台进行 Claude API 调用,支持完整的缓存参数传递、统一接口管理,并提供免费测试额度帮助你验证缓存策略效果。


参考资料

  1. Anthropic Prompt Caching 官方文档:Claude API 缓存功能完整说明

    • 链接:platform.claude.com/docs/en/build-with-claude/prompt-caching
    • 说明:包含缓存定价倍率、TTL 设置、最小 token 要求等核心参数
  2. Anthropic API 定价页面:所有 Claude 模型的最新价格

    • 链接:platform.claude.com/docs/en/about-claude/pricing
    • 说明:包含基础输入/输出价格以及缓存操作的详细定价
  3. AWS Bedrock Prompt Caching 文档:AWS 平台上的 Claude 缓存使用指南

    • 链接:docs.aws.amazon.com/bedrock/latest/userguide/prompt-caching.html
    • 说明:Bedrock 特有的缓存配置方式和支持模型列表
  4. AWS Bedrock 1 小时缓存公告:1 小时缓存 TTL 功能发布说明

    • 链接:aws.amazon.com/about-aws/whats-new/2026/01/amazon-bedrock-one-hour-duration-prompt-caching/
    • 说明:Bedrock 支持 1 小时缓存的模型范围和使用方式

作者:APIYI 技术团队
技术交流:欢迎在评论区讨论 Claude 缓存计费相关问题,更多 API 使用技巧可访问 API易 docs.apiyi.com 文档中心

发表评论