layout: post
title: "Claude API 캐시 비용 메커니즘 심층 분석: 5분 vs 1시간 캐시 가격 차이, 계정 간 캐시 적중 문제, AWS Bedrock과 공식 API 비교"
description: "Claude API의 프롬프트 캐싱은 API 호출 비용을 절감하는 핵심 수단이지만, 많은 개발자들이 캐시 비용 청구의 세부 사항에 대해 궁금해합니다. 이 글을 읽고 나면 Claude API 캐시 비용의 3가지 핵심 메커니즘을 완전히 이해하고, 최적의 캐시 전략 선택 방법을 익혀 불필요한 비용 낭비를 피할 수 있습니다."
tags: [Claude, API, 캐싱, 비용최적화, AWS Bedrock, Anthropic, 프롬프트캐싱]
Claude API의 Prompt Caching은 API 호출 비용을 낮추는 핵심 수단이지만, 많은 개발자들이 캐시 비용 청구의 세부 사항에 대해 의문을 가지고 있습니다: 5분 캐시와 1시간 캐시 중 어떤 걸 선택해야 할까요? 다른 계정 간에 캐시를 공유할 수 있을까요? AWS Bedrock의 캐시 비용 청구는 공식 API와 어떻게 다를까요?
핵심 가치: 이 글을 읽고 나면 Claude API 캐시 비용 청구의 3가지 핵심 메커니즘을 완전히 이해하고, 최적의 캐시 전략 선택 방법을 익혀 불필요한 비용 낭비를 피할 수 있습니다.

Claude API 캐시 비용 청구 핵심 포인트
| 포인트 | 설명 | 가치 |
|---|---|---|
| 5분 캐시 쓰기 | 쓰기 비용 = 기본 입력 가격 × 1.25 | 비용이 가장 낮고, 고빈도 호출에 적합 |
| 1시간 캐시 쓰기 | 쓰기 비용 = 기본 입력 가격 × 2.0 | TTL이 더 길고, 저빈도이지만 대량 캐싱에 적합 |
| 캐시 읽기 (적중) | 읽기 비용 = 기본 입력 가격 × 0.1 | 적중 시 비용이 90% 감소 |
| 캐시 격리 | Workspace 수준 격리, 다른 조직은 완전히 격리됨 | 계정 간 캐시 공유 불가 |
Claude 캐시 비용 청구의 기본 배수
Claude API의 Prompt Caching은 통일된 배수 비용 체계를 사용합니다. 어떤 모델(Opus 4.6, Sonnet 4.6 또는 Haiku 4.5)을 사용하든, 캐시 작업의 배수 규칙은 완전히 동일합니다:
- 캐시 쓰기 (5분 TTL): 기본 입력 가격 × 1.25
- 캐시 쓰기 (1시간 TTL): 기본 입력 가격 × 2.0
- 캐시 읽기 (적중): 기본 입력 가격 × 0.1
이는 캐시가 적중될 때마다 표준 입력 가격의 10%만 지불하면 된다는 뜻입니다. Claude Sonnet 4.6을 예로 들면, 표준 입력 가격은 $3/MTok이고, 캐시 적중 가격은 $0.3/MTok에 불과하여 입력 비용을 90% 절약할 수 있습니다.
Claude 캐시 비용 청구의 손익분기점 계산
캐시의 비용 대비 효익을 이해하는 것은 매우 중요합니다. 캐시 쓰기에는 추가 비용이 들지만, 캐시 읽기는 매우 저렴합니다. 핵심은 캐시가 몇 번 적중되어야 '손익분기점'에 도달하는가입니다.
- 5분 캐시: 쓰기 1.25x + 읽기 0.1x = 첫 번째 쓰기 후, 1번만 적중되면 손익분기점에 도달합니다 (정상 읽기는 1x인 반면 캐시 읽기는 0.1x이므로 0.9x를 절약하고, 추가로 지불한 0.25x를 상쇄하기 때문입니다)
- 1시간 캐시: 쓰기 2.0x + 읽기 0.1x = 첫 번째 쓰기 후, 2번 적중되어야 손익분기점에 도달합니다 (추가로 1.0x를 지불했고, 각 적중마다 0.9x를 절약합니다)
따라서 5분 캐시는 거의 '안전한' 선택이며, 1시간 캐시는 유효 기간 내에 최소 2번 이상 적중될 것임을 보장해야 합니다.
Claude 캐시 요금제: 5분 vs 1시간 캐시 비교

5분 캐시 vs 1시간 캐시의 가격 차이
아래는 각 모델별로 5분과 1시간 캐시 쓰기의 구체적인 가격을 나열한 표입니다:
| 모델 | 기본 입력 가격 | 5분 캐시 쓰기 (×1.25) | 1시간 캐시 쓰기 (×2.0) | 캐시 읽기 (×0.1) |
|---|---|---|---|---|
| Claude Opus 4.6 | $5.00/MTok | $6.25/MTok | $10.00/MTok | $0.50/MTok |
| Claude Sonnet 4.6 | $3.00/MTok | $3.75/MTok | $6.00/MTok | $0.30/MTok |
| Claude Haiku 4.5 | $1.00/MTok | $1.25/MTok | $2.00/MTok | $0.10/MTok |
Claude 캐시 요금제의 TTL 선택 전략
5분 캐시와 1시간 캐시는 둘 중 하나를 선택해야 하는 관계가 아닙니다. 실제 시나리오에 따라 유연하게 선택할 수 있고, 심지어 같은 요청에서 혼합해서 사용할 수도 있어요.
5분 캐시 적용 시나리오:
- 고빈도 API 호출 (분당 여러 번 요청), 캐시가 5분 내내 지속적으로 갱신됨
- 대화형 인터랙션 시나리오, 사용자가 계속 메시지를 보내면 캐시가 자동으로 갱신됨
- 비용에 민감한 프로젝트, 쓰기 비용이 더 저렴함
1시간 캐시 적용 시나리오:
- 배치 처리 작업, 한 배치의 데이터가 수십 분 간격으로 한 번씩 실행될 수 있음
- 대규모 시스템 프롬프트, 쓰기 비용이 높아 캐시가 더 오래 유지되길 원함
- 정기 작업 시나리오, 15-30분마다 한 번씩 실행됨
중요한 메커니즘: 5분 캐시는 매번 적중될 때마다 TTL이 자동으로 갱신됩니다. 즉, '연장'되는 거죠. 따라서 호출 빈도가 충분히 높다면 (5분 내에 최소 한 번의 요청), 캐시는 실제로 계속 살아있을 수 있어서 1시간 캐시를 선택할 필요가 없어요.
🎯 기술적 조언: 대부분의 시나리오에서는 5분 캐시로 충분합니다. APIYI apiyi.com 플랫폼을 통해 Claude API를 호출할 때, 캐시 요금제 규칙은 공식과 완전히 일치하며, 여러 모델의 캐시 전략을 통합 인터페이스로 관리할 수 있어요.
Claude 캐시 요금제에서의 혼합 TTL 사용
Anthropic은 같은 요청에서 1시간과 5분 두 가지 캐시 제어를 동시에 사용하는 것을 허용하지만, 중요한 제약이 하나 있어요:
TTL은 긴 것부터 짧은 순으로 배열: 1시간 캐시 표시가 5분 캐시 표시보다 앞에 나와야 합니다.
실제 응용에서는 변화 빈도가 낮은 시스템 프롬프트를 1시간 캐시로 설정하고, 변화 빈도가 조금 더 높은 Few-shot 예제를 5분 캐시로 설정할 수 있어요:
import anthropic
client = anthropic.Anthropic(
api_key="YOUR_API_KEY",
base_url="https://vip.apiyi.com" # APIYI를 통해 호출
)
response = client.messages.create(
model="claude-sonnet-4-6-20260320",
max_tokens=1024,
system=[
{
"type": "text",
"text": "당신은 전문 기술 문서 어시스턴트입니다...(대량의 시스템 프롬프트)...",
"cache_control": {"type": "ephemeral", "ttl": "3600"} # 1시간 캐시
}
],
messages=[
{
"role": "user",
"content": [
{
"type": "text",
"text": "다음은 참조 문서입니다...(대량의 컨텍스트)...",
"cache_control": {"type": "ephemeral"} # 기본 5분 캐시
},
{
"type": "text",
"text": "위 문서를 바탕으로 답변해 주세요: Prompt Caching이 무엇인가요?"
}
]
}
]
)
캐시 적중 상태 확인 코드 보기
import anthropic
client = anthropic.Anthropic(
api_key="YOUR_API_KEY",
base_url="https://vip.apiyi.com"
)
response = client.messages.create(
model="claude-sonnet-4-6-20260320",
max_tokens=1024,
system=[
{
"type": "text",
"text": "시스템 프롬프트 내용 (캐시를 트리거하려면 >= 1024 토큰 필요)",
"cache_control": {"type": "ephemeral"}
}
],
messages=[{"role": "user", "content": "안녕하세요"}]
)
# 캐시 사용량 확인
usage = response.usage
print(f"입력 토큰: {usage.input_tokens}")
print(f"캐시 생성 토큰: {usage.cache_creation_input_tokens}")
print(f"캐시 적중 토큰: {usage.cache_read_input_tokens}")
# 캐시 상태 판단
if usage.cache_read_input_tokens > 0:
print("캐시 적중! 입력 비용의 90%를 절약했습니다")
elif usage.cache_creation_input_tokens > 0:
print("캐시를 처음 생성했습니다, 이후 요청은 캐시에 적중할 것입니다")
💡 주의: 캐시 최소 토큰 수 요구사항이 있습니다. Claude Opus 4.6은 최소 1024 토큰을 요구하며, Sonnet 4.6과 Haiku 4.5도 최소 1024 토큰을 요구합니다. 이 임계값보다 낮은 내용은 캐시되지 않아요.
Claude 캐시 비용 청구: 계정 간 캐시 격리 메커니즘
많은 개발자분들이 가장 궁금해하시는 질문입니다: A 계정이 작성한 캐시를 B 계정이 히트할 수 있을까요?
Claude 캐시 격리의 핵심 규칙
답은 명확합니다: 불가능합니다. 캐시는 서로 다른 조직(Organization) 간에 완전히 격리됩니다.
2026년 2월 5일부터 Anthropic은 캐시 격리의 세분화 단위를 '조직 수준'에서 더욱 세분화된 'Workspace 수준'으로 강화했습니다. 이는 다음을 의미합니다:
| 시나리오 | 캐시 공유 여부 | 설명 |
|---|---|---|
| 동일 Workspace 내의 다른 API Key | ✅ 공유 가능 | 동일 작업 공간 내에서는 동일한 프롬프트가 캐시 히트 |
| 동일 Organization 내의 다른 Workspace | ❌ 공유 불가 | 같은 조직 아래라도 다른 작업 공간은 격리됨 |
| 다른 Organization의 계정 | ❌ 완전히 공유 불가 | 프롬프트가 100% 동일해도 완전 독립 |
| APIYI 같은 중계 플랫폼을 통한 다른 사용자 | ❌ 공유 불가 | 다른 사용자의 요청은 다른 상위 자격 증명으로 라우팅됨 |
Claude 캐시 격리의 실제 영향
시나리오 분석: 두 개의 Claude API 계정(서로 다른 Organization 소속)이 동시에 일괄 데이터 처리 작업을 실행한다고 가정해 보세요.
- 계정 A가 요청을 보내 캐시 작성이 트리거되어 1.25x의 작성 비용 지불
- 계정 B가 5분 내에 완전히 동일한 프롬프트를 전송
- 결과: 계정 B는 계정 A의 캐시를 히트하지 못하고, B도 캐시 작성을 트리거하여 다시 1.25x 지불
이는 보안과 프라이버시 고려 사항에 따른 설계입니다. 캐시 내용에는 민감한 System Prompt나 비즈니스 데이터가 포함될 수 있어, 조직 간 공유는 데이터 유출 위험을 초래할 수 있습니다.

최적화 전략: 여러 서비스가 캐시를 공유하여 비용을 절감해야 한다면, 서로 다른 Organization 계정을 사용하는 대신 API Key들을 동일한 Workspace 아래에 배치해야 합니다.
🎯 실무 조언: APIYI apiyi.com 플랫폼에서는 각 사용자의 요청이 통합된 상위 채널을 통해 처리됩니다. 여러 프로젝트 간에 캐시를 공유해야 하는 경우, Anthropic Console에서 Workspace 구조를 합리적으로 계획하여 캐시를 공유해야 하는 프로젝트들을 동일한 Workspace 내에 배치하는 것이 좋습니다.
Claude 캐시 히트 조건
Workspace 격리 외에도, 캐시 히트에는 또 다른 핵심 조건이 있습니다. 바로 프롬프트가 100% 완전히 동일해야 한다는 점입니다.
캐시 키(Cache Key)는 프롬프트 내용을 암호화 해시하여 생성됩니다. 매칭 범위에는 다음이 포함됩니다:
tools(도구 정의)system(시스템 프롬프트)messages(메시지 기록)
위 세 부분은 cache_control 마커 위치까지 순서대로 연결됩니다. 단일 문자라도 다르면(공백, 줄바꿈 문자 포함) 캐시를 히트하지 않습니다.
Claude 캐시 요금제: AWS Bedrock vs Anthropic 공식 비교
AWS Bedrock과 Anthropic API의 캐시 요금제 차이
많은 기업이 AWS Bedrock을 통해 Claude를 사용하고 있으며, 그 캐시 요금제는 Anthropic 공식 API와 다음과 같은 차이가 있습니다:
| 비교 차원 | Anthropic 공식 API | AWS Bedrock |
|---|---|---|
| 5분 캐시 쓰기 | 1.25x 기본 가격 | 1.25x 기본 가격 |
| 1시간 캐시 쓰기 | 2.0x 기본 가격 | 2.0x 기본 가격 (일부 모델만) |
| 캐시 읽기 | 0.1x 기본 가격 | 0.1x 기본 가격 |
| 1시간 캐시 지원 모델 | 캐시를 지원하는 모든 모델 | Haiku 4.5, Sonnet 4.5, Opus 4.5만 |
| 캐시 격리 수준 | Workspace 수준 | Organization (AWS 계정) 수준 |
| 지역별 가격 | 전역 통일 가격 | 지역 엔드포인트 프리미엄 약 10% |
| 기본 입력 가격 | 공식 표준 가격 | 공식 가격과 거의 동일 |
AWS Bedrock Claude 캐시 요금제의 주요 차이점
차이점 1: 1시간 캐시의 모델 지원 범위
2026년 1월 기준, AWS Bedrock은 Claude Haiku 4.5, Sonnet 4.5, Opus 4.5에만 1시간 캐시 TTL을 지원합니다. 최신 Opus 4.6 및 Sonnet 4.6은 Bedrock에서 아직 1시간 캐시 옵션을 지원하지 않을 수 있습니다. 최신 모델 + 1시간 캐시 조합이 필요하다면, Anthropic 공식 API를 직접 사용하는 것이 좋습니다.
차이점 2: 캐시 격리 세분화
AWS Bedrock은 Organization 수준의 캐시 격리(즉, AWS 계정 수준)를 유지하는 반면, Anthropic 공식 API는 이미 Workspace 수준으로 세분화되었습니다. 이는 Bedrock에서 동일한 AWS 계정 내의 모든 호출이 캐시를 공유할 수 있음을 의미하며, 공식 API보다 더 거친 세분화입니다.
차이점 3: 지역별 가격 차이
AWS Bedrock의 지역 엔드포인트(예: us-east-1, eu-west-1)는 글로벌 엔드포인트보다 약 10%의 가격 프리미엄이 있을 수 있습니다. 이 프리미엄은 캐시 쓰기 및 읽기 비용에도 반영됩니다.
💰 비용 최적화 제안: Claude API를 주로 사용하고 캐시 전략에 대한 세밀한 제어가 필요하다면, APIYI apiyi.com을 통해 Anthropic 네이티브 API를 호출하는 것이 더 유연한 선택입니다. 플랫폼은 완전한 캐시 제어 매개변수 전달을 지원하며, 더 유리한 가격을 제공합니다.
자주 묻는 질문
Q1: 5분 캐시와 1시간 캐시를 자유롭게 선택할 수 있나요?
네. 요청에서 cache_control 매개변수를 설정하여 제어할 수 있습니다. TTL을 지정하지 않으면 기본적으로 5분 캐시이며, 명시적으로 "ttl": "3600"으로 설정하면 1시간 캐시입니다. 동일한 요청에서 두 가지 TTL을 혼합하여 사용할 수도 있지만, 1시간 캐시 내용이 5분 캐시 내용보다 앞에 위치해야 합니다. 대부분의 시나리오에서는 5분 캐시 + 자동 갱신으로 충분하며, 추가 비용을 들여 1시간 캐시를 선택할 필요가 없습니다.
Q2: 두 개의 다른 Claude API 계정이 캐시 히트를 공유할 수 있나요?
아니요. 캐시는 Workspace 수준에서 격리됩니다(2026년 2월 이후). 두 계정이 다른 Organization에 속하면 캐시는 완전히 독립적입니다. 동일한 Organization에 속하지만 다른 Workspace에 있어도 공유할 수 없습니다. 동일한 Workspace 내에서 다른 API 키를 사용할 때만 동일한 프롬프트가 동일한 캐시를 히트할 수 있습니다. 캐시를 공유하여 비용을 절감하려면 여러 API 키를 동일한 Workspace 내에 배치해야 합니다.
Q3: 캐시가 히트했는지 어떻게 확인하나요?
API 응답의 usage 필드에는 cache_creation_input_tokens와 cache_read_input_tokens 두 가지 지표가 포함됩니다. cache_read_input_tokens > 0이면 캐시 히트를 의미합니다. APIYI apiyi.com 플랫폼을 통해 호출할 때 이러한 필드는 그대로 반환되므로, 캐시 히트율을 직접 모니터링하여 비용을 최적화할 수 있습니다.
Q4: 캐시 내용에 최소 토큰 수 요구사항이 있나요?
네. 모든 Claude 모델의 캐시 최소 임계값은 1024 토큰입니다. 시스템 프롬프트나 컨텍스트 내용이 1024 토큰 미만이면 캐시가 적용되지 않습니다. 대규모 시스템 프롬프트, Few-shot 예제 또는 참조 문서를 캐시 내용으로 활용하여 캐시 메커니즘을 최대한 활용하고 비용을 절감하는 것이 좋습니다.
요약
Claude API 캐시 과금의 핵심 포인트:
- 5분 캐시 쓰기 1.25배, 1시간 쓰기 2.0배: 대부분의 시나리오에서는 5분 캐시를 선택하면 되며, 고빈도 호출 시 캐시가 자동으로 갱신되어 장기 캐시와 동일한 효과를 얻을 수 있습니다
- 캐시 읽기 0.1배만: 캐시 히트 시 입력 비용의 90%를 절약할 수 있으며, 5분 캐시는 1회 히트만으로도 비용을 회수할 수 있습니다
- 캐시는 Workspace 수준으로 격리: 다른 조직, 다른 Workspace 간에는 캐시를 공유할 수 없으므로 Workspace 구조를 합리적으로 계획해야 합니다
대량의 Claude API 호출이 필요한 개발자에게는 캐시 전략을 합리적으로 사용하면 비용을 크게 절감할 수 있습니다. APIYI apiyi.com 플랫폼을 통해 Claude API를 호출하는 것을 추천하며, 완전한 캐시 매개변수 전달, 통합 인터페이스 관리 및 무료 테스트 할당량을 제공하여 캐시 전략 효과를 검증하는 데 도움을 줍니다.
참고 자료
-
Anthropic Prompt Caching 공식 문서: Claude API 캐시 기능 완전 설명
- 링크:
platform.claude.com/docs/en/build-with-claude/prompt-caching - 설명: 캐시 가격 배율, TTL 설정, 최소 토큰 요구사항 등 핵심 매개변수 포함
- 링크:
-
Anthropic API 가격 페이지: 모든 Claude 모델의 최신 가격
- 링크:
platform.claude.com/docs/en/about-claude/pricing - 설명: 기본 입력/출력 가격 및 캐시 작업의 상세 가격 포함
- 링크:
-
AWS Bedrock Prompt Caching 문서: AWS 플랫폼에서의 Claude 캐시 사용 가이드
- 링크:
docs.aws.amazon.com/bedrock/latest/userguide/prompt-caching.html - 설명: Bedrock 특유의 캐시 구성 방식 및 지원 모델 목록
- 링크:
-
AWS Bedrock 1시간 캐시 공지: 1시간 캐시 TTL 기능 발표 설명
- 링크:
aws.amazon.com/about-aws/whats-new/2026/01/amazon-bedrock-one-hour-duration-prompt-caching/ - 설명: Bedrock에서 1시간 캐시를 지원하는 모델 범위 및 사용 방식
- 링크:
작성자: APIYI 기술 팀
기술 교류: 댓글에서 Claude 캐시 과금 관련 문제를 논의해 주세요. 더 많은 API 사용 팁은 APIYI docs.apiyi.com 문서 센터를 방문하세요