Catatan Penulis: Penjelasan mendalam mengenai mekanisme TTL cache Prompt Claude Code, perbedaan antara durasi 5 menit dan 1 jam, perbandingan biaya cache antara API Anthropic dan AWS Bedrock, serta tips konfigurasi untuk menghemat biaya.
"Bisakah TTL cache Prompt Claude Code diubah? Apa bedanya 5 menit dan 1 jam? Mana yang lebih hemat?" — Ini adalah pertanyaan yang paling sering diajukan oleh pengguna Claude Code saat mencoba mengoptimalkan biaya.
Kesimpulan singkatnya: TTL cache Claude Code saat ini tidak dapat diubah langsung oleh pengguna—durasi tersebut ditentukan oleh paket langganan Anda. Pengguna langganan Max otomatis mendapatkan TTL 1 jam, sementara pengguna langganan Pro dan pengguna kunci API secara default mendapatkan TTL 5 menit. Namun, jika Anda memanggil API Claude secara langsung, Anda bisa memilih antara 5 menit atau 1 jam secara bebas melalui parameter cache_control.
Nilai Utama: Setelah membaca artikel ini, Anda akan benar-benar memahami mekanisme TTL cache Prompt Claude, mengetahui perbedaan biaya cache antara API resmi Anthropic dan AWS Bedrock, serta mempelajari cara memilih strategi cache yang paling hemat sesuai dengan skenario penggunaan Anda.

Poin Utama TTL Cache Prompt Claude
Cache Prompt adalah salah satu mekanisme penghematan biaya terpenting untuk model seri Claude. Mekanisme ini menyimpan awalan Prompt yang pernah Anda kirimkan sebelumnya (seperti petunjuk sistem, definisi alat, riwayat percakapan, dll.) di sisi server. Jika permintaan berikutnya memiliki awalan yang sama, sistem akan langsung membaca dari cache, sehingga Anda hanya perlu membayar 10% dari harga input normal.
| Poin | Penjelasan | Dampak Nyata |
|---|---|---|
| Dua Opsi TTL | 5 menit (default) dan 1 jam (opsional) | Memilih TTL yang tepat dapat menghemat biaya penulisan |
| Baca Cache Hanya 10% | Setelah cache kena (hit), input tersebut hanya dikenakan 0,1x harga | Menghemat 80-90% biaya input dalam percakapan panjang |
| Penulisan 5 Menit = 1,25x | Ada premi 25% saat menulis ke cache | Balik modal dalam satu kali pembacaan cache |
| Penulisan 1 Jam = 2x | Membayar dua kali lipat saat menulis ke cache | Membutuhkan dua kali pembacaan cache untuk balik modal |
| Manajemen Cache Claude Code | Petunjuk sistem, definisi alat, CLAUDE.md otomatis di-cache | Pengguna tidak perlu konfigurasi manual |
Bisakah TTL di Claude Code Diubah?
Ini adalah pertanyaan yang paling sering ditanyakan pengguna. Jawabannya tergantung pada dua situasi:
Claude Code (alat CLI interaktif): Tidak dapat diubah secara manual. Cache Claude Code dikendalikan oleh sisi server—pengguna langganan Max mendapatkan TTL 1 jam (dikendalikan oleh feature flag server tengu_prompt_cache_1h_config), sementara pengguna langganan Pro dan pengguna kunci API mendapatkan TTL 5 menit. Anda hanya bisa mematikan cache sepenuhnya melalui variabel lingkungan DISABLE_PROMPT_CACHING=1, tetapi tidak bisa mengubah durasi TTL-nya.
Claude API (pemanggilan langsung): Bisa dipilih secara bebas. Saat melakukan pemanggilan melalui API, Anda dapat menentukan TTL dalam parameter cache_control:
// Cache 5 menit (default)
{ "cache_control": { "type": "ephemeral" } }
// Cache 1 jam
{ "cache_control": { "type": "ephemeral", "ttl": "1h" } }
🎯 Saran Pemilihan: Jika Anda menggunakan Claude Code CLI, TTL bergantung pada paket langganan Anda. Jika Anda memanggil melalui API (seperti melalui APIYI apiyi.com), Anda dapat memilih TTL 5 menit atau 1 jam secara fleksibel sesuai skenario untuk kontrol biaya yang lebih presisi.

Penjelasan Mendalam Aturan Penagihan TTL Cache Prompt Claude
5 Menit vs 1 Jam: Perbandingan Biaya
Perbedaan utama antara kedua TTL ini terletak pada biaya penulisan. Biaya pembacaan sepenuhnya sama, yaitu 0,1 kali lipat dari harga input dasar:
| Operasi | TTL 5 Menit | TTL 1 Jam | Penjelasan |
|---|---|---|---|
| Penulisan Cache | 1,25x harga dasar | 2,0x harga dasar | Biaya tambahan saat pertama kali menulis ke cache |
| Pembacaan Cache | 0,1x harga dasar | 0,1x harga dasar | Harga diskon setelah cache berhasil diakses (sama) |
| Titik Impas | 1x baca sudah impas | 2x baca baru impas | Frekuensi penggunaan menentukan mana yang lebih hemat |
| Perpanjangan Otomatis | Reset 5 menit tiap akses | Kedaluwarsa tetap 1 jam | Pada percakapan intens, 5 menit bisa terus aktif |
Harga Spesifik Cache Prompt per Model
Berikut adalah tabel penagihan cache lengkap untuk model API resmi Anthropic (Maret 2026):
| Model | Harga Input Dasar | Penulisan 5 Menit | Penulisan 1 Jam | Baca Cache | Harga Output |
|---|---|---|---|---|---|
| Claude Opus 4.6 | $5/MTok | $6,25/MTok | $10/MTok | $0,50/MTok | $25/MTok |
| Claude Sonnet 4.6 | $3/MTok | $3,75/MTok | $6/MTok | $0,30/MTok | $15/MTok |
| Claude Haiku 4.5 | $1/MTok | $1,25/MTok | $2/MTok | $0,10/MTok | $5/MTok |
Temuan Kunci: Diskon pembacaan cache sangat besar. Contoh pada Claude Opus 4.6:
- Input normal 1 juta Token = $5,00
- Baca cache 1 juta Token = $0,50 (hemat $4,50, diskon 90%)
- Inilah alasan mengapa biaya langganan Claude Code Pro sebesar $20 bisa ekonomis—100 putaran percakapan Opus tanpa cache mungkin menghabiskan $50-100, namun dengan cache hanya perlu $10-19.
Persyaratan Minimum Token Cache
Tidak semua konten bisa di-cache. Setiap model memiliki persyaratan jumlah Token minimum; jika konten kurang panjang, cache tidak akan terpicu:
| Model | Token Minimum Cache |
|---|---|
| Claude Opus 4.6 / 4.5 | 4.096 |
| Claude Sonnet 4.6 | 2.048 |
| Claude Sonnet 4.5 / 4 | 1.024 |
| Claude Haiku 4.5 | 4.096 |
| Claude Haiku 3.5 / 3 | 2.048 |
🎯 Tips Praktis: Jika petunjuk sistem Anda pendek (misalnya kurang dari 2.048 Token), cache tidak akan terpicu saat menggunakan Claude Sonnet 4.6. Anda bisa memperkaya konten petunjuk sistem atau menggabungkan definisi alat untuk mencapai ambang batas minimum. Pemanggilan melalui APIYI (apiyi.com) juga mendukung cache dengan tarif yang lebih kompetitif.
Anthropic API vs AWS Bedrock: Perbandingan Penagihan Cache
Perbandingan Dukungan Cache di Tiga Platform Utama
Cache Prompt Claude didukung di API resmi Anthropic, AWS Bedrock, dan Google Vertex AI, namun terdapat perbedaan detail:
| Dimensi Perbandingan | API Resmi Anthropic | AWS Bedrock | Google Vertex AI |
|---|---|---|---|
| TTL 5 Menit | ✅ Semua model | ✅ Semua model | ✅ Semua model |
| TTL 1 Jam | ✅ Semua model | ✅ Model tertentu (Opus 4.5, Sonnet 4.5, Haiku 4.5) | ✅ Didukung |
| Biaya Tambahan (5 Menit) | 1,25x | ~1,25x | 1,25x |
| Biaya Tambahan (1 Jam) | 2,0x | 2,0x | 2,0x |
| Diskon Baca | 0,1x | ~0,1x | 0,1x |
| Breakpoint Maksimum | 4 | 4 | 4 |
| Cache Otomatis | ✅ Didukung | ✅ Didukung | ✅ Didukung |
| Kustomisasi TTL | ✅ Opsional 5 menit/1 jam | ✅ Opsional (model tertentu) | ✅ Opsional |
Penjelasan Perbedaan Utama Antar Platform
API Resmi Anthropic: Fitur cache paling lengkap, semua model mendukung opsi TTL 5 menit dan 1 jam. Sejak 5 Februari 2026, isolasi cache diubah dari tingkat organisasi ke tingkat ruang kerja (workspace), sehingga cache antar ruang kerja dalam organisasi yang sama menjadi independen.
AWS Bedrock: Mengumumkan dukungan TTL 1 jam pada Januari 2026, namun terbatas pada model tertentu seperti Claude Opus 4.5, Sonnet 4.5, dan Haiku 4.5. Dukungan TTL 1 jam untuk Claude Sonnet 4.6 dan Opus 4.6 terbaru di Bedrock perlu dikonfirmasi kembali. Jika Anda menghubungkan Claude Code ke Bedrock, perhatikan pengaturan kompatibilitas CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS=1.
Google Vertex AI: Fitur cache pada dasarnya sama dengan API resmi, namun memerlukan autentikasi dan penagihan melalui proyek Google Cloud.
🎯 Saran Pemilihan Platform: Jika Anda tidak ingin pusing dengan perbedaan platform dan konfigurasi kompatibilitas, menggunakan antarmuka terpadu APIYI (apiyi.com) adalah solusi paling sederhana—mendukung fitur cache lengkap tanpa perlu konfigurasi AWS IAM atau autentikasi Google Cloud secara terpisah.
Panduan Cepat Cache Petunjuk Claude Code
Contoh Minimalis: Mengatur Cache TTL 1 Jam
import anthropic
client = anthropic.Anthropic(
api_key="YOUR_API_KEY",
base_url="https://vip.apiyi.com/v1"
)
response = client.messages.create(
model="claude-sonnet-4-6",
max_tokens=1024,
system=[{
"type": "text",
"text": "Anda adalah asisten guru fisika profesional yang bertugas menjawab soal fisika SMA...(ini adalah petunjuk sistem yang panjang)",
"cache_control": {"type": "ephemeral", "ttl": "1h"}
}],
messages=[{"role": "user", "content": "Jelaskan hukum ketiga Newton"}]
)
print(f"Token baca cache: {response.usage.cache_read_input_tokens}")
print(f"Token tulis cache: {response.usage.cache_creation_input_tokens}")
Lihat kode lengkap: Penggunaan campuran TTL 5 menit dan 1 jam
import anthropic
client = anthropic.Anthropic(
api_key="YOUR_API_KEY",
base_url="https://vip.apiyi.com/v1"
)
# TTL campuran: Petunjuk sistem 1 jam (jarang berubah), konteks percakapan 5 menit (sering berubah)
response = client.messages.create(
model="claude-sonnet-4-6",
max_tokens=2048,
system=[
{
"type": "text",
"text": "Anda adalah konsultan teknologi AI profesional...(petunjuk sistem panjang, 2000+ Token)",
"cache_control": {"type": "ephemeral", "ttl": "1h"} # Petunjuk sistem 1 jam
},
{
"type": "text",
"text": "Berikut adalah konteks riwayat percakapan pengguna...(riwayat percakapan)",
"cache_control": {"type": "ephemeral"} # Konteks percakapan 5 menit (default)
}
],
messages=[{"role": "user", "content": "Bandingkan kemampuan penalaran Claude dan GPT"}]
)
# Cek penggunaan cache
usage = response.usage
print(f"Token input biasa: {usage.input_tokens}")
print(f"Token baca cache: {usage.cache_read_input_tokens}")
print(f"Token tulis cache: {usage.cache_creation_input_tokens}")
# Hitung penghematan biaya (contoh menggunakan Sonnet 4.6)
base_cost = (usage.input_tokens / 1_000_000) * 3
cache_cost = (usage.cache_read_input_tokens / 1_000_000) * 0.3
saved = (usage.cache_read_input_tokens / 1_000_000) * 2.7
print(f"Penghematan kali ini: ${saved:.4f}")
Batasan Penting: Saat mencampur dua jenis TTL dalam satu permintaan, konten dengan TTL 1 jam harus ditempatkan sebelum konten dengan TTL 5 menit, jika tidak, akan muncul error.
Saran: Saat memanggil API Claude melalui APIYI (apiyi.com), parameter
cache_controldidukung sepenuhnya, termasuk kebebasan memilih antara TTL 5 menit dan 1 jam.
TTL 5 Menit vs 1 Jam: Pilih yang Mana?
Tabel Keputusan Pemilihan
| Skenario Penggunaan | TTL yang Disarankan | Alasan |
|---|---|---|
| Pemrograman Claude Code intensif (pesan per menit) | 5 menit | Timer diatur ulang otomatis setiap hit, tidak akan kedaluwarsa |
| Bot Layanan Pelanggan (jeda balasan < 5 menit) | 5 menit | Biaya tulis rendah (1,25x), hit frekuensi tinggi |
| Agen Analisis Dokumen (jeda pemrosesan 5-60 menit) | 1 jam | Mencegah penulisan ulang akibat cache kedaluwarsa |
| Tugas Batch Terjadwal (setiap 30 menit) | 1 jam | TTL 5 menit pasti kedaluwarsa, 1 jam mencakup durasi |
| Pemanggilan API frekuensi rendah (jeda > 1 jam) | Tanpa cache | Keduanya akan kedaluwarsa, membuang biaya tulis |
| Petunjuk Sistem (hampir tidak berubah) | 1 jam | Tulis sekali, baca berkali-kali |
| Riwayat Percakapan (berubah setiap putaran) | 5 menit | Biaya tulis rendah lebih hemat untuk perubahan sering |
Rumus Perhitungan Biaya
Untuk menentukan apakah cache menguntungkan, gunakan rumus inti berikut:
Syarat balik modal TTL 5 menit: Konten cache dibaca minimal 1 kali dalam 5 menit
- Biaya tulis: 1,25x → tambahan 0,25x
- Penghematan baca: hemat 0,9x per baca
- Balik modal setelah 1 kali baca (0,9 > 0,25)
Syarat balik modal TTL 1 jam: Konten cache dibaca minimal 2 kali dalam 1 jam
- Biaya tulis: 2,0x → tambahan 1,0x
- Penghematan baca: hemat 0,9x per baca
- Balik modal setelah 2 kali baca (0,9 × 2 = 1,8 > 1,0)

Pertanyaan Umum
Q1: Bisakah saya mengubah TTL 5 menit menjadi 1 jam di Claude Code?
Alat CLI Claude Code sendiri tidak mendukung modifikasi TTL secara manual oleh pengguna. Pengguna langganan Max secara otomatis mendapatkan TTL 1 jam (dikontrol oleh feature flag di sisi server), sementara pengguna Pro dan kunci API tetap pada TTL 5 menit. Jika Anda membutuhkan TTL 1 jam namun tidak ingin meningkatkan ke langganan Max, Anda bisa langsung melakukan pemanggilan melalui API (atur cache_control.ttl: "1h") pada platform seperti APIYI apiyi.com dengan sistem bayar per penggunaan.
Q2: Apakah TTL 5 menit akan kedaluwarsa tepat setelah 5 menit? Atau diperpanjang secara otomatis?
TTL 5 menit akan mengatur ulang pengatur waktu secara otomatis setiap kali terjadi cache hit. Jika Anda mengirim pesan setiap 1-2 menit (seperti dalam percakapan pemrograman Claude Code), pengatur waktu akan terus diatur ulang dan cache tidak akan pernah kedaluwarsa. Cache hanya akan kedaluwarsa jika Anda tidak mengirim pesan selama 5 menit berturut-turut. Jadi, untuk skenario penggunaan frekuensi tinggi, TTL 5 menit sudah sangat mencukupi.
Q3: Apakah penagihan *cache* di AWS Bedrock sama dengan API resmi Anthropic?
Secara garis besar sama, namun ada sedikit perbedaan:
- Biaya penulisan (write premium) keduanya adalah ~1,25x (5 menit) dan ~2,0x (1 jam)
- Diskon pembacaan (read discount) keduanya adalah ~0,1x
- Perbedaan: TTL 1 jam di Bedrock saat ini hanya mendukung beberapa model seperti Opus 4.5, Sonnet 4.5, dan Haiku 4.5; untuk seri model 4.6 terbaru perlu dikonfirmasi kembali.
- Melalui APIYI apiyi.com, Anda bisa mendapatkan dukungan cache lengkap yang konsisten dengan API resmi.
Kesimpulan
Poin utama mengenai TTL cache pada Claude Prompt:
- Dua opsi TTL: 5 menit (penulisan 1,25x, balik modal setelah 1x baca) dan 1 jam (penulisan 2x, balik modal setelah 2x baca), dengan biaya baca tetap 0,1x.
- Claude Code CLI tidak bisa mengubah TTL: Langganan Max otomatis 1 jam, Pro/kunci API tetap 5 menit; hanya bisa dimatikan, tidak bisa diganti.
- Claude API bisa dipilih dengan bebas: Atur melalui parameter
cache_control.ttl, satu permintaan bisa mencampur dua jenis TTL. - Gunakan 5 menit untuk percakapan frekuensi tinggi: Setiap hit akan memperpanjang durasi, biaya penulisan lebih murah; gunakan 1 jam untuk penggunaan berkala agar tidak kedaluwarsa.
Cache hit = biaya input diskon 90%, ini adalah mekanisme penghematan biaya paling utama di Claude. Disarankan untuk menggunakan antarmuka terpadu APIYI apiyi.com yang mendukung konfigurasi cache secara lengkap. Cukup dengan satu kunci API, Anda bisa menguji perbedaan biaya aktual dari berbagai strategi TTL.
📚 Referensi
-
Dokumentasi Resmi Anthropic – Prompt Caching: Sumber otoritatif untuk konfigurasi TTL, aturan penagihan, dan sintaks
cache_control.- Tautan:
platform.claude.com/docs/en/build-with-claude/prompt-caching - Penjelasan: Rumus penagihan lengkap dan contoh kode untuk TTL 5 menit/1 jam.
- Tautan:
-
Dokumentasi Resmi Anthropic – Harga: Harga dasar dan harga cache untuk semua model.
- Tautan:
platform.claude.com/docs/en/about-claude/pricing - Penjelasan: Tarif penulisan dan pembacaan cache untuk model Opus/Sonnet/Haiku.
- Tautan:
-
Dokumentasi Resmi AWS – Bedrock Prompt Caching: Detail dukungan cache untuk platform Bedrock.
- Tautan:
docs.aws.amazon.com/bedrock/latest/userguide/prompt-caching.html - Penjelasan: Rentang dukungan TTL dan standar penagihan untuk berbagai model di Bedrock.
- Tautan:
-
Claude Code Camp – Cara Kerja Prompt Caching: Analisis mendalam tentang implementasi cache pada Claude Code.
- Tautan:
claudecodecamp.com/p/how-prompt-caching-actually-works-in-claude-code - Penjelasan: Memahami bagaimana Claude Code mengelola titik henti (breakpoint) cache secara otomatis.
- Tautan:
-
GitHub Issue #19436 – Permintaan Fitur TTL Cache Berlapis: Diskusi komunitas mengenai konfigurasi TTL yang lebih fleksibel.
- Tautan:
github.com/anthropics/claude-code/issues/19436 - Penjelasan: Solusi TTL berlapis berdasarkan frekuensi perubahan konten yang diusulkan oleh komunitas.
- Tautan:
Penulis: Tim Teknis APIYI
Diskusi Teknis: Mari berdiskusi di kolom komentar mengenai pengalaman konfigurasi cache Claude. Untuk tutorial pemanggilan model lainnya, silakan kunjungi pusat dokumentasi APIYI di docs.apiyi.com.