Penjelasan Lengkap TTL Cache Petunjuk Claude Code: Pilih 5 Menit atau 1 Jam? Disertai Perbandingan Penagihan 3 Platform

Catatan Penulis: Penjelasan mendalam mengenai mekanisme TTL cache Prompt Claude Code, perbedaan antara durasi 5 menit dan 1 jam, perbandingan biaya cache antara API Anthropic dan AWS Bedrock, serta tips konfigurasi untuk menghemat biaya.

"Bisakah TTL cache Prompt Claude Code diubah? Apa bedanya 5 menit dan 1 jam? Mana yang lebih hemat?" — Ini adalah pertanyaan yang paling sering diajukan oleh pengguna Claude Code saat mencoba mengoptimalkan biaya.

Kesimpulan singkatnya: TTL cache Claude Code saat ini tidak dapat diubah langsung oleh pengguna—durasi tersebut ditentukan oleh paket langganan Anda. Pengguna langganan Max otomatis mendapatkan TTL 1 jam, sementara pengguna langganan Pro dan pengguna kunci API secara default mendapatkan TTL 5 menit. Namun, jika Anda memanggil API Claude secara langsung, Anda bisa memilih antara 5 menit atau 1 jam secara bebas melalui parameter cache_control.

Nilai Utama: Setelah membaca artikel ini, Anda akan benar-benar memahami mekanisme TTL cache Prompt Claude, mengetahui perbedaan biaya cache antara API resmi Anthropic dan AWS Bedrock, serta mempelajari cara memilih strategi cache yang paling hemat sesuai dengan skenario penggunaan Anda.

claude-code-prompt-caching-ttl-pricing-guide-id 图示


Poin Utama TTL Cache Prompt Claude

Cache Prompt adalah salah satu mekanisme penghematan biaya terpenting untuk model seri Claude. Mekanisme ini menyimpan awalan Prompt yang pernah Anda kirimkan sebelumnya (seperti petunjuk sistem, definisi alat, riwayat percakapan, dll.) di sisi server. Jika permintaan berikutnya memiliki awalan yang sama, sistem akan langsung membaca dari cache, sehingga Anda hanya perlu membayar 10% dari harga input normal.

Poin Penjelasan Dampak Nyata
Dua Opsi TTL 5 menit (default) dan 1 jam (opsional) Memilih TTL yang tepat dapat menghemat biaya penulisan
Baca Cache Hanya 10% Setelah cache kena (hit), input tersebut hanya dikenakan 0,1x harga Menghemat 80-90% biaya input dalam percakapan panjang
Penulisan 5 Menit = 1,25x Ada premi 25% saat menulis ke cache Balik modal dalam satu kali pembacaan cache
Penulisan 1 Jam = 2x Membayar dua kali lipat saat menulis ke cache Membutuhkan dua kali pembacaan cache untuk balik modal
Manajemen Cache Claude Code Petunjuk sistem, definisi alat, CLAUDE.md otomatis di-cache Pengguna tidak perlu konfigurasi manual

Bisakah TTL di Claude Code Diubah?

Ini adalah pertanyaan yang paling sering ditanyakan pengguna. Jawabannya tergantung pada dua situasi:

Claude Code (alat CLI interaktif): Tidak dapat diubah secara manual. Cache Claude Code dikendalikan oleh sisi server—pengguna langganan Max mendapatkan TTL 1 jam (dikendalikan oleh feature flag server tengu_prompt_cache_1h_config), sementara pengguna langganan Pro dan pengguna kunci API mendapatkan TTL 5 menit. Anda hanya bisa mematikan cache sepenuhnya melalui variabel lingkungan DISABLE_PROMPT_CACHING=1, tetapi tidak bisa mengubah durasi TTL-nya.

Claude API (pemanggilan langsung): Bisa dipilih secara bebas. Saat melakukan pemanggilan melalui API, Anda dapat menentukan TTL dalam parameter cache_control:

// Cache 5 menit (default)
{ "cache_control": { "type": "ephemeral" } }

// Cache 1 jam
{ "cache_control": { "type": "ephemeral", "ttl": "1h" } }

🎯 Saran Pemilihan: Jika Anda menggunakan Claude Code CLI, TTL bergantung pada paket langganan Anda. Jika Anda memanggil melalui API (seperti melalui APIYI apiyi.com), Anda dapat memilih TTL 5 menit atau 1 jam secara fleksibel sesuai skenario untuk kontrol biaya yang lebih presisi.

claude-code-prompt-caching-ttl-pricing-guide-id 图示

Penjelasan Mendalam Aturan Penagihan TTL Cache Prompt Claude

5 Menit vs 1 Jam: Perbandingan Biaya

Perbedaan utama antara kedua TTL ini terletak pada biaya penulisan. Biaya pembacaan sepenuhnya sama, yaitu 0,1 kali lipat dari harga input dasar:

Operasi TTL 5 Menit TTL 1 Jam Penjelasan
Penulisan Cache 1,25x harga dasar 2,0x harga dasar Biaya tambahan saat pertama kali menulis ke cache
Pembacaan Cache 0,1x harga dasar 0,1x harga dasar Harga diskon setelah cache berhasil diakses (sama)
Titik Impas 1x baca sudah impas 2x baca baru impas Frekuensi penggunaan menentukan mana yang lebih hemat
Perpanjangan Otomatis Reset 5 menit tiap akses Kedaluwarsa tetap 1 jam Pada percakapan intens, 5 menit bisa terus aktif

Harga Spesifik Cache Prompt per Model

Berikut adalah tabel penagihan cache lengkap untuk model API resmi Anthropic (Maret 2026):

Model Harga Input Dasar Penulisan 5 Menit Penulisan 1 Jam Baca Cache Harga Output
Claude Opus 4.6 $5/MTok $6,25/MTok $10/MTok $0,50/MTok $25/MTok
Claude Sonnet 4.6 $3/MTok $3,75/MTok $6/MTok $0,30/MTok $15/MTok
Claude Haiku 4.5 $1/MTok $1,25/MTok $2/MTok $0,10/MTok $5/MTok

Temuan Kunci: Diskon pembacaan cache sangat besar. Contoh pada Claude Opus 4.6:

  • Input normal 1 juta Token = $5,00
  • Baca cache 1 juta Token = $0,50 (hemat $4,50, diskon 90%)
  • Inilah alasan mengapa biaya langganan Claude Code Pro sebesar $20 bisa ekonomis—100 putaran percakapan Opus tanpa cache mungkin menghabiskan $50-100, namun dengan cache hanya perlu $10-19.

Persyaratan Minimum Token Cache

Tidak semua konten bisa di-cache. Setiap model memiliki persyaratan jumlah Token minimum; jika konten kurang panjang, cache tidak akan terpicu:

Model Token Minimum Cache
Claude Opus 4.6 / 4.5 4.096
Claude Sonnet 4.6 2.048
Claude Sonnet 4.5 / 4 1.024
Claude Haiku 4.5 4.096
Claude Haiku 3.5 / 3 2.048

🎯 Tips Praktis: Jika petunjuk sistem Anda pendek (misalnya kurang dari 2.048 Token), cache tidak akan terpicu saat menggunakan Claude Sonnet 4.6. Anda bisa memperkaya konten petunjuk sistem atau menggabungkan definisi alat untuk mencapai ambang batas minimum. Pemanggilan melalui APIYI (apiyi.com) juga mendukung cache dengan tarif yang lebih kompetitif.


Anthropic API vs AWS Bedrock: Perbandingan Penagihan Cache

Perbandingan Dukungan Cache di Tiga Platform Utama

Cache Prompt Claude didukung di API resmi Anthropic, AWS Bedrock, dan Google Vertex AI, namun terdapat perbedaan detail:

Dimensi Perbandingan API Resmi Anthropic AWS Bedrock Google Vertex AI
TTL 5 Menit ✅ Semua model ✅ Semua model ✅ Semua model
TTL 1 Jam ✅ Semua model ✅ Model tertentu (Opus 4.5, Sonnet 4.5, Haiku 4.5) ✅ Didukung
Biaya Tambahan (5 Menit) 1,25x ~1,25x 1,25x
Biaya Tambahan (1 Jam) 2,0x 2,0x 2,0x
Diskon Baca 0,1x ~0,1x 0,1x
Breakpoint Maksimum 4 4 4
Cache Otomatis ✅ Didukung ✅ Didukung ✅ Didukung
Kustomisasi TTL ✅ Opsional 5 menit/1 jam ✅ Opsional (model tertentu) ✅ Opsional

Penjelasan Perbedaan Utama Antar Platform

API Resmi Anthropic: Fitur cache paling lengkap, semua model mendukung opsi TTL 5 menit dan 1 jam. Sejak 5 Februari 2026, isolasi cache diubah dari tingkat organisasi ke tingkat ruang kerja (workspace), sehingga cache antar ruang kerja dalam organisasi yang sama menjadi independen.

AWS Bedrock: Mengumumkan dukungan TTL 1 jam pada Januari 2026, namun terbatas pada model tertentu seperti Claude Opus 4.5, Sonnet 4.5, dan Haiku 4.5. Dukungan TTL 1 jam untuk Claude Sonnet 4.6 dan Opus 4.6 terbaru di Bedrock perlu dikonfirmasi kembali. Jika Anda menghubungkan Claude Code ke Bedrock, perhatikan pengaturan kompatibilitas CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS=1.

Google Vertex AI: Fitur cache pada dasarnya sama dengan API resmi, namun memerlukan autentikasi dan penagihan melalui proyek Google Cloud.

🎯 Saran Pemilihan Platform: Jika Anda tidak ingin pusing dengan perbedaan platform dan konfigurasi kompatibilitas, menggunakan antarmuka terpadu APIYI (apiyi.com) adalah solusi paling sederhana—mendukung fitur cache lengkap tanpa perlu konfigurasi AWS IAM atau autentikasi Google Cloud secara terpisah.

Panduan Cepat Cache Petunjuk Claude Code

Contoh Minimalis: Mengatur Cache TTL 1 Jam

import anthropic

client = anthropic.Anthropic(
    api_key="YOUR_API_KEY",
    base_url="https://vip.apiyi.com/v1"
)

response = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=1024,
    system=[{
        "type": "text",
        "text": "Anda adalah asisten guru fisika profesional yang bertugas menjawab soal fisika SMA...(ini adalah petunjuk sistem yang panjang)",
        "cache_control": {"type": "ephemeral", "ttl": "1h"}
    }],
    messages=[{"role": "user", "content": "Jelaskan hukum ketiga Newton"}]
)
print(f"Token baca cache: {response.usage.cache_read_input_tokens}")
print(f"Token tulis cache: {response.usage.cache_creation_input_tokens}")

Lihat kode lengkap: Penggunaan campuran TTL 5 menit dan 1 jam
import anthropic

client = anthropic.Anthropic(
    api_key="YOUR_API_KEY",
    base_url="https://vip.apiyi.com/v1"
)

# TTL campuran: Petunjuk sistem 1 jam (jarang berubah), konteks percakapan 5 menit (sering berubah)
response = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=2048,
    system=[
        {
            "type": "text",
            "text": "Anda adalah konsultan teknologi AI profesional...(petunjuk sistem panjang, 2000+ Token)",
            "cache_control": {"type": "ephemeral", "ttl": "1h"}  # Petunjuk sistem 1 jam
        },
        {
            "type": "text",
            "text": "Berikut adalah konteks riwayat percakapan pengguna...(riwayat percakapan)",
            "cache_control": {"type": "ephemeral"}  # Konteks percakapan 5 menit (default)
        }
    ],
    messages=[{"role": "user", "content": "Bandingkan kemampuan penalaran Claude dan GPT"}]
)

# Cek penggunaan cache
usage = response.usage
print(f"Token input biasa: {usage.input_tokens}")
print(f"Token baca cache: {usage.cache_read_input_tokens}")
print(f"Token tulis cache: {usage.cache_creation_input_tokens}")

# Hitung penghematan biaya (contoh menggunakan Sonnet 4.6)
base_cost = (usage.input_tokens / 1_000_000) * 3
cache_cost = (usage.cache_read_input_tokens / 1_000_000) * 0.3
saved = (usage.cache_read_input_tokens / 1_000_000) * 2.7
print(f"Penghematan kali ini: ${saved:.4f}")

Batasan Penting: Saat mencampur dua jenis TTL dalam satu permintaan, konten dengan TTL 1 jam harus ditempatkan sebelum konten dengan TTL 5 menit, jika tidak, akan muncul error.

Saran: Saat memanggil API Claude melalui APIYI (apiyi.com), parameter cache_control didukung sepenuhnya, termasuk kebebasan memilih antara TTL 5 menit dan 1 jam.


TTL 5 Menit vs 1 Jam: Pilih yang Mana?

Tabel Keputusan Pemilihan

Skenario Penggunaan TTL yang Disarankan Alasan
Pemrograman Claude Code intensif (pesan per menit) 5 menit Timer diatur ulang otomatis setiap hit, tidak akan kedaluwarsa
Bot Layanan Pelanggan (jeda balasan < 5 menit) 5 menit Biaya tulis rendah (1,25x), hit frekuensi tinggi
Agen Analisis Dokumen (jeda pemrosesan 5-60 menit) 1 jam Mencegah penulisan ulang akibat cache kedaluwarsa
Tugas Batch Terjadwal (setiap 30 menit) 1 jam TTL 5 menit pasti kedaluwarsa, 1 jam mencakup durasi
Pemanggilan API frekuensi rendah (jeda > 1 jam) Tanpa cache Keduanya akan kedaluwarsa, membuang biaya tulis
Petunjuk Sistem (hampir tidak berubah) 1 jam Tulis sekali, baca berkali-kali
Riwayat Percakapan (berubah setiap putaran) 5 menit Biaya tulis rendah lebih hemat untuk perubahan sering

Rumus Perhitungan Biaya

Untuk menentukan apakah cache menguntungkan, gunakan rumus inti berikut:

Syarat balik modal TTL 5 menit: Konten cache dibaca minimal 1 kali dalam 5 menit

  • Biaya tulis: 1,25x → tambahan 0,25x
  • Penghematan baca: hemat 0,9x per baca
  • Balik modal setelah 1 kali baca (0,9 > 0,25)

Syarat balik modal TTL 1 jam: Konten cache dibaca minimal 2 kali dalam 1 jam

  • Biaya tulis: 2,0x → tambahan 1,0x
  • Penghematan baca: hemat 0,9x per baca
  • Balik modal setelah 2 kali baca (0,9 × 2 = 1,8 > 1,0)

claude-code-prompt-caching-ttl-pricing-guide-id 图示


Pertanyaan Umum

Q1: Bisakah saya mengubah TTL 5 menit menjadi 1 jam di Claude Code?

Alat CLI Claude Code sendiri tidak mendukung modifikasi TTL secara manual oleh pengguna. Pengguna langganan Max secara otomatis mendapatkan TTL 1 jam (dikontrol oleh feature flag di sisi server), sementara pengguna Pro dan kunci API tetap pada TTL 5 menit. Jika Anda membutuhkan TTL 1 jam namun tidak ingin meningkatkan ke langganan Max, Anda bisa langsung melakukan pemanggilan melalui API (atur cache_control.ttl: "1h") pada platform seperti APIYI apiyi.com dengan sistem bayar per penggunaan.

Q2: Apakah TTL 5 menit akan kedaluwarsa tepat setelah 5 menit? Atau diperpanjang secara otomatis?

TTL 5 menit akan mengatur ulang pengatur waktu secara otomatis setiap kali terjadi cache hit. Jika Anda mengirim pesan setiap 1-2 menit (seperti dalam percakapan pemrograman Claude Code), pengatur waktu akan terus diatur ulang dan cache tidak akan pernah kedaluwarsa. Cache hanya akan kedaluwarsa jika Anda tidak mengirim pesan selama 5 menit berturut-turut. Jadi, untuk skenario penggunaan frekuensi tinggi, TTL 5 menit sudah sangat mencukupi.

Q3: Apakah penagihan *cache* di AWS Bedrock sama dengan API resmi Anthropic?

Secara garis besar sama, namun ada sedikit perbedaan:

  • Biaya penulisan (write premium) keduanya adalah ~1,25x (5 menit) dan ~2,0x (1 jam)
  • Diskon pembacaan (read discount) keduanya adalah ~0,1x
  • Perbedaan: TTL 1 jam di Bedrock saat ini hanya mendukung beberapa model seperti Opus 4.5, Sonnet 4.5, dan Haiku 4.5; untuk seri model 4.6 terbaru perlu dikonfirmasi kembali.
  • Melalui APIYI apiyi.com, Anda bisa mendapatkan dukungan cache lengkap yang konsisten dengan API resmi.

Kesimpulan

Poin utama mengenai TTL cache pada Claude Prompt:

  1. Dua opsi TTL: 5 menit (penulisan 1,25x, balik modal setelah 1x baca) dan 1 jam (penulisan 2x, balik modal setelah 2x baca), dengan biaya baca tetap 0,1x.
  2. Claude Code CLI tidak bisa mengubah TTL: Langganan Max otomatis 1 jam, Pro/kunci API tetap 5 menit; hanya bisa dimatikan, tidak bisa diganti.
  3. Claude API bisa dipilih dengan bebas: Atur melalui parameter cache_control.ttl, satu permintaan bisa mencampur dua jenis TTL.
  4. Gunakan 5 menit untuk percakapan frekuensi tinggi: Setiap hit akan memperpanjang durasi, biaya penulisan lebih murah; gunakan 1 jam untuk penggunaan berkala agar tidak kedaluwarsa.

Cache hit = biaya input diskon 90%, ini adalah mekanisme penghematan biaya paling utama di Claude. Disarankan untuk menggunakan antarmuka terpadu APIYI apiyi.com yang mendukung konfigurasi cache secara lengkap. Cukup dengan satu kunci API, Anda bisa menguji perbedaan biaya aktual dari berbagai strategi TTL.

📚 Referensi

  1. Dokumentasi Resmi Anthropic – Prompt Caching: Sumber otoritatif untuk konfigurasi TTL, aturan penagihan, dan sintaks cache_control.

    • Tautan: platform.claude.com/docs/en/build-with-claude/prompt-caching
    • Penjelasan: Rumus penagihan lengkap dan contoh kode untuk TTL 5 menit/1 jam.
  2. Dokumentasi Resmi Anthropic – Harga: Harga dasar dan harga cache untuk semua model.

    • Tautan: platform.claude.com/docs/en/about-claude/pricing
    • Penjelasan: Tarif penulisan dan pembacaan cache untuk model Opus/Sonnet/Haiku.
  3. Dokumentasi Resmi AWS – Bedrock Prompt Caching: Detail dukungan cache untuk platform Bedrock.

    • Tautan: docs.aws.amazon.com/bedrock/latest/userguide/prompt-caching.html
    • Penjelasan: Rentang dukungan TTL dan standar penagihan untuk berbagai model di Bedrock.
  4. Claude Code Camp – Cara Kerja Prompt Caching: Analisis mendalam tentang implementasi cache pada Claude Code.

    • Tautan: claudecodecamp.com/p/how-prompt-caching-actually-works-in-claude-code
    • Penjelasan: Memahami bagaimana Claude Code mengelola titik henti (breakpoint) cache secara otomatis.
  5. GitHub Issue #19436 – Permintaan Fitur TTL Cache Berlapis: Diskusi komunitas mengenai konfigurasi TTL yang lebih fleksibel.

    • Tautan: github.com/anthropics/claude-code/issues/19436
    • Penjelasan: Solusi TTL berlapis berdasarkan frekuensi perubahan konten yang diusulkan oleh komunitas.

Penulis: Tim Teknis APIYI
Diskusi Teknis: Mari berdiskusi di kolom komentar mengenai pengalaman konfigurasi cache Claude. Untuk tutorial pemanggilan model lainnya, silakan kunjungi pusat dokumentasi APIYI di docs.apiyi.com.

Tinggalkan komentar