Panduan Optimasi Kecepatan Respons Gemini 3 Flash Preview: 5 Tip Konfigurasi Parameter Kunci

Waktu respons yang lama saat memanggil model Gemini 3 Flash Preview adalah tantangan yang sering dihadapi oleh para pengembang. Artikel ini akan membahas teknik konfigurasi parameter kunci seperti timeout, max_tokens, dan thinking_level untuk membantu Anda menguasai metode praktis dalam mengoptimalkan kecepatan respons Gemini 3 Flash Preview.

Nilai Inti: Setelah membaca artikel ini, Anda akan belajar cara mengontrol waktu respons Gemini 3 Flash Preview melalui konfigurasi parameter yang tepat, sehingga kecepatan respons meningkat secara signifikan sambil tetap menjaga kualitas output.

Analisis Penyebab Lamanya Waktu Respons Gemini 3 Flash Preview

Sebelum mendalami teknik optimasi, kita perlu memahami mengapa Gemini 3 Flash Preview terkadang membutuhkan waktu respons yang cukup lama.

Mekanisme Thinking Token (Token Berpikir)

Gemini 3 Flash Preview mengadopsi mekanisme berpikir dinamis, yang merupakan alasan utama di balik lamanya waktu respons:

Faktor Pengaruh	Penjelasan	Dampak pada Waktu Respons
Tugas Penalaran Kompleks	Pertanyaan yang melibatkan penalaran logika membutuhkan lebih banyak Thinking Token	Meningkatkan waktu respons secara signifikan
Kedalaman Berpikir Dinamis	Model menyesuaikan jumlah pemikiran secara otomatis berdasarkan kompleksitas pertanyaan	Cepat untuk masalah sederhana, lambat untuk masalah kompleks
Output Non-Streaming	Dalam mode non-streaming, harus menunggu seluruh pembuatan selesai	Waktu tunggu keseluruhan lebih lama
Jumlah Token Output	Semakin banyak konten pelengkap, semakin lama waktu pembuatan	Meningkatkan waktu respons secara linear

Berdasarkan data pengujian dari Artificial Analysis, jumlah token yang digunakan Gemini 3 Flash Preview pada tingkat pemikiran tertinggi bisa mencapai sekitar 160 juta, lebih dari dua kali lipat Gemini 2.5 Flash. Ini berarti pada tugas-tugas kompleks, model akan mengonsumsi banyak "waktu berpikir".

Analisis Kasus Nyata

Dari umpan balik pengguna, ketika tugas memerlukan kecepatan respons namun tidak memerlukan akurasi yang terlalu tinggi, konfigurasi default Gemini 3 Flash Preview mungkin tidak ideal:

"Karena tugas memerlukan kecepatan respons, dan akurasi tidak terlalu menjadi prioritas, namun penalaran gemini-3-flash-preview sangat lama."

Akar penyebab dari situasi ini adalah:

Model secara default menggunakan pemikiran dinamis dan akan melakukan penalaran mendalam secara otomatis.
Jumlah token pelengkap (completion) mungkin mencapai 7000+.
Masih perlu mempertimbangkan tambahan Thinking Token yang dikonsumsi selama proses penalaran.

Poin Penting Optimasi Kecepatan Respons Gemini 3 Flash Preview

Poin Optimasi	Penjelasan	Efek yang Diharapkan
Mengatur thinking_level	Mengontrol kedalaman berpikir model	Mengurangi waktu respons sebesar 30-70%
Membatasi max_tokens	Mengontrol panjang output	Mengurangi waktu pembuatan (generasi)
Menyesuaikan timeout	Mengatur waktu timeout yang masuk akal	Menghindari permintaan terpotong
Menggunakan output streaming	Mengembalikan hasil saat sedang dibuat	Meningkatkan pengalaman pengguna
Memilih skenario yang tepat	Gunakan tingkat pemikiran rendah untuk tugas sederhana	Peningkatan efisiensi secara keseluruhan

Detail Parameter thinking_level

Gemini 3 memperkenalkan parameter thinking_level, yang merupakan konfigurasi paling krusial untuk mengontrol kecepatan respons:

thinking_level	Skenario Penggunaan	Kecepatan Respons	Kualitas Penalaran
minimal	Percakapan sederhana, respons cepat	Paling cepat ⚡	Dasar
low	Tugas harian, penalaran ringan	Cepat	Baik
medium	Tugas dengan kompleksitas menengah	Menengah	Lebih baik
high	Penalaran kompleks, analisis mendalam	Lambat	Terbaik

🎯 Saran Teknis: Jika tugas Anda tidak memerlukan akurasi tinggi namun butuh respons cepat, disarankan untuk mengatur thinking_level ke minimal atau low. Kami menyarankan untuk melakukan pengujian perbandingan berbagai thinking_level melalui platform APIYI apiyi.com untuk menemukan konfigurasi yang paling cocok dengan skenario bisnis Anda.

Strategi Konfigurasi Parameter max_tokens

Membatasi max_tokens dapat secara efektif mengontrol panjang output, sehingga mengurangi waktu respons:

Jumlah Token Output → Berpengaruh langsung pada waktu generasi
Semakin banyak jumlah Token → Semakin lama waktu respons

Saran Konfigurasi:

Skenario jawaban sederhana: Atur max_tokens ke 500-1000
Pembuatan konten menengah: Atur max_tokens ke 2000-4000
Output konten lengkap: Atur sesuai kebutuhan, namun perhatikan risiko timeout

⚠️ Catatan: Pengaturan max_tokens yang terlalu pendek akan menyebabkan output terpotong dan memengaruhi kelengkapan jawaban. Anda perlu menyeimbangkan antara kecepatan dan kelengkapan berdasarkan kebutuhan bisnis yang sebenarnya.

Panduan Cepat Optimasi Kecepatan Respons Gemini 3 Flash Preview

Contoh Sederhana

import openai

client = openai.OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://api.apiyi.com/v1"  # Menggunakan antarmuka terpadu APIYI
)

# Konfigurasi prioritas kecepatan
response = client.chat.completions.create(
    model="gemini-3-flash-preview",
    messages=[{"role": "user", "content": "简单介绍一下人工智能"}],
    max_tokens=1000,  # Membatasi panjang output
    extra_body={
        "thinking_level": "minimal"  # Kedalaman berpikir minimal, respons paling cepat
    },
    timeout=30  # Mengatur timeout 30 detik
)
print(response.choices[0].message.content)

Lihat Kode Lengkap – Termasuk Berbagai Skenario Konfigurasi

import openai
from typing import Literal

def create_gemini_client(api_key: str):
    """Membuat klien Gemini 3 Flash"""
    return openai.OpenAI(
        api_key=api_key,
        base_url="https://api.apiyi.com/v1"  # Menggunakan antarmuka terpadu APIYI
    )

def call_gemini_optimized(
    client: openai.OpenAI,
    prompt: str,
    thinking_level: Literal["minimal", "low", "medium", "high"] = "low",
    max_tokens: int = 2000,
    timeout: int = 60,
    stream: bool = False
):
    """
    Pemanggilan Gemini 3 Flash dengan konfigurasi yang dioptimalkan

    Parameter:
        client: Klien OpenAI
        prompt: Input pengguna
        thinking_level: Kedalaman berpikir (minimal/low/medium/high)
        max_tokens: Jumlah Token output maksimum
        timeout: Waktu timeout (detik)
        stream: Apakah menggunakan output streaming
    """

    params = {
        "model": "gemini-3-flash-preview",
        "messages": [{"role": "user", "content": prompt}],
        "max_tokens": max_tokens,
        "stream": stream,
        "extra_body": {
            "thinking_level": thinking_level
        },
        "timeout": timeout
    }

    if stream:
        # Output streaming - Meningkatkan pengalaman pengguna
        response = client.chat.completions.create(**params)
        full_content = ""
        for chunk in response:
            if chunk.choices[0].delta.content:
                content = chunk.choices[0].delta.content
                print(content, end="", flush=True)
                full_content += content
        print()  # Baris baru
        return full_content
    else:
        # Output non-streaming - Mengembalikan hasil sekaligus
        response = client.chat.completions.create(**params)
        return response.choices[0].message.content

# Contoh penggunaan
if __name__ == "__main__":
    client = create_gemini_client("YOUR_API_KEY")

    # Skenario 1: Prioritas kecepatan - Tanya jawab sederhana
    print("=== Konfigurasi Prioritas Kecepatan ===")
    result = call_gemini_optimized(
        client,
        prompt="用一句话解释什么是机器学习",
        thinking_level="minimal",
        max_tokens=500,
        timeout=15
    )
    print(f"Jawaban: {result}\n")

    # Skenario 2: Konfigurasi seimbang - Tugas harian
    print("=== Konfigurasi Seimbang ===")
    result = call_gemini_optimized(
        client,
        prompt="列出 5 个 Python 数据处理的最佳实践",
        thinking_level="low",
        max_tokens=1500,
        timeout=30
    )
    print(f"Jawaban: {result}\n")

    # Skenario 3: Prioritas kualitas - Analisis kompleks
    print("=== Konfigurasi Prioritas Kualitas ===")
    result = call_gemini_optimized(
        client,
        prompt="分析 Transformer 架构的核心创新点及其对 NLP 的影响",
        thinking_level="high",
        max_tokens=4000,
        timeout=120
    )
    print(f"Jawaban: {result}\n")

    # Skenario 4: Output streaming - Meningkatkan pengalaman
    print("=== Output Streaming ===")
    result = call_gemini_optimized(
        client,
        prompt="介绍 Gemini 3 Flash 的主要特点",
        thinking_level="low",
        max_tokens=2000,
        timeout=60,
        stream=True
    )

🚀 Mulai Cepat: Direkomendasikan menggunakan platform APIYI apiyi.com untuk menguji berbagai konfigurasi parameter dengan cepat. Platform ini menyediakan antarmuka API yang siap pakai, mendukung model-model populer seperti Gemini 3 Flash Preview, memudahkan verifikasi hasil optimasi dengan cepat.

Detail Konfigurasi Parameter Optimasi Kecepatan Respons Gemini 3 Flash Preview

Konfigurasi timeout (Waktu Habis)

Saat menggunakan Gemini 3 Flash Preview untuk penalaran yang kompleks, waktu habis (timeout) default mungkin tidak cukup. Berikut adalah strategi konfigurasi timeout yang direkomendasikan:

Tipe Tugas	Rekomendasi timeout	Penjelasan
Tanya Jawab Sederhana	15-30 detik	Dipadukan dengan thinking_level minimal
Tugas Harian	30-60 detik	Dipadukan dengan thinking_level low/medium
Analisis Kompleks	60-120 detik	Dipadukan dengan thinking_level high
Generasi Teks Panjang	120-180 detik	Skenario dengan output Token dalam jumlah besar

Tip Kunci:

Dalam mode output non-streaming, Anda harus menunggu seluruh konten selesai dibuat sebelum hasilnya dikembalikan.
Jika timeout diatur terlalu singkat, permintaan mungkin akan terputus.
Disarankan untuk menyesuaikan secara dinamis berdasarkan jumlah output Token aktual dan thinking_level.

Migrasi thinking_level dari thinking_budget Versi Lama

Google merekomendasikan migrasi dari parameter thinking_budget versi lama ke thinking_level versi baru:

thinking_budget Versi Lama	thinking_level Versi Baru	Penjelasan Migrasi
0	minimal	Pemikiran minimal, perhatikan masih perlu menangani tanda tangan pemikiran
1-1000	low	Pemikiran ringan
1001-5000	medium	Pemikiran sedang
5001+	high	Pemikiran mendalam

⚠️ Perhatian: Jangan gunakan thinking_budget dan thinking_level secara bersamaan dalam satu permintaan, karena ini akan menyebabkan perilaku yang tidak terduga.

Solusi Konfigurasi Berdasarkan Skenario Optimasi Kecepatan Respons Gemini 3 Flash Preview

Skenario 1: Tugas Sederhana Frekuensi Tinggi (Prioritas Kecepatan)

Cocok untuk chatbot, tanya jawab cepat, ringkasan konten, dan skenario lain yang sensitif terhadap latensi:

# Konfigurasi prioritas kecepatan
config_speed_first = {
    "thinking_level": "minimal",
    "max_tokens": 500,
    "timeout": 15,
    "stream": True  # Output streaming untuk meningkatkan pengalaman
}

Efek yang Diharapkan:

Waktu respons: 1-5 detik
Cocok untuk percakapan sederhana dan balasan cepat

Skenario 2: Tugas Bisnis Harian (Konfigurasi Seimbang)

Cocok untuk pembuatan konten, bantuan kode, pemrosesan dokumen, dan tugas rutin lainnya:

# Konfigurasi seimbang
config_balanced = {
    "thinking_level": "low",
    "max_tokens": 2000,
    "timeout": 45,
    "stream": True
}

Efek yang Diharapkan:

Waktu respons: 5-20 detik
Keseimbangan yang baik antara kualitas dan kecepatan

Skenario 3: Tugas Analisis Kompleks (Prioritas Kualitas)

Cocok untuk analisis data, desain solusi teknis, penelitian mendalam, dan skenario lain yang memerlukan penalaran mendalam:

# Konfigurasi prioritas kualitas
config_quality_first = {
    "thinking_level": "high",
    "max_tokens": 8000,
    "timeout": 180,
    "stream": True  # Disarankan menggunakan streaming untuk tugas panjang
}

Efek yang Diharapkan:

Waktu respons: 30-120 detik
Kualitas penalaran terbaik

Tabel Keputusan Pemilihan Konfigurasi

Kebutuhan Anda	thinking_level Rekomendasi	max_tokens Rekomendasi	timeout Rekomendasi
Balasan cepat, pertanyaan sederhana	minimal	500-1000	15-30s
Tugas harian, kualitas umum	low	1500-2500	30-60s
Kualitas sangat baik, bisa menunggu	medium	2500-4000	60-90s
Kualitas terbaik, tugas kompleks	high	4000-8000	120-180s

💡 Saran Pemilihan: Pilihan konfigurasi mana yang akan digunakan sangat bergantung pada skenario aplikasi spesifik dan persyaratan kualitas Anda. Kami menyarankan untuk melakukan pengujian aktual melalui platform APIYI apiyi.com untuk membuat pilihan yang paling sesuai dengan kebutuhan Anda. Platform ini mendukung panggilan antarmuka terpadu untuk Gemini 3 Flash Preview, memudahkan perbandingan cepat efek dari berbagai konfigurasi.

Teknik Lanjutan Optimasi Kecepatan Respons Gemini 3 Flash Preview

Teknik 1: Gunakan Output Streaming untuk Meningkatkan Pengalaman Pengguna

Meskipun total waktu respons tidak berubah, output streaming dapat secara signifikan meningkatkan pengalaman yang dirasakan pengguna:

# 流式输出示例
response = client.chat.completions.create(
    model="gemini-3-flash-preview",
    messages=[{"role": "user", "content": prompt}],
    stream=True,
    extra_body={"thinking_level": "low"}
)

for chunk in response:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)

Keunggulan:

Pengguna dapat segera melihat hasil sebagian.
Mengurangi "kecemasan saat menunggu".
Dapat memutuskan apakah akan melanjutkan selama proses pembuatan.

Teknik 2: Sesuaikan Parameter Secara Dinamis Berdasarkan Kompleksitas Input

def estimate_complexity(prompt: str) -> str:
    """根据 prompt 特征估算任务复杂度"""
    indicators = {
        "high": ["分析", "对比", "为什么", "原理", "深入", "详细解释"],
        "medium": ["如何", "步骤", "方法", "介绍"],
        "low": ["是什么", "简单", "快速", "一句话"]
    }

    prompt_lower = prompt.lower()

    for level, keywords in indicators.items():
        if any(kw in prompt_lower for kw in keywords):
            return level

    return "low"  # 默认低复杂度

def get_optimized_config(prompt: str) -> dict:
    """根据 prompt 获取优化配置"""
    complexity = estimate_complexity(prompt)

    configs = {
        "low": {"thinking_level": "minimal", "max_tokens": 1000, "timeout": 20},
        "medium": {"thinking_level": "low", "max_tokens": 2500, "timeout": 45},
        "high": {"thinking_level": "medium", "max_tokens": 4000, "timeout": 90}
    }

    return configs.get(complexity, configs["low"])

Teknik 3: Implementasi Mekanisme Retry Permintaan

Untuk masalah timeout yang jarang terjadi, Anda dapat mengimplementasikan retry yang cerdas:

import time
from typing import Optional

def call_with_retry(
    client,
    prompt: str,
    max_retries: int = 3,
    initial_timeout: int = 30
) -> Optional[str]:
    """带重试机制的调用"""

    for attempt in range(max_retries):
        try:
            timeout = initial_timeout * (attempt + 1)  # 递增超时

            response = client.chat.completions.create(
                model="gemini-3-flash-preview",
                messages=[{"role": "user", "content": prompt}],
                max_tokens=2000,
                timeout=timeout,
                extra_body={"thinking_level": "low"}
            )
            return response.choices[0].message.content

        except Exception as e:
            print(f"尝试 {attempt + 1} 失败: {e}")
            if attempt < max_retries - 1:
                time.sleep(2 ** attempt)  # 指数退避
            continue

    return None

Data Referensi Performa Gemini 3 Flash Preview

Berdasarkan data pengujian dari Artificial Analysis, performa Gemini 3 Flash Preview adalah sebagai berikut:

Metrik Performa	Nilai	Penjelasan
Throughput Mentah	218 token/detik	Kecepatan output
Dibandingkan dengan 2.5 Flash	Lebih lambat 22%	Karena adanya penambahan kemampuan penalaran
Dibandingkan dengan GPT-5.1 high	Lebih cepat 74%	125 token/detik
Dibandingkan dengan DeepSeek V3.2	Lebih cepat 627%	30 token/detik
Harga Input	$0.50/1 jt token
Harga Output	$3.00/1 jt token

Keseimbangan Performa dan Biaya

Skema Konfigurasi	Kecepatan Respons	Konsumsi Token	Efektivitas Biaya
minimal thinking	Tercepat	Terendah	Tertinggi
low thinking	Cepat	Rendah	Tinggi
medium thinking	Sedang	Sedang	Sedang
high thinking	Lambat	Tinggi	Pilih saat mengutamakan kualitas

💰 Optimasi Biaya: Untuk proyek yang sensitif terhadap anggaran, kamu bisa mempertimbangkan untuk memanggil Gemini 3 Flash Preview API melalui platform APIYI apiyi.com. Platform ini menawarkan metode penagihan yang fleksibel, dan jika dikombinasikan dengan teknik optimasi kecepatan dalam artikel ini, kamu bisa mendapatkan rasio performa-biaya (value for money) terbaik sambil tetap mengontrol pengeluaran.

Tanya Jawab Umum Optimasi Kecepatan Respons Gemini 3 Flash Preview

Q1: Mengapa respons masih lambat padahal sudah mengatur batasan max_tokens?

max_tokens hanya membatasi panjang output, bukan proses berpikir model. Jika respons lambat terutama karena waktu berpikir yang lama, kamu perlu mengatur parameter thinking_level ke minimal atau low. Selain itu, melalui platform APIYI apiyi.com, kamu bisa mendapatkan layanan API yang stabil, yang jika dipadukan dengan teknik konfigurasi parameter di artikel ini, akan efektif meningkatkan kecepatan respons.

Q2: Apakah mengatur thinking_level ke minimal akan memengaruhi kualitas jawaban?

Akan ada sedikit pengaruh, tetapi untuk tugas-tugas sederhana dampaknya tidak besar. Level minimal cocok untuk skenario seperti tanya jawab cepat atau percakapan sederhana. Jika tugas melibatkan penalaran logika yang kompleks, disarankan untuk menggunakan level low atau medium. Kamu bisa melakukan pengujian A/B melalui platform APIYI apiyi.com untuk membandingkan kualitas output pada berbagai thinking_level guna menemukan titik keseimbangan yang paling sesuai dengan kebutuhan bisnismu.

Q3: Mana yang lebih cepat, output streaming atau non-streaming?

Total waktu pembuatan (generation time) sebenarnya sama, tetapi output streaming memberikan pengalaman pengguna yang lebih baik. Dalam mode streaming, pengguna bisa langsung melihat sebagian hasil, sementara mode non-streaming mengharuskan pengguna menunggu sampai seluruh teks selesai dibuat. Untuk tugas dengan waktu pembuatan yang lama, sangat direkomendasikan untuk menggunakan output streaming.

Q4: Bagaimana cara menentukan berapa lama timeout harus diatur?

Timeout sebaiknya diatur berdasarkan estimasi panjang output dan thinking_level:

minimal + 1000 token: 15-30 detik
low + 2000 token: 30-60 detik
medium + 4000 token: 60-90 detik
high + 8000 token: 120-180 detik

Disarankan untuk menguji waktu respons aktual dengan timeout yang lebih panjang terlebih dahulu, lalu sesuaikan berdasarkan hasil tersebut.

Q5: Apakah parameter lama thinking_budget masih bisa digunakan?

Masih bisa digunakan, tetapi Google merekomendasikan migrasi ke parameter thinking_level untuk mendapatkan performa yang lebih terprediksi. Perlu diingat untuk tidak menggunakan kedua parameter tersebut secara bersamaan dalam satu permintaan. Jika sebelumnya kamu menggunakan thinking_budget=0, saat migrasi sebaiknya atur thinking_level="minimal".

Kesimpulan

Inti dari optimalisasi kecepatan respons Gemini 3 Flash Preview terletak pada konfigurasi yang tepat dari tiga parameter kunci:

thinking_level: Pilih kedalaman berpikir yang sesuai berdasarkan kompleksitas tugas.
max_tokens: Batasi jumlah Token berdasarkan panjang output yang diharapkan.
timeout: Atur timeout yang masuk akal berdasarkan thinking_level dan volume output.

Untuk skenario di mana "tugas memiliki tuntutan kecepatan waktu respons yang tinggi, namun tidak memerlukan akurasi yang terlalu tinggi", konfigurasi yang direkomendasikan adalah:

thinking_level: minimal atau low
max_tokens: Atur sesuai kebutuhan aktual, hindari pengaturan yang terlalu panjang.
timeout: Sesuaikan sebagaimana mestinya untuk menghindari pemutusan (truncated).
stream: True (meningkatkan pengalaman pengguna).

Direkomendasikan untuk menggunakan APIYI apiyi.com guna menguji berbagai kombinasi parameter dengan cepat dan menemukan solusi konfigurasi yang paling sesuai untuk skenario bisnis Anda.

Kata Kunci: Gemini 3 Flash Preview, optimalisasi kecepatan respons, thinking_level, max_tokens, konfigurasi timeout, optimalisasi panggilan API

Referensi:

Dokumentasi Resmi Google AI: ai.google.dev/gemini-api/docs/gemini-3
Google DeepMind: deepmind.google/models/gemini/flash/
Uji Performa Artificial Analysis: artificialanalysis.ai/articles/gemini-3-flash-everything-you-need-to-know

Artikel ini ditulis oleh tim teknis APIYI Team. Untuk tips penggunaan model AI lainnya, silakan kunjungi help.apiyi.com

Analisis Penyebab Lamanya Waktu Respons Gemini 3 Flash Preview

Mekanisme Thinking Token (Token Berpikir)

Analisis Kasus Nyata

Poin Penting Optimasi Kecepatan Respons Gemini 3 Flash Preview

Detail Parameter thinking_level

Strategi Konfigurasi Parameter max_tokens

Panduan Cepat Optimasi Kecepatan Respons Gemini 3 Flash Preview

Contoh Sederhana

Detail Konfigurasi Parameter Optimasi Kecepatan Respons Gemini 3 Flash Preview

Konfigurasi timeout (Waktu Habis)

Migrasi thinking_level dari thinking_budget Versi Lama

Solusi Konfigurasi Berdasarkan Skenario Optimasi Kecepatan Respons Gemini 3 Flash Preview

Skenario 1: Tugas Sederhana Frekuensi Tinggi (Prioritas Kecepatan)

Skenario 2: Tugas Bisnis Harian (Konfigurasi Seimbang)

Skenario 3: Tugas Analisis Kompleks (Prioritas Kualitas)

Tabel Keputusan Pemilihan Konfigurasi

Teknik Lanjutan Optimasi Kecepatan Respons Gemini 3 Flash Preview

Teknik 1: Gunakan Output Streaming untuk Meningkatkan Pengalaman Pengguna

Teknik 2: Sesuaikan Parameter Secara Dinamis Berdasarkan Kompleksitas Input

Teknik 3: Implementasi Mekanisme Retry Permintaan

Data Referensi Performa Gemini 3 Flash Preview

Keseimbangan Performa dan Biaya

Tanya Jawab Umum Optimasi Kecepatan Respons Gemini 3 Flash Preview

Kesimpulan

Tinggalkan komentar Batalkan balasan