Uji Coba Penurunan Kemampuan Menulis Claude Opus 4.7: 7 Skenario yang Membuktikan Mengapa Ia Tidak Lagi ‘Berbicara Seperti Manusia

Claude Opus 4.7 baru saja dirilis dua hari lalu, namun diskusi mengenai "penurunan kemampuan menulis"-nya sudah meledak di Hacker News dengan postingan yang sangat populer—judulnya langsung berbunyi "Opus 4.7 is horrible at writing". Di bawah postingan tersebut, banyak pengembang dan pengguna yang berkecimpung di bidang penulisan akademik mengonfirmasi: kemampuan bahasa Mandarin terlihat menurun drastis, dan ekspresi bahasa Inggris pun ikut terpuruk.

Yang lebih krusial, perubahan "tidak bisa bicara seperti manusia" ini bukanlah sekadar ilusi, melainkan penyesuaian gaya yang memang disengaja oleh Anthropic. Dokumentasi resmi Anthropic secara eksplisit menyatakan: Opus 4.7 "lebih lugas, lebih tegas, mengurangi frasa yang bersifat persetujuan, dan lebih jarang menggunakan emoji" dibandingkan versi 4.6—desain gaya yang sengaja dibuat untuk melayani "pengodean agen" ini akhirnya mengorbankan skenario penulisan umum secara telak.

Artikel ini didasarkan pada data gaya resmi, umpan balik langsung dari Hacker News, dan pengujian aktual pada 7 skenario penulisan, untuk membedah secara mendalam penyebab utama penurunan kemampuan menulis Claude Opus 4.7, serta memberikan tiga solusi perbaikan yang bisa langsung digunakan.

Nilai Utama: Setelah membaca artikel ini, Anda akan memahami dengan jelas—mengapa tulisan 4.7 "terasa seperti robot", dan bagaimana menggunakan tiga tindakan untuk mengembalikan kualitas tulisan Anda ke level 4.6.

claude-opus-4-7-writing-quality-regression-id 图示

Konsensus Komunitas tentang Penurunan Kemampuan Menulis Claude Opus 4.7

Dalam 48 jam setelah dirilis, umpan balik negatif mengenai kemampuan menulis 4.7 bermunculan secara masif di Hacker News, X, dan Threads. Kesamaan dari umpan balik ini adalah: ini bukan bug fungsi, melainkan perubahan sistematis pada gaya ekspresi model itu sendiri.

Umpan Balik Utama dari Postingan Populer Hacker News

Dalam diskusi "Opus 4.7 is horrible at writing" di Hacker News, berikut adalah kumpulan penilaian negatif paling khas dari pengguna penulisan nyata:

Umpan Balik Pengguna Skenario Penggunaan
"Sloppy, unprecise, very empty sentences" Menulis Tesis S2
"4.7 is unusually verbose" Dokumen Teknis
"Reaches ChatGPT levels of verbosity in code and loves to overcomplicate" Komentar Kode
"They tuned it so hard for logic and coding that it lost its soul for actual writing" Penulisan Kreatif
"Switched back to 4.6 and got exactly what I needed in seconds" Penulisan Sehari-hari

Poin ringkasan:

  • "Kalimat ceroboh, tidak tepat, dan kosong": Ini adalah keluhan paling fokus terhadap kualitas tulisan 4.7; banyak pengguna melaporkan bahwa model tersebut menumpuk kalimat yang tampak lengkap tetapi kosong isinya saat dibaca.
  • "Sangat bertele-tele": Dalam tugas yang sama, jumlah kata output 4.7 umumnya 30%-80% lebih banyak daripada 4.6, namun kepadatan informasinya justru menurun.
  • "Kehilangan jiwa": Ini adalah ringkasan yang emosional namun akurat—4.7 kehilangan irama alami dan kehangatan era 4.6.

Perubahan Gaya yang Diakui oleh Dokumentasi Resmi Anthropic

Anthropic sendiri tidak menyembunyikan perubahan gaya ini. Panduan Migrasi (Migration Guide) resmi menyatakan dengan jelas:

Claude Opus 4.7 is more direct and opinionated, with less validation-forward phrasing and fewer emoji than Opus 4.6. If your product depends on a warmer or more conversational voice, re-test those prompts rather than assuming the old baseline will hold.

Terjemahan: Opus 4.7 lebih lugas dan tegas, dengan frasa yang kurang bersifat validasi dan lebih sedikit emoji dibandingkan Opus 4.6. Jika produk Anda bergantung pada nada yang lebih hangat atau percakapan, silakan uji ulang petunjuk (prompt) Anda, jangan berasumsi bahwa basis lama masih berlaku.

Dengan kata lain, Anthropic tahu betul bahwa penyesuaian ini akan memengaruhi skenario penulisan, tetapi mereka tidak menyediakan sakelar untuk kembali ke gaya 4.6. Bagi banyak pengguna yang menganggap Claude sebagai "asisten penulisan AI", ini sama saja dengan dipaksa menerima penurunan kualitas gaya secara drastis.

🎯 Saran Perutean Skenario: Jika Anda menggunakan Claude untuk menulis sekaligus menulis kode, disarankan untuk melakukan perutean skenario antara 4.6 dan 4.7 melalui platform APIYI (apiyi.com). Platform ini mendukung satu kunci API untuk memanggil seluruh lini model Claude, sehingga menghindari perbedaan gaya yang drastis akibat peningkatan model yang dipukul rata.

Data Kuantitatif Gaya yang Diumumkan Resmi

Dalam analisis peninjauan kode Opus 4.7, Anthropic mengumumkan dua metrik utama:

  • Tingkat Penegasan (Assertiveness rate): 77,6%
  • Tingkat Pengamanan/Hedging (Hedging rate): 16,5%

Jika diubah menjadi pengalaman penggunaan: hampir 80% dari ekspresi 4.7 adalah kalimat tegas yang "langsung memberikan kesimpulan", dan hanya 16,5% yang menggunakan kata-kata lunak seperti "mungkin", "menyarankan", atau "barangkali". Gaya ini sangat cocok untuk peninjauan kode, perbaikan bug, dan skenario pengambilan keputusan teknis, tetapi jika digunakan dalam skenario penulisan, gaya ini berubah menjadi "kesan robot yang kaku".

Akar Masalah Penurunan Kemampuan Menulis Claude Opus 4.7

Untuk memahami penurunan performa kali ini, kita perlu melihatnya dari perubahan posisi produk yang dilakukan oleh Anthropic.

claude-opus-4-7-writing-quality-regression-id 图示

Alasan 1: Efek Samping Optimasi untuk "Coding Agent"

Target desain Opus 4.7 sangat jelas: memastikan siklus agen dapat menyelesaikan tugas multi-file berskala besar dengan stabil. Target ini menuntut model untuk memiliki kemampuan berikut:

  • Kepatuhan ketat pada instruksi literal dalam petunjuk (jangan berimprovisasi).
  • Pengambilan keputusan yang jelas dan langsung (jangan berbelit-belit).
  • Tetap waspada terhadap ketidakpastian (jangan "menebak maksud pengguna").
  • Mempertahankan gaya yang konsisten dalam siklus panjang (jangan mengubah nada suara sembarangan).

Keempat poin ini adalah keunggulan untuk tugas agen, tetapi menjadi penurunan performa menyeluruh untuk skenario penulisan:

Kemampuan Nilai bagi Agen Efek Samping pada Penulisan
Kepatuhan literal pada petunjuk ✅ Pemanggilan alat lebih akurat ❌ Instruksi samar seperti "tulis lebih menarik" gagal
Keputusan langsung tanpa berbelit ✅ Kesimpulan kode jelas ❌ Ekspresi kehilangan irama sastra
Tingkat asersi tinggi ✅ Opini ulasan lebih tegas ❌ Terbaca seperti laporan teknik
Gaya konsisten tanpa pindah ✅ Siklus agen stabil ❌ Tidak mampu meniru gaya penulis tertentu

Alasan 2: Kegagalan Implisit Akibat Literalitas Instruksi

Opus 4.7 menjalankan petunjuk secara jauh lebih "literal" daripada 4.6. Artinya:

Petunjuk era 4.6:
"Tolong tulis ulang teks ini dengan cara yang lebih menarik"
→ 4.6 secara otomatis memahami "menarik" berarti menambah irama, metafora, dan empati.
→ Output: Tulisan yang alami, mengalir, dan berjiwa.

Petunjuk yang sama di era 4.7:
"Tolong tulis ulang teks ini dengan cara yang lebih menarik"
→ 4.7 mengeksekusi secara ketat sesuai kata demi kata, tetapi tidak memahami batasan implisit dari "menarik".
→ Output: Penumpukan kata sifat, asersi kuat, mekanis "lebih langsung", justru malah terasa kaku.

Perubahan ini berarti bahwa semua petunjuk penulisan yang Anda kumpulkan di era 4.6 yang "mengandalkan intuisi model" kini gagal total, dan harus ditulis ulang menjadi batasan eksplisit.

Alasan 3: Output Bertele-tele Akibat Pengaturan Default xhigh

Claude Code menetapkan tingkat penalaran default ke xhigh. Perubahan ini dalam skenario penulisan tampak sebagai berikut:

  • Dengan petunjuk yang sama, jumlah Token berpikir 4.7 lebih tinggi 40%-80% dibanding 4.6.
  • "Jejak" proses berpikir sering merembes ke output akhir, menyebabkan kekacauan lapisan bahasa.
  • Gaya ekspresi cenderung "bertele-tele di awal, kesimpulan, lalu rekapitulasi", strukturnya seperti makalah bukan seperti bahasa manusia.

Seorang pengguna Hacker News menggambarkannya dengan sangat tepat: "4.7 menulis seperti pengacara magang yang selalu ingin membuktikan argumennya masuk akal, setiap paragraf harus saling merujuk dan berlapis—padahal Anda hanya memintanya menulis satu tweet."

Alasan 4: Dampak Berantai dari Restrukturisasi Tokenizer

Tokenizer baru Opus 4.7 memiliki strategi segmentasi kata yang sangat berbeda dengan 4.6 dalam skenario bahasa Mandarin dan multibahasa. Beberapa pengguna melaporkan masalah berikut pada output bahasa Mandarin:

  • Segmentasi frasa yang tidak alami (misalnya memecah "说人话" menjadi "说 人 话").
  • Frekuensi penggunaan idiom menurun (mungkin karena biaya segmentasi menjadi lebih tinggi).
  • Irama pemisahan kalimat panjang yang kaku (tanda baca dan posisi jeda kalimat tidak senatural 4.6).

Meskipun Anthropic tidak mengakui secara terbuka dampak Tokenizer terhadap gaya penulisan, masukan dari banyak pengguna bahasa Mandarin secara konsisten mengarah ke arah ini.

💡 Saran Pengujian: Jika Anda sangat bergantung pada Claude untuk penulisan bahasa Mandarin, sangat disarankan untuk melakukan perbandingan paralel antara 4.6 dan 4.7 melalui platform APIYI (apiyi.com). Platform ini mendukung pemanggilan antarmuka terpadu untuk berbagai model utama, sehingga memudahkan perbandingan dan peralihan dengan cepat.

Uji Coba Perbandingan Skenario Penulisan Claude Opus 4.7

Kami menggunakan 7 skenario penulisan tipikal untuk membandingkan kualitas output antara Opus 4.6 dan 4.7. Setiap skenario menggunakan petunjuk yang sama persis.

claude-opus-4-7-writing-quality-regression-id 图示

Penilaian Skenario Penulisan

Standar penilaian: Skala 10, semakin tinggi semakin baik. Untuk panjang teks, skor dibalik (semakin pendek semakin baik).

Skenario Penulisan Opus 4.6 Opus 4.7 Perubahan Evaluasi
Copywriting santai (Mandarin) 9 5 ↓↓ Penurunan drastis
Email bisnis (Mandarin) 8.5 7 Terasa kaku
Penulisan kreatif (Inggris) 8.5 6 ↓↓ Kehilangan ritme
Blog teknis (Inggris) 8 7.5 Sedikit menurun
Paragraf karya ilmiah 7.5 8 Peningkatan kecil
Pembuatan komentar kode 8 8.5 Lebih presisi
Copywriting peluncuran produk 8.5 6.5 ↓↓ Kehilangan daya tarik

Kesimpulan: Dari 7 skenario penulisan, Opus 4.7 mengalami penurunan di 5 skenario, stabil di 1 skenario, dan hanya meningkat sedikit di 2 skenario yang bersifat "teknis".

Skenario 1: Copywriting santai (Penurunan drastis)

Petunjuk: "Tulis caption Weibo yang santai dan menarik untuk merekomendasikan kopi baru."

Contoh gaya output 4.6:

Menemukan kopi baru, rasanya seperti ada yang menyentuh lembut setelah meminumnya. Bukan jenis yang membuatmu bersemangat secara instan, tapi memberikan kesegaran yang perlahan muncul. Tegukan pertama seperti kulit lemon, tegukan kedua baru terasa manisnya biji kopi. Cocok untuk sore hari di hari kerja.

Contoh gaya output 4.7:

Kopi ini memiliki performa yang luar biasa. Lapisan rasanya jelas, dengan profil rasa jeruk yang menonjol di awal, dan rasa manis biji kopi di bagian tengah. Sebagai minuman penyegar, kopi ini sangat praktis untuk dikonsumsi di sore hari. Layak dicoba.

Perbedaan rasa: 4.6 seperti teman yang sedang mengobrol, 4.7 seperti manajer produk yang sedang menulis dokumen kebutuhan.

Skenario 2: Email bisnis (Terasa kaku)

Petunjuk: "Tolong buatkan email penolakan kerja sama dengan rekan bisnis, dengan nada profesional namun tetap hangat."

4.6 akan secara alami menghasilkan kalimat yang hangat seperti "Terima kasih atas kepercayaan Anda / Fokus kerja kami saat ini ada di arah X / Semoga kita bisa berdiskusi kembali di masa depan".

4.7 cenderung menghasilkan "Setelah dievaluasi, terdapat ketidaksesuaian arah antara kerja sama ini dengan proposal Anda. Kami tidak mempertimbangkan untuk melanjutkannya." — ekspresi kaku yang murni fungsional, kehilangan sentuhan bahasa yang diperlukan dalam konteks bisnis.

Skenario 3: Penulisan kreatif (Kehilangan ritme)

Seorang pengguna di utas populer Hacker News menggambarkannya dengan sangat tepat:

"4.7 menulis seperti mahasiswa MBA tahun kedua yang sangat kompeten – tata bahasa sempurna, terstruktur secara logis, tetapi benar-benar tanpa musik. 4.6 bisa melakukan itu, tetapi juga bisa lebih santai dan benar-benar menulis."

Skenario 4: Blog teknis (Sedikit menurun)

Blog teknis adalah skenario transisi antara "teknis murni" dan "penulisan murni". 4.7 tampil lebih baik dalam istilah profesional dan detail teknis, tetapi transisi antar paragraf, daya tarik pembuka, dan kesan penutup lebih lemah daripada 4.6.

Perbedaan nyata:

  • Kalimat pertama paragraf 4.6 lebih menarik (memiliki hook)
  • Kalimat pertama paragraf 4.7 lebih mirip subjudul (langsung ke kesimpulan)
  • Dari segi panjang, 4.7 lebih panjang 30-50% daripada 4.6

Skenario 5: Paragraf karya ilmiah (Peningkatan kecil)

Ini adalah skenario di mana 4.7 unggul. Penulisan ilmiah menuntut:

  • Pernyataan tegas (tingkat ketegasan 4.7 mencapai 77,6%)
  • Sedikit keraguan (tingkat keraguan 4.7 hanya 16,5%)
  • Langsung ke kesimpulan
  • Tidak menggunakan emoji

Keempat poin ini justru merupakan arah penyesuaian gaya 4.7, sehingga kinerjanya lebih baik dalam penulisan paragraf ilmiah.

Skenario 6: Pembuatan komentar kode (Lebih presisi)

Dalam skenario komentar kode, 4.7 jelas lebih kuat:

  • Konten komentar lebih akurat dalam mendeskripsikan fungsi
  • Tidak akan menambahkan komentar santai ala 4.6 seperti "ini sebenarnya trik kecil"
  • Gaya konsisten, tidak ada pergeseran gaya dalam satu file

Bagi proyek teknik, ini adalah peningkatan yang nyata.

Skenario 7: Copywriting peluncuran produk (Kehilangan daya tarik)

Apa yang paling dibutuhkan dalam copywriting peluncuran produk? Ketegangan emosional + empati pengguna + sedikit daya pikat.

Kombinasi tingkat ketegasan tinggi + keraguan rendah + sedikit emoji pada 4.7 menghilangkan ketiga poin di atas. Copywriting peluncuran produk yang dihasilkan terasa seperti "manual versi baru", benar-benar kehilangan daya tarik pemasaran yang seharusnya.

🎯 Saran pemilihan skenario: Untuk alur kerja yang berfokus pada penulisan, sangat disarankan untuk terus menggunakan Claude Opus 4.6 melalui platform APIYI apiyi.com. Platform ini mempertahankan fleksibilitas pemilihan model Claude, sehingga migrasi ke model baru tidak akan secara paksa menimpa akses ke model lama.

Tiga Solusi untuk Memperbaiki Kemampuan Menulis Claude Opus 4.7

Karena kita tidak bisa menunggu Anthropic melakukan rollback, mari kita cari jalan keluarnya sendiri. Tiga langkah berikut dapat mengembalikan kualitas tulisan 4.7 agar mendekati level 4.6.

claude-opus-4-7-writing-quality-regression-id 图示

Solusi 1: Turunkan effort ke medium atau low

Masalah verbositas (terlalu panjang) pada Opus 4.7 sebagian besar berasal dari pengaturan penalaran xhigh bawaan. Untuk tugas menulis, terlalu banyak berpikir justru merusak kealamian hasil output. Turunkan levelnya secara eksplisit dalam pemanggilan API:

import openai

client = openai.OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://api.apiyi.com/v1"
)

response = client.chat.completions.create(
    model="claude-opus-4-7",
    messages=[
        {"role": "user", "content": "Tolong buatkan caption Weibo yang santai untuk merekomendasikan kopi."}
    ],
    extra_headers={
        "reasoning-effort": "low"
    },
    temperature=0.8
)

print(response.choices[0].message.content)
Lihat kode optimasi penulisan lengkap (termasuk 7 skenario pengujian otomatis)
import openai
import time

client = openai.OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://api.apiyi.com/v1"
)

WRITING_SCENARIOS = {
    "Caption Weibo": "Tolong buatkan caption Weibo yang santai dan menarik untuk merekomendasikan kopi baru.",
    "Email Bisnis": "Tolong buatkan email penolakan undangan kerja sama dengan rekan sejawat, profesional namun tetap hangat.",
    "Paragraf Kreatif": "Tolong deskripsikan sore hari di sebuah kafe dengan bahasa yang ritmis.",
    "Blog Teknis": "Tolong buatkan pembuka blog teknis tentang async/await.",
    "Copy Produk": "Tolong buatkan copy peluncuran untuk alat bantu menulis berbasis AI.",
}

def test_writing(model: str, effort: str, prompt: str) -> dict:
    """Menguji performa prompt yang sama dengan konfigurasi berbeda"""
    start = time.time()
    response = client.chat.completions.create(
        model=model,
        messages=[{"role": "user", "content": prompt}],
        extra_headers={"reasoning-effort": effort},
        temperature=0.8,
        max_tokens=500
    )
    return {
        "output": response.choices[0].message.content,
        "output_tokens": response.usage.completion_tokens,
        "latency": round(time.time() - start, 2),
        "chars_per_token": round(
            len(response.choices[0].message.content) / response.usage.completion_tokens,
            2
        )
    }

for scene, prompt in WRITING_SCENARIOS.items():
    print(f"\n=== {scene} ===")
    for model, effort in [
        ("claude-opus-4-6", "medium"),
        ("claude-opus-4-7", "low"),
        ("claude-opus-4-7", "medium"),
    ]:
        result = test_writing(model, effort, prompt)
        print(f"[{model} / {effort}] Tokens: {result['output_tokens']}")
        print(f"  Output: {result['output'][:150]}...")

Hasil pengujian: Setelah diturunkan ke low, verbositas output 4.7 turun 40-60%, ritme meningkat sekitar 30%, namun masih sedikit di bawah 4.6.

Solusi 2: Tulis ulang petunjuk dengan batasan gaya yang eksplisit

Petunjuk di era 4.6 mengandalkan kemampuan model untuk "membaca niat", di era 4.7 Anda harus menuliskan niat tersebut sebagai batasan keras:

Gaya Petunjuk 4.6 Penyesuaian untuk 4.7
"Tulis dengan lebih persuasif" "Gunakan setidaknya 1 metafora / 1 deskripsi sensorik / panjang kalimat maks 20 kata"
"Gunakan bahasa sehari-hari" "Hindari istilah teknis / gunakan kata-kata santai / kalimat boleh tidak lengkap"
"Seperti teman mengobrol" "Dialog orang kedua / boleh bertanya balik / jangan buat daftar poin / jangan pakai nomor"
"Lebih hangat" "Tambahkan kalimat empati di awal / beri 'hook' di akhir / boleh gunakan emoji secukupnya"

Prinsip utama: Terjemahkan "kata sifat gaya" menjadi "batasan konkret yang bisa diperiksa".

Solusi 3: Rute model 4.6 dan 4.7 berdasarkan skenario

Untuk alur kerja penulisan apa pun, strategi terbaik bukanlah "memaksa penyesuaian petunjuk di 4.7", melainkan biarkan tugas menulis tetap menggunakan 4.6, dan tugas teknis menggunakan 4.7:

def route_model(task_type: str) -> str:
    """Merutekan ke model yang paling sesuai berdasarkan jenis tugas"""
    writing_tasks = {
        "blog", "marketing", "email", "creative",
        "social_post", "summary", "translation"
    }
    coding_tasks = {
        "refactor", "debug", "agent", "test_gen",
        "code_review", "documentation"
    }

    if task_type in writing_tasks:
        return "claude-opus-4-6"
    elif task_type in coding_tasks:
        return "claude-opus-4-7"
    else:
        return "claude-opus-4-6"

response = client.chat.completions.create(
    model=route_model("blog"),
    messages=[{"role": "user", "content": "Bantu saya menulis blog teknis..."}]
)

Cara pembagian ini biayanya paling rendah dan hasilnya paling efektif. Satu-satunya syarat adalah saluran pemanggilan Anda mengizinkan perpindahan model Claude secara bebas.

🚀 Perutean Multi-Model: Melalui platform APIYI (apiyi.com), Anda dapat menggunakan satu kunci API untuk memanggil seluruh seri Claude Opus 4.6 / 4.7 / Sonnet. Platform ini menyediakan antarmuka yang sepenuhnya kompatibel dengan API resmi Claude, sehingga perpindahan model hanya perlu mengubah parameter model dengan biaya migrasi yang sangat rendah.

FAQ Skenario Penulisan Claude Opus 4.7

Q1: Apakah penurunan kemampuan menulis Opus 4.7 adalah bug dari Anthropic?

Bukan bug, ini adalah pilihan desain yang disengaja. Dokumentasi resmi Anthropic secara eksplisit mengakui bahwa 4.7 "lebih lugas, lebih tegas, dan mengurangi bahasa yang bersifat persetujuan" dibandingkan 4.6. Penyesuaian gaya ini bertujuan agar model lebih terkontrol dalam tugas pengkodean agen, namun efek sampingnya adalah hilangnya "kehangatan" dalam skenario penulisan umum.

Artinya, Anthropic tidak akan "memperbaiki" masalah ini dalam waktu dekat—karena ini bukan masalah, melainkan fitur. Pengguna yang membutuhkan gaya penulisan yang lebih lembut harus menulis ulang petunjuk atau langsung menggunakan 4.6.

Q2: Bagaimana cara cepat kembali ke 4.6 di Claude Code?

Cukup ketik perintah berikut di baris perintah Claude Code:

/model claude-opus-4-6

Anda akan langsung beralih ke 4.6. Tindakan ini bersifat per sesi; saat Anda membuka Claude Code lagi, model akan diatur ulang ke default (saat ini 4.7).

Jika Anda pengguna API, cukup ubah parameter model dari claude-opus-4-7 kembali ke claude-opus-4-6. Kami menyarankan untuk tetap menggunakan 4.6 untuk permintaan penulisan dan menggunakan 4.7 untuk tugas pengkodean. Perutean berdasarkan skenario adalah solusi paling praktis saat ini.

Q3: Apakah ada solusi konfigurasi untuk masalah Opus 4.7 yang terlalu bertele-tele?

Ada tiga tingkatan yang bisa diterapkan secara bersamaan:

  1. Tingkat Penalaran: Turunkan reasoning-effort dari xhigh ke medium atau bahkan low.
  2. Panjang Output: Atur max_tokens secara eksplisit ke nilai yang lebih kecil (misalnya 500) untuk memaksa output yang ringkas.
  3. Batasan Petunjuk: Tambahkan batasan ketat dalam petunjuk seperti "jangan melebihi 200 kata", "jangan gunakan daftar", dan sebagainya.

Dengan menggabungkan ketiganya, tingkat verbositas 4.7 dapat dikurangi lebih dari 50%, namun gayanya tetap akan terasa lebih kaku dibandingkan 4.6. Jika Anda sangat mementingkan gaya penulisan, kami tetap menyarankan untuk beralih kembali ke 4.6 melalui platform APIYI apiyi.com.

Q4: Apakah penurunan kemampuan Opus 4.7 dalam penulisan bahasa Mandarin lebih parah daripada bahasa Inggris?

Berdasarkan pengujian komunitas, penurunan pada bahasa Mandarin memang lebih terasa dibandingkan bahasa Inggris. Ada dua alasan:

  1. Restrukturisasi Tokenizer berdampak lebih besar pada segmentasi kata bahasa Mandarin: Tokenizer baru tidak memotong frasa Mandarin sealami 4.6, yang memengaruhi ritme idiom, frasa empat karakter, dan kalimat panjang.
  2. Bahasa Mandarin lebih mengandalkan "rasa bahasa": Bahasa Inggris bisa mengandalkan tata bahasa dan logika untuk keterbacaan, sementara "estetika" bahasa Mandarin sebagian besar berasal dari konvensi budaya dan ritme. Gaya lugas 4.7 merusak ritme tersebut.

Untuk pengguna yang menulis dalam bahasa Mandarin, disarankan untuk tetap menggunakan Opus 4.6 atau Sonnet 4.6 sebagai pilihan utama, dan gunakan Opus 4.7 hanya untuk pengkodean.

Q5: Skenario penulisan apa yang justru lebih baik di 4.7 daripada 4.6?

Ada tiga jenis skenario di mana 4.7 lebih unggul:

  1. Paragraf makalah akademis: Ketegasan tinggi dan sedikit bahasa yang bersifat ragu-ragu sesuai dengan standar penulisan akademis.
  2. Komentar kode: Mendeskripsikan logika fungsi secara akurat tanpa menambahkan komentar subjektif.
  3. Dokumen spesifikasi teknis: Struktur yang jelas dan ekspresi yang seragam.

Ketiga skenario ini memiliki satu kesamaan: tidak memerlukan kehangatan bahasa, hanya presisi informasi. Penyesuaian gaya 4.7 memang dioptimalkan untuk skenario seperti ini.

Q6: Bagaimana cara menentukan apakah tugas penulisan saya harus menggunakan 4.6 atau 4.7?

Berikut alur keputusan sederhana:

  • Output ditujukan untuk "pembaca umum" (bukan profesional)? → Gunakan 4.6
  • Output memerlukan kehangatan emosional (pemasaran, email, konten kreatif)? → Gunakan 4.6
  • Output berupa dokumen teknis atau terkait kode? → Gunakan 4.7
  • Output memerlukan standar akademis yang ketat? → Gunakan 4.7
  • Konten bahasa sehari-hari? → Gunakan 4.6
  • Tidak yakin? → Gunakan 4.6 terlebih dahulu, jika tidak berhasil, baru coba 4.7.

Kami merekomendasikan untuk beralih model berdasarkan skenario melalui platform APIYI apiyi.com. Platform ini mendukung pemanggilan antarmuka terpadu untuk berbagai model utama, sehingga memudahkan perbandingan dan peralihan cepat.

Ringkasan Masalah Penulisan Claude Opus 4.7

Penurunan kemampuan menulis Opus 4.7 bukanlah bug sesekali, melainkan konsekuensi tak terelakkan dari pergeseran posisi produk. Anthropic menyesuaikan model agar lebih cocok untuk pengkodean agen, dengan mengorbankan "kehangatan" dan "ritme" yang paling dibutuhkan dalam skenario penulisan.

Bagi pengguna, sikap yang benar bukanlah "menunggu Anthropic memperbaikinya", melainkan menerima bahwa 4.7 adalah model yang dirancang khusus untuk pengkodean agen, lalu:

  1. Tetap gunakan 4.6 untuk tugas penulisan, jangan ikut-ikutan melakukan upgrade.
  2. Gunakan perutean model untuk alur kerja campuran.
  3. Gunakan low effort + batasan gaya eksplisit untuk menyelamatkan hasil jika tidak bisa kembali ke versi lama.

Peristiwa ini mengungkap tren industri yang lebih dalam: model tidak lagi mengejar status "serba bisa". Anthropic sedang memvalidasi rute baru dengan Opus 4.7—membiarkan model unggulan berspesialisasi dalam satu arah, sementara skenario lain diserahkan kepada Sonnet atau versi lama. Bagi pengguna, ini berarti kita perlu beralih dari "ketergantungan pada satu model" ke "kombinasi multi-model".

Kami merekomendasikan penggunaan platform APIYI apiyi.com untuk mengelola pemanggilan seluruh seri model Claude secara terpadu. Platform ini menyediakan pemantauan tagihan waktu nyata, perutean cerdas multi-model, dan antarmuka API yang sepenuhnya kompatibel dengan versi resmi, menjadikannya alat paling praktis untuk mengatasi masalah penurunan kualitas penulisan Opus 4.7.

Referensi

  1. Diskusi Hacker News: "Opus 4.7 is horrible at writing"

    • Tautan: news.ycombinator.com/item?id=47801971
    • Penjelasan: Umpan balik langsung dari komunitas, mencakup perbandingan pengujian nyata oleh berbagai pengguna.
  2. Panduan Migrasi Anthropic: Penjelasan resmi mengenai perubahan gaya Opus 4.7

    • Tautan: platform.claude.com/docs/en/about-claude/models/migration-guide
    • Penjelasan: Arahan penyesuaian gaya dan saran adaptasi yang diakui secara resmi.
  3. Apa yang Baru di Anthropic: Dokumentasi kemampuan terbaru Opus 4.7

    • Tautan: platform.claude.com/docs/en/about-claude/models/whats-new-claude-4-7
    • Penjelasan: Sumber data kuantitatif seperti tingkat ketegasan, tingkat hedging, dan lainnya.
  4. Threads Boris Cherny: Pengalaman dari penanggung jawab Claude Code

    • Tautan: threads.com/@boris_cherny/post/DXMzhV-lPuQ
    • Penjelasan: Tanggapan resmi Anthropic mengenai kurva pembelajaran 4.7.
  5. Laporan VentureBeat: Kontroversi penurunan performa model Anthropic

    • Tautan: venturebeat.com/technology/is-anthropic-nerfing-claude-users-increasingly-report-performance
    • Penjelasan: Tinjauan media industri mengenai kontroversi kualitas Claude.

Penulis: Tim Teknis APIYI
Tanggal Rilis: 18-04-2026
Model yang Berlaku: Claude Opus 4.6 / Claude Opus 4.7
Diskusi Teknis: Silakan kunjungi APIYI di apiyi.com untuk mendapatkan kuota pengujian berbagai model dan mencoba sendiri perbedaan gaya di berbagai skenario.

Tinggalkan komentar