Analisis Mendalam FireRed Image Edit 1.1 Xiaohongshu: 5 Kemampuan Inti SOTA Pembuatan Gambar Sumber Terbuka

Catatan Penulis: Analisis mendalam mengenai model pengeditan gambar open-source FireRed Image Edit 1.1 dari Xiaohongshu, mencakup 5 kemampuan inti, data tolok ukur, arsitektur teknis, dan cara integrasi API. SOTA open-source ini melampaui Qwen dari Alibaba.

Pada tanggal 3 Maret 2026, tim FireRed dari Xiaohongshu merilis FireRed-Image-Edit 1.1—sebuah model dasar pengeditan gambar berbasis arsitektur Diffusion Transformer. Model ini mencapai SOTA open-source di ketiga tolok ukur utama yaitu ImgEdit, GEdit, dan REDEdit, dengan skor komprehensif 7,94, melampaui skor 7,88 dari Qwen-Image-Edit-2511 milik Alibaba, menjadikannya model pengeditan gambar open-source terkuat saat ini.

Nilai Inti: Setelah membaca artikel ini, Anda akan memahami 5 kemampuan utama, inovasi arsitektur teknis, serta cara integrasi cepat menggunakan API dari FireRed Image Edit 1.1.

Poin Utama FireRed Image Edit 1.1

Poin	Penjelasan	Keunggulan
SOTA Open-Source	Skor komprehensif ImgEdit 4,56, GEdit 7,94	Melampaui Qwen-Image-Edit
Konsistensi Wajah	Mekanisme loss konsistensi terdiferensiasi, fidelitas tinggi	Pengeditan potret tanpa distorsi
Integrasi Multi-elemen	Mendukung kombinasi 10+ elemen	Pemotongan & penyambungan otomatis oleh Agen
Bilingual	Evaluasi pada 1.673 pasangan edit bilingual	Dukungan asli perintah bahasa Mandarin
Apache 2.0	Open-source penuh, dukung penggunaan komersial	Gratis untuk penggunaan komersial

Apa itu FireRed Image Edit 1.1?

FireRed-Image-Edit adalah model dasar pengeditan gambar yang dikembangkan oleh tim FireRed dari Xiaohongshu. Berbeda dengan model text-to-image pada umumnya, model ini berfokus pada pengeditan gambar (Image Editing)—memodifikasi gambar secara presisi berdasarkan perintah bahasa alami tanpa menghilangkan konten inti dari gambar asli.

Anda dapat mengunggah hingga 3 gambar referensi, lalu jelaskan efek yang Anda inginkan menggunakan bahasa alami (Mandarin atau Inggris). Model akan dengan cerdas memadukan elemen, gaya, dan wajah dari gambar referensi ke dalam gambar hasil.

Peningkatan utama versi 1.1 dibanding versi 1.0:

Optimalisasi konsistensi potret secara signifikan: Karakteristik wajah tetap terjaga dengan lebih akurat saat mengganti latar belakang atau melakukan transfer gaya.
Peningkatan integrasi multi-elemen: Menangani skenario kombinasi multi-gambar yang kompleks dengan lebih baik.
Referensi teks bergaya: Mendukung gaya font dan tata letak yang lebih kaya.
Efek riasan potret: Penambahan kemampuan pengeditan riasan wajah yang presisi.

5 Kemampuan Utama FireRed Image Edit 1.1

Kemampuan 1: Menjaga Konsistensi Wajah (Identity Consistency)

Ini adalah peningkatan paling krusial di versi 1.1. Melalui mekanisme Differentiable Consistency Loss (Kehilangan Konsistensi Terdiferensiasi) yang inovatif, model ini mampu menjaga fitur wajah, ekspresi, dan karakteristik personal secara presisi saat melakukan pengeditan potret.

Skenario penggunaan:

Mengganti latar belakang foto tanpa mengubah wajah
Menerapkan berbagai gaya artistik dengan tetap mempertahankan identitas
Menggabungkan tokoh ke berbagai skenario dengan ciri fisik yang konsisten

Model pengeditan gambar tradisional sering mengalami masalah "distorsi wajah" saat melakukan transfer gaya—di mana sosok tersebut terlihat seperti orang lain. FireRed 1.1 mengatasi masalah ini dengan meminimalkan perbedaan identitas di seluruh proses pembuatan gambar.

Kemampuan 2: Fusi Multi-Elemen (Multi-Element Fusion)

FireRed 1.1 mendukung penggabungan bebas lebih dari 10 elemen visual, didukung oleh fitur pemotongan dan penyambungan otomatis berbasis agen:

Tipe Fusi	Penjelasan	Skenario Umum
Tokoh+Latar	Menempatkan orang ke latar baru	Ganti latar model produk
Tokoh+Busana	Efek virtual try-on	Tampilan busana e-commerce
Kombinasi Tokoh	Menggabungkan tokoh dari gambar berbeda	Poster komposit kreatif
Gaya+Konten	Menerapkan gaya referensi ke konten	Transfer gaya artistik
Teks+Gambar	Mengintegrasikan teks ke gambar secara alami	Sampul media sosial

Kemampuan 3: Mengikuti Instruksi dengan Presisi (Instruction Following)

Model ini mengadopsi teknologi Stochastic Instruction Alignment (Penyelarasan Instruksi Stokastik) yang dipadukan dengan pengindeksan ulang petunjuk secara dinamis, memastikan output sangat selaras dengan instruksi pengguna.

Hasil pengujian menunjukkan, pada benchmark REDEdit-Bench, FireRed 1.1 mencatatkan skor berikut:

Skor instruksi bahasa Mandarin: 4.33
Skor instruksi bahasa Inggris: 4.26

Artinya, model ini tidak hanya memahami instruksi sederhana seperti "ganti latar belakang menjadi pantai", tetapi juga mampu memproses deskripsi kompleks seperti "jaga sosok tetap sama, ganti latar belakang menjadi pantai tropis saat matahari terbenam, tambahkan efek cahaya hangat yang lembut".

Kemampuan 4: Pengeditan Teks Kesetiaan Tinggi (Text Editing)

Melalui teknologi DiffusionNFT dan mekanisme reward OCR yang sadar tata letak, FireRed 1.1 mampu mempertahankan dan mengedit konten teks dalam gambar secara presisi. Hal ini sangat penting dalam aplikasi praktis—banyak model pengeditan gambar mengalami teks buram atau terdistorsi saat memproses gambar yang mengandung tulisan.

Kemampuan 5: Restorasi Foto Lama dan Transfer Gaya

FireRed 1.1 berkinerja unggul dalam hal restorasi foto lama dan transfer lintas gaya:

Restorasi Foto Lama: Memperbaiki goresan, degradasi warna, keburaman, dan masalah foto lama lainnya secara otomatis.
Transfer Gaya: Mengonversi foto menjadi berbagai gaya artistik seperti lukisan cat minyak, cat air, anime, dan lainnya.
Pengeditan Riasan: Kemampuan penyesuaian riasan wajah yang halus, yang baru ditambahkan di versi 1.1.

Hasil Benchmark FireRed Image Edit 1.1

Unggul di Tiga Benchmark Utama

Benchmark	FireRed 1.1	Qwen-Image-Edit	Hasil Perbandingan
ImgEdit (Komprehensif)	4.56	4.51	✅ FireRed Unggul
GEdit (Komprehensif G_O)	7.94 (EN) / 7.89 (CN)	7.88	✅ FireRed Unggul
REDEdit (Mandarin)	4.33	—	SOTA Open Source
REDEdit (Inggris)	4.26	—	SOTA Open Source

Dimensi Detail GEdit

Dimensi	Skor Inggris	Skor Mandarin	Arti
G_SC (Konsistensi Semantik)	8.363	8.287	Tingkat kecocokan semantik antara hasil edit dan instruksi
G_PQ (Kualitas Persepsi)	8.245	8.227	Kualitas visual dari gambar yang dihasilkan
G_O (Skor Komprehensif)	7.943	7.887	Rata-rata tertimbang dari berbagai dimensi

REDEdit-Bench adalah benchmark yang dikembangkan sendiri oleh tim FireRed, mencakup 15 kategori dan 1.673 pasangan edit dwibahasa (Mandarin-Inggris), yang jauh lebih relevan dengan kebutuhan pengeditan pengguna nyata dibandingkan benchmark yang ada saat ini.

🎯 Catatan Performa: FireRed 1.1 memiliki keunggulan paling menonjol dalam dua dimensi: konsistensi wajah dan kepatuhan terhadap instruksi, sangat cocok untuk skenario pengeditan yang memerlukan karakter wajah yang tetap terjaga. APIYI apiyi.com berencana untuk mengintegrasikan model ini ke depannya. Pengguna yang tertarik dapat menghubungi kami untuk informasi lebih lanjut.

Arsitektur Teknis FireRed Image Edit 1.1

Arsitektur Inti: Transformer Difusi Multimodal Aliran Ganda MM-DiT

Mesin pembangkit utama dari FireRed 1.1 adalah Transformer Difusi Multimodal Aliran Ganda (Double-Stream Multi-Modal Diffusion Transformer, MM-DiT):

Embedding Teks: Instruksi pengeditan pengguna dikonversi menjadi vektor semantik melalui encoder teks.
Token Latent Gambar: Gambar asli dikodekan menjadi representasi ruang laten melalui VAE berketelitian tinggi.
Fitur Gambar Referensi: Ekstraksi fitur visual dari gambar referensi (maksimal 3 gambar).
Aliran Input Terpadu: Ketiga jalur informasi digabungkan menjadi input terpadu dan dimasukkan ke MM-DiT untuk interaksi dua arah yang intensif.
Output Pembangkitan: Model menghasilkan representasi laten dari gambar yang telah diedit, kemudian didekodekan oleh VAE menjadi gambar akhir.

Jalur Latih (Pipeline): Pretrain → SFT → RL

FireRed 1.1 menggunakan pelatihan tiga tahap yang lengkap:

Pra-pelatihan (Pretrain): Berbasis korpus berskala besar sebanyak 1,6 miliar sampel, dengan lebih dari 100 juta sampel berkualitas tinggi.
Fine-tuning Terarah (SFT): Optimalisasi mendetail yang difokuskan pada tugas pengeditan.
Pembelajaran Penguatan (RL): Menggunakan DPO dengan optimasi gradien asimetris untuk meningkatkan kualitas pengeditan lebih lanjut.

Inovasi Teknologi Kunci

Teknologi	Peran	Efek
Loss Konsistensi Diferensial	Menjaga identitas	Wajah pada hasil edit tidak berubah bentuk
Penyelarasan Instruksi Acak	Pemahaman instruksi	Deskripsi kompleks dieksekusi dengan presisi
Sampling Multi-kondisi	Efisiensi pelatihan	Mendukung pemrosesan batch dengan resolusi variabel
DiffusionNFT	Pengeditan teks	Teks pada gambar tetap jernih dan tidak blur
DPO Gradien Asimetris	Optimalisasi kualitas	Penyelarasan dengan preferensi manusia

💡 Perspektif Pengembang: Kemampuan pengeditan FireRed 1.1 dapat dimigrasikan ke model dasar T2I mana pun. Ini berarti model ini bukan sekadar model pengeditan, melainkan sebuah kerangka kerja kemampuan pengeditan yang dapat digunakan kembali.

Panduan Integrasi API FireRed Image Edit 1.1

Platform API yang Tersedia Saat Ini

FireRed Image Edit 1.1 kini tersedia melalui layanan API di beberapa platform pihak ketiga berikut:

Platform	Estimasi Harga	Keunggulan
Replicate	~$0,036/penggunaan	Penagihan per permintaan, mudah digunakan
fal.ai	Sesuai penggunaan	Deployment serverless, respons cepat
WaveSpeedAI	Sesuai penggunaan	Fokus pada akselerasi model gambar AI
HuggingFace Spaces	Uji coba gratis	Demo daring, tanpa perlu koding

Persyaratan Deployment Lokal

Jika Anda perlu melakukan deployment FireRed 1.1 secara lokal:

Kebutuhan VRAM: 30GB VRAM (disarankan A100 atau H100)
Kecepatan Inferensi: Sekitar 4,5 detik/gambar
Lisensi Open Source: Apache 2.0, mendukung penggunaan komersial
Sumber Model: HuggingFace FireRedTeam/FireRed-Image-Edit-1.1

Instruksi Akses Melalui APIYI

Saat ini FireRed Image Edit 1.1 belum tersedia di platform APIYI, namun sedang dalam tahap evaluasi teknis dan persiapan integrasi.

🔔 Pemberitahuan Integrasi: APIYI apiyi.com sedang dalam proses evaluasi untuk mengintegrasikan model FireRed Image Edit 1.1. Jika Anda memiliki kebutuhan terkait API penyuntingan gambar, silakan hubungi tim APIYI untuk mengetahui perkembangan integrasi dan reservasi pengujian. Setelah diluncurkan di platform, Anda dapat memanggilnya langsung melalui antarmuka API terpadu tanpa perlu melakukan deployment sendiri.

Skenario Penggunaan FireRed Image Edit 1.1

E-commerce dan Pembuatan Konten

Penyuntingan Foto Produk: Mengganti latar belakang produk, menyesuaikan pencahayaan, dan menambahkan suasana
Ganti Pakaian Model: Efek uji coba virtual, menekan biaya pemotretan
Sampul Media Sosial: Pembuatan gambar sampul dengan gaya yang konsisten secara cepat
Restorasi Foto Lama: Memperbaiki foto lama, meningkatkan kualitas gambar

Desain dan Kreatif

Transfer Gaya: Mengubah foto menjadi berbagai gaya artistik
Komposisi Kreatif: Menggabungkan beberapa elemen untuk membuat poster kreatif
Materi Brand: Pemrosesan gambar secara massal dengan gaya visual brand yang konsisten

Perbedaan Posisi dengan Model Gambar Lainnya

Model	Posisi	Keunggulan Utama	Skenario yang Cocok
FireRed Image Edit 1.1	Penyuntingan Gambar	Konsistensi identitas, kepatuhan instruksi	Penyuntingan presisi pada gambar yang sudah ada
Gemini Imagen 4	Teks ke gambar	Pembuatan kualitas tinggi	Membuat gambar baru dari awal
DALL-E 3	Teks ke gambar	Rendering teks	Pembuatan gambar kreatif
Stable Diffusion 3	Teks ke gambar + Edit	Ekosistem open source	Kustomisasi fleksibel

Perbedaan inti dari FireRed 1.1 adalah: Model ini tidak bertujuan untuk membuat gambar baru, melainkan melakukan penyuntingan presisi pada gambar yang sudah ada. Hal ini menjadikannya sangat unggul dalam skenario e-commerce atau pembuatan konten yang membutuhkan pemrosesan ulang berdasarkan materi nyata.

🚀 Saran Skenario: Jika kebutuhan Anda adalah "melakukan modifikasi presisi berdasarkan gambar yang sudah ada" (ganti latar belakang, ganti gaya, tambah elemen, dll.), FireRed saat ini adalah pilihan open source terbaik. Jika Anda membutuhkan kemampuan teks ke gambar, Anda bisa menggunakan model seperti Gemini Imagen atau DALL-E melalui platform APIYI apiyi.com, yang dapat dikombinasikan secara fleksibel sesuai kebutuhan Anda.

Pertanyaan Umum (FAQ)

Q1: Apakah FireRed Image Edit 1.1 gratis untuk penggunaan komersial?

Ya, bisa. FireRed Image Edit 1.1 menggunakan lisensi open-source Apache 2.0 yang mengizinkan penggunaan, modifikasi, dan distribusi secara bebas, termasuk untuk keperluan komersial. Anda dapat mengunduh bobot model dari HuggingFace untuk penyebaran lokal (local deployment), atau menggunakannya melalui platform API pihak ketiga dengan skema bayar per penggunaan.

Q2: Apa perbedaan antara FireRed 1.1 dan 1.0, versi mana yang sebaiknya digunakan?

Sangat disarankan untuk langsung menggunakan versi 1.1. Dibandingkan dengan 1.0, versi 1.1 berfokus pada optimalisasi konsistensi wajah, fusi multi-elemen, teks bergaya, dan efek riasan. Seluruh aspek mengalami peningkatan tanpa ada penurunan performa. Skor komprehensif GEdit untuk versi 1.1 mencapai 7,94, jauh melampaui baseline versi 1.0.

Q3: Perangkat keras apa yang dibutuhkan untuk penyebaran lokal?

FireRed 1.1 memerlukan VRAM minimal 30GB. Kami merekomendasikan penggunaan GPU NVIDIA A100 (40/80GB) atau H100. Jika Anda tidak memiliki sumber daya GPU yang cukup, disarankan untuk menggunakan metode API. Di Replicate, biaya per pemanggilan sekitar $0,036. Nantinya, model ini juga dapat dipanggil langsung melalui API setelah platform APIYI (apiyi.com) meluncurkan dukungannya.

Q4: Kapan APIYI akan mendukung FireRed Image Edit?

FireRed Image Edit 1.1 saat ini sedang dalam tahap evaluasi teknis di platform APIYI. Jika Anda memiliki kebutuhan spesifik terkait API penyuntingan gambar, jangan ragu untuk menghubungi tim APIYI di apiyi.com. Kebutuhan Anda akan membantu kami mempercepat proses evaluasi dan integrasi.

Kesimpulan

Poin utama FireRed Image Edit 1.1:

SOTA Open-Source: Skor komprehensif GEdit 7,94 dan ImgEdit 4,56, melampaui Qwen-Image-Edit-2511 secara keseluruhan.
Unggul dalam Konsistensi Wajah: Mekanisme differentiable consistency loss memastikan penyuntingan wajah tidak mengakibatkan perubahan identitas.
Dukungan Asli Bahasa Mandarin: Dibuat oleh tim Xiaohongshu, memberikan performa luar biasa baik untuk instruksi bahasa Mandarin maupun Inggris.
Open-Source & Komersial: Lisensi Apache 2.0, dapat diunduh langsung melalui HuggingFace.
Inferensi Efisien: Dapat dijalankan dengan VRAM 30GB, dengan kecepatan pembuatan 4,5 detik per gambar.

Bagi pengembang dan perusahaan yang membutuhkan kemampuan penyuntingan gambar presisi, FireRed 1.1 adalah pilihan terbaik di ranah open-source saat ini.

APIYI (apiyi.com) sedang aktif mengevaluasi integrasi FireRed Image Edit 1.1. Pengguna yang tertarik dapat menghubungi kami terlebih dahulu untuk informasi lebih lanjut. Platform kami telah mendukung pemanggilan terpadu untuk berbagai Model Bahasa Besar seperti Gemini, Claude, dan GPT; penambahan model penyuntingan gambar akan semakin melengkapi matriks API multimodal kami.

📚 Referensi

Repositori GitHub FireRed-Image-Edit: Kode sumber resmi dan dokumentasi
- Tautan: github.com/FireRedTeam/FireRed-Image-Edit
- Penjelasan: Berisi kode sumber lengkap, tautan unduhan bobot model, dan contoh penggunaan
FireRed-Image-Edit 1.1 HuggingFace: Unduhan bobot model
- Tautan: huggingface.co/FireRedTeam/FireRed-Image-Edit-1.1
- Penjelasan: Anda dapat langsung mengunduh bobot model untuk penerapan lokal (local deployment)
Laporan Teknis FireRed-Image-Edit 1.0: Makalah akademis
- Tautan: arxiv.org/abs/2602.13344
- Penjelasan: Penjelasan mendetail mengenai desain arsitektur dan metode pelatihan
Tolok Ukur REDEdit-Bench: Metodologi evaluasi
- Tautan: github.com/FireRedTeam/FireRed-Image-Edit
- Penjelasan: Standar evaluasi yang mencakup 15 kategori dan 1.673 pasangan pengeditan bilingual

Penulis: Tim Teknis APIYI
Diskusi Teknis: Jangan ragu untuk membagikan pengalaman Anda dalam menggunakan pengeditan gambar AI di kolom komentar. Untuk informasi lebih lanjut mengenai model AI lainnya, silakan kunjungi pusat dokumentasi APIYI di docs.apiyi.com