Autorenhinweis: Umfassende Analyse des von Xiaohongshu (Red) quelloffenen Bildbearbeitungsmodells FireRed Image Edit 1.1. Wir behandeln die 5 Kernfähigkeiten, Benchmarks, die technische Architektur sowie die API-Anbindung. Das Open-Source-SOTA übertrifft Alibabas Qwen.
Am 3. März 2026 veröffentlichte das FireRed-Team von Xiaohongshu FireRed-Image-Edit 1.1 – ein auf der Diffusion-Transformer-Architektur basierendes Basismodell für die Bildbearbeitung. Das Modell erreichte in den drei Benchmarks ImgEdit, GEdit und REDEdit den Status „Open-Source SOTA“. Mit einer Gesamtpunktzahl von 7,94 übertraf es Qwen-Image-Edit-2511 von Alibaba (7,88) und ist damit das derzeit leistungsfähigste quelloffene Bildbearbeitungsmodell.
Kernnutzen: Nach der Lektüre dieses Artikels kennen Sie die 5 Kernfähigkeiten von FireRed Image Edit 1.1, die Innovationen in der technischen Architektur und wissen, wie Sie das Modell schnell über eine API einbinden.

FireRed Image Edit 1.1 Kernpunkte
| Punkt | Beschreibung | Vorteil |
|---|---|---|
| Open Source SOTA | ImgEdit Gesamtpunktzahl 4,56, GEdit Gesamtpunktzahl 7,94 | Übertrifft Qwen-Image-Edit |
| Identitätskonsistenz | Differenzierbarer Konsistenzverlust-Mechanismus, hohe Wiedergabetreue der Gesichtsmerkmale | Porträts werden ohne Verzerrung bearbeitet |
| Multielement-Fusion | Unterstützung für die freie Kombination von 10+ Elementen | Automatische Zuschneidung und Zusammenfügung durch Agent |
| Zweisprachig | Evaluation mit 1.673 chinesisch-englischen Bearbeitungspaaren | Native Unterstützung für chinesische Befehle |
| Apache 2.0 | Vollständig quelloffen, für kommerzielle Nutzung geeignet | Kostenlos und kommerziell nutzbar |
Was ist FireRed Image Edit 1.1?
FireRed-Image-Edit ist ein Basismodell für die Bildbearbeitung, das vom FireRed-Team bei Xiaohongshu entwickelt wurde. Im Gegensatz zu herkömmlichen Text-zu-Bild-Modellen (Text-to-Image) liegt der Fokus auf Bildbearbeitung (Image Editing) – die präzise Änderung von Bildern anhand natürlicher Sprachbefehle, während der Kerninhalt des Originalbildes erhalten bleibt.
Sie können bis zu 3 Referenzbilder hochladen und mit natürlicher Sprache (Chinesisch oder Englisch) beschreiben, welchen Bearbeitungseffekt Sie erzielen möchten. Das Modell integriert intelligent die Elemente, Stile und Personen aus den Referenzbildern in das Ausgabebild.
Die wichtigsten Verbesserungen von Version 1.1 gegenüber 1.0:
- Deutliche Optimierung der Porträtkonsistenz: Genauere Beibehaltung der Gesichtsmerkmale bei Hintergrundwechseln und Stilübertragungen
- Erweiterte Multielement-Fusion: Bessere Verarbeitung komplexer Szenarien mit mehreren kombinierten Bildern
- Stilisierte Textreferenz: Unterstützung für eine größere Vielfalt an Schriftarten und Layoutstilen
- Porträt-Make-up-Effekte: Neue Fähigkeiten für detaillierte Make-up-Bearbeitungen
Die 5 Kernfähigkeiten von FireRed Image Edit 1.1
Fähigkeit 1: Identitätskonsistenz (Identity Consistency)
Dies ist das wichtigste Upgrade der Version 1.1. Durch einen innovativen differenzierbaren Konsistenzverlust-Mechanismus (Differentiable Consistency Loss) kann das Modell bei der Bearbeitung von Porträts Gesichtsmerkmale, Mimik und persönliche Charakteristika präzise bewahren.
Anwendungsszenarien:
- Hintergrund von Fotos ändern, während das Gesicht unverändert bleibt
- Anwendung verschiedener künstlerischer Stile bei Beibehaltung der Identitätsmerkmale
- Synthese von Personen in verschiedene Szenen bei konsistenten äußeren Merkmalen
Herkömmliche Bildbearbeitungsmodelle leiden bei Stilübertragungen oft unter "Gesichtsverzerrungen" – die Person sieht dann wie jemand anderes aus. FireRed 1.1 löst dieses Problem durch die Minimierung von Identitätsabweichungen während des gesamten Generierungsprozesses.
Fähigkeit 2: Multielement-Fusion (Multi-Element Fusion)
FireRed 1.1 unterstützt die freie Kombination von über 10 visuellen Elementen, unterstützt durch eine Agent-gesteuerte automatische Zuschneide- und Zusammenfügungsfunktion:
| Fusionstyp | Beschreibung | Typisches Szenario |
|---|---|---|
| Person + Hintergrund | Person in eine neue Szene einfügen | Hintergrundwechsel für Produktmodelle |
| Person + Kleidung | Virtuelle Anprobe | E-Commerce-Modepräsentation |
| Kombination mehrerer Personen | Zusammenführung von Personen aus verschiedenen Bildern | Kreative Plakatsynthese |
| Stil + Inhalt | Anwendung des Stils eines Referenzbildes auf ein Inhaltsbild | Künstlerische Stilübertragung |
| Text + Bild | Natürliche Integration von Text in Bilder | Cover für soziale Medien |
Fähigkeit 3: Präzise Befolgung von Befehlen (Instruction Following)
Das Modell verwendet die stochastische Befehlsausrichtung (Stochastic Instruction Alignment) in Kombination mit einer dynamischen Neuindizierung der Eingabeaufforderung, um sicherzustellen, dass die Ausgabe hochgradig mit den Benutzerbefehlen übereinstimmt.
Tests zeigen, dass FireRed 1.1 in der Benchmarking-Dimension von REDEdit-Bench wie folgt abschneidet:
- Punktzahl für chinesische Befehle: 4,33
- Punktzahl für englische Befehle: 4,26
Dies bedeutet, dass das Modell nicht nur einfache Befehle wie "Ändere den Hintergrund in einen Strand" versteht, sondern auch komplexe Beschreibungen wie "Behalte die Person bei, ersetze den Hintergrund durch einen tropischen Strand bei Sonnenuntergang und füge weiche, warme Lichteffekte hinzu" verarbeiten kann.

Fähigkeit 4: Hochpräzise Textbearbeitung (Text Editing)
Durch die DiffusionNFT-Technologie und einen layout-bewussten OCR-Belohnungsmechanismus kann FireRed 1.1 Textinhalte in Bildern präzise beibehalten und bearbeiten. Dies ist in der Praxis sehr wichtig, da viele Bildbearbeitungsmodelle bei der Verarbeitung von Bildern, die Text enthalten, zu unscharfen oder verzerrten Texten führen.
Fähigkeit 5: Restaurierung alter Fotos und Stilübertragung
FireRed 1.1 zeigt exzellente Leistungen bei der Restaurierung alter Fotos und der stilübergreifenden Migration:
- Restaurierung alter Fotos: Automatische Korrektur von Kratzern, Farbverblassungen, Unschärfen und anderen typischen Problemen alter Fotos
- Stilübertragung: Umwandlung von Fotos in verschiedene künstlerische Stile wie Ölgemälde, Aquarell oder Anime
- Make-up-Bearbeitung: Die neue, in Version 1.1 hinzugefügte Fähigkeit für präzise Make-up-Anpassungen
Benchmark-Ergebnisse von FireRed Image Edit 1.1
Führend in drei Haupt-Benchmarks
| Benchmark | FireRed 1.1 | Qwen-Image-Edit | Vergleich |
|---|---|---|---|
| ImgEdit (Gesamt) | 4,56 | 4,51 | ✅ FireRed gewinnt |
| GEdit (Gesamt G_O) | 7,94 (EN) / 7,89 (CN) | 7,88 | ✅ FireRed gewinnt |
| REDEdit (Chinesisch) | 4,33 | — | Open-Source SOTA |
| REDEdit (Englisch) | 4,26 | — | Open-Source SOTA |
GEdit-Teildimensionen
| Dimension | Ergebnis (EN) | Ergebnis (CN) | Bedeutung |
|---|---|---|---|
| G_SC (Semantische Konsistenz) | 8,363 | 8,287 | Übereinstimmung von Editierung und Befehl |
| G_PQ (Wahrgenommene Qualität) | 8,245 | 8,227 | Visuelle Qualität des generierten Bildes |
| G_O (Gesamtbewertung) | 7,943 | 7,887 | Gewichteter Gesamtwert aus verschiedenen Dimensionen |
REDEdit-Bench ist ein vom FireRed-Team selbst entwickelter Benchmark, der 15 Kategorien und 1.673 chinesisch-englische zweisprachige Editierpaare abdeckt und damit deutlich näher an den tatsächlichen Editierbedürfnissen der Nutzer liegt als bestehende Benchmarks.
🎯 Performance-Tipp: FireRed 1.1 zeigt seine größten Stärken in den Bereichen Gesichtskonsistenz und Befolgung von Eingabeaufforderungen. Dies ist besonders vorteilhaft bei Szenarien, in denen persönliche Merkmale beibehalten werden müssen. APIYI (apiyi.com) plant, dieses Modell in Zukunft zu integrieren – bei Interesse kontaktieren Sie uns gerne für vorab Informationen.

Technische Architektur von FireRed Image Edit 1.1
Kernarchitektur: MM-DiT Double-Stream Multi-Modal Diffusion Transformer
Die Kern-Generierungs-Engine von FireRed 1.1 ist der Double-Stream Multi-Modal Diffusion Transformer (MM-DiT):
- Texteinbettung: Die Eingabeaufforderung des Nutzers wird durch einen Text-Encoder in semantische Vektoren umgewandelt.
- Bild-Latent-Tokens: Das Originalbild wird mittels eines High-Fidelity VAE in eine latente Raumdarstellung kodiert.
- Merkmale des Referenzbildes: Extraktion visueller Merkmale aus den Referenzbildern (bis zu 3 Stück).
- Einheitlicher Input-Stream: Die drei Datenströme werden zu einem einheitlichen Input kombiniert und in den MM-DiT für eine dichte, bidirektionale Interaktion eingespeist.
- Generierung: Das Modell erzeugt die latente Darstellung des editierten Bildes, die durch den VAE in das finale Bild dekodiert wird.
Trainings-Pipeline: Pretrain → SFT → RL
FireRed 1.1 durchläuft ein vollständiges dreistufiges Training:
- Pretraining: Basierend auf einem umfangreichen Korpus von 1,6 Milliarden Samples, davon über 100 Millionen hochwertige Datensätze.
- Supervised Fine-Tuning (SFT): Spezifische Feinabstimmung für Editieraufgaben.
- Reinforcement Learning (RL): Einsatz von DPO (Direct Preference Optimization) mit asymmetrischer Gradientenoptimierung zur weiteren Steigerung der Editierqualität.
Wichtige technologische Innovationen
| Technologie | Funktion | Effekt |
|---|---|---|
| Differentiierbarer Konsistenzverlust | Wahrung der Identität | Keine Verformung bei Porträtedits |
| Randomisierte Befehlsausrichtung | Befehlsverständnis | Präzise Ausführung komplexer Beschreibungen |
| Multi-Condition Bucket Sampling | Trainingseffizienz | Unterstützt Batching mit variabler Auflösung |
| DiffusionNFT | Texteditierung | Klare, nicht verschwommene Schrift im Bild |
| Asymmetrischer Gradient DPO | Qualitätsoptimierung | Ausrichtung auf menschliche Präferenzen |
💡 Perspektive für Entwickler: Die Editierfähigkeiten von FireRed 1.1 sind auf jedes beliebige T2I-Basismodell übertragbar. Dies bedeutet, dass es sich nicht nur um ein einzelnes Modell handelt, sondern um ein wiederverwendbares Framework für Editierfunktionen.
FireRed Image Edit 1.1 API-Integrationsleitfaden
Aktuell verfügbare API-Plattformen
FireRed Image Edit 1.1 ist bereits über API-Dienste auf mehreren Drittanbieter-Plattformen verfügbar:
| Plattform | Geschätzte Kosten | Besonderheiten |
|---|---|---|
| Replicate | ~0,036 $/Aufruf | Abrechnung pro Aufruf, einfach zu bedienen |
| fal.ai | Nutzungsabhängig | Serverless-Bereitstellung, schnelle Antwortzeiten |
| WaveSpeedAI | Nutzungsabhängig | Spezialisiert auf die Beschleunigung von KI-Bildmodellen |
| HuggingFace Spaces | Kostenlose Testversion | Online-Demo, kein Code erforderlich |
Anforderungen für die lokale Bereitstellung
Wenn Sie FireRed 1.1 lokal bereitstellen möchten:
- VRAM-Bedarf: 30 GB VRAM (empfohlen A100 oder H100)
- Inferenzgeschwindigkeit: ca. 4,5 Sekunden/Bild
- Open-Source-Lizenz: Apache 2.0, für die kommerzielle Nutzung geeignet
- Modellquelle: HuggingFace
FireRedTeam/FireRed-Image-Edit-1.1
Informationen zur Anbindung über APIYI
FireRed Image Edit 1.1 ist derzeit noch nicht auf der APIYI-Plattform verfügbar, befindet sich jedoch in der technischen Evaluierung und Vorbereitung zur Anbindung.
🔔 Integrationsankündigung: APIYI (apiyi.com) evaluiert derzeit die Integration des FireRed Image Edit 1.1-Modells. Wenn Sie Bedarf an einer API für die Bildbearbeitung haben, kontaktieren Sie das APIYI-Team, um sich über den Fortschritt der Integration zu informieren und einen Test zu vereinbaren. Nach der Bereitstellung auf der Plattform können Sie das Modell über eine einheitliche API-Schnittstelle direkt aufrufen, ohne es selbst hosten zu müssen.
Anwendungsbereiche von FireRed Image Edit 1.1
E-Commerce und Content-Erstellung
- Produktbildbearbeitung: Austausch von Hintergründen, Anpassung der Lichtverhältnisse, Hinzufügen von Szenen
- Virtuelle Anprobe: Virtuelle Umgestaltung von Modellen zur Senkung der Shooting-Kosten
- Social-Media-Cover: Schnelle Generierung von Cover-Bildern mit einheitlichem Stil
- Restaurierung alter Fotos: Reparatur alter Aufnahmen zur Verbesserung der Bildqualität
Design und Kreativität
- Stiltransfer: Umwandlung von Fotos in verschiedene künstlerische Stile
- Kreative Komposition: Kombination mehrerer Elemente für kreative Poster
- Markenmaterialien: Stapelverarbeitung von Bildern für ein einheitliches visuelles Branding
Positionierungsunterschiede zu anderen Bildmodellen
| Modell | Positionierung | Kernvorteile | Anwendungsbereich |
|---|---|---|---|
| FireRed Image Edit 1.1 | Bildbearbeitung | Gesichtskonsistenz, Befolgung von Anweisungen | Präzise Bearbeitung bestehender Bilder |
| Gemini Imagen 4 | Text-zu-Bild | Hochwertige Generierung | Erstellung neuer Bilder aus dem Nichts |
| DALL-E 3 | Text-zu-Bild | Text-Rendering | Erstellung kreativer Bilder |
| Stable Diffusion 3 | Text-zu-Bild + Bearbeitung | Open-Source-Ökosystem | Flexible Anpassung |
Das zentrale Alleinstellungsmerkmal von FireRed 1.1 ist: Es generiert keine neuen Bilder, sondern bearbeitet präzise bestehende Bilder. Dies verleiht ihm einen einzigartigen Vorteil in Bereichen wie E-Commerce und Content-Erstellung, in denen auf Basis von echtem Material weitergearbeitet werden muss.
🚀 Empfehlung: Wenn Sie „präzise Änderungen auf Basis vorhandener Bilder“ vornehmen möchten (Hintergrundwechsel, Stiländerungen, Hinzufügen von Elementen), ist FireRed derzeit die beste Open-Source-Wahl. Für Anforderungen an die Text-zu-Bild-Generierung können Sie über die Plattform APIYI (apiyi.com) Modelle wie Gemini Imagen, DALL-E usw. nutzen und diese je nach Szenario flexibel kombinieren.
Häufig gestellte Fragen (FAQ)
Q1: Kann FireRed Image Edit 1.1 kostenlos kommerziell genutzt werden?
Ja. FireRed Image Edit 1.1 unterliegt der Apache 2.0-Open-Source-Lizenz, die eine freie Nutzung, Modifikation und Verbreitung erlaubt, einschließlich der kommerziellen Nutzung. Sie können die Modellgewichte von HuggingFace für eine lokale Bereitstellung herunterladen oder einen API-Proxy-Dienst eines Drittanbieters nutzen, bei dem Sie nach Verbrauch bezahlen.
Q2: Was ist der Unterschied zwischen FireRed 1.1 und 1.0, und welche Version sollte ich wählen?
Es wird empfohlen, direkt die Version 1.1 zu verwenden. Im Vergleich zur 1.0 wurde bei der 1.1 der Schwerpunkt auf die Gesichtskonsistenz bei Porträts, die Verschmelzung mehrerer Elemente, stilisierte Texte und Make-up-Effekte gelegt. In allen Bereichen gibt es Verbesserungen; es gibt keine Rückschritte. Version 1.1 erreicht einen GEdit-Gesamtscore von 7,94, während die 1.0 einen niedrigeren Basiswert aufweist.
Q3: Welche Hardware ist für eine lokale Bereitstellung erforderlich?
FireRed 1.1 benötigt mindestens 30 GB VRAM. Wir empfehlen NVIDIA A100 (40/80 GB) oder H100 Grafikkarten. Falls keine ausreichenden GPU-Ressourcen vorhanden sind, empfiehlt sich die Nutzung via API – ein einzelner Aufruf auf Replicate kostet etwa 0,036 $. Nach dem Start auf der Plattform APIYI (apiyi.com) wird der Zugriff auch dort direkt per API möglich sein.
Q4: Wann wird APIYI FireRed Image Edit integrieren?
FireRed Image Edit 1.1 befindet sich derzeit in der technischen Evaluierungsphase für die APIYI-Plattform. Wenn Sie einen konkreten Bedarf an einer Bildbearbeitungs-API haben, kontaktieren Sie gerne das Team von APIYI (apiyi.com). Ihr Feedback hilft uns, die Evaluierung und die Integration zu beschleunigen.
Zusammenfassung
Die Kernpunkte von FireRed Image Edit 1.1:
- Open-Source SOTA: GEdit-Gesamtscore von 7,94, ImgEdit 4,56 – übertrifft Qwen-Image-Edit-2511 in allen Bereichen.
- Führende Gesichtskonsistenz: Dank differenzierbarer Konsistenzverlustmechanismen kommt es bei der Porträtbearbeitung nicht mehr zum "Gesichtswechsel".
- Nativer Support für Chinesisch: Entwickelt vom Xiaohongshu-Team, bietet exzellente Ergebnisse bei chinesischen und englischen Eingabeaufforderungen.
- Vollständig Open-Source und kommerziell nutzbar: Apache 2.0-Lizenz, direkter Download via HuggingFace möglich.
- Effiziente Inferenz: Einsatzbereit mit 30 GB VRAM, Generierungsgeschwindigkeit von 4,5 Sekunden pro Bild.
Für Entwickler und Unternehmen, die präzise Fähigkeiten zur Bildbearbeitung benötigen, ist FireRed 1.1 derzeit die beste Wahl im Open-Source-Bereich.
APIYI (apiyi.com) evaluiert derzeit aktiv die Integration von FireRed Image Edit 1.1. Interessierte Nutzer können sich gerne vorab an uns wenden. Die Plattform unterstützt bereits den einheitlichen Modellaufruf für Gemini, Claude, GPT und mehr; die Aufnahme von Bildbearbeitungsmodellen wird unsere multimodale API-Matrix weiter vervollständigen.
📚 Referenzmaterialien
-
FireRed-Image-Edit GitHub-Repository: Offizieller Open-Source-Code und Dokumentation
- Link:
github.com/FireRedTeam/FireRed-Image-Edit - Beschreibung: Enthält den vollständigen Quellcode, Links zum Herunterladen der Modellgewichte sowie Anwendungsbeispiele.
- Link:
-
FireRed-Image-Edit 1.1 HuggingFace: Download der Modellgewichte
- Link:
huggingface.co/FireRedTeam/FireRed-Image-Edit-1.1 - Beschreibung: Hier können die Modellgewichte direkt für die lokale Bereitstellung heruntergeladen werden.
- Link:
-
Technischer Bericht zu FireRed-Image-Edit 1.0: Akademisches Paper
- Link:
arxiv.org/abs/2602.13344 - Beschreibung: Detaillierte Erläuterungen zum Architekturdesign und zu den Trainingsmethoden.
- Link:
-
REDEdit-Bench-Benchmark: Bewertungsmethodik
- Link:
github.com/FireRedTeam/FireRed-Image-Edit - Beschreibung: Bewertungsstandard mit 15 Kategorien und 1.673 zweisprachigen Bearbeitungspaaren.
- Link:
Autor: APIYI-Technikteam
Technischer Austausch: Wir freuen uns auf deine Erfahrungen mit KI-gestützter Bildbearbeitung in den Kommentaren. Weitere Informationen zu KI-Modellen findest du im APIYI-Dokumentationszentrum unter docs.apiyi.com.