Xiaohongshu FireRed Image Edit 1.1 Tiefenanalyse: Die 5 Kernkompetenzen der Open-Source-SOTA für Bildbearbeitung

Autorenhinweis: Umfassende Analyse des von Xiaohongshu (Red) quelloffenen Bildbearbeitungsmodells FireRed Image Edit 1.1. Wir behandeln die 5 Kernfähigkeiten, Benchmarks, die technische Architektur sowie die API-Anbindung. Das Open-Source-SOTA übertrifft Alibabas Qwen.

Am 3. März 2026 veröffentlichte das FireRed-Team von Xiaohongshu FireRed-Image-Edit 1.1 – ein auf der Diffusion-Transformer-Architektur basierendes Basismodell für die Bildbearbeitung. Das Modell erreichte in den drei Benchmarks ImgEdit, GEdit und REDEdit den Status „Open-Source SOTA“. Mit einer Gesamtpunktzahl von 7,94 übertraf es Qwen-Image-Edit-2511 von Alibaba (7,88) und ist damit das derzeit leistungsfähigste quelloffene Bildbearbeitungsmodell.

Kernnutzen: Nach der Lektüre dieses Artikels kennen Sie die 5 Kernfähigkeiten von FireRed Image Edit 1.1, die Innovationen in der technischen Architektur und wissen, wie Sie das Modell schnell über eine API einbinden.

FireRed Image Edit 1.1 Kernpunkte

Punkt	Beschreibung	Vorteil
Open Source SOTA	ImgEdit Gesamtpunktzahl 4,56, GEdit Gesamtpunktzahl 7,94	Übertrifft Qwen-Image-Edit
Identitätskonsistenz	Differenzierbarer Konsistenzverlust-Mechanismus, hohe Wiedergabetreue der Gesichtsmerkmale	Porträts werden ohne Verzerrung bearbeitet
Multielement-Fusion	Unterstützung für die freie Kombination von 10+ Elementen	Automatische Zuschneidung und Zusammenfügung durch Agent
Zweisprachig	Evaluation mit 1.673 chinesisch-englischen Bearbeitungspaaren	Native Unterstützung für chinesische Befehle
Apache 2.0	Vollständig quelloffen, für kommerzielle Nutzung geeignet	Kostenlos und kommerziell nutzbar

Was ist FireRed Image Edit 1.1?

FireRed-Image-Edit ist ein Basismodell für die Bildbearbeitung, das vom FireRed-Team bei Xiaohongshu entwickelt wurde. Im Gegensatz zu herkömmlichen Text-zu-Bild-Modellen (Text-to-Image) liegt der Fokus auf Bildbearbeitung (Image Editing) – die präzise Änderung von Bildern anhand natürlicher Sprachbefehle, während der Kerninhalt des Originalbildes erhalten bleibt.

Sie können bis zu 3 Referenzbilder hochladen und mit natürlicher Sprache (Chinesisch oder Englisch) beschreiben, welchen Bearbeitungseffekt Sie erzielen möchten. Das Modell integriert intelligent die Elemente, Stile und Personen aus den Referenzbildern in das Ausgabebild.

Die wichtigsten Verbesserungen von Version 1.1 gegenüber 1.0:

Deutliche Optimierung der Porträtkonsistenz: Genauere Beibehaltung der Gesichtsmerkmale bei Hintergrundwechseln und Stilübertragungen
Erweiterte Multielement-Fusion: Bessere Verarbeitung komplexer Szenarien mit mehreren kombinierten Bildern
Stilisierte Textreferenz: Unterstützung für eine größere Vielfalt an Schriftarten und Layoutstilen
Porträt-Make-up-Effekte: Neue Fähigkeiten für detaillierte Make-up-Bearbeitungen

Die 5 Kernfähigkeiten von FireRed Image Edit 1.1

Fähigkeit 1: Identitätskonsistenz (Identity Consistency)

Dies ist das wichtigste Upgrade der Version 1.1. Durch einen innovativen differenzierbaren Konsistenzverlust-Mechanismus (Differentiable Consistency Loss) kann das Modell bei der Bearbeitung von Porträts Gesichtsmerkmale, Mimik und persönliche Charakteristika präzise bewahren.

Anwendungsszenarien:

Hintergrund von Fotos ändern, während das Gesicht unverändert bleibt
Anwendung verschiedener künstlerischer Stile bei Beibehaltung der Identitätsmerkmale
Synthese von Personen in verschiedene Szenen bei konsistenten äußeren Merkmalen

Herkömmliche Bildbearbeitungsmodelle leiden bei Stilübertragungen oft unter "Gesichtsverzerrungen" – die Person sieht dann wie jemand anderes aus. FireRed 1.1 löst dieses Problem durch die Minimierung von Identitätsabweichungen während des gesamten Generierungsprozesses.

Fähigkeit 2: Multielement-Fusion (Multi-Element Fusion)

FireRed 1.1 unterstützt die freie Kombination von über 10 visuellen Elementen, unterstützt durch eine Agent-gesteuerte automatische Zuschneide- und Zusammenfügungsfunktion:

Fusionstyp	Beschreibung	Typisches Szenario
Person + Hintergrund	Person in eine neue Szene einfügen	Hintergrundwechsel für Produktmodelle
Person + Kleidung	Virtuelle Anprobe	E-Commerce-Modepräsentation
Kombination mehrerer Personen	Zusammenführung von Personen aus verschiedenen Bildern	Kreative Plakatsynthese
Stil + Inhalt	Anwendung des Stils eines Referenzbildes auf ein Inhaltsbild	Künstlerische Stilübertragung
Text + Bild	Natürliche Integration von Text in Bilder	Cover für soziale Medien

Fähigkeit 3: Präzise Befolgung von Befehlen (Instruction Following)

Das Modell verwendet die stochastische Befehlsausrichtung (Stochastic Instruction Alignment) in Kombination mit einer dynamischen Neuindizierung der Eingabeaufforderung, um sicherzustellen, dass die Ausgabe hochgradig mit den Benutzerbefehlen übereinstimmt.

Tests zeigen, dass FireRed 1.1 in der Benchmarking-Dimension von REDEdit-Bench wie folgt abschneidet:

Punktzahl für chinesische Befehle: 4,33
Punktzahl für englische Befehle: 4,26

Dies bedeutet, dass das Modell nicht nur einfache Befehle wie "Ändere den Hintergrund in einen Strand" versteht, sondern auch komplexe Beschreibungen wie "Behalte die Person bei, ersetze den Hintergrund durch einen tropischen Strand bei Sonnenuntergang und füge weiche, warme Lichteffekte hinzu" verarbeiten kann.

Fähigkeit 4: Hochpräzise Textbearbeitung (Text Editing)

Durch die DiffusionNFT-Technologie und einen layout-bewussten OCR-Belohnungsmechanismus kann FireRed 1.1 Textinhalte in Bildern präzise beibehalten und bearbeiten. Dies ist in der Praxis sehr wichtig, da viele Bildbearbeitungsmodelle bei der Verarbeitung von Bildern, die Text enthalten, zu unscharfen oder verzerrten Texten führen.

Fähigkeit 5: Restaurierung alter Fotos und Stilübertragung

FireRed 1.1 zeigt exzellente Leistungen bei der Restaurierung alter Fotos und der stilübergreifenden Migration:

Restaurierung alter Fotos: Automatische Korrektur von Kratzern, Farbverblassungen, Unschärfen und anderen typischen Problemen alter Fotos
Stilübertragung: Umwandlung von Fotos in verschiedene künstlerische Stile wie Ölgemälde, Aquarell oder Anime
Make-up-Bearbeitung: Die neue, in Version 1.1 hinzugefügte Fähigkeit für präzise Make-up-Anpassungen

Benchmark-Ergebnisse von FireRed Image Edit 1.1

Führend in drei Haupt-Benchmarks

Benchmark	FireRed 1.1	Qwen-Image-Edit	Vergleich
ImgEdit (Gesamt)	4,56	4,51	✅ FireRed gewinnt
GEdit (Gesamt G_O)	7,94 (EN) / 7,89 (CN)	7,88	✅ FireRed gewinnt
REDEdit (Chinesisch)	4,33	—	Open-Source SOTA
REDEdit (Englisch)	4,26	—	Open-Source SOTA

GEdit-Teildimensionen

Dimension	Ergebnis (EN)	Ergebnis (CN)	Bedeutung
G_SC (Semantische Konsistenz)	8,363	8,287	Übereinstimmung von Editierung und Befehl
G_PQ (Wahrgenommene Qualität)	8,245	8,227	Visuelle Qualität des generierten Bildes
G_O (Gesamtbewertung)	7,943	7,887	Gewichteter Gesamtwert aus verschiedenen Dimensionen

REDEdit-Bench ist ein vom FireRed-Team selbst entwickelter Benchmark, der 15 Kategorien und 1.673 chinesisch-englische zweisprachige Editierpaare abdeckt und damit deutlich näher an den tatsächlichen Editierbedürfnissen der Nutzer liegt als bestehende Benchmarks.

🎯 Performance-Tipp: FireRed 1.1 zeigt seine größten Stärken in den Bereichen Gesichtskonsistenz und Befolgung von Eingabeaufforderungen. Dies ist besonders vorteilhaft bei Szenarien, in denen persönliche Merkmale beibehalten werden müssen. APIYI (apiyi.com) plant, dieses Modell in Zukunft zu integrieren – bei Interesse kontaktieren Sie uns gerne für vorab Informationen.

Technische Architektur von FireRed Image Edit 1.1

Kernarchitektur: MM-DiT Double-Stream Multi-Modal Diffusion Transformer

Die Kern-Generierungs-Engine von FireRed 1.1 ist der Double-Stream Multi-Modal Diffusion Transformer (MM-DiT):

Texteinbettung: Die Eingabeaufforderung des Nutzers wird durch einen Text-Encoder in semantische Vektoren umgewandelt.
Bild-Latent-Tokens: Das Originalbild wird mittels eines High-Fidelity VAE in eine latente Raumdarstellung kodiert.
Merkmale des Referenzbildes: Extraktion visueller Merkmale aus den Referenzbildern (bis zu 3 Stück).
Einheitlicher Input-Stream: Die drei Datenströme werden zu einem einheitlichen Input kombiniert und in den MM-DiT für eine dichte, bidirektionale Interaktion eingespeist.
Generierung: Das Modell erzeugt die latente Darstellung des editierten Bildes, die durch den VAE in das finale Bild dekodiert wird.

Trainings-Pipeline: Pretrain → SFT → RL

FireRed 1.1 durchläuft ein vollständiges dreistufiges Training:

Pretraining: Basierend auf einem umfangreichen Korpus von 1,6 Milliarden Samples, davon über 100 Millionen hochwertige Datensätze.
Supervised Fine-Tuning (SFT): Spezifische Feinabstimmung für Editieraufgaben.
Reinforcement Learning (RL): Einsatz von DPO (Direct Preference Optimization) mit asymmetrischer Gradientenoptimierung zur weiteren Steigerung der Editierqualität.

Wichtige technologische Innovationen

Technologie	Funktion	Effekt
Differentiierbarer Konsistenzverlust	Wahrung der Identität	Keine Verformung bei Porträtedits
Randomisierte Befehlsausrichtung	Befehlsverständnis	Präzise Ausführung komplexer Beschreibungen
Multi-Condition Bucket Sampling	Trainingseffizienz	Unterstützt Batching mit variabler Auflösung
DiffusionNFT	Texteditierung	Klare, nicht verschwommene Schrift im Bild
Asymmetrischer Gradient DPO	Qualitätsoptimierung	Ausrichtung auf menschliche Präferenzen

💡 Perspektive für Entwickler: Die Editierfähigkeiten von FireRed 1.1 sind auf jedes beliebige T2I-Basismodell übertragbar. Dies bedeutet, dass es sich nicht nur um ein einzelnes Modell handelt, sondern um ein wiederverwendbares Framework für Editierfunktionen.

FireRed Image Edit 1.1 API-Integrationsleitfaden

Aktuell verfügbare API-Plattformen

FireRed Image Edit 1.1 ist bereits über API-Dienste auf mehreren Drittanbieter-Plattformen verfügbar:

Plattform	Geschätzte Kosten	Besonderheiten
Replicate	~0,036 $/Aufruf	Abrechnung pro Aufruf, einfach zu bedienen
fal.ai	Nutzungsabhängig	Serverless-Bereitstellung, schnelle Antwortzeiten
WaveSpeedAI	Nutzungsabhängig	Spezialisiert auf die Beschleunigung von KI-Bildmodellen
HuggingFace Spaces	Kostenlose Testversion	Online-Demo, kein Code erforderlich

Anforderungen für die lokale Bereitstellung

Wenn Sie FireRed 1.1 lokal bereitstellen möchten:

VRAM-Bedarf: 30 GB VRAM (empfohlen A100 oder H100)
Inferenzgeschwindigkeit: ca. 4,5 Sekunden/Bild
Open-Source-Lizenz: Apache 2.0, für die kommerzielle Nutzung geeignet
Modellquelle: HuggingFace FireRedTeam/FireRed-Image-Edit-1.1

Informationen zur Anbindung über APIYI

FireRed Image Edit 1.1 ist derzeit noch nicht auf der APIYI-Plattform verfügbar, befindet sich jedoch in der technischen Evaluierung und Vorbereitung zur Anbindung.

🔔 Integrationsankündigung: APIYI (apiyi.com) evaluiert derzeit die Integration des FireRed Image Edit 1.1-Modells. Wenn Sie Bedarf an einer API für die Bildbearbeitung haben, kontaktieren Sie das APIYI-Team, um sich über den Fortschritt der Integration zu informieren und einen Test zu vereinbaren. Nach der Bereitstellung auf der Plattform können Sie das Modell über eine einheitliche API-Schnittstelle direkt aufrufen, ohne es selbst hosten zu müssen.

Anwendungsbereiche von FireRed Image Edit 1.1

E-Commerce und Content-Erstellung

Produktbildbearbeitung: Austausch von Hintergründen, Anpassung der Lichtverhältnisse, Hinzufügen von Szenen
Virtuelle Anprobe: Virtuelle Umgestaltung von Modellen zur Senkung der Shooting-Kosten
Social-Media-Cover: Schnelle Generierung von Cover-Bildern mit einheitlichem Stil
Restaurierung alter Fotos: Reparatur alter Aufnahmen zur Verbesserung der Bildqualität

Design und Kreativität

Stiltransfer: Umwandlung von Fotos in verschiedene künstlerische Stile
Kreative Komposition: Kombination mehrerer Elemente für kreative Poster
Markenmaterialien: Stapelverarbeitung von Bildern für ein einheitliches visuelles Branding

Positionierungsunterschiede zu anderen Bildmodellen

Modell	Positionierung	Kernvorteile	Anwendungsbereich
FireRed Image Edit 1.1	Bildbearbeitung	Gesichtskonsistenz, Befolgung von Anweisungen	Präzise Bearbeitung bestehender Bilder
Gemini Imagen 4	Text-zu-Bild	Hochwertige Generierung	Erstellung neuer Bilder aus dem Nichts
DALL-E 3	Text-zu-Bild	Text-Rendering	Erstellung kreativer Bilder
Stable Diffusion 3	Text-zu-Bild + Bearbeitung	Open-Source-Ökosystem	Flexible Anpassung

Das zentrale Alleinstellungsmerkmal von FireRed 1.1 ist: Es generiert keine neuen Bilder, sondern bearbeitet präzise bestehende Bilder. Dies verleiht ihm einen einzigartigen Vorteil in Bereichen wie E-Commerce und Content-Erstellung, in denen auf Basis von echtem Material weitergearbeitet werden muss.

🚀 Empfehlung: Wenn Sie „präzise Änderungen auf Basis vorhandener Bilder“ vornehmen möchten (Hintergrundwechsel, Stiländerungen, Hinzufügen von Elementen), ist FireRed derzeit die beste Open-Source-Wahl. Für Anforderungen an die Text-zu-Bild-Generierung können Sie über die Plattform APIYI (apiyi.com) Modelle wie Gemini Imagen, DALL-E usw. nutzen und diese je nach Szenario flexibel kombinieren.

Häufig gestellte Fragen (FAQ)

Q1: Kann FireRed Image Edit 1.1 kostenlos kommerziell genutzt werden?

Ja. FireRed Image Edit 1.1 unterliegt der Apache 2.0-Open-Source-Lizenz, die eine freie Nutzung, Modifikation und Verbreitung erlaubt, einschließlich der kommerziellen Nutzung. Sie können die Modellgewichte von HuggingFace für eine lokale Bereitstellung herunterladen oder einen API-Proxy-Dienst eines Drittanbieters nutzen, bei dem Sie nach Verbrauch bezahlen.

Q2: Was ist der Unterschied zwischen FireRed 1.1 und 1.0, und welche Version sollte ich wählen?

Es wird empfohlen, direkt die Version 1.1 zu verwenden. Im Vergleich zur 1.0 wurde bei der 1.1 der Schwerpunkt auf die Gesichtskonsistenz bei Porträts, die Verschmelzung mehrerer Elemente, stilisierte Texte und Make-up-Effekte gelegt. In allen Bereichen gibt es Verbesserungen; es gibt keine Rückschritte. Version 1.1 erreicht einen GEdit-Gesamtscore von 7,94, während die 1.0 einen niedrigeren Basiswert aufweist.

Q3: Welche Hardware ist für eine lokale Bereitstellung erforderlich?

FireRed 1.1 benötigt mindestens 30 GB VRAM. Wir empfehlen NVIDIA A100 (40/80 GB) oder H100 Grafikkarten. Falls keine ausreichenden GPU-Ressourcen vorhanden sind, empfiehlt sich die Nutzung via API – ein einzelner Aufruf auf Replicate kostet etwa 0,036 $. Nach dem Start auf der Plattform APIYI (apiyi.com) wird der Zugriff auch dort direkt per API möglich sein.

Q4: Wann wird APIYI FireRed Image Edit integrieren?

FireRed Image Edit 1.1 befindet sich derzeit in der technischen Evaluierungsphase für die APIYI-Plattform. Wenn Sie einen konkreten Bedarf an einer Bildbearbeitungs-API haben, kontaktieren Sie gerne das Team von APIYI (apiyi.com). Ihr Feedback hilft uns, die Evaluierung und die Integration zu beschleunigen.

Zusammenfassung

Die Kernpunkte von FireRed Image Edit 1.1:

Open-Source SOTA: GEdit-Gesamtscore von 7,94, ImgEdit 4,56 – übertrifft Qwen-Image-Edit-2511 in allen Bereichen.
Führende Gesichtskonsistenz: Dank differenzierbarer Konsistenzverlustmechanismen kommt es bei der Porträtbearbeitung nicht mehr zum "Gesichtswechsel".
Nativer Support für Chinesisch: Entwickelt vom Xiaohongshu-Team, bietet exzellente Ergebnisse bei chinesischen und englischen Eingabeaufforderungen.
Vollständig Open-Source und kommerziell nutzbar: Apache 2.0-Lizenz, direkter Download via HuggingFace möglich.
Effiziente Inferenz: Einsatzbereit mit 30 GB VRAM, Generierungsgeschwindigkeit von 4,5 Sekunden pro Bild.

Für Entwickler und Unternehmen, die präzise Fähigkeiten zur Bildbearbeitung benötigen, ist FireRed 1.1 derzeit die beste Wahl im Open-Source-Bereich.

APIYI (apiyi.com) evaluiert derzeit aktiv die Integration von FireRed Image Edit 1.1. Interessierte Nutzer können sich gerne vorab an uns wenden. Die Plattform unterstützt bereits den einheitlichen Modellaufruf für Gemini, Claude, GPT und mehr; die Aufnahme von Bildbearbeitungsmodellen wird unsere multimodale API-Matrix weiter vervollständigen.

📚 Referenzmaterialien

FireRed-Image-Edit GitHub-Repository: Offizieller Open-Source-Code und Dokumentation
- Link: github.com/FireRedTeam/FireRed-Image-Edit
- Beschreibung: Enthält den vollständigen Quellcode, Links zum Herunterladen der Modellgewichte sowie Anwendungsbeispiele.
FireRed-Image-Edit 1.1 HuggingFace: Download der Modellgewichte
- Link: huggingface.co/FireRedTeam/FireRed-Image-Edit-1.1
- Beschreibung: Hier können die Modellgewichte direkt für die lokale Bereitstellung heruntergeladen werden.
Technischer Bericht zu FireRed-Image-Edit 1.0: Akademisches Paper
- Link: arxiv.org/abs/2602.13344
- Beschreibung: Detaillierte Erläuterungen zum Architekturdesign und zu den Trainingsmethoden.
REDEdit-Bench-Benchmark: Bewertungsmethodik
- Link: github.com/FireRedTeam/FireRed-Image-Edit
- Beschreibung: Bewertungsstandard mit 15 Kategorien und 1.673 zweisprachigen Bearbeitungspaaren.

Autor: APIYI-Technikteam
Technischer Austausch: Wir freuen uns auf deine Erfahrungen mit KI-gestützter Bildbearbeitung in den Kommentaren. Weitere Informationen zu KI-Modellen findest du im APIYI-Dokumentationszentrum unter docs.apiyi.com.