Xiaohongshu FireRed Image Edit 1.1 Tiefenanalyse: Die 5 Kernkompetenzen der Open-Source-SOTA für Bildbearbeitung

Autorenhinweis: Umfassende Analyse des von Xiaohongshu (Red) quelloffenen Bildbearbeitungsmodells FireRed Image Edit 1.1. Wir behandeln die 5 Kernfähigkeiten, Benchmarks, die technische Architektur sowie die API-Anbindung. Das Open-Source-SOTA übertrifft Alibabas Qwen.

Am 3. März 2026 veröffentlichte das FireRed-Team von Xiaohongshu FireRed-Image-Edit 1.1 – ein auf der Diffusion-Transformer-Architektur basierendes Basismodell für die Bildbearbeitung. Das Modell erreichte in den drei Benchmarks ImgEdit, GEdit und REDEdit den Status „Open-Source SOTA“. Mit einer Gesamtpunktzahl von 7,94 übertraf es Qwen-Image-Edit-2511 von Alibaba (7,88) und ist damit das derzeit leistungsfähigste quelloffene Bildbearbeitungsmodell.

Kernnutzen: Nach der Lektüre dieses Artikels kennen Sie die 5 Kernfähigkeiten von FireRed Image Edit 1.1, die Innovationen in der technischen Architektur und wissen, wie Sie das Modell schnell über eine API einbinden.

xiaohongshu-firered-image-edit-1-1-ai-image-editing-guide-de 图示

FireRed Image Edit 1.1 Kernpunkte

Punkt Beschreibung Vorteil
Open Source SOTA ImgEdit Gesamtpunktzahl 4,56, GEdit Gesamtpunktzahl 7,94 Übertrifft Qwen-Image-Edit
Identitätskonsistenz Differenzierbarer Konsistenzverlust-Mechanismus, hohe Wiedergabetreue der Gesichtsmerkmale Porträts werden ohne Verzerrung bearbeitet
Multielement-Fusion Unterstützung für die freie Kombination von 10+ Elementen Automatische Zuschneidung und Zusammenfügung durch Agent
Zweisprachig Evaluation mit 1.673 chinesisch-englischen Bearbeitungspaaren Native Unterstützung für chinesische Befehle
Apache 2.0 Vollständig quelloffen, für kommerzielle Nutzung geeignet Kostenlos und kommerziell nutzbar

Was ist FireRed Image Edit 1.1?

FireRed-Image-Edit ist ein Basismodell für die Bildbearbeitung, das vom FireRed-Team bei Xiaohongshu entwickelt wurde. Im Gegensatz zu herkömmlichen Text-zu-Bild-Modellen (Text-to-Image) liegt der Fokus auf Bildbearbeitung (Image Editing) – die präzise Änderung von Bildern anhand natürlicher Sprachbefehle, während der Kerninhalt des Originalbildes erhalten bleibt.

Sie können bis zu 3 Referenzbilder hochladen und mit natürlicher Sprache (Chinesisch oder Englisch) beschreiben, welchen Bearbeitungseffekt Sie erzielen möchten. Das Modell integriert intelligent die Elemente, Stile und Personen aus den Referenzbildern in das Ausgabebild.

Die wichtigsten Verbesserungen von Version 1.1 gegenüber 1.0:

  • Deutliche Optimierung der Porträtkonsistenz: Genauere Beibehaltung der Gesichtsmerkmale bei Hintergrundwechseln und Stilübertragungen
  • Erweiterte Multielement-Fusion: Bessere Verarbeitung komplexer Szenarien mit mehreren kombinierten Bildern
  • Stilisierte Textreferenz: Unterstützung für eine größere Vielfalt an Schriftarten und Layoutstilen
  • Porträt-Make-up-Effekte: Neue Fähigkeiten für detaillierte Make-up-Bearbeitungen

Die 5 Kernfähigkeiten von FireRed Image Edit 1.1

Fähigkeit 1: Identitätskonsistenz (Identity Consistency)

Dies ist das wichtigste Upgrade der Version 1.1. Durch einen innovativen differenzierbaren Konsistenzverlust-Mechanismus (Differentiable Consistency Loss) kann das Modell bei der Bearbeitung von Porträts Gesichtsmerkmale, Mimik und persönliche Charakteristika präzise bewahren.

Anwendungsszenarien:

  • Hintergrund von Fotos ändern, während das Gesicht unverändert bleibt
  • Anwendung verschiedener künstlerischer Stile bei Beibehaltung der Identitätsmerkmale
  • Synthese von Personen in verschiedene Szenen bei konsistenten äußeren Merkmalen

Herkömmliche Bildbearbeitungsmodelle leiden bei Stilübertragungen oft unter "Gesichtsverzerrungen" – die Person sieht dann wie jemand anderes aus. FireRed 1.1 löst dieses Problem durch die Minimierung von Identitätsabweichungen während des gesamten Generierungsprozesses.

Fähigkeit 2: Multielement-Fusion (Multi-Element Fusion)

FireRed 1.1 unterstützt die freie Kombination von über 10 visuellen Elementen, unterstützt durch eine Agent-gesteuerte automatische Zuschneide- und Zusammenfügungsfunktion:

Fusionstyp Beschreibung Typisches Szenario
Person + Hintergrund Person in eine neue Szene einfügen Hintergrundwechsel für Produktmodelle
Person + Kleidung Virtuelle Anprobe E-Commerce-Modepräsentation
Kombination mehrerer Personen Zusammenführung von Personen aus verschiedenen Bildern Kreative Plakatsynthese
Stil + Inhalt Anwendung des Stils eines Referenzbildes auf ein Inhaltsbild Künstlerische Stilübertragung
Text + Bild Natürliche Integration von Text in Bilder Cover für soziale Medien

Fähigkeit 3: Präzise Befolgung von Befehlen (Instruction Following)

Das Modell verwendet die stochastische Befehlsausrichtung (Stochastic Instruction Alignment) in Kombination mit einer dynamischen Neuindizierung der Eingabeaufforderung, um sicherzustellen, dass die Ausgabe hochgradig mit den Benutzerbefehlen übereinstimmt.

Tests zeigen, dass FireRed 1.1 in der Benchmarking-Dimension von REDEdit-Bench wie folgt abschneidet:

  • Punktzahl für chinesische Befehle: 4,33
  • Punktzahl für englische Befehle: 4,26

Dies bedeutet, dass das Modell nicht nur einfache Befehle wie "Ändere den Hintergrund in einen Strand" versteht, sondern auch komplexe Beschreibungen wie "Behalte die Person bei, ersetze den Hintergrund durch einen tropischen Strand bei Sonnenuntergang und füge weiche, warme Lichteffekte hinzu" verarbeiten kann.

xiaohongshu-firered-image-edit-1-1-ai-image-editing-guide-de 图示

Fähigkeit 4: Hochpräzise Textbearbeitung (Text Editing)

Durch die DiffusionNFT-Technologie und einen layout-bewussten OCR-Belohnungsmechanismus kann FireRed 1.1 Textinhalte in Bildern präzise beibehalten und bearbeiten. Dies ist in der Praxis sehr wichtig, da viele Bildbearbeitungsmodelle bei der Verarbeitung von Bildern, die Text enthalten, zu unscharfen oder verzerrten Texten führen.

Fähigkeit 5: Restaurierung alter Fotos und Stilübertragung

FireRed 1.1 zeigt exzellente Leistungen bei der Restaurierung alter Fotos und der stilübergreifenden Migration:

  • Restaurierung alter Fotos: Automatische Korrektur von Kratzern, Farbverblassungen, Unschärfen und anderen typischen Problemen alter Fotos
  • Stilübertragung: Umwandlung von Fotos in verschiedene künstlerische Stile wie Ölgemälde, Aquarell oder Anime
  • Make-up-Bearbeitung: Die neue, in Version 1.1 hinzugefügte Fähigkeit für präzise Make-up-Anpassungen

Benchmark-Ergebnisse von FireRed Image Edit 1.1

Führend in drei Haupt-Benchmarks

Benchmark FireRed 1.1 Qwen-Image-Edit Vergleich
ImgEdit (Gesamt) 4,56 4,51 ✅ FireRed gewinnt
GEdit (Gesamt G_O) 7,94 (EN) / 7,89 (CN) 7,88 ✅ FireRed gewinnt
REDEdit (Chinesisch) 4,33 Open-Source SOTA
REDEdit (Englisch) 4,26 Open-Source SOTA

GEdit-Teildimensionen

Dimension Ergebnis (EN) Ergebnis (CN) Bedeutung
G_SC (Semantische Konsistenz) 8,363 8,287 Übereinstimmung von Editierung und Befehl
G_PQ (Wahrgenommene Qualität) 8,245 8,227 Visuelle Qualität des generierten Bildes
G_O (Gesamtbewertung) 7,943 7,887 Gewichteter Gesamtwert aus verschiedenen Dimensionen

REDEdit-Bench ist ein vom FireRed-Team selbst entwickelter Benchmark, der 15 Kategorien und 1.673 chinesisch-englische zweisprachige Editierpaare abdeckt und damit deutlich näher an den tatsächlichen Editierbedürfnissen der Nutzer liegt als bestehende Benchmarks.

🎯 Performance-Tipp: FireRed 1.1 zeigt seine größten Stärken in den Bereichen Gesichtskonsistenz und Befolgung von Eingabeaufforderungen. Dies ist besonders vorteilhaft bei Szenarien, in denen persönliche Merkmale beibehalten werden müssen. APIYI (apiyi.com) plant, dieses Modell in Zukunft zu integrieren – bei Interesse kontaktieren Sie uns gerne für vorab Informationen.

xiaohongshu-firered-image-edit-1-1-ai-image-editing-guide-de 图示


Technische Architektur von FireRed Image Edit 1.1

Kernarchitektur: MM-DiT Double-Stream Multi-Modal Diffusion Transformer

Die Kern-Generierungs-Engine von FireRed 1.1 ist der Double-Stream Multi-Modal Diffusion Transformer (MM-DiT):

  1. Texteinbettung: Die Eingabeaufforderung des Nutzers wird durch einen Text-Encoder in semantische Vektoren umgewandelt.
  2. Bild-Latent-Tokens: Das Originalbild wird mittels eines High-Fidelity VAE in eine latente Raumdarstellung kodiert.
  3. Merkmale des Referenzbildes: Extraktion visueller Merkmale aus den Referenzbildern (bis zu 3 Stück).
  4. Einheitlicher Input-Stream: Die drei Datenströme werden zu einem einheitlichen Input kombiniert und in den MM-DiT für eine dichte, bidirektionale Interaktion eingespeist.
  5. Generierung: Das Modell erzeugt die latente Darstellung des editierten Bildes, die durch den VAE in das finale Bild dekodiert wird.

Trainings-Pipeline: Pretrain → SFT → RL

FireRed 1.1 durchläuft ein vollständiges dreistufiges Training:

  • Pretraining: Basierend auf einem umfangreichen Korpus von 1,6 Milliarden Samples, davon über 100 Millionen hochwertige Datensätze.
  • Supervised Fine-Tuning (SFT): Spezifische Feinabstimmung für Editieraufgaben.
  • Reinforcement Learning (RL): Einsatz von DPO (Direct Preference Optimization) mit asymmetrischer Gradientenoptimierung zur weiteren Steigerung der Editierqualität.

Wichtige technologische Innovationen

Technologie Funktion Effekt
Differentiierbarer Konsistenzverlust Wahrung der Identität Keine Verformung bei Porträtedits
Randomisierte Befehlsausrichtung Befehlsverständnis Präzise Ausführung komplexer Beschreibungen
Multi-Condition Bucket Sampling Trainingseffizienz Unterstützt Batching mit variabler Auflösung
DiffusionNFT Texteditierung Klare, nicht verschwommene Schrift im Bild
Asymmetrischer Gradient DPO Qualitätsoptimierung Ausrichtung auf menschliche Präferenzen

💡 Perspektive für Entwickler: Die Editierfähigkeiten von FireRed 1.1 sind auf jedes beliebige T2I-Basismodell übertragbar. Dies bedeutet, dass es sich nicht nur um ein einzelnes Modell handelt, sondern um ein wiederverwendbares Framework für Editierfunktionen.

FireRed Image Edit 1.1 API-Integrationsleitfaden

Aktuell verfügbare API-Plattformen

FireRed Image Edit 1.1 ist bereits über API-Dienste auf mehreren Drittanbieter-Plattformen verfügbar:

Plattform Geschätzte Kosten Besonderheiten
Replicate ~0,036 $/Aufruf Abrechnung pro Aufruf, einfach zu bedienen
fal.ai Nutzungsabhängig Serverless-Bereitstellung, schnelle Antwortzeiten
WaveSpeedAI Nutzungsabhängig Spezialisiert auf die Beschleunigung von KI-Bildmodellen
HuggingFace Spaces Kostenlose Testversion Online-Demo, kein Code erforderlich

Anforderungen für die lokale Bereitstellung

Wenn Sie FireRed 1.1 lokal bereitstellen möchten:

  • VRAM-Bedarf: 30 GB VRAM (empfohlen A100 oder H100)
  • Inferenzgeschwindigkeit: ca. 4,5 Sekunden/Bild
  • Open-Source-Lizenz: Apache 2.0, für die kommerzielle Nutzung geeignet
  • Modellquelle: HuggingFace FireRedTeam/FireRed-Image-Edit-1.1

Informationen zur Anbindung über APIYI

FireRed Image Edit 1.1 ist derzeit noch nicht auf der APIYI-Plattform verfügbar, befindet sich jedoch in der technischen Evaluierung und Vorbereitung zur Anbindung.

🔔 Integrationsankündigung: APIYI (apiyi.com) evaluiert derzeit die Integration des FireRed Image Edit 1.1-Modells. Wenn Sie Bedarf an einer API für die Bildbearbeitung haben, kontaktieren Sie das APIYI-Team, um sich über den Fortschritt der Integration zu informieren und einen Test zu vereinbaren. Nach der Bereitstellung auf der Plattform können Sie das Modell über eine einheitliche API-Schnittstelle direkt aufrufen, ohne es selbst hosten zu müssen.


Anwendungsbereiche von FireRed Image Edit 1.1

E-Commerce und Content-Erstellung

  • Produktbildbearbeitung: Austausch von Hintergründen, Anpassung der Lichtverhältnisse, Hinzufügen von Szenen
  • Virtuelle Anprobe: Virtuelle Umgestaltung von Modellen zur Senkung der Shooting-Kosten
  • Social-Media-Cover: Schnelle Generierung von Cover-Bildern mit einheitlichem Stil
  • Restaurierung alter Fotos: Reparatur alter Aufnahmen zur Verbesserung der Bildqualität

Design und Kreativität

  • Stiltransfer: Umwandlung von Fotos in verschiedene künstlerische Stile
  • Kreative Komposition: Kombination mehrerer Elemente für kreative Poster
  • Markenmaterialien: Stapelverarbeitung von Bildern für ein einheitliches visuelles Branding

Positionierungsunterschiede zu anderen Bildmodellen

Modell Positionierung Kernvorteile Anwendungsbereich
FireRed Image Edit 1.1 Bildbearbeitung Gesichtskonsistenz, Befolgung von Anweisungen Präzise Bearbeitung bestehender Bilder
Gemini Imagen 4 Text-zu-Bild Hochwertige Generierung Erstellung neuer Bilder aus dem Nichts
DALL-E 3 Text-zu-Bild Text-Rendering Erstellung kreativer Bilder
Stable Diffusion 3 Text-zu-Bild + Bearbeitung Open-Source-Ökosystem Flexible Anpassung

Das zentrale Alleinstellungsmerkmal von FireRed 1.1 ist: Es generiert keine neuen Bilder, sondern bearbeitet präzise bestehende Bilder. Dies verleiht ihm einen einzigartigen Vorteil in Bereichen wie E-Commerce und Content-Erstellung, in denen auf Basis von echtem Material weitergearbeitet werden muss.

🚀 Empfehlung: Wenn Sie „präzise Änderungen auf Basis vorhandener Bilder“ vornehmen möchten (Hintergrundwechsel, Stiländerungen, Hinzufügen von Elementen), ist FireRed derzeit die beste Open-Source-Wahl. Für Anforderungen an die Text-zu-Bild-Generierung können Sie über die Plattform APIYI (apiyi.com) Modelle wie Gemini Imagen, DALL-E usw. nutzen und diese je nach Szenario flexibel kombinieren.

Häufig gestellte Fragen (FAQ)

Q1: Kann FireRed Image Edit 1.1 kostenlos kommerziell genutzt werden?

Ja. FireRed Image Edit 1.1 unterliegt der Apache 2.0-Open-Source-Lizenz, die eine freie Nutzung, Modifikation und Verbreitung erlaubt, einschließlich der kommerziellen Nutzung. Sie können die Modellgewichte von HuggingFace für eine lokale Bereitstellung herunterladen oder einen API-Proxy-Dienst eines Drittanbieters nutzen, bei dem Sie nach Verbrauch bezahlen.

Q2: Was ist der Unterschied zwischen FireRed 1.1 und 1.0, und welche Version sollte ich wählen?

Es wird empfohlen, direkt die Version 1.1 zu verwenden. Im Vergleich zur 1.0 wurde bei der 1.1 der Schwerpunkt auf die Gesichtskonsistenz bei Porträts, die Verschmelzung mehrerer Elemente, stilisierte Texte und Make-up-Effekte gelegt. In allen Bereichen gibt es Verbesserungen; es gibt keine Rückschritte. Version 1.1 erreicht einen GEdit-Gesamtscore von 7,94, während die 1.0 einen niedrigeren Basiswert aufweist.

Q3: Welche Hardware ist für eine lokale Bereitstellung erforderlich?

FireRed 1.1 benötigt mindestens 30 GB VRAM. Wir empfehlen NVIDIA A100 (40/80 GB) oder H100 Grafikkarten. Falls keine ausreichenden GPU-Ressourcen vorhanden sind, empfiehlt sich die Nutzung via API – ein einzelner Aufruf auf Replicate kostet etwa 0,036 $. Nach dem Start auf der Plattform APIYI (apiyi.com) wird der Zugriff auch dort direkt per API möglich sein.

Q4: Wann wird APIYI FireRed Image Edit integrieren?

FireRed Image Edit 1.1 befindet sich derzeit in der technischen Evaluierungsphase für die APIYI-Plattform. Wenn Sie einen konkreten Bedarf an einer Bildbearbeitungs-API haben, kontaktieren Sie gerne das Team von APIYI (apiyi.com). Ihr Feedback hilft uns, die Evaluierung und die Integration zu beschleunigen.


Zusammenfassung

Die Kernpunkte von FireRed Image Edit 1.1:

  1. Open-Source SOTA: GEdit-Gesamtscore von 7,94, ImgEdit 4,56 – übertrifft Qwen-Image-Edit-2511 in allen Bereichen.
  2. Führende Gesichtskonsistenz: Dank differenzierbarer Konsistenzverlustmechanismen kommt es bei der Porträtbearbeitung nicht mehr zum "Gesichtswechsel".
  3. Nativer Support für Chinesisch: Entwickelt vom Xiaohongshu-Team, bietet exzellente Ergebnisse bei chinesischen und englischen Eingabeaufforderungen.
  4. Vollständig Open-Source und kommerziell nutzbar: Apache 2.0-Lizenz, direkter Download via HuggingFace möglich.
  5. Effiziente Inferenz: Einsatzbereit mit 30 GB VRAM, Generierungsgeschwindigkeit von 4,5 Sekunden pro Bild.

Für Entwickler und Unternehmen, die präzise Fähigkeiten zur Bildbearbeitung benötigen, ist FireRed 1.1 derzeit die beste Wahl im Open-Source-Bereich.

APIYI (apiyi.com) evaluiert derzeit aktiv die Integration von FireRed Image Edit 1.1. Interessierte Nutzer können sich gerne vorab an uns wenden. Die Plattform unterstützt bereits den einheitlichen Modellaufruf für Gemini, Claude, GPT und mehr; die Aufnahme von Bildbearbeitungsmodellen wird unsere multimodale API-Matrix weiter vervollständigen.


📚 Referenzmaterialien

  1. FireRed-Image-Edit GitHub-Repository: Offizieller Open-Source-Code und Dokumentation

    • Link: github.com/FireRedTeam/FireRed-Image-Edit
    • Beschreibung: Enthält den vollständigen Quellcode, Links zum Herunterladen der Modellgewichte sowie Anwendungsbeispiele.
  2. FireRed-Image-Edit 1.1 HuggingFace: Download der Modellgewichte

    • Link: huggingface.co/FireRedTeam/FireRed-Image-Edit-1.1
    • Beschreibung: Hier können die Modellgewichte direkt für die lokale Bereitstellung heruntergeladen werden.
  3. Technischer Bericht zu FireRed-Image-Edit 1.0: Akademisches Paper

    • Link: arxiv.org/abs/2602.13344
    • Beschreibung: Detaillierte Erläuterungen zum Architekturdesign und zu den Trainingsmethoden.
  4. REDEdit-Bench-Benchmark: Bewertungsmethodik

    • Link: github.com/FireRedTeam/FireRed-Image-Edit
    • Beschreibung: Bewertungsstandard mit 15 Kategorien und 1.673 zweisprachigen Bearbeitungspaaren.

Autor: APIYI-Technikteam
Technischer Austausch: Wir freuen uns auf deine Erfahrungen mit KI-gestützter Bildbearbeitung in den Kommentaren. Weitere Informationen zu KI-Modellen findest du im APIYI-Dokumentationszentrum unter docs.apiyi.com.

Schreibe einen Kommentar