Análisis profundo de FireRed Image Edit 1.1 para Xiaohongshu: las 5 capacidades principales del SOTA de edición de imágenes de código abierto


title: Análisis técnico: FireRed Image Edit 1.1, el nuevo rey del código abierto
description: Descubre FireRed Image Edit 1.1, el modelo de edición de imágenes que redefine el SOTA superando a Qwen con 5 capacidades clave.

Nota del autor: Análisis completo del modelo de edición de imágenes FireRed Image Edit 1.1 de código abierto de Xiaohongshu (Red), que abarca 5 capacidades principales, datos de referencia, arquitectura técnica y métodos de acceso a la API. Un SOTA de código abierto que supera al Qwen de Alibaba.

El 3 de marzo de 2026, el equipo de FireRed de Xiaohongshu lanzó FireRed-Image-Edit 1.1, un modelo fundamental de edición de imágenes basado en la arquitectura Diffusion Transformer. El modelo ha logrado el SOTA de código abierto en los tres principales puntos de referencia: ImgEdit, GEdit y REDEdit, con una puntuación global de 7.94, superando el 7.88 del Qwen-Image-Edit-2511 de Alibaba, posicionándose como el modelo de edición de imágenes de código abierto más potente hasta la fecha.

Valor central: Tras leer este artículo, comprenderás las 5 capacidades principales de FireRed Image Edit 1.1, sus innovaciones en arquitectura técnica y cómo integrarlo rápidamente mediante API.

xiaohongshu-firered-image-edit-1-1-ai-image-editing-guide-es 图示

Puntos clave de FireRed Image Edit 1.1

Punto clave Descripción Ventaja
SOTA de código abierto Puntuación global ImgEdit 4.56, GEdit 7.94 Supera a Qwen-Image-Edit
Consistencia facial Mecanismo de pérdida de consistencia diferenciable, alta fidelidad de rasgos faciales Edición de retratos sin deformaciones
Fusión multi-elemento Soporta la combinación libre de más de 10 elementos Recorte y unión automática por agente
Bilingüe chino-inglés Evaluación sobre 1,673 pares de edición bilingües Soporte nativo para indicaciones en chino
Apache 2.0 Código abierto total, permite uso comercial Gratis y comercialmente viable

¿Qué es FireRed Image Edit 1.1?

FireRed-Image-Edit es un modelo base de edición de imágenes desarrollado por el equipo FireRed de Xiaohongshu. A diferencia de los modelos de texto a imagen (Text-to-Image) convencionales, este se centra en la edición de imágenes (Image Editing): modificar imágenes con precisión basándose en indicaciones de lenguaje natural, manteniendo intacto el contenido central de la imagen original.

Puedes cargar hasta 3 imágenes de referencia y describir en lenguaje natural (chino o inglés) el efecto de edición que deseas; el modelo fusionará de forma inteligente los elementos, el estilo y las personas de las imágenes de referencia en la imagen resultante.

Principales mejoras de la versión 1.1 frente a la 1.0:

  • Optimización significativa en la consistencia de retratos: Mayor precisión al mantener los rasgos faciales durante el cambio de fondo o la transferencia de estilo.
  • Fusión multi-elemento mejorada: Manejo más eficiente de escenas complejas que combinan varias imágenes.
  • Referencia de texto estilizado: Soporte para una gama más rica de fuentes y estilos de diseño.
  • Efectos de maquillaje en retratos: Nueva capacidad de edición detallada de maquillaje.

5 capacidades principales de FireRed Image Edit 1.1

Capacidad 1: Preservación de la consistencia facial (Identity Consistency)

Esta es la actualización más importante de la versión 1.1. Mediante un innovador mecanismo de pérdida de consistencia diferenciable (Differentiable Consistency Loss), el modelo mantiene con precisión los rasgos faciales, expresiones y características personales al editar retratos.

Escenarios de aplicación:

  • Cambiar el fondo de una foto manteniendo el rostro intacto.
  • Aplicar diferentes estilos artísticos conservando la identidad del sujeto.
  • Sintetizar personajes en diferentes escenas manteniendo rasgos físicos consistentes.

Los modelos de edición de imágenes tradicionales suelen sufrir de "deformación facial" durante la transferencia de estilo, haciendo que la persona parezca alguien distinto. FireRed 1.1 resuelve esto minimizando las discrepancias de identidad durante todo el proceso de generación.

Capacidad 2: Fusión multi-elemento (Multi-Element Fusion)

FireRed 1.1 permite combinar libremente más de 10 elementos visuales, apoyándose en funciones de recorte y unión automáticas impulsadas por agentes:

Tipo de fusión Descripción Escenario típico
Persona + Fondo Colocar una persona en un nuevo escenario Cambio de fondo para modelos de producto
Persona + Ropa Efecto de prueba de vestuario virtual Exhibición de ropa en e-commerce
Combinación multi-persona Sintetizar personas de distintas fotos Pósteres creativos
Estilo + Contenido Aplicar el estilo de referencia al contenido Transferencia de estilo artístico
Texto + Imagen Integración natural de texto en la imagen Portadas para redes sociales

Capacidad 3: Seguimiento preciso de indicaciones (Instruction Following)

El modelo utiliza tecnología de alineación de indicaciones estocásticas (Stochastic Instruction Alignment), junto con un reindexado dinámico de indicaciones, para asegurar que la salida sea altamente consistente con las instrucciones del usuario.

Las pruebas muestran que FireRed 1.1, en la dimensión de seguimiento de instrucciones del benchmark REDEdit-Bench, obtiene:

  • Puntuación en instrucciones en chino: 4.33
  • Puntuación en instrucciones en inglés: 4.26

Esto significa que el modelo no solo comprende instrucciones simples como "cambia el fondo por una playa", sino que también procesa descripciones complejas como "mantén a la persona igual, reemplaza el fondo por una playa tropical al atardecer y añade efectos de luz cálida y suave".

xiaohongshu-firered-image-edit-1-1-ai-image-editing-guide-es 图示

Capacidad 4: Edición de texto de alta fidelidad (Text Editing)

Mediante la tecnología DiffusionNFT y un mecanismo de recompensa OCR consciente del diseño, FireRed 1.1 puede preservar y editar contenido textual dentro de las imágenes con precisión. Esto es crucial en aplicaciones reales, ya que muchos modelos de edición de imágenes distorsionan o desenfocan el texto presente en las fotos.

Capacidad 5: Restauración de fotos antiguas y transferencia de estilo

FireRed 1.1 destaca en la restauración de fotos antiguas y en la transferencia de estilos:

  • Restauración de fotos: Reparación automática de rasguños, degradación del color, desenfoque y otros problemas comunes en fotos antiguas.
  • Transferencia de estilo: Conversión de fotos a varios estilos artísticos como pintura al óleo, acuarela, anime, etc.
  • Edición de maquillaje: Nueva capacidad de la versión 1.1 para ajustes finos de maquillaje.

Resultados del benchmark de FireRed Image Edit 1.1

Liderazgo integral en los tres benchmarks principales

Benchmark FireRed 1.1 Qwen-Image-Edit Resultado
ImgEdit (Global) 4.56 4.51 ✅ Victoria de FireRed
GEdit (Global G_O) 7.94 (EN) / 7.89 (CN) 7.88 ✅ Victoria de FireRed
REDEdit (Chino) 4.33 SOTA de código abierto
REDEdit (Inglés) 4.26 SOTA de código abierto

Dimensiones detalladas de GEdit

Dimensión Puntuación EN Puntuación CN Significado
G_SC (Consistencia semántica) 8.363 8.287 Coincidencia semántica entre la edición y la indicación
G_PQ (Calidad perceptiva) 8.245 8.227 Calidad visual de la imagen generada
G_O (Puntuación global) 7.943 7.887 Puntuación integral ponderada

REDEdit-Bench es un benchmark desarrollado internamente por el equipo de FireRed, que abarca 15 categorías y 1,673 pares de edición bilingües (chino-inglés), lo que lo hace mucho más cercano a las necesidades de edición de los usuarios reales que los benchmarks existentes.

🎯 Nota de rendimiento: FireRed 1.1 destaca especialmente en la consistencia facial y el seguimiento de indicaciones, siendo ideal para escenarios que requieren mantener los rasgos de las personas. APIYI (apiyi.com) planea integrar este modelo próximamente; si tienes interés, contáctanos para conocer más detalles por adelantado.

xiaohongshu-firered-image-edit-1-1-ai-image-editing-guide-es 图示


Arquitectura técnica de FireRed Image Edit 1.1

Arquitectura principal: Transformer de difusión multimodal de doble flujo MM-DiT

El motor de generación principal de FireRed 1.1 es el Transformer de difusión multimodal de doble flujo (Double-Stream Multi-Modal Diffusion Transformer, MM-DiT):

  1. Incrustación de texto: La indicación de edición del usuario se convierte en un vector semántico mediante un codificador de texto.
  2. Tokens latentes de imagen: La imagen original se codifica mediante un VAE de alta fidelidad en una representación en el espacio latente.
  3. Características de la imagen de referencia: Extracción de características visuales de la imagen de referencia (hasta 3 imágenes).
  4. Flujo de entrada unificado: Los tres flujos de información se concatenan en una entrada unificada que entra en el MM-DiT para una interacción bidireccional densa.
  5. Generación de salida: El modelo genera la representación latente de la imagen editada, que se decodifica a través del VAE para obtener la imagen final.

Pipeline de entrenamiento: Preentrenamiento → Ajuste fino supervisado (SFT) → RL

FireRed 1.1 utiliza un entrenamiento completo de tres etapas:

  • Preentrenamiento (Pretrain): Basado en un corpus masivo de 1.6 mil millones de muestras, de las cuales más de 100 millones son de alta calidad.
  • Ajuste fino supervisado (SFT): Ajuste refinado orientado a tareas de edición.
  • Aprendizaje por refuerzo (RL): Uso de DPO con optimización de gradiente asimétrico para mejorar aún más la calidad de la edición.

Innovaciones técnicas clave

Tecnología Función Efecto
Pérdida de consistencia diferenciable Preservación de identidad No deforma el rostro en la edición de retratos
Alineación de instrucciones aleatorias Comprensión de instrucciones Ejecución precisa de descripciones complejas
Muestreo por cubos de percepción multiajuste Eficiencia de entrenamiento Admite procesamiento por lotes de resolución variable
DiffusionNFT Edición de texto El texto en la imagen se mantiene claro y nítido
DPO de gradiente asimétrico Optimización de calidad Alineación con las preferencias humanas

💡 Perspectiva del desarrollador: La capacidad de edición de FireRed 1.1 es transferible a cualquier modelo base de texto a imagen (T2I), lo que significa que no solo es un modelo de edición, sino un marco de trabajo de capacidades de edición reutilizable.

Guía de integración de la API de FireRed Image Edit 1.1

Plataformas de API disponibles actualmente

FireRed Image Edit 1.1 ya ofrece servicios de API en varias plataformas de terceros:

Plataforma Precio estimado Características
Replicate ~$0.036/ejecución Pago por uso, fácil de usar
fal.ai Pago por uso Despliegue sin servidor (Serverless), respuesta rápida
WaveSpeedAI Pago por uso Enfocado en la aceleración de modelos de IA de imagen
HuggingFace Spaces Experiencia gratuita Demostración en línea, sin necesidad de código

Requisitos de despliegue local

Si necesitas implementar FireRed 1.1 de forma local:

  • Memoria de video (VRAM) necesaria: 30 GB VRAM (se recomiendan tarjetas A100 o H100)
  • Velocidad de inferencia: Aprox. 4.5 segundos por imagen
  • Licencia de código abierto: Apache 2.0, permite uso comercial
  • Fuente del modelo: HuggingFace FireRedTeam/FireRed-Image-Edit-1.1

Instrucciones de integración en la plataforma APIYI

FireRed Image Edit 1.1 aún no está disponible en la plataforma APIYI, pero se encuentra en fase de evaluación técnica y preparación para su integración.

🔔 Aviso de integración: APIYI (apiyi.com) está evaluando la incorporación del modelo FireRed Image Edit 1.1. Si tienes necesidades relacionadas con una API de edición de imágenes, no dudes en ponerte en contacto con el equipo de APIYI para conocer el progreso de la integración y solicitar una prueba. Una vez disponible en la plataforma, podrás realizar la invocación del modelo directamente a través de una interfaz API unificada, sin necesidad de realizar el despliegue por tu cuenta.


Escenarios de aplicación de FireRed Image Edit 1.1

Comercio electrónico y creación de contenido

  • Edición de imágenes de productos: Cambiar fondos de productos, ajustar iluminación y sombras, añadir escenas.
  • Cambio de vestuario en modelos: Efectos de prueba virtual, reduciendo los costos de fotografía.
  • Portadas para redes sociales: Generación rápida de portadas con estilos uniformes.
  • Restauración de fotos antiguas: Reparación de fotos viejas y mejora de la calidad de imagen.

Diseño y creatividad

  • Transferencia de estilo: Conversión de fotografías a diversos estilos artísticos.
  • Composición creativa: Combinación de múltiples elementos para generar pósteres creativos.
  • Materiales de marca: Procesamiento por lotes de imágenes para unificar el estilo visual de una marca.

Diferencias de posicionamiento frente a otros modelos de imagen

Modelo Posicionamiento Ventaja clave Escenario de uso
FireRed Image Edit 1.1 Edición de imágenes Consistencia facial, seguimiento de instrucciones Edición precisa de imágenes existentes
Gemini Imagen 4 Texto a imagen Generación de alta calidad Generar imágenes nuevas desde cero
DALL-E 3 Texto a imagen Renderizado de texto Generación de imágenes creativas
Stable Diffusion 3 Texto a imagen + edición Ecosistema abierto Personalización flexible

La diferencia central de FireRed 1.1 radica en esto: no genera imágenes nuevas, sino que edita con precisión imágenes existentes. Esto le otorga una ventaja única en escenarios como el comercio electrónico y la creación de contenido, donde es necesario realizar un procesamiento posterior basado en material real.

🚀 Sugerencia de escenario: Si tu necesidad es "realizar modificaciones precisas basadas en una imagen existente" (cambiar el fondo, cambiar el estilo, añadir elementos, etc.), FireRed es actualmente la mejor opción de código abierto. Si necesitas capacidades de texto a imagen, puedes utilizar modelos como Gemini Imagen o DALL-E a través de la plataforma APIYI (apiyi.com), combinándolos de forma flexible según tus necesidades específicas.


Preguntas frecuentes

Q1: ¿Se puede usar FireRed Image Edit 1.1 comercialmente de forma gratuita?

Sí. FireRed Image Edit 1.1 utiliza la licencia de código abierto Apache 2.0, lo que permite su uso, modificación y distribución libre, incluido el uso comercial. Puedes descargar los pesos del modelo desde HuggingFace para realizar una implementación local, o utilizarlo mediante plataformas de API de terceros pagando según el uso.

Q2: ¿Cuál es la diferencia entre FireRed 1.1 y 1.0, y cuál debería usar?

Recomendamos usar directamente la versión 1.1. Sobre la base de la 1.0, la 1.1 optimiza significativamente la consistencia facial, la fusión de múltiples elementos, el texto estilizado y los efectos de maquillaje. Todas sus áreas han sido mejoradas, sin retrocesos. La versión 1.1 alcanza una puntuación integral de 7.94 en GEdit, mientras que la 1.0 tenía una base más baja.

Q3: ¿Qué hardware se necesita para una implementación local?

FireRed 1.1 requiere al menos 30 GB de memoria de video (VRAM); se recomienda usar tarjetas gráficas NVIDIA A100 (40/80 GB) o H100. Si no cuentas con suficientes recursos de GPU, sugerimos utilizarlo a través de API; en Replicate, una única invocación cuesta aproximadamente $0.036. Una vez que la plataforma APIYI (apiyi.com) lo habilite, también podrás realizar la invocación del modelo directamente mediante su API.

Q4: ¿Cuándo integrará APIYI FireRed Image Edit?

FireRed Image Edit 1.1 se encuentra actualmente en la fase de evaluación técnica en la plataforma APIYI. Si tienes necesidades específicas de API para edición de imágenes, no dudes en contactar al equipo de APIYI (apiyi.com); tus requerimientos nos ayudarán a acelerar el proceso de evaluación e integración.


Resumen

Puntos clave de FireRed Image Edit 1.1:

  1. SOTA de código abierto: Puntuación integral GEdit de 7.94 e ImgEdit de 4.56, superando por completo a Qwen-Image-Edit-2511.
  2. Liderazgo en consistencia facial: El mecanismo de pérdida de consistencia diferenciable evita que la edición de retratos resulte en un "cambio de rostro".
  3. Soporte nativo para chino: Creado por el equipo de Xiaohongshu, ofrece un rendimiento excelente tanto en indicaciones en chino como en inglés.
  4. Completamente abierto y comercial: Licencia Apache 2.0, disponible para descarga directa en HuggingFace.
  5. Inferencia eficiente: Implementable con 30 GB de VRAM y una velocidad de generación de 4.5 segundos por imagen.

Para desarrolladores y empresas que requieren capacidades precisas de edición de imágenes, FireRed 1.1 es actualmente la mejor opción en el ámbito de código abierto.

APIYI (apiyi.com) está evaluando activamente la integración de FireRed Image Edit 1.1; aquellos usuarios interesados pueden contactarnos con antelación para obtener más información. La plataforma ya admite la invocación unificada de múltiples modelos como Gemini, Claude y GPT, y la incorporación de modelos de edición de imágenes completará aún más nuestra matriz de API multimodal.


📚 Referencias

  1. Repositorio de GitHub de FireRed-Image-Edit: Código fuente oficial y documentación

    • Enlace: github.com/FireRedTeam/FireRed-Image-Edit
    • Descripción: Incluye el código fuente completo, enlaces de descarga para los pesos del modelo y ejemplos de uso.
  2. FireRed-Image-Edit 1.1 en HuggingFace: Descarga de pesos del modelo

    • Enlace: huggingface.co/FireRedTeam/FireRed-Image-Edit-1.1
    • Descripción: Permite descargar directamente los pesos del modelo para realizar un despliegue local.
  3. Informe técnico de FireRed-Image-Edit 1.0: Documento académico

    • Enlace: arxiv.org/abs/2602.13344
    • Descripción: Explicación detallada del diseño de la arquitectura y la metodología de entrenamiento.
  4. Benchmark REDEdit-Bench: Metodología de evaluación

    • Enlace: github.com/FireRedTeam/FireRed-Image-Edit
    • Descripción: Estándar de evaluación compuesto por 15 categorías y 1,673 pares de edición bilingües.

Autor: Equipo técnico de APIYI
Intercambio técnico: Te invitamos a compartir tu experiencia con la edición de imágenes por IA en la sección de comentarios. Para más información sobre modelos de IA, visita el centro de documentación de APIYI en docs.apiyi.com.

Deja un comentario