Análise aprofundada do FireRed Image Edit 1.1 do Xiaohongshu: 5 capacidades principais da SOTA de edição de imagens de código aberto


title: "Análise Completa do FireRed Image Edit 1.1: O Novo Modelo SOTA de Edição de Imagens"
date: 2026-03-03

Nota do autor: Esta é uma análise completa do modelo de edição de imagens FireRed Image Edit 1.1, de código aberto do Xiaohongshu (Red), cobrindo as 5 principais capacidades, dados de benchmark, arquitetura técnica e métodos de integração via API. Este SOTA de código aberto superou o Qwen, da Alibaba.

Em 3 de março de 2026, a equipe FireRed do Xiaohongshu lançou o FireRed-Image-Edit 1.1, um modelo base de edição de imagens baseado na arquitetura Diffusion Transformer. O modelo alcançou o estado da arte (SOTA) em código aberto nos três principais benchmarks: ImgEdit, GEdit e REDEdit, com uma pontuação geral de 7,94, superando o Qwen-Image-Edit-2511 da Alibaba (7,88), tornando-se o modelo de edição de imagens de código aberto mais robusto atualmente.

Valor central: Ao terminar de ler este artigo, você entenderá as 5 principais capacidades do FireRed Image Edit 1.1, as inovações em sua arquitetura técnica e como integrá-lo rapidamente via API.

xiaohongshu-firered-image-edit-1-1-ai-image-editing-guide-pt-pt 图示


title: "FireRed Image Edit 1.1: O novo padrão para edição de imagens baseada em IA"
description: "Conheça o FireRed Image Edit 1.1, o modelo open-source focado em edição de imagens com consistência facial e fusão de múltiplos elementos."

Pontos-chave do FireRed Image Edit 1.1

Ponto Descrição Vantagem
SOTA Open Source Pontuação ImgEdit 4.56, GEdit 7.94 Supera o Qwen-Image-Edit
Consistência facial Mecanismo de perda de consistência diferenciável, alta fidelidade Edição de retratos sem distorções
Fusão multielementos Suporte a mais de 10 elementos combinados Recorte e colagem automática via Agent
Bilingue (Chinês/Inglês) Avaliação com 1.673 pares de edição Suporte nativo a comandos em chinês
Apache 2.0 Totalmente código aberto, uso comercial permitido Gratuito e comercializável

O que é o FireRed Image Edit 1.1

O FireRed-Image-Edit é um modelo base de edição de imagens desenvolvido pela equipe FireRed do Xiaohongshu. Diferente dos modelos comuns de texto para imagem, ele é focado em edição de imagens — realizando modificações precisas com base em comandos em linguagem natural, preservando o conteúdo essencial da imagem original.

Você pode enviar até 3 imagens de referência, descrever o efeito desejado em linguagem natural (chinês ou inglês), e o modelo fundirá de forma inteligente os elementos, estilos e pessoas das imagens de referência no resultado final.

Principais melhorias da versão 1.1 em relação à 1.0:

  • Consistência facial otimizada: Manutenção mais precisa dos traços faciais ao trocar fundos ou realizar transferência de estilo
  • Fusão de multielementos aprimorada: Melhor tratamento de cenários complexos com várias imagens
  • Referências de texto estilizadas: Suporte para estilos de fonte e tipografia mais ricos
  • Efeitos de maquiagem: Nova capacidade de edição de maquiagem detalhada

As 5 capacidades principais do FireRed Image Edit 1.1

Capacidade 1: Manutenção da consistência facial (Identity Consistency)

Este é o upgrade mais importante da versão 1.1. Através de um inovador mecanismo de perda de consistência diferenciável (Differentiable Consistency Loss), o modelo mantém com precisão as características faciais, expressões e traços pessoais ao editar retratos.

Cenários de aplicação:

  • Alterar o fundo de uma foto mantendo o rosto intacto
  • Aplicar diferentes estilos artísticos preservando a identidade
  • Compor pessoas em diferentes cenários mantendo a aparência consistente

Modelos tradicionais frequentemente sofrem com a "distorção facial" durante a transferência de estilo, fazendo com que a pessoa pareça outra. O FireRed 1.1 resolve isso minimizando a divergência de identidade durante todo o processo de geração.

Capacidade 2: Fusão de multielementos (Multi-Element Fusion)

O FireRed 1.1 suporta a combinação livre de mais de 10 elementos visuais, contando com funções de recorte e colagem automáticas guiadas por agentes:

Tipo de fusão Descrição Cenário típico
Pessoa + Fundo Inserir pessoa em novo cenário Troca de fundo para modelos de produtos
Pessoa + Roupa Efeito de provador virtual Exposição de roupas no e-commerce
Múltiplas pessoas Compor pessoas de diferentes fotos Pôsteres criativos
Estilo + Conteúdo Aplicar estilo da imagem de referência Transferência de estilo artístico
Texto + Imagem Integrar texto naturalmente na imagem Capas para redes sociais

Capacidade 3: Acompanhamento preciso de comandos (Instruction Following)

O modelo utiliza a técnica de alinhamento de comando estocástico (Stochastic Instruction Alignment), combinada com a reindexação dinâmica de comandos, garantindo que a saída seja altamente consistente com as instruções do usuário.

Testes mostram que o FireRed 1.1, no benchmark REDEdit-Bench, obteve:

  • Pontuação para comandos em chinês: 4.33
  • Pontuação para comandos em inglês: 4.26

Isso significa que o modelo não apenas entende comandos simples como "trocar o fundo pela praia", mas também lida com descrições complexas como "mantenha a pessoa, substitua o fundo por uma praia tropical ao pôr do sol e adicione efeitos de luz quente e suave".

xiaohongshu-firered-image-edit-1-1-ai-image-editing-guide-pt-pt 图示

Capacidade 4: Edição de texto de alta fidelidade (Text Editing)

Através da tecnologia DiffusionNFT e de um mecanismo de recompensa via OCR sensível ao layout, o FireRed 1.1 pode preservar e editar conteúdos textuais em imagens com precisão. Isso é fundamental na prática, visto que muitos modelos de edição de imagem costumam deixar textos borrados ou distorcidos.

Capacidade 5: Restauração de fotos antigas e transferência de estilo

O FireRed 1.1 apresenta um desempenho excepcional na restauração de fotos antigas e transferência entre estilos:

  • Restauração de fotos antigas: Repara automaticamente arranhões, degradação de cores, borrões e outros problemas comuns em fotos antigas
  • Transferência de estilo: Converte fotos em diversos estilos artísticos, como pintura a óleo, aquarela, anime, entre outros
  • Edição de maquiagem: Nova capacidade de ajuste fino de maquiagem introduzida na versão 1.1

Resultados do benchmark do FireRed Image Edit 1.1

Liderança abrangente em três grandes benchmarks

Benchmark FireRed 1.1 Qwen-Image-Edit Resultado
ImgEdit (Geral) 4.56 4.51 ✅ FireRed vence
GEdit (Geral G_O) 7.94 (EN) / 7.89 (CN) 7.88 ✅ FireRed vence
REDEdit (Chinês) 4.33 SOTA Open Source
REDEdit (Inglês) 4.26 SOTA Open Source

Dimensões detalhadas do GEdit

Dimensão Pontuação EN Pontuação CN Significado
G_SC (Consistência semântica) 8.363 8.287 Correspondência semântica entre edição e comando
G_PQ (Qualidade perceptiva) 8.245 8.227 Qualidade visual da imagem gerada
G_O (Pontuação geral) 7.943 7.887 Pontuação composta ponderada

O REDEdit-Bench é um benchmark desenvolvido pela equipe do FireRed, abrangendo 15 categorias e 1.673 pares de edição em chinês e inglês, alinhando-se mais aos requisitos reais de edição dos usuários do que os benchmarks existentes.

🎯 Dica de Desempenho: O FireRed 1.1 apresenta suas maiores vantagens na consistência facial e no seguimento de comandos, sendo ideal para cenários de edição que exigem a preservação de características humanas. A APIYI (apiyi.com) planeja integrar este modelo em breve; usuários interessados podem entrar em contato para saber mais detalhes.

xiaohongshu-firered-image-edit-1-1-ai-image-editing-guide-pt-pt 图示


Arquitetura técnica do FireRed Image Edit 1.1

Arquitetura principal: MM-DiT, o Transformer de difusão multimodal de fluxo duplo

O mecanismo central de geração do FireRed 1.1 é o Transformer de difusão multimodal de fluxo duplo (Double-Stream Multi-Modal Diffusion Transformer, MM-DiT):

  1. Embedding de texto: Os comandos de edição do usuário são convertidos em vetores semânticos através de um codificador de texto.
  2. Tokens latentes de imagem: A imagem original é codificada por um VAE de alta fidelidade em uma representação de espaço latente.
  3. Características da imagem de referência: Extração das características visuais das imagens de referência (até 3 imagens).
  4. Fluxo de entrada unificado: Três fontes de dados são concatenadas em uma entrada unificada que entra no MM-DiT para uma interação bidirecional densa.
  5. Saída gerada: O modelo gera a representação latente da imagem editada, que é decodificada pelo VAE na imagem final.

Pipeline de treinamento: Pré-treinamento → SFT → RL

O FireRed 1.1 utiliza um treinamento completo em três estágios:

  • Pré-treinamento (Pretrain): Baseado em um corpus em larga escala de 1,6 bilhão de exemplos, dos quais mais de 100 milhões são de alta qualidade.
  • Ajuste fino supervisionado (SFT): Ajuste refinado direcionado para tarefas de edição.
  • Aprendizado por reforço (RL): Utiliza DPO com otimização de gradiente assimétrico para aprimorar ainda mais a qualidade da edição.

Inovações técnicas fundamentais

Tecnologia Função Efeito
Perda de consistência diferenciável Manutenção da identidade Rosto sem deformações em edição de retratos
Alinhamento de comandos aleatórios Compreensão de comandos Execução precisa de descrições complexas
Amostragem em bucket com percepção de múltiplas condições Eficiência de treino Suporta processamento em lote com resoluções variáveis
DiffusionNFT Edição de texto Textos na imagem nítidos e legíveis
DPO com gradiente assimétrico Otimização de qualidade Alinhamento com preferências humanas

💡 Perspectiva do desenvolvedor: As capacidades de edição do FireRed 1.1 podem ser migradas para qualquer modelo base de T2I (Texto para Imagem). Isso significa que ele não é apenas um modelo de edição, mas um framework de edição reutilizável.

Guia de Integração da API FireRed Image Edit 1.1

Plataformas de API disponíveis atualmente

O FireRed Image Edit 1.1 já oferece serviços de API em diversas plataformas de terceiros:

Plataforma Preço estimado Destaques
Replicate ~$0.036/execução Cobrança por uso, fácil de usar
fal.ai Cobrança por uso Implementação Serverless, resposta rápida
WaveSpeedAI Cobrança por uso Focado em aceleração de modelos de imagem de IA
HuggingFace Spaces Teste gratuito Demonstração online, sem necessidade de código

Requisitos para implementação local

Se você precisar implementar o FireRed 1.1 localmente:

  • Requisito de VRAM: 30 GB de VRAM (A100 ou H100 recomendados)
  • Velocidade de inferência: Cerca de 4,5 segundos por imagem
  • Licença open-source: Apache 2.0, permite uso comercial
  • Origem do modelo: HuggingFace FireRedTeam/FireRed-Image-Edit-1.1

Instruções de integração com a plataforma APIYI

O FireRed Image Edit 1.1 ainda não está disponível na plataforma APIYI, mas já está em fase de avaliação técnica e preparação para integração.

🔔 Aviso de Integração: A APIYI (apiyi.com) está avaliando a integração do modelo FireRed Image Edit 1.1. Se você tem demanda por uma API de edição de imagens, entre em contato com a equipe da APIYI para acompanhar o progresso e solicitar testes. Após o lançamento na plataforma, será possível realizar a invocação do modelo diretamente via interface de API unificada, sem necessidade de implementação própria.


Cenários de aplicação do FireRed Image Edit 1.1

E-commerce e criação de conteúdo

  • Edição de fotos de produtos: Troca de fundo, ajuste de luz e sombra, adição de cenários
  • Troca de roupa em modelos: Efeito de provador virtual, reduzindo custos de produção
  • Capas para redes sociais: Geração rápida de capas com estilo consistente
  • Restauração de fotos antigas: Recuperação de fotos e melhoria da qualidade da imagem

Design e criatividade

  • Transferência de estilo: Conversão de fotos para diversos estilos artísticos
  • Composição criativa: Combinação de múltiplos elementos para criar pôsteres criativos
  • Materiais de marca: Processamento em lote de imagens para manter a consistência visual da marca

Diferenciação de posicionamento em relação a outros modelos de imagem

Modelo Posicionamento Vantagem principal Cenário de uso
FireRed Image Edit 1.1 Edição de imagem Consistência facial, seguimento de comando Edição precisa de imagens existentes
Gemini Imagen 4 Texto para imagem Geração de alta qualidade Gerar novas imagens do zero
DALL-E 3 Texto para imagem Renderização de texto Criação de imagens criativas
Stable Diffusion 3 Texto para imagem + edição Ecossistema open-source Personalização flexível

O diferencial principal do FireRed 1.1 é: ele não gera novas imagens, mas sim edita imagens existentes com precisão. Isso lhe confere uma vantagem única em cenários como e-commerce e criação de conteúdo, onde é necessário realizar um processamento secundário baseado em materiais reais.

🚀 Sugestão de cenário: Se sua necessidade é "fazer modificações precisas baseadas em uma imagem existente" (trocar fundo, mudar estilo, adicionar elementos, etc.), o FireRed é atualmente a melhor escolha open-source. Caso precise de recursos de texto para imagem, você pode utilizar modelos como Gemini Imagen e DALL-E através da plataforma APIYI (apiyi.com), combinando-os de forma flexível conforme o seu cenário.

Perguntas frequentes

Q1: O FireRed Image Edit 1.1 pode ser usado comercialmente de graça?

Sim. O FireRed Image Edit 1.1 utiliza a licença open source Apache 2.0, que permite o uso, modificação e distribuição livre, inclusive para fins comerciais. Você pode baixar os pesos do modelo no HuggingFace para implantação local ou utilizar plataformas de API de terceiros com pagamento por uso.

Q2: Qual a diferença entre o FireRed 1.1 e o 1.0? Qual devo usar?

Recomendamos usar diretamente a versão 1.1. Em relação à 1.0, a versão 1.1 traz otimizações importantes na consistência facial, fusão de múltiplos elementos, textos estilizados e efeitos de maquiagem. É um upgrade completo em todos os aspectos, sem retrocessos. O 1.1 alcançou uma pontuação de 7,94 na avaliação abrangente GEdit, superando a base da versão 1.0.

Q3: Que hardware é necessário para a implantação local?

O FireRed 1.1 exige pelo menos 30 GB de VRAM; recomendamos o uso de GPUs NVIDIA A100 (40/80 GB) ou H100. Se você não tiver recursos de GPU suficientes, recomendamos o uso via API. No Replicate, o custo por chamada é de aproximadamente US$ 0,036. Posteriormente, ele também poderá ser acessado diretamente via API na plataforma APIYI (apiyi.com).

Q4: Quando a APIYI integrará o FireRed Image Edit?

O FireRed Image Edit 1.1 está atualmente em fase de avaliação técnica na plataforma APIYI. Se você tem uma necessidade específica de uma API de edição de imagens, entre em contato com a equipe da APIYI (apiyi.com); seu feedback nos ajudará a acelerar o processo de avaliação e integração.


Resumo

Pontos principais do FireRed Image Edit 1.1:

  1. SOTA Open Source: Pontuação GEdit de 7,94 e ImgEdit de 4,56, superando totalmente o Qwen-Image-Edit-2511.
  2. Liderança em consistência facial: O mecanismo de perda de consistência diferenciável garante que a edição de retratos não resulte em "troca de rosto".
  3. Suporte nativo a chinês: Criado pela equipe do Xiaohongshu, com excelente desempenho em comandos tanto em chinês quanto em inglês.
  4. Totalmente open source e comercial: Licença Apache 2.0, disponível para download direto no HuggingFace.
  5. Inferência eficiente: Pode ser implantado com 30 GB de VRAM, com uma velocidade de geração de 4,5 segundos por imagem.

Para desenvolvedores e empresas que precisam de recursos precisos de edição de imagem, o FireRed 1.1 é a melhor escolha atual no cenário open source.

A APIYI (apiyi.com) está avaliando ativamente a integração do FireRed Image Edit 1.1; usuários interessados podem entrar em contato com antecedência para saber mais. A plataforma já oferece suporte à invocação unificada de múltiplos modelos, como Gemini, Claude e GPT, e a adição de modelos de edição de imagem ampliará ainda mais nossa matriz de API multimodal.

📚 Referências

  1. Repositório GitHub do FireRed-Image-Edit: Código-fonte oficial e documentação

    • Link: github.com/FireRedTeam/FireRed-Image-Edit
    • Descrição: Contém o código-fonte completo, links para download dos pesos do modelo e exemplos de uso
  2. FireRed-Image-Edit 1.1 no HuggingFace: Download dos pesos do modelo

    • Link: huggingface.co/FireRedTeam/FireRed-Image-Edit-1.1
    • Descrição: Permite baixar os pesos do modelo diretamente para implantação local
  3. Relatório Técnico do FireRed-Image-Edit 1.0: Artigo acadêmico

    • Link: arxiv.org/abs/2602.13344
    • Descrição: Explicação detalhada do design da arquitetura e dos métodos de treinamento
  4. Benchmark REDEdit-Bench: Metodologia de avaliação

    • Link: github.com/FireRedTeam/FireRed-Image-Edit
    • Descrição: Padrão de avaliação com 15 categorias e 1.673 pares de edição bilíngues

Autor: Equipe Técnica APIYI
Troca Técnica: Sinta-se à vontade para compartilhar suas experiências com edição de imagens por IA na seção de comentários. Para mais informações sobre modelos de IA, visite a central de documentação da APIYI em docs.apiyi.com

Deixe um comentário