Análise aprofundada do FireRed Image Edit 1.1 do Xiaohongshu: 5 capacidades principais da SOTA de edição de imagens de código aberto

title: "Análise Completa do FireRed Image Edit 1.1: O Novo Modelo SOTA de Edição de Imagens"
date: 2026-03-03

Nota do autor: Esta é uma análise completa do modelo de edição de imagens FireRed Image Edit 1.1, de código aberto do Xiaohongshu (Red), cobrindo as 5 principais capacidades, dados de benchmark, arquitetura técnica e métodos de integração via API. Este SOTA de código aberto superou o Qwen, da Alibaba.

Em 3 de março de 2026, a equipe FireRed do Xiaohongshu lançou o FireRed-Image-Edit 1.1, um modelo base de edição de imagens baseado na arquitetura Diffusion Transformer. O modelo alcançou o estado da arte (SOTA) em código aberto nos três principais benchmarks: ImgEdit, GEdit e REDEdit, com uma pontuação geral de 7,94, superando o Qwen-Image-Edit-2511 da Alibaba (7,88), tornando-se o modelo de edição de imagens de código aberto mais robusto atualmente.

Valor central: Ao terminar de ler este artigo, você entenderá as 5 principais capacidades do FireRed Image Edit 1.1, as inovações em sua arquitetura técnica e como integrá-lo rapidamente via API.

title: "FireRed Image Edit 1.1: O novo padrão para edição de imagens baseada em IA"
description: "Conheça o FireRed Image Edit 1.1, o modelo open-source focado em edição de imagens com consistência facial e fusão de múltiplos elementos."

Pontos-chave do FireRed Image Edit 1.1

Ponto	Descrição	Vantagem
SOTA Open Source	Pontuação ImgEdit 4.56, GEdit 7.94	Supera o Qwen-Image-Edit
Consistência facial	Mecanismo de perda de consistência diferenciável, alta fidelidade	Edição de retratos sem distorções
Fusão multielementos	Suporte a mais de 10 elementos combinados	Recorte e colagem automática via Agent
Bilingue (Chinês/Inglês)	Avaliação com 1.673 pares de edição	Suporte nativo a comandos em chinês
Apache 2.0	Totalmente código aberto, uso comercial permitido	Gratuito e comercializável

O que é o FireRed Image Edit 1.1

O FireRed-Image-Edit é um modelo base de edição de imagens desenvolvido pela equipe FireRed do Xiaohongshu. Diferente dos modelos comuns de texto para imagem, ele é focado em edição de imagens — realizando modificações precisas com base em comandos em linguagem natural, preservando o conteúdo essencial da imagem original.

Você pode enviar até 3 imagens de referência, descrever o efeito desejado em linguagem natural (chinês ou inglês), e o modelo fundirá de forma inteligente os elementos, estilos e pessoas das imagens de referência no resultado final.

Principais melhorias da versão 1.1 em relação à 1.0:

Consistência facial otimizada: Manutenção mais precisa dos traços faciais ao trocar fundos ou realizar transferência de estilo
Fusão de multielementos aprimorada: Melhor tratamento de cenários complexos com várias imagens
Referências de texto estilizadas: Suporte para estilos de fonte e tipografia mais ricos
Efeitos de maquiagem: Nova capacidade de edição de maquiagem detalhada

As 5 capacidades principais do FireRed Image Edit 1.1

Capacidade 1: Manutenção da consistência facial (Identity Consistency)

Este é o upgrade mais importante da versão 1.1. Através de um inovador mecanismo de perda de consistência diferenciável (Differentiable Consistency Loss), o modelo mantém com precisão as características faciais, expressões e traços pessoais ao editar retratos.

Cenários de aplicação:

Alterar o fundo de uma foto mantendo o rosto intacto
Aplicar diferentes estilos artísticos preservando a identidade
Compor pessoas em diferentes cenários mantendo a aparência consistente

Modelos tradicionais frequentemente sofrem com a "distorção facial" durante a transferência de estilo, fazendo com que a pessoa pareça outra. O FireRed 1.1 resolve isso minimizando a divergência de identidade durante todo o processo de geração.

Capacidade 2: Fusão de multielementos (Multi-Element Fusion)

O FireRed 1.1 suporta a combinação livre de mais de 10 elementos visuais, contando com funções de recorte e colagem automáticas guiadas por agentes:

Tipo de fusão	Descrição	Cenário típico
Pessoa + Fundo	Inserir pessoa em novo cenário	Troca de fundo para modelos de produtos
Pessoa + Roupa	Efeito de provador virtual	Exposição de roupas no e-commerce
Múltiplas pessoas	Compor pessoas de diferentes fotos	Pôsteres criativos
Estilo + Conteúdo	Aplicar estilo da imagem de referência	Transferência de estilo artístico
Texto + Imagem	Integrar texto naturalmente na imagem	Capas para redes sociais

Capacidade 3: Acompanhamento preciso de comandos (Instruction Following)

O modelo utiliza a técnica de alinhamento de comando estocástico (Stochastic Instruction Alignment), combinada com a reindexação dinâmica de comandos, garantindo que a saída seja altamente consistente com as instruções do usuário.

Testes mostram que o FireRed 1.1, no benchmark REDEdit-Bench, obteve:

Pontuação para comandos em chinês: 4.33
Pontuação para comandos em inglês: 4.26

Isso significa que o modelo não apenas entende comandos simples como "trocar o fundo pela praia", mas também lida com descrições complexas como "mantenha a pessoa, substitua o fundo por uma praia tropical ao pôr do sol e adicione efeitos de luz quente e suave".

Capacidade 4: Edição de texto de alta fidelidade (Text Editing)

Através da tecnologia DiffusionNFT e de um mecanismo de recompensa via OCR sensível ao layout, o FireRed 1.1 pode preservar e editar conteúdos textuais em imagens com precisão. Isso é fundamental na prática, visto que muitos modelos de edição de imagem costumam deixar textos borrados ou distorcidos.

Capacidade 5: Restauração de fotos antigas e transferência de estilo

O FireRed 1.1 apresenta um desempenho excepcional na restauração de fotos antigas e transferência entre estilos:

Restauração de fotos antigas: Repara automaticamente arranhões, degradação de cores, borrões e outros problemas comuns em fotos antigas
Transferência de estilo: Converte fotos em diversos estilos artísticos, como pintura a óleo, aquarela, anime, entre outros
Edição de maquiagem: Nova capacidade de ajuste fino de maquiagem introduzida na versão 1.1

Resultados do benchmark do FireRed Image Edit 1.1

Liderança abrangente em três grandes benchmarks

Benchmark	FireRed 1.1	Qwen-Image-Edit	Resultado
ImgEdit (Geral)	4.56	4.51	✅ FireRed vence
GEdit (Geral G_O)	7.94 (EN) / 7.89 (CN)	7.88	✅ FireRed vence
REDEdit (Chinês)	4.33	—	SOTA Open Source
REDEdit (Inglês)	4.26	—	SOTA Open Source

Dimensões detalhadas do GEdit

Dimensão	Pontuação EN	Pontuação CN	Significado
G_SC (Consistência semântica)	8.363	8.287	Correspondência semântica entre edição e comando
G_PQ (Qualidade perceptiva)	8.245	8.227	Qualidade visual da imagem gerada
G_O (Pontuação geral)	7.943	7.887	Pontuação composta ponderada

O REDEdit-Bench é um benchmark desenvolvido pela equipe do FireRed, abrangendo 15 categorias e 1.673 pares de edição em chinês e inglês, alinhando-se mais aos requisitos reais de edição dos usuários do que os benchmarks existentes.

🎯 Dica de Desempenho: O FireRed 1.1 apresenta suas maiores vantagens na consistência facial e no seguimento de comandos, sendo ideal para cenários de edição que exigem a preservação de características humanas. A APIYI (apiyi.com) planeja integrar este modelo em breve; usuários interessados podem entrar em contato para saber mais detalhes.

Arquitetura técnica do FireRed Image Edit 1.1

Arquitetura principal: MM-DiT, o Transformer de difusão multimodal de fluxo duplo

O mecanismo central de geração do FireRed 1.1 é o Transformer de difusão multimodal de fluxo duplo (Double-Stream Multi-Modal Diffusion Transformer, MM-DiT):

Embedding de texto: Os comandos de edição do usuário são convertidos em vetores semânticos através de um codificador de texto.
Tokens latentes de imagem: A imagem original é codificada por um VAE de alta fidelidade em uma representação de espaço latente.
Características da imagem de referência: Extração das características visuais das imagens de referência (até 3 imagens).
Fluxo de entrada unificado: Três fontes de dados são concatenadas em uma entrada unificada que entra no MM-DiT para uma interação bidirecional densa.
Saída gerada: O modelo gera a representação latente da imagem editada, que é decodificada pelo VAE na imagem final.

Pipeline de treinamento: Pré-treinamento → SFT → RL

O FireRed 1.1 utiliza um treinamento completo em três estágios:

Pré-treinamento (Pretrain): Baseado em um corpus em larga escala de 1,6 bilhão de exemplos, dos quais mais de 100 milhões são de alta qualidade.
Ajuste fino supervisionado (SFT): Ajuste refinado direcionado para tarefas de edição.
Aprendizado por reforço (RL): Utiliza DPO com otimização de gradiente assimétrico para aprimorar ainda mais a qualidade da edição.

Inovações técnicas fundamentais

Tecnologia	Função	Efeito
Perda de consistência diferenciável	Manutenção da identidade	Rosto sem deformações em edição de retratos
Alinhamento de comandos aleatórios	Compreensão de comandos	Execução precisa de descrições complexas
Amostragem em bucket com percepção de múltiplas condições	Eficiência de treino	Suporta processamento em lote com resoluções variáveis
DiffusionNFT	Edição de texto	Textos na imagem nítidos e legíveis
DPO com gradiente assimétrico	Otimização de qualidade	Alinhamento com preferências humanas

💡 Perspectiva do desenvolvedor: As capacidades de edição do FireRed 1.1 podem ser migradas para qualquer modelo base de T2I (Texto para Imagem). Isso significa que ele não é apenas um modelo de edição, mas um framework de edição reutilizável.

Guia de Integração da API FireRed Image Edit 1.1

Plataformas de API disponíveis atualmente

O FireRed Image Edit 1.1 já oferece serviços de API em diversas plataformas de terceiros:

Plataforma	Preço estimado	Destaques
Replicate	~$0.036/execução	Cobrança por uso, fácil de usar
fal.ai	Cobrança por uso	Implementação Serverless, resposta rápida
WaveSpeedAI	Cobrança por uso	Focado em aceleração de modelos de imagem de IA
HuggingFace Spaces	Teste gratuito	Demonstração online, sem necessidade de código

Requisitos para implementação local

Se você precisar implementar o FireRed 1.1 localmente:

Requisito de VRAM: 30 GB de VRAM (A100 ou H100 recomendados)
Velocidade de inferência: Cerca de 4,5 segundos por imagem
Licença open-source: Apache 2.0, permite uso comercial
Origem do modelo: HuggingFace FireRedTeam/FireRed-Image-Edit-1.1

Instruções de integração com a plataforma APIYI

O FireRed Image Edit 1.1 ainda não está disponível na plataforma APIYI, mas já está em fase de avaliação técnica e preparação para integração.

🔔 Aviso de Integração: A APIYI (apiyi.com) está avaliando a integração do modelo FireRed Image Edit 1.1. Se você tem demanda por uma API de edição de imagens, entre em contato com a equipe da APIYI para acompanhar o progresso e solicitar testes. Após o lançamento na plataforma, será possível realizar a invocação do modelo diretamente via interface de API unificada, sem necessidade de implementação própria.

Cenários de aplicação do FireRed Image Edit 1.1

E-commerce e criação de conteúdo

Edição de fotos de produtos: Troca de fundo, ajuste de luz e sombra, adição de cenários
Troca de roupa em modelos: Efeito de provador virtual, reduzindo custos de produção
Capas para redes sociais: Geração rápida de capas com estilo consistente
Restauração de fotos antigas: Recuperação de fotos e melhoria da qualidade da imagem

Design e criatividade

Transferência de estilo: Conversão de fotos para diversos estilos artísticos
Composição criativa: Combinação de múltiplos elementos para criar pôsteres criativos
Materiais de marca: Processamento em lote de imagens para manter a consistência visual da marca

Diferenciação de posicionamento em relação a outros modelos de imagem

Modelo	Posicionamento	Vantagem principal	Cenário de uso
FireRed Image Edit 1.1	Edição de imagem	Consistência facial, seguimento de comando	Edição precisa de imagens existentes
Gemini Imagen 4	Texto para imagem	Geração de alta qualidade	Gerar novas imagens do zero
DALL-E 3	Texto para imagem	Renderização de texto	Criação de imagens criativas
Stable Diffusion 3	Texto para imagem + edição	Ecossistema open-source	Personalização flexível

O diferencial principal do FireRed 1.1 é: ele não gera novas imagens, mas sim edita imagens existentes com precisão. Isso lhe confere uma vantagem única em cenários como e-commerce e criação de conteúdo, onde é necessário realizar um processamento secundário baseado em materiais reais.

🚀 Sugestão de cenário: Se sua necessidade é "fazer modificações precisas baseadas em uma imagem existente" (trocar fundo, mudar estilo, adicionar elementos, etc.), o FireRed é atualmente a melhor escolha open-source. Caso precise de recursos de texto para imagem, você pode utilizar modelos como Gemini Imagen e DALL-E através da plataforma APIYI (apiyi.com), combinando-os de forma flexível conforme o seu cenário.

Perguntas frequentes

Q1: O FireRed Image Edit 1.1 pode ser usado comercialmente de graça?

Sim. O FireRed Image Edit 1.1 utiliza a licença open source Apache 2.0, que permite o uso, modificação e distribuição livre, inclusive para fins comerciais. Você pode baixar os pesos do modelo no HuggingFace para implantação local ou utilizar plataformas de API de terceiros com pagamento por uso.

Q2: Qual a diferença entre o FireRed 1.1 e o 1.0? Qual devo usar?

Recomendamos usar diretamente a versão 1.1. Em relação à 1.0, a versão 1.1 traz otimizações importantes na consistência facial, fusão de múltiplos elementos, textos estilizados e efeitos de maquiagem. É um upgrade completo em todos os aspectos, sem retrocessos. O 1.1 alcançou uma pontuação de 7,94 na avaliação abrangente GEdit, superando a base da versão 1.0.

Q3: Que hardware é necessário para a implantação local?

O FireRed 1.1 exige pelo menos 30 GB de VRAM; recomendamos o uso de GPUs NVIDIA A100 (40/80 GB) ou H100. Se você não tiver recursos de GPU suficientes, recomendamos o uso via API. No Replicate, o custo por chamada é de aproximadamente US$ 0,036. Posteriormente, ele também poderá ser acessado diretamente via API na plataforma APIYI (apiyi.com).

Q4: Quando a APIYI integrará o FireRed Image Edit?

O FireRed Image Edit 1.1 está atualmente em fase de avaliação técnica na plataforma APIYI. Se você tem uma necessidade específica de uma API de edição de imagens, entre em contato com a equipe da APIYI (apiyi.com); seu feedback nos ajudará a acelerar o processo de avaliação e integração.

Resumo

Pontos principais do FireRed Image Edit 1.1:

SOTA Open Source: Pontuação GEdit de 7,94 e ImgEdit de 4,56, superando totalmente o Qwen-Image-Edit-2511.
Liderança em consistência facial: O mecanismo de perda de consistência diferenciável garante que a edição de retratos não resulte em "troca de rosto".
Suporte nativo a chinês: Criado pela equipe do Xiaohongshu, com excelente desempenho em comandos tanto em chinês quanto em inglês.
Totalmente open source e comercial: Licença Apache 2.0, disponível para download direto no HuggingFace.
Inferência eficiente: Pode ser implantado com 30 GB de VRAM, com uma velocidade de geração de 4,5 segundos por imagem.

Para desenvolvedores e empresas que precisam de recursos precisos de edição de imagem, o FireRed 1.1 é a melhor escolha atual no cenário open source.

A APIYI (apiyi.com) está avaliando ativamente a integração do FireRed Image Edit 1.1; usuários interessados podem entrar em contato com antecedência para saber mais. A plataforma já oferece suporte à invocação unificada de múltiplos modelos, como Gemini, Claude e GPT, e a adição de modelos de edição de imagem ampliará ainda mais nossa matriz de API multimodal.

📚 Referências

Repositório GitHub do FireRed-Image-Edit: Código-fonte oficial e documentação
- Link: github.com/FireRedTeam/FireRed-Image-Edit
- Descrição: Contém o código-fonte completo, links para download dos pesos do modelo e exemplos de uso
FireRed-Image-Edit 1.1 no HuggingFace: Download dos pesos do modelo
- Link: huggingface.co/FireRedTeam/FireRed-Image-Edit-1.1
- Descrição: Permite baixar os pesos do modelo diretamente para implantação local
Relatório Técnico do FireRed-Image-Edit 1.0: Artigo acadêmico
- Link: arxiv.org/abs/2602.13344
- Descrição: Explicação detalhada do design da arquitetura e dos métodos de treinamento
Benchmark REDEdit-Bench: Metodologia de avaliação
- Link: github.com/FireRedTeam/FireRed-Image-Edit
- Descrição: Padrão de avaliação com 15 categorias e 1.673 pares de edição bilíngues

Autor: Equipe Técnica APIYI
Troca Técnica: Sinta-se à vontade para compartilhar suas experiências com edição de imagens por IA na seção de comentários. Para mais informações sobre modelos de IA, visite a central de documentação da APIYI em docs.apiyi.com

title: "Análise Completa do FireRed Image Edit 1.1: O Novo Modelo SOTA de Edição de Imagens" date: 2026-03-03

title: "FireRed Image Edit 1.1: O novo padrão para edição de imagens baseada em IA" description: "Conheça o FireRed Image Edit 1.1, o modelo open-source focado em edição de imagens com consistência facial e fusão de múltiplos elementos."