小红书 FireRed Image Edit 1.1 深度解析: 开源图像编辑 SOTA 的 5 大核心能力

作者注：全面解析小红书开源的 FireRed Image Edit 1.1 图像编辑模型，涵盖 5 大核心能力、基准测试数据、技术架构和 API 接入方式，开源 SOTA 超越阿里 Qwen

2026 年 3 月 3 日，小红书 FireRed 团队发布了 FireRed-Image-Edit 1.1——一款基于 Diffusion Transformer 架构的图像编辑基础模型。该模型在 ImgEdit、GEdit、REDEdit 三大基准测试中均取得开源 SOTA，以 7.94 的综合得分超越阿里 Qwen-Image-Edit-2511 的 7.88，成为当前最强的开源图像编辑模型。

核心价值: 读完本文，你将了解 FireRed Image Edit 1.1 的 5 大核心能力、技术架构创新点，以及如何通过 API 快速接入使用。

FireRed Image Edit 1.1 核心要点

要点	说明	优势
开源 SOTA	ImgEdit 综合分 4.56，GEdit 综合分 7.94	超越 Qwen-Image-Edit
身份一致性	可微分一致性损失机制，面部特征高保真	人像编辑不变形
多元素融合	支持 10+ 元素自由组合	Agent 自动裁剪拼接
中英双语	1,673 个中英双语编辑对评测	中文指令原生支持
Apache 2.0	完全开源，支持商业使用	免费可商用

FireRed Image Edit 1.1 是什么

FireRed-Image-Edit 是小红书 FireRed 团队开发的图像编辑基础模型。与常见的文生图（Text-to-Image）模型不同，它专注于图像编辑（Image Editing）——在保留原图核心内容的前提下，根据自然语言指令对图像进行精确修改。

你可以上传最多 3 张参考图片，用自然语言（中文或英文）描述你想要的编辑效果，模型会智能地将参考图中的元素、风格和人物融合到输出图片中。

1.1 版本相比 1.0 的主要提升:

人像一致性大幅优化: 更换背景、风格迁移时面部特征保持更准确
多元素融合增强: 更好地处理复杂的多图组合场景
风格化文字参考: 支持更丰富的字体和排版风格
人像妆容效果: 新增精细化妆容编辑能力

FireRed Image Edit 1.1 的 5 大核心能力

能力一: 身份一致性保持（Identity Consistency）

这是 1.1 版本最核心的升级。通过创新的可微分一致性损失机制（Differentiable Consistency Loss），模型在编辑人像时能精确保持面部特征、表情和个人特征。

应用场景:

更换照片背景，人脸保持不变
应用不同艺术风格，身份信息保留
将人物合成到不同场景，外貌特征一致

传统图像编辑模型在风格迁移时经常出现"面部畸变"问题——人物看起来像另一个人。FireRed 1.1 通过在整个生成过程中最小化身份差异来解决这个问题。

能力二: 多元素融合（Multi-Element Fusion）

FireRed 1.1 支持自由组合 10 个以上的视觉元素，配合 Agent 驱动的自动裁剪和拼接功能:

融合类型	说明	典型场景
人物+背景	将人物放入新场景	产品模特换背景
人物+服装	虚拟试穿效果	电商服装展示
多人物组合	将不同图中的人物合成	创意合成海报
风格+内容	参考图风格应用到内容图	艺术风格迁移
文字+画面	将文字自然融入图像	社交媒体封面

能力三: 精准指令跟随（Instruction Following）

模型采用随机指令对齐（Stochastic Instruction Alignment）技术，配合动态提示词重索引，确保输出与用户指令高度一致。

测试显示，FireRed 1.1 在 REDEdit-Bench 基准测试的指令跟随维度上:

中文指令得分: 4.33
英文指令得分: 4.26

这意味着模型不仅能理解"把背景换成海滩"这类简单指令，还能处理"保持人物不变，将背景替换为夕阳下的热带海滩，添加柔和的暖色调光影效果"这类复杂描述。

能力四: 高保真文字编辑（Text Editing）

通过 DiffusionNFT 技术和布局感知 OCR 奖励机制，FireRed 1.1 能在图像中精确保留和编辑文字内容。这在实际应用中非常重要——很多图像编辑模型在处理包含文字的图片时会出现文字模糊或变形。

能力五: 旧照修复与风格迁移

FireRed 1.1 在旧照片修复和跨风格迁移方面表现出色:

旧照修复: 自动修复划痕、色彩退化、模糊等常见老照片问题
风格迁移: 将照片转换为油画、水彩、动漫等多种艺术风格
妆容编辑: 1.1 新增的精细化妆容调整能力

FireRed Image Edit 1.1 基准测试成绩

三大基准全面领先

基准测试	FireRed 1.1	Qwen-Image-Edit	对比结果
ImgEdit (综合)	4.56	4.51	✅ FireRed 胜出
GEdit (综合 G_O)	7.94 (EN) / 7.89 (CN)	7.88	✅ FireRed 胜出
REDEdit (中文)	4.33	—	开源 SOTA
REDEdit (英文)	4.26	—	开源 SOTA

GEdit 细分维度

维度	英文得分	中文得分	含义
G_SC (语义一致性)	8.363	8.287	编辑结果与指令的语义匹配度
G_PQ (感知质量)	8.245	8.227	生成图像的视觉质量
G_O (综合评分)	7.943	7.887	多维度加权综合

REDEdit-Bench 是 FireRed 团队自研的基准测试，覆盖 15 个类别、1,673 个中英双语编辑对，比现有基准更贴近真实用户的编辑需求。

🎯 性能提示: FireRed 1.1 在身份一致性和指令跟随两个维度上优势最明显，特别适合需要保持人物特征的编辑场景。API易 apiyi.com 后续计划接入此模型，有需求的用户欢迎联系我们提前了解。

FireRed Image Edit 1.1 技术架构

核心架构: MM-DiT 双流多模态扩散 Transformer

FireRed 1.1 的核心生成引擎是双流多模态扩散 Transformer（Double-Stream Multi-Modal Diffusion Transformer, MM-DiT）:

文本嵌入: 用户的编辑指令经过文本编码器转换为语义向量
图像 latent tokens: 原图经过高保真 VAE 编码为潜在空间表示
参考图像特征: 参考图（最多 3 张）的视觉特征提取
统一输入流: 三路信息拼接为统一输入，进入 MM-DiT 进行密集双向交互
生成输出: 模型生成编辑后的图像潜在表示，经 VAE 解码为最终图片

训练流水线: Pretrain → SFT → RL

FireRed 1.1 采用完整的三阶段训练:

预训练 (Pretrain): 基于 16 亿样本的大规模语料库，其中超过 1 亿高质量样本
监督微调 (SFT): 针对编辑任务的精细调优
强化学习 (RL): 使用非对称梯度优化的 DPO 进一步提升编辑质量

关键技术创新

技术	作用	效果
可微分一致性损失	身份保持	人像编辑面部不变形
随机指令对齐	指令理解	复杂描述精准执行
多条件感知桶采样	训练效率	支持可变分辨率批处理
DiffusionNFT	文字编辑	图中文字清晰不模糊
非对称梯度 DPO	质量优化	人类偏好对齐

💡 开发者视角: FireRed 1.1 的编辑能力可迁移到任意 T2I 基础模型上，这意味着它不仅仅是一个编辑模型，更是一个可复用的编辑能力框架。

FireRed Image Edit 1.1 API 接入指南

当前可用的 API 平台

FireRed Image Edit 1.1 已在多个第三方平台提供 API 服务:

平台	预估价格	特点
Replicate	~$0.036/次	按次计费，简单易用
fal.ai	按用量计费	Serverless 部署，响应快
WaveSpeedAI	按用量计费	专注 AI 图像模型加速
HuggingFace Spaces	免费体验	在线演示，无需代码

本地部署要求

如果你需要本地部署 FireRed 1.1:

显存需求: 30GB VRAM（推荐 A100 或 H100）
推理速度: 约 4.5 秒/张
开源协议: Apache 2.0，支持商业使用
模型来源: HuggingFace FireRedTeam/FireRed-Image-Edit-1.1

API易平台接入说明

FireRed Image Edit 1.1 目前尚未在 API易平台上线，但已在技术评估和接入准备中。

🔔 接入预告: API易 apiyi.com 正在评估接入 FireRed Image Edit 1.1 模型。如果你有图像编辑 API 需求，欢迎联系 API易团队了解接入进度和预约测试。平台上线后，可通过统一 API 接口直接调用，无需自行部署。

FireRed Image Edit 1.1 应用场景

电商和内容创作

产品图编辑: 更换产品背景、调整光影、添加场景
模特换装: 虚拟试穿效果，降低拍摄成本
社交媒体封面: 快速生成风格统一的封面图
旧照修复: 修复老照片，提升图片质量

设计和创意

风格迁移: 将照片转换为各种艺术风格
创意合成: 组合多个元素生成创意海报
品牌物料: 统一品牌视觉风格的批量图片处理

与其他图像模型的定位差异

模型	定位	核心优势	适用场景
FireRed Image Edit 1.1	图像编辑	身份一致性、指令跟随	精确编辑已有图片
Gemini Imagen 4	文生图	高质量生成	从零生成新图片
DALL-E 3	文生图	文字渲染	创意图片生成
Stable Diffusion 3	文生图+编辑	开源生态	灵活定制

FireRed 1.1 的核心差异化在于: 它不是在生成新图片，而是在精确编辑已有图片。这决定了它在电商、内容创作等需要基于真实素材进行二次加工的场景中具有独特优势。

🚀 场景建议: 如果你的需求是"基于已有图片做精确修改"（换背景、换风格、添加元素等），FireRed 是目前开源最佳选择。如需文生图能力，可通过 API易 apiyi.com 平台使用 Gemini Imagen、DALL-E 等模型，根据具体场景灵活搭配。

常见问题

Q1: FireRed Image Edit 1.1 可以免费商用吗?

可以。FireRed Image Edit 1.1 采用 Apache 2.0 开源协议，允许自由使用、修改和分发，包括商业用途。你可以从 HuggingFace 下载模型权重进行本地部署，或通过第三方 API 平台按用量付费使用。

Q2: FireRed 1.1 和 1.0 有什么区别，应该用哪个?

建议直接使用 1.1 版本。1.1 在 1.0 的基础上重点优化了人像身份一致性、多元素融合、风格化文字和妆容效果。所有方面都是升级，没有退步的维度。1.1 在 GEdit 综合评分上达到 7.94，而 1.0 的基线更低。

Q3: 需要什么硬件才能本地部署?

FireRed 1.1 需要至少 30GB 显存，推荐使用 NVIDIA A100（40/80GB）或 H100 显卡。如果没有足够的 GPU 资源，建议通过 API 方式使用，Replicate 上单次调用约 $0.036。后续 API易 apiyi.com 平台上线后也可通过 API 直接调用。

Q4: API易什么时候会接入 FireRed Image Edit?

FireRed Image Edit 1.1 目前正在 API易平台的技术评估阶段。如果你有明确的图像编辑 API 需求，欢迎联系 API易 apiyi.com 团队，你的需求将帮助我们加速评估和接入进度。

总结

FireRed Image Edit 1.1 的核心要点:

开源 SOTA: GEdit 综合分 7.94，ImgEdit 4.56，全面超越 Qwen-Image-Edit-2511
身份一致性领先: 可微分一致性损失机制让人像编辑不再"换脸"
中文原生支持: 小红书团队打造，中英双语指令均表现优秀
完全开源可商用: Apache 2.0 协议，HuggingFace 可直接下载
推理高效: 30GB 显存即可部署，4.5 秒/张生成速度

对于需要精确图像编辑能力的开发者和企业，FireRed 1.1 是当前开源领域的最佳选择。

API易 apiyi.com 正在积极评估接入 FireRed Image Edit 1.1，有需求的用户欢迎提前联系了解。平台已支持 Gemini、Claude、GPT 等多模型统一调用，图像编辑模型的加入将进一步完善多模态 API 矩阵。

📚 参考资料

FireRed-Image-Edit GitHub 仓库: 官方开源代码和文档
- 链接: github.com/FireRedTeam/FireRed-Image-Edit
- 说明: 包含完整源码、模型权重下载链接和使用示例
FireRed-Image-Edit 1.1 HuggingFace: 模型权重下载
- 链接: huggingface.co/FireRedTeam/FireRed-Image-Edit-1.1
- 说明: 可直接下载模型权重进行本地部署
FireRed-Image-Edit 1.0 技术报告: 学术论文
- 链接: arxiv.org/abs/2602.13344
- 说明: 详细的架构设计和训练方法说明
REDEdit-Bench 基准测试: 评测方法论
- 链接: github.com/FireRedTeam/FireRed-Image-Edit
- 说明: 15 类别、1,673 个双语编辑对的评测标准

作者: APIYI 技术团队
技术交流: 欢迎在评论区分享你的 AI 图像编辑使用经验，更多 AI 模型资讯可访问 API易 docs.apiyi.com 文档中心