作者注:全面解析小红书开源的 FireRed Image Edit 1.1 图像编辑模型,涵盖 5 大核心能力、基准测试数据、技术架构和 API 接入方式,开源 SOTA 超越阿里 Qwen
2026 年 3 月 3 日,小红书 FireRed 团队发布了 FireRed-Image-Edit 1.1——一款基于 Diffusion Transformer 架构的图像编辑基础模型。该模型在 ImgEdit、GEdit、REDEdit 三大基准测试中均取得开源 SOTA,以 7.94 的综合得分超越阿里 Qwen-Image-Edit-2511 的 7.88,成为当前最强的开源图像编辑模型。
核心价值: 读完本文,你将了解 FireRed Image Edit 1.1 的 5 大核心能力、技术架构创新点,以及如何通过 API 快速接入使用。

FireRed Image Edit 1.1 核心要点
| 要点 | 说明 | 优势 |
|---|---|---|
| 开源 SOTA | ImgEdit 综合分 4.56,GEdit 综合分 7.94 | 超越 Qwen-Image-Edit |
| 身份一致性 | 可微分一致性损失机制,面部特征高保真 | 人像编辑不变形 |
| 多元素融合 | 支持 10+ 元素自由组合 | Agent 自动裁剪拼接 |
| 中英双语 | 1,673 个中英双语编辑对评测 | 中文指令原生支持 |
| Apache 2.0 | 完全开源,支持商业使用 | 免费可商用 |
FireRed Image Edit 1.1 是什么
FireRed-Image-Edit 是小红书 FireRed 团队开发的图像编辑基础模型。与常见的文生图(Text-to-Image)模型不同,它专注于图像编辑(Image Editing)——在保留原图核心内容的前提下,根据自然语言指令对图像进行精确修改。
你可以上传最多 3 张参考图片,用自然语言(中文或英文)描述你想要的编辑效果,模型会智能地将参考图中的元素、风格和人物融合到输出图片中。
1.1 版本相比 1.0 的主要提升:
- 人像一致性大幅优化: 更换背景、风格迁移时面部特征保持更准确
- 多元素融合增强: 更好地处理复杂的多图组合场景
- 风格化文字参考: 支持更丰富的字体和排版风格
- 人像妆容效果: 新增精细化妆容编辑能力
FireRed Image Edit 1.1 的 5 大核心能力
能力一: 身份一致性保持(Identity Consistency)
这是 1.1 版本最核心的升级。通过创新的可微分一致性损失机制(Differentiable Consistency Loss),模型在编辑人像时能精确保持面部特征、表情和个人特征。
应用场景:
- 更换照片背景,人脸保持不变
- 应用不同艺术风格,身份信息保留
- 将人物合成到不同场景,外貌特征一致
传统图像编辑模型在风格迁移时经常出现"面部畸变"问题——人物看起来像另一个人。FireRed 1.1 通过在整个生成过程中最小化身份差异来解决这个问题。
能力二: 多元素融合(Multi-Element Fusion)
FireRed 1.1 支持自由组合 10 个以上的视觉元素,配合 Agent 驱动的自动裁剪和拼接功能:
| 融合类型 | 说明 | 典型场景 |
|---|---|---|
| 人物+背景 | 将人物放入新场景 | 产品模特换背景 |
| 人物+服装 | 虚拟试穿效果 | 电商服装展示 |
| 多人物组合 | 将不同图中的人物合成 | 创意合成海报 |
| 风格+内容 | 参考图风格应用到内容图 | 艺术风格迁移 |
| 文字+画面 | 将文字自然融入图像 | 社交媒体封面 |
能力三: 精准指令跟随(Instruction Following)
模型采用随机指令对齐(Stochastic Instruction Alignment)技术,配合动态提示词重索引,确保输出与用户指令高度一致。
测试显示,FireRed 1.1 在 REDEdit-Bench 基准测试的指令跟随维度上:
- 中文指令得分: 4.33
- 英文指令得分: 4.26
这意味着模型不仅能理解"把背景换成海滩"这类简单指令,还能处理"保持人物不变,将背景替换为夕阳下的热带海滩,添加柔和的暖色调光影效果"这类复杂描述。

能力四: 高保真文字编辑(Text Editing)
通过 DiffusionNFT 技术和布局感知 OCR 奖励机制,FireRed 1.1 能在图像中精确保留和编辑文字内容。这在实际应用中非常重要——很多图像编辑模型在处理包含文字的图片时会出现文字模糊或变形。
能力五: 旧照修复与风格迁移
FireRed 1.1 在旧照片修复和跨风格迁移方面表现出色:
- 旧照修复: 自动修复划痕、色彩退化、模糊等常见老照片问题
- 风格迁移: 将照片转换为油画、水彩、动漫等多种艺术风格
- 妆容编辑: 1.1 新增的精细化妆容调整能力
FireRed Image Edit 1.1 基准测试成绩
三大基准全面领先
| 基准测试 | FireRed 1.1 | Qwen-Image-Edit | 对比结果 |
|---|---|---|---|
| ImgEdit (综合) | 4.56 | 4.51 | ✅ FireRed 胜出 |
| GEdit (综合 G_O) | 7.94 (EN) / 7.89 (CN) | 7.88 | ✅ FireRed 胜出 |
| REDEdit (中文) | 4.33 | — | 开源 SOTA |
| REDEdit (英文) | 4.26 | — | 开源 SOTA |
GEdit 细分维度
| 维度 | 英文得分 | 中文得分 | 含义 |
|---|---|---|---|
| G_SC (语义一致性) | 8.363 | 8.287 | 编辑结果与指令的语义匹配度 |
| G_PQ (感知质量) | 8.245 | 8.227 | 生成图像的视觉质量 |
| G_O (综合评分) | 7.943 | 7.887 | 多维度加权综合 |
REDEdit-Bench 是 FireRed 团队自研的基准测试,覆盖 15 个类别、1,673 个中英双语编辑对,比现有基准更贴近真实用户的编辑需求。
🎯 性能提示: FireRed 1.1 在身份一致性和指令跟随两个维度上优势最明显,特别适合需要保持人物特征的编辑场景。API易 apiyi.com 后续计划接入此模型,有需求的用户欢迎联系我们提前了解。

FireRed Image Edit 1.1 技术架构
核心架构: MM-DiT 双流多模态扩散 Transformer
FireRed 1.1 的核心生成引擎是双流多模态扩散 Transformer(Double-Stream Multi-Modal Diffusion Transformer, MM-DiT):
- 文本嵌入: 用户的编辑指令经过文本编码器转换为语义向量
- 图像 latent tokens: 原图经过高保真 VAE 编码为潜在空间表示
- 参考图像特征: 参考图(最多 3 张)的视觉特征提取
- 统一输入流: 三路信息拼接为统一输入,进入 MM-DiT 进行密集双向交互
- 生成输出: 模型生成编辑后的图像潜在表示,经 VAE 解码为最终图片
训练流水线: Pretrain → SFT → RL
FireRed 1.1 采用完整的三阶段训练:
- 预训练 (Pretrain): 基于 16 亿样本的大规模语料库,其中超过 1 亿高质量样本
- 监督微调 (SFT): 针对编辑任务的精细调优
- 强化学习 (RL): 使用非对称梯度优化的 DPO 进一步提升编辑质量
关键技术创新
| 技术 | 作用 | 效果 |
|---|---|---|
| 可微分一致性损失 | 身份保持 | 人像编辑面部不变形 |
| 随机指令对齐 | 指令理解 | 复杂描述精准执行 |
| 多条件感知桶采样 | 训练效率 | 支持可变分辨率批处理 |
| DiffusionNFT | 文字编辑 | 图中文字清晰不模糊 |
| 非对称梯度 DPO | 质量优化 | 人类偏好对齐 |
💡 开发者视角: FireRed 1.1 的编辑能力可迁移到任意 T2I 基础模型上,这意味着它不仅仅是一个编辑模型,更是一个可复用的编辑能力框架。
FireRed Image Edit 1.1 API 接入指南
当前可用的 API 平台
FireRed Image Edit 1.1 已在多个第三方平台提供 API 服务:
| 平台 | 预估价格 | 特点 |
|---|---|---|
| Replicate | ~$0.036/次 | 按次计费,简单易用 |
| fal.ai | 按用量计费 | Serverless 部署,响应快 |
| WaveSpeedAI | 按用量计费 | 专注 AI 图像模型加速 |
| HuggingFace Spaces | 免费体验 | 在线演示,无需代码 |
本地部署要求
如果你需要本地部署 FireRed 1.1:
- 显存需求: 30GB VRAM(推荐 A100 或 H100)
- 推理速度: 约 4.5 秒/张
- 开源协议: Apache 2.0,支持商业使用
- 模型来源: HuggingFace
FireRedTeam/FireRed-Image-Edit-1.1
API易平台接入说明
FireRed Image Edit 1.1 目前尚未在 API易平台上线,但已在技术评估和接入准备中。
🔔 接入预告: API易 apiyi.com 正在评估接入 FireRed Image Edit 1.1 模型。如果你有图像编辑 API 需求,欢迎联系 API易团队了解接入进度和预约测试。平台上线后,可通过统一 API 接口直接调用,无需自行部署。
FireRed Image Edit 1.1 应用场景
电商和内容创作
- 产品图编辑: 更换产品背景、调整光影、添加场景
- 模特换装: 虚拟试穿效果,降低拍摄成本
- 社交媒体封面: 快速生成风格统一的封面图
- 旧照修复: 修复老照片,提升图片质量
设计和创意
- 风格迁移: 将照片转换为各种艺术风格
- 创意合成: 组合多个元素生成创意海报
- 品牌物料: 统一品牌视觉风格的批量图片处理
与其他图像模型的定位差异
| 模型 | 定位 | 核心优势 | 适用场景 |
|---|---|---|---|
| FireRed Image Edit 1.1 | 图像编辑 | 身份一致性、指令跟随 | 精确编辑已有图片 |
| Gemini Imagen 4 | 文生图 | 高质量生成 | 从零生成新图片 |
| DALL-E 3 | 文生图 | 文字渲染 | 创意图片生成 |
| Stable Diffusion 3 | 文生图+编辑 | 开源生态 | 灵活定制 |
FireRed 1.1 的核心差异化在于: 它不是在生成新图片,而是在精确编辑已有图片。这决定了它在电商、内容创作等需要基于真实素材进行二次加工的场景中具有独特优势。
🚀 场景建议: 如果你的需求是"基于已有图片做精确修改"(换背景、换风格、添加元素等),FireRed 是目前开源最佳选择。如需文生图能力,可通过 API易 apiyi.com 平台使用 Gemini Imagen、DALL-E 等模型,根据具体场景灵活搭配。
常见问题
Q1: FireRed Image Edit 1.1 可以免费商用吗?
可以。FireRed Image Edit 1.1 采用 Apache 2.0 开源协议,允许自由使用、修改和分发,包括商业用途。你可以从 HuggingFace 下载模型权重进行本地部署,或通过第三方 API 平台按用量付费使用。
Q2: FireRed 1.1 和 1.0 有什么区别,应该用哪个?
建议直接使用 1.1 版本。1.1 在 1.0 的基础上重点优化了人像身份一致性、多元素融合、风格化文字和妆容效果。所有方面都是升级,没有退步的维度。1.1 在 GEdit 综合评分上达到 7.94,而 1.0 的基线更低。
Q3: 需要什么硬件才能本地部署?
FireRed 1.1 需要至少 30GB 显存,推荐使用 NVIDIA A100(40/80GB)或 H100 显卡。如果没有足够的 GPU 资源,建议通过 API 方式使用,Replicate 上单次调用约 $0.036。后续 API易 apiyi.com 平台上线后也可通过 API 直接调用。
Q4: API易什么时候会接入 FireRed Image Edit?
FireRed Image Edit 1.1 目前正在 API易平台的技术评估阶段。如果你有明确的图像编辑 API 需求,欢迎联系 API易 apiyi.com 团队,你的需求将帮助我们加速评估和接入进度。
总结
FireRed Image Edit 1.1 的核心要点:
- 开源 SOTA: GEdit 综合分 7.94,ImgEdit 4.56,全面超越 Qwen-Image-Edit-2511
- 身份一致性领先: 可微分一致性损失机制让人像编辑不再"换脸"
- 中文原生支持: 小红书团队打造,中英双语指令均表现优秀
- 完全开源可商用: Apache 2.0 协议,HuggingFace 可直接下载
- 推理高效: 30GB 显存即可部署,4.5 秒/张生成速度
对于需要精确图像编辑能力的开发者和企业,FireRed 1.1 是当前开源领域的最佳选择。
API易 apiyi.com 正在积极评估接入 FireRed Image Edit 1.1,有需求的用户欢迎提前联系了解。平台已支持 Gemini、Claude、GPT 等多模型统一调用,图像编辑模型的加入将进一步完善多模态 API 矩阵。
📚 参考资料
-
FireRed-Image-Edit GitHub 仓库: 官方开源代码和文档
- 链接:
github.com/FireRedTeam/FireRed-Image-Edit - 说明: 包含完整源码、模型权重下载链接和使用示例
- 链接:
-
FireRed-Image-Edit 1.1 HuggingFace: 模型权重下载
- 链接:
huggingface.co/FireRedTeam/FireRed-Image-Edit-1.1 - 说明: 可直接下载模型权重进行本地部署
- 链接:
-
FireRed-Image-Edit 1.0 技术报告: 学术论文
- 链接:
arxiv.org/abs/2602.13344 - 说明: 详细的架构设计和训练方法说明
- 链接:
-
REDEdit-Bench 基准测试: 评测方法论
- 链接:
github.com/FireRedTeam/FireRed-Image-Edit - 说明: 15 类别、1,673 个双语编辑对的评测标准
- 链接:
作者: APIYI 技术团队
技术交流: 欢迎在评论区分享你的 AI 图像编辑使用经验,更多 AI 模型资讯可访问 API易 docs.apiyi.com 文档中心