小红书 FireRed Image Edit 1.1 深度解析: 开源图像编辑 SOTA 的 5 大核心能力

作者注:全面解析小红书开源的 FireRed Image Edit 1.1 图像编辑模型,涵盖 5 大核心能力、基准测试数据、技术架构和 API 接入方式,开源 SOTA 超越阿里 Qwen

2026 年 3 月 3 日,小红书 FireRed 团队发布了 FireRed-Image-Edit 1.1——一款基于 Diffusion Transformer 架构的图像编辑基础模型。该模型在 ImgEdit、GEdit、REDEdit 三大基准测试中均取得开源 SOTA,以 7.94 的综合得分超越阿里 Qwen-Image-Edit-2511 的 7.88,成为当前最强的开源图像编辑模型。

核心价值: 读完本文,你将了解 FireRed Image Edit 1.1 的 5 大核心能力、技术架构创新点,以及如何通过 API 快速接入使用。

xiaohongshu-firered-image-edit-1-1-ai-image-editing-guide 图示


FireRed Image Edit 1.1 核心要点

要点 说明 优势
开源 SOTA ImgEdit 综合分 4.56,GEdit 综合分 7.94 超越 Qwen-Image-Edit
身份一致性 可微分一致性损失机制,面部特征高保真 人像编辑不变形
多元素融合 支持 10+ 元素自由组合 Agent 自动裁剪拼接
中英双语 1,673 个中英双语编辑对评测 中文指令原生支持
Apache 2.0 完全开源,支持商业使用 免费可商用

FireRed Image Edit 1.1 是什么

FireRed-Image-Edit 是小红书 FireRed 团队开发的图像编辑基础模型。与常见的文生图(Text-to-Image)模型不同,它专注于图像编辑(Image Editing)——在保留原图核心内容的前提下,根据自然语言指令对图像进行精确修改。

你可以上传最多 3 张参考图片,用自然语言(中文或英文)描述你想要的编辑效果,模型会智能地将参考图中的元素、风格和人物融合到输出图片中。

1.1 版本相比 1.0 的主要提升:

  • 人像一致性大幅优化: 更换背景、风格迁移时面部特征保持更准确
  • 多元素融合增强: 更好地处理复杂的多图组合场景
  • 风格化文字参考: 支持更丰富的字体和排版风格
  • 人像妆容效果: 新增精细化妆容编辑能力

FireRed Image Edit 1.1 的 5 大核心能力

能力一: 身份一致性保持(Identity Consistency)

这是 1.1 版本最核心的升级。通过创新的可微分一致性损失机制(Differentiable Consistency Loss),模型在编辑人像时能精确保持面部特征、表情和个人特征。

应用场景:

  • 更换照片背景,人脸保持不变
  • 应用不同艺术风格,身份信息保留
  • 将人物合成到不同场景,外貌特征一致

传统图像编辑模型在风格迁移时经常出现"面部畸变"问题——人物看起来像另一个人。FireRed 1.1 通过在整个生成过程中最小化身份差异来解决这个问题。

能力二: 多元素融合(Multi-Element Fusion)

FireRed 1.1 支持自由组合 10 个以上的视觉元素,配合 Agent 驱动的自动裁剪和拼接功能:

融合类型 说明 典型场景
人物+背景 将人物放入新场景 产品模特换背景
人物+服装 虚拟试穿效果 电商服装展示
多人物组合 将不同图中的人物合成 创意合成海报
风格+内容 参考图风格应用到内容图 艺术风格迁移
文字+画面 将文字自然融入图像 社交媒体封面

能力三: 精准指令跟随(Instruction Following)

模型采用随机指令对齐(Stochastic Instruction Alignment)技术,配合动态提示词重索引,确保输出与用户指令高度一致。

测试显示,FireRed 1.1 在 REDEdit-Bench 基准测试的指令跟随维度上:

  • 中文指令得分: 4.33
  • 英文指令得分: 4.26

这意味着模型不仅能理解"把背景换成海滩"这类简单指令,还能处理"保持人物不变,将背景替换为夕阳下的热带海滩,添加柔和的暖色调光影效果"这类复杂描述。

xiaohongshu-firered-image-edit-1-1-ai-image-editing-guide 图示

能力四: 高保真文字编辑(Text Editing)

通过 DiffusionNFT 技术和布局感知 OCR 奖励机制,FireRed 1.1 能在图像中精确保留和编辑文字内容。这在实际应用中非常重要——很多图像编辑模型在处理包含文字的图片时会出现文字模糊或变形。

能力五: 旧照修复与风格迁移

FireRed 1.1 在旧照片修复和跨风格迁移方面表现出色:

  • 旧照修复: 自动修复划痕、色彩退化、模糊等常见老照片问题
  • 风格迁移: 将照片转换为油画、水彩、动漫等多种艺术风格
  • 妆容编辑: 1.1 新增的精细化妆容调整能力

FireRed Image Edit 1.1 基准测试成绩

三大基准全面领先

基准测试 FireRed 1.1 Qwen-Image-Edit 对比结果
ImgEdit (综合) 4.56 4.51 ✅ FireRed 胜出
GEdit (综合 G_O) 7.94 (EN) / 7.89 (CN) 7.88 ✅ FireRed 胜出
REDEdit (中文) 4.33 开源 SOTA
REDEdit (英文) 4.26 开源 SOTA

GEdit 细分维度

维度 英文得分 中文得分 含义
G_SC (语义一致性) 8.363 8.287 编辑结果与指令的语义匹配度
G_PQ (感知质量) 8.245 8.227 生成图像的视觉质量
G_O (综合评分) 7.943 7.887 多维度加权综合

REDEdit-Bench 是 FireRed 团队自研的基准测试,覆盖 15 个类别、1,673 个中英双语编辑对,比现有基准更贴近真实用户的编辑需求。

🎯 性能提示: FireRed 1.1 在身份一致性和指令跟随两个维度上优势最明显,特别适合需要保持人物特征的编辑场景。API易 apiyi.com 后续计划接入此模型,有需求的用户欢迎联系我们提前了解。

xiaohongshu-firered-image-edit-1-1-ai-image-editing-guide 图示


FireRed Image Edit 1.1 技术架构

核心架构: MM-DiT 双流多模态扩散 Transformer

FireRed 1.1 的核心生成引擎是双流多模态扩散 Transformer(Double-Stream Multi-Modal Diffusion Transformer, MM-DiT):

  1. 文本嵌入: 用户的编辑指令经过文本编码器转换为语义向量
  2. 图像 latent tokens: 原图经过高保真 VAE 编码为潜在空间表示
  3. 参考图像特征: 参考图(最多 3 张)的视觉特征提取
  4. 统一输入流: 三路信息拼接为统一输入,进入 MM-DiT 进行密集双向交互
  5. 生成输出: 模型生成编辑后的图像潜在表示,经 VAE 解码为最终图片

训练流水线: Pretrain → SFT → RL

FireRed 1.1 采用完整的三阶段训练:

  • 预训练 (Pretrain): 基于 16 亿样本的大规模语料库,其中超过 1 亿高质量样本
  • 监督微调 (SFT): 针对编辑任务的精细调优
  • 强化学习 (RL): 使用非对称梯度优化的 DPO 进一步提升编辑质量

关键技术创新

技术 作用 效果
可微分一致性损失 身份保持 人像编辑面部不变形
随机指令对齐 指令理解 复杂描述精准执行
多条件感知桶采样 训练效率 支持可变分辨率批处理
DiffusionNFT 文字编辑 图中文字清晰不模糊
非对称梯度 DPO 质量优化 人类偏好对齐

💡 开发者视角: FireRed 1.1 的编辑能力可迁移到任意 T2I 基础模型上,这意味着它不仅仅是一个编辑模型,更是一个可复用的编辑能力框架。


FireRed Image Edit 1.1 API 接入指南

当前可用的 API 平台

FireRed Image Edit 1.1 已在多个第三方平台提供 API 服务:

平台 预估价格 特点
Replicate ~$0.036/次 按次计费,简单易用
fal.ai 按用量计费 Serverless 部署,响应快
WaveSpeedAI 按用量计费 专注 AI 图像模型加速
HuggingFace Spaces 免费体验 在线演示,无需代码

本地部署要求

如果你需要本地部署 FireRed 1.1:

  • 显存需求: 30GB VRAM(推荐 A100 或 H100)
  • 推理速度: 约 4.5 秒/张
  • 开源协议: Apache 2.0,支持商业使用
  • 模型来源: HuggingFace FireRedTeam/FireRed-Image-Edit-1.1

API易平台接入说明

FireRed Image Edit 1.1 目前尚未在 API易平台上线,但已在技术评估和接入准备中。

🔔 接入预告: API易 apiyi.com 正在评估接入 FireRed Image Edit 1.1 模型。如果你有图像编辑 API 需求,欢迎联系 API易团队了解接入进度和预约测试。平台上线后,可通过统一 API 接口直接调用,无需自行部署。


FireRed Image Edit 1.1 应用场景

电商和内容创作

  • 产品图编辑: 更换产品背景、调整光影、添加场景
  • 模特换装: 虚拟试穿效果,降低拍摄成本
  • 社交媒体封面: 快速生成风格统一的封面图
  • 旧照修复: 修复老照片,提升图片质量

设计和创意

  • 风格迁移: 将照片转换为各种艺术风格
  • 创意合成: 组合多个元素生成创意海报
  • 品牌物料: 统一品牌视觉风格的批量图片处理

与其他图像模型的定位差异

模型 定位 核心优势 适用场景
FireRed Image Edit 1.1 图像编辑 身份一致性、指令跟随 精确编辑已有图片
Gemini Imagen 4 文生图 高质量生成 从零生成新图片
DALL-E 3 文生图 文字渲染 创意图片生成
Stable Diffusion 3 文生图+编辑 开源生态 灵活定制

FireRed 1.1 的核心差异化在于: 它不是在生成新图片,而是在精确编辑已有图片。这决定了它在电商、内容创作等需要基于真实素材进行二次加工的场景中具有独特优势。

🚀 场景建议: 如果你的需求是"基于已有图片做精确修改"(换背景、换风格、添加元素等),FireRed 是目前开源最佳选择。如需文生图能力,可通过 API易 apiyi.com 平台使用 Gemini Imagen、DALL-E 等模型,根据具体场景灵活搭配。


常见问题

Q1: FireRed Image Edit 1.1 可以免费商用吗?

可以。FireRed Image Edit 1.1 采用 Apache 2.0 开源协议,允许自由使用、修改和分发,包括商业用途。你可以从 HuggingFace 下载模型权重进行本地部署,或通过第三方 API 平台按用量付费使用。

Q2: FireRed 1.1 和 1.0 有什么区别,应该用哪个?

建议直接使用 1.1 版本。1.1 在 1.0 的基础上重点优化了人像身份一致性、多元素融合、风格化文字和妆容效果。所有方面都是升级,没有退步的维度。1.1 在 GEdit 综合评分上达到 7.94,而 1.0 的基线更低。

Q3: 需要什么硬件才能本地部署?

FireRed 1.1 需要至少 30GB 显存,推荐使用 NVIDIA A100(40/80GB)或 H100 显卡。如果没有足够的 GPU 资源,建议通过 API 方式使用,Replicate 上单次调用约 $0.036。后续 API易 apiyi.com 平台上线后也可通过 API 直接调用。

Q4: API易什么时候会接入 FireRed Image Edit?

FireRed Image Edit 1.1 目前正在 API易平台的技术评估阶段。如果你有明确的图像编辑 API 需求,欢迎联系 API易 apiyi.com 团队,你的需求将帮助我们加速评估和接入进度。


总结

FireRed Image Edit 1.1 的核心要点:

  1. 开源 SOTA: GEdit 综合分 7.94,ImgEdit 4.56,全面超越 Qwen-Image-Edit-2511
  2. 身份一致性领先: 可微分一致性损失机制让人像编辑不再"换脸"
  3. 中文原生支持: 小红书团队打造,中英双语指令均表现优秀
  4. 完全开源可商用: Apache 2.0 协议,HuggingFace 可直接下载
  5. 推理高效: 30GB 显存即可部署,4.5 秒/张生成速度

对于需要精确图像编辑能力的开发者和企业,FireRed 1.1 是当前开源领域的最佳选择。

API易 apiyi.com 正在积极评估接入 FireRed Image Edit 1.1,有需求的用户欢迎提前联系了解。平台已支持 Gemini、Claude、GPT 等多模型统一调用,图像编辑模型的加入将进一步完善多模态 API 矩阵。


📚 参考资料

  1. FireRed-Image-Edit GitHub 仓库: 官方开源代码和文档

    • 链接: github.com/FireRedTeam/FireRed-Image-Edit
    • 说明: 包含完整源码、模型权重下载链接和使用示例
  2. FireRed-Image-Edit 1.1 HuggingFace: 模型权重下载

    • 链接: huggingface.co/FireRedTeam/FireRed-Image-Edit-1.1
    • 说明: 可直接下载模型权重进行本地部署
  3. FireRed-Image-Edit 1.0 技术报告: 学术论文

    • 链接: arxiv.org/abs/2602.13344
    • 说明: 详细的架构设计和训练方法说明
  4. REDEdit-Bench 基准测试: 评测方法论

    • 链接: github.com/FireRedTeam/FireRed-Image-Edit
    • 说明: 15 类别、1,673 个双语编辑对的评测标准

作者: APIYI 技术团队
技术交流: 欢迎在评论区分享你的 AI 图像编辑使用经验,更多 AI 模型资讯可访问 API易 docs.apiyi.com 文档中心

发表评论