小紅書 FireRed Image Edit 1.1 深度解析: 開源圖像編輯 SOTA 的 5 大核心能力

作者注:全面解析小紅書開源的 FireRed Image Edit 1.1 圖像編輯模型,涵蓋 5 大核心能力、基準測試數據、技術架構和 API 接入方式,開源 SOTA 超越阿里 Qwen

2026 年 3 月 3 日,小紅書 FireRed 團隊發佈了 FireRed-Image-Edit 1.1——一款基於 Diffusion Transformer 架構的圖像編輯基礎模型。該模型在 ImgEdit、GEdit、REDEdit 三大基準測試中均取得開源 SOTA,以 7.94 的綜合得分超越阿里 Qwen-Image-Edit-2511 的 7.88,成爲當前最強的開源圖像編輯模型。

核心價值: 讀完本文,你將瞭解 FireRed Image Edit 1.1 的 5 大核心能力、技術架構創新點,以及如何通過 API 快速接入使用。

xiaohongshu-firered-image-edit-1-1-ai-image-editing-guide-zh-hant 图示


FireRed Image Edit 1.1 核心要點

要點 說明 優勢
開源 SOTA ImgEdit 綜合分 4.56,GEdit 綜合分 7.94 超越 Qwen-Image-Edit
身份一致性 可微分一致性損失機制,面部特徵高保真 人像編輯不變形
多元素融合 支持 10+ 元素自由組合 Agent 自動裁剪拼接
中英雙語 1,673 箇中英雙語編輯對評測 中文指令原生支持
Apache 2.0 完全開源,支持商業使用 免費可商用

FireRed Image Edit 1.1 是什麼

FireRed-Image-Edit 是小紅書 FireRed 團隊開發的圖像編輯基礎模型。與常見的文生圖(Text-to-Image)模型不同,它專注於圖像編輯(Image Editing)——在保留原圖核心內容的前提下,根據自然語言指令對圖像進行精確修改。

你可以上傳最多 3 張參考圖片,用自然語言(中文或英文)描述你想要的編輯效果,模型會智能地將參考圖中的元素、風格和人物融合到輸出圖片中。

1.1 版本相比 1.0 的主要提升:

  • 人像一致性大幅優化: 更換背景、風格遷移時面部特徵保持更準確
  • 多元素融合增強: 更好地處理複雜的多圖組合場景
  • 風格化文字參考: 支持更豐富的字體和排版風格
  • 人像妝容效果: 新增精細化妝容編輯能力

FireRed Image Edit 1.1 的 5 大核心能力

能力一: 身份一致性保持(Identity Consistency)

這是 1.1 版本最核心的升級。通過創新的可微分一致性損失機制(Differentiable Consistency Loss),模型在編輯人像時能精確保持面部特徵、表情和個人特徵。

應用場景:

  • 更換照片背景,人臉保持不變
  • 應用不同藝術風格,身份信息保留
  • 將人物合成到不同場景,外貌特徵一致

傳統圖像編輯模型在風格遷移時經常出現"面部畸變"問題——人物看起來像另一個人。FireRed 1.1 通過在整個生成過程中最小化身份差異來解決這個問題。

能力二: 多元素融合(Multi-Element Fusion)

FireRed 1.1 支持自由組合 10 個以上的視覺元素,配合 Agent 驅動的自動裁剪和拼接功能:

融合類型 說明 典型場景
人物+背景 將人物放入新場景 產品模特換背景
人物+服裝 虛擬試穿效果 電商服裝展示
多人物組合 將不同圖中的人物合成 創意合成海報
風格+內容 參考圖風格應用到內容圖 藝術風格遷移
文字+畫面 將文字自然融入圖像 社交媒體封面

能力三: 精準指令跟隨(Instruction Following)

模型採用隨機指令對齊(Stochastic Instruction Alignment)技術,配合動態提示詞重索引,確保輸出與用戶指令高度一致。

測試顯示,FireRed 1.1 在 REDEdit-Bench 基準測試的指令跟隨維度上:

  • 中文指令得分: 4.33
  • 英文指令得分: 4.26

這意味着模型不僅能理解"把背景換成海灘"這類簡單指令,還能處理"保持人物不變,將背景替換爲夕陽下的熱帶海灘,添加柔和的暖色調光影效果"這類複雜描述。

xiaohongshu-firered-image-edit-1-1-ai-image-editing-guide-zh-hant 图示

能力四: 高保真文字編輯(Text Editing)

通過 DiffusionNFT 技術和佈局感知 OCR 獎勵機制,FireRed 1.1 能在圖像中精確保留和編輯文字內容。這在實際應用中非常重要——很多圖像編輯模型在處理包含文字的圖片時會出現文字模糊或變形。

能力五: 舊照修復與風格遷移

FireRed 1.1 在舊照片修復和跨風格遷移方面表現出色:

  • 舊照修復: 自動修復劃痕、色彩退化、模糊等常見老照片問題
  • 風格遷移: 將照片轉換爲油畫、水彩、動漫等多種藝術風格
  • 妝容編輯: 1.1 新增的精細化妝容調整能力

FireRed Image Edit 1.1 基準測試成績

三大基準全面領先

基準測試 FireRed 1.1 Qwen-Image-Edit 對比結果
ImgEdit (綜合) 4.56 4.51 ✅ FireRed 勝出
GEdit (綜合 G_O) 7.94 (EN) / 7.89 (CN) 7.88 ✅ FireRed 勝出
REDEdit (中文) 4.33 開源 SOTA
REDEdit (英文) 4.26 開源 SOTA

GEdit 細分維度

維度 英文得分 中文得分 含義
G_SC (語義一致性) 8.363 8.287 編輯結果與指令的語義匹配度
G_PQ (感知質量) 8.245 8.227 生成圖像的視覺質量
G_O (綜合評分) 7.943 7.887 多維度加權綜合

REDEdit-Bench 是 FireRed 團隊自研的基準測試,覆蓋 15 個類別、1,673 箇中英雙語編輯對,比現有基準更貼近真實用戶的編輯需求。

🎯 性能提示: FireRed 1.1 在身份一致性和指令跟隨兩個維度上優勢最明顯,特別適合需要保持人物特徵的編輯場景。API易 apiyi.com 後續計劃接入此模型,有需求的用戶歡迎聯繫我們提前瞭解。

xiaohongshu-firered-image-edit-1-1-ai-image-editing-guide-zh-hant 图示


FireRed Image Edit 1.1 技術架構

核心架構: MM-DiT 雙流多模態擴散 Transformer

FireRed 1.1 的核心生成引擎是雙流多模態擴散 Transformer(Double-Stream Multi-Modal Diffusion Transformer, MM-DiT):

  1. 文本嵌入: 用戶的編輯指令經過文本編碼器轉換爲語義向量
  2. 圖像 latent tokens: 原圖經過高保真 VAE 編碼爲潛在空間表示
  3. 參考圖像特徵: 參考圖(最多 3 張)的視覺特徵提取
  4. 統一輸入流: 三路信息拼接爲統一輸入,進入 MM-DiT 進行密集雙向交互
  5. 生成輸出: 模型生成編輯後的圖像潛在表示,經 VAE 解碼爲最終圖片

訓練流水線: Pretrain → SFT → RL

FireRed 1.1 採用完整的三階段訓練:

  • 預訓練 (Pretrain): 基於 16 億樣本的大規模語料庫,其中超過 1 億高質量樣本
  • 監督微調 (SFT): 針對編輯任務的精細調優
  • 強化學習 (RL): 使用非對稱梯度優化的 DPO 進一步提升編輯質量

關鍵技術創新

技術 作用 效果
可微分一致性損失 身份保持 人像編輯面部不變形
隨機指令對齊 指令理解 複雜描述精準執行
多條件感知桶採樣 訓練效率 支持可變分辨率批處理
DiffusionNFT 文字編輯 圖中文字清晰不模糊
非對稱梯度 DPO 質量優化 人類偏好對齊

💡 開發者視角: FireRed 1.1 的編輯能力可遷移到任意 T2I 基礎模型上,這意味着它不僅僅是一個編輯模型,更是一個可複用的編輯能力框架。


FireRed Image Edit 1.1 API 接入指南

當前可用的 API 平臺

FireRed Image Edit 1.1 已在多個第三方平臺提供 API 服務:

平臺 預估價格 特點
Replicate ~$0.036/次 按次計費,簡單易用
fal.ai 按用量計費 Serverless 部署,響應快
WaveSpeedAI 按用量計費 專注 AI 圖像模型加速
HuggingFace Spaces 免費體驗 在線演示,無需代碼

本地部署要求

如果你需要本地部署 FireRed 1.1:

  • 顯存需求: 30GB VRAM(推薦 A100 或 H100)
  • 推理速度: 約 4.5 秒/張
  • 開源協議: Apache 2.0,支持商業使用
  • 模型來源: HuggingFace FireRedTeam/FireRed-Image-Edit-1.1

API易平臺接入說明

FireRed Image Edit 1.1 目前尚未在 API易平臺上線,但已在技術評估和接入準備中。

🔔 接入預告: API易 apiyi.com 正在評估接入 FireRed Image Edit 1.1 模型。如果你有圖像編輯 API 需求,歡迎聯繫 API易團隊瞭解接入進度和預約測試。平臺上線後,可通過統一 API 接口直接調用,無需自行部署。


FireRed Image Edit 1.1 應用場景

電商和內容創作

  • 產品圖編輯: 更換產品背景、調整光影、添加場景
  • 模特換裝: 虛擬試穿效果,降低拍攝成本
  • 社交媒體封面: 快速生成風格統一的封面圖
  • 舊照修復: 修復老照片,提升圖片質量

設計和創意

  • 風格遷移: 將照片轉換爲各種藝術風格
  • 創意合成: 組合多個元素生成創意海報
  • 品牌物料: 統一品牌視覺風格的批量圖片處理

與其他圖像模型的定位差異

模型 定位 核心優勢 適用場景
FireRed Image Edit 1.1 圖像編輯 身份一致性、指令跟隨 精確編輯已有圖片
Gemini Imagen 4 文生圖 高質量生成 從零生成新圖片
DALL-E 3 文生圖 文字渲染 創意圖片生成
Stable Diffusion 3 文生圖+編輯 開源生態 靈活定製

FireRed 1.1 的核心差異化在於: 它不是在生成新圖片,而是在精確編輯已有圖片。這決定了它在電商、內容創作等需要基於真實素材進行二次加工的場景中具有獨特優勢。

🚀 場景建議: 如果你的需求是"基於已有圖片做精確修改"(換背景、換風格、添加元素等),FireRed 是目前開源最佳選擇。如需文生圖能力,可通過 API易 apiyi.com 平臺使用 Gemini Imagen、DALL-E 等模型,根據具體場景靈活搭配。


常見問題

Q1: FireRed Image Edit 1.1 可以免費商用嗎?

可以。FireRed Image Edit 1.1 採用 Apache 2.0 開源協議,允許自由使用、修改和分發,包括商業用途。你可以從 HuggingFace 下載模型權重進行本地部署,或通過第三方 API 平臺按用量付費使用。

Q2: FireRed 1.1 和 1.0 有什麼區別,應該用哪個?

建議直接使用 1.1 版本。1.1 在 1.0 的基礎上重點優化了人像身份一致性、多元素融合、風格化文字和妝容效果。所有方面都是升級,沒有退步的維度。1.1 在 GEdit 綜合評分上達到 7.94,而 1.0 的基線更低。

Q3: 需要什麼硬件才能本地部署?

FireRed 1.1 需要至少 30GB 顯存,推薦使用 NVIDIA A100(40/80GB)或 H100 顯卡。如果沒有足夠的 GPU 資源,建議通過 API 方式使用,Replicate 上單次調用約 $0.036。後續 API易 apiyi.com 平臺上線後也可通過 API 直接調用。

Q4: API易什麼時候會接入 FireRed Image Edit?

FireRed Image Edit 1.1 目前正在 API易平臺的技術評估階段。如果你有明確的圖像編輯 API 需求,歡迎聯繫 API易 apiyi.com 團隊,你的需求將幫助我們加速評估和接入進度。


總結

FireRed Image Edit 1.1 的核心要點:

  1. 開源 SOTA: GEdit 綜合分 7.94,ImgEdit 4.56,全面超越 Qwen-Image-Edit-2511
  2. 身份一致性領先: 可微分一致性損失機制讓人像編輯不再"換臉"
  3. 中文原生支持: 小紅書團隊打造,中英雙語指令均表現優秀
  4. 完全開源可商用: Apache 2.0 協議,HuggingFace 可直接下載
  5. 推理高效: 30GB 顯存即可部署,4.5 秒/張生成速度

對於需要精確圖像編輯能力的開發者和企業,FireRed 1.1 是當前開源領域的最佳選擇。

API易 apiyi.com 正在積極評估接入 FireRed Image Edit 1.1,有需求的用戶歡迎提前聯繫瞭解。平臺已支持 Gemini、Claude、GPT 等多模型統一調用,圖像編輯模型的加入將進一步完善多模態 API 矩陣。


📚 參考資料

  1. FireRed-Image-Edit GitHub 倉庫: 官方開源代碼和文檔

    • 鏈接: github.com/FireRedTeam/FireRed-Image-Edit
    • 說明: 包含完整源碼、模型權重下載鏈接和使用示例
  2. FireRed-Image-Edit 1.1 HuggingFace: 模型權重下載

    • 鏈接: huggingface.co/FireRedTeam/FireRed-Image-Edit-1.1
    • 說明: 可直接下載模型權重進行本地部署
  3. FireRed-Image-Edit 1.0 技術報告: 學術論文

    • 鏈接: arxiv.org/abs/2602.13344
    • 說明: 詳細的架構設計和訓練方法說明
  4. REDEdit-Bench 基準測試: 評測方法論

    • 鏈接: github.com/FireRedTeam/FireRed-Image-Edit
    • 說明: 15 類別、1,673 個雙語編輯對的評測標準

作者: APIYI 技術團隊
技術交流: 歡迎在評論區分享你的 AI 圖像編輯使用經驗,更多 AI 模型資訊可訪問 API易 docs.apiyi.com 文檔中心

發佈留言