小紅書 FireRed Image Edit 1.1 深度解析: 開源圖像編輯 SOTA 的 5 大核心能力

作者注：全面解析小紅書開源的 FireRed Image Edit 1.1 圖像編輯模型，涵蓋 5 大核心能力、基準測試數據、技術架構和 API 接入方式，開源 SOTA 超越阿里 Qwen

2026 年 3 月 3 日，小紅書 FireRed 團隊發佈了 FireRed-Image-Edit 1.1——一款基於 Diffusion Transformer 架構的圖像編輯基礎模型。該模型在 ImgEdit、GEdit、REDEdit 三大基準測試中均取得開源 SOTA，以 7.94 的綜合得分超越阿里 Qwen-Image-Edit-2511 的 7.88，成爲當前最強的開源圖像編輯模型。

核心價值: 讀完本文，你將瞭解 FireRed Image Edit 1.1 的 5 大核心能力、技術架構創新點，以及如何通過 API 快速接入使用。

FireRed Image Edit 1.1 核心要點

要點	說明	優勢
開源 SOTA	ImgEdit 綜合分 4.56，GEdit 綜合分 7.94	超越 Qwen-Image-Edit
身份一致性	可微分一致性損失機制，面部特徵高保真	人像編輯不變形
多元素融合	支持 10+ 元素自由組合	Agent 自動裁剪拼接
中英雙語	1，673 箇中英雙語編輯對評測	中文指令原生支持
Apache 2.0	完全開源，支持商業使用	免費可商用

FireRed Image Edit 1.1 是什麼

FireRed-Image-Edit 是小紅書 FireRed 團隊開發的圖像編輯基礎模型。與常見的文生圖（Text-to-Image）模型不同，它專注於圖像編輯（Image Editing）——在保留原圖核心內容的前提下，根據自然語言指令對圖像進行精確修改。

你可以上傳最多 3 張參考圖片，用自然語言（中文或英文）描述你想要的編輯效果，模型會智能地將參考圖中的元素、風格和人物融合到輸出圖片中。

1.1 版本相比 1.0 的主要提升:

人像一致性大幅優化: 更換背景、風格遷移時面部特徵保持更準確
多元素融合增強: 更好地處理複雜的多圖組合場景
風格化文字參考: 支持更豐富的字體和排版風格
人像妝容效果: 新增精細化妝容編輯能力

FireRed Image Edit 1.1 的 5 大核心能力

能力一: 身份一致性保持（Identity Consistency）

這是 1.1 版本最核心的升級。通過創新的可微分一致性損失機制（Differentiable Consistency Loss），模型在編輯人像時能精確保持面部特徵、表情和個人特徵。

應用場景:

更換照片背景，人臉保持不變
應用不同藝術風格，身份信息保留
將人物合成到不同場景，外貌特徵一致

傳統圖像編輯模型在風格遷移時經常出現"面部畸變"問題——人物看起來像另一個人。FireRed 1.1 通過在整個生成過程中最小化身份差異來解決這個問題。

能力二: 多元素融合（Multi-Element Fusion）

FireRed 1.1 支持自由組合 10 個以上的視覺元素，配合 Agent 驅動的自動裁剪和拼接功能:

融合類型	說明	典型場景
人物+背景	將人物放入新場景	產品模特換背景
人物+服裝	虛擬試穿效果	電商服裝展示
多人物組合	將不同圖中的人物合成	創意合成海報
風格+內容	參考圖風格應用到內容圖	藝術風格遷移
文字+畫面	將文字自然融入圖像	社交媒體封面

能力三: 精準指令跟隨（Instruction Following）

模型採用隨機指令對齊（Stochastic Instruction Alignment）技術，配合動態提示詞重索引，確保輸出與用戶指令高度一致。

測試顯示，FireRed 1.1 在 REDEdit-Bench 基準測試的指令跟隨維度上:

中文指令得分: 4.33
英文指令得分: 4.26

這意味着模型不僅能理解"把背景換成海灘"這類簡單指令，還能處理"保持人物不變，將背景替換爲夕陽下的熱帶海灘，添加柔和的暖色調光影效果"這類複雜描述。

能力四: 高保真文字編輯（Text Editing）

通過 DiffusionNFT 技術和佈局感知 OCR 獎勵機制，FireRed 1.1 能在圖像中精確保留和編輯文字內容。這在實際應用中非常重要——很多圖像編輯模型在處理包含文字的圖片時會出現文字模糊或變形。

能力五: 舊照修復與風格遷移

FireRed 1.1 在舊照片修復和跨風格遷移方面表現出色:

舊照修復: 自動修復劃痕、色彩退化、模糊等常見老照片問題
風格遷移: 將照片轉換爲油畫、水彩、動漫等多種藝術風格
妝容編輯: 1.1 新增的精細化妝容調整能力

FireRed Image Edit 1.1 基準測試成績

三大基準全面領先

基準測試	FireRed 1.1	Qwen-Image-Edit	對比結果
ImgEdit （綜合）	4.56	4.51	✅ FireRed 勝出
GEdit （綜合 G_O）	7.94 （EN） / 7.89 （CN）	7.88	✅ FireRed 勝出
REDEdit （中文）	4.33	—	開源 SOTA
REDEdit （英文）	4.26	—	開源 SOTA

GEdit 細分維度

維度	英文得分	中文得分	含義
G_SC （語義一致性）	8.363	8.287	編輯結果與指令的語義匹配度
G_PQ （感知質量）	8.245	8.227	生成圖像的視覺質量
G_O （綜合評分）	7.943	7.887	多維度加權綜合

REDEdit-Bench 是 FireRed 團隊自研的基準測試，覆蓋 15 個類別、1，673 箇中英雙語編輯對，比現有基準更貼近真實用戶的編輯需求。

🎯 性能提示: FireRed 1.1 在身份一致性和指令跟隨兩個維度上優勢最明顯，特別適合需要保持人物特徵的編輯場景。API易 apiyi.com 後續計劃接入此模型，有需求的用戶歡迎聯繫我們提前瞭解。

FireRed Image Edit 1.1 技術架構

核心架構: MM-DiT 雙流多模態擴散 Transformer

FireRed 1.1 的核心生成引擎是雙流多模態擴散 Transformer（Double-Stream Multi-Modal Diffusion Transformer， MM-DiT）:

文本嵌入: 用戶的編輯指令經過文本編碼器轉換爲語義向量
圖像 latent tokens: 原圖經過高保真 VAE 編碼爲潛在空間表示
參考圖像特徵: 參考圖（最多 3 張）的視覺特徵提取
統一輸入流: 三路信息拼接爲統一輸入，進入 MM-DiT 進行密集雙向交互
生成輸出: 模型生成編輯後的圖像潛在表示，經 VAE 解碼爲最終圖片

訓練流水線: Pretrain → SFT → RL

FireRed 1.1 採用完整的三階段訓練:

預訓練（Pretrain）: 基於 16 億樣本的大規模語料庫，其中超過 1 億高質量樣本
監督微調（SFT）: 針對編輯任務的精細調優
強化學習（RL）: 使用非對稱梯度優化的 DPO 進一步提升編輯質量

關鍵技術創新

技術	作用	效果
可微分一致性損失	身份保持	人像編輯面部不變形
隨機指令對齊	指令理解	複雜描述精準執行
多條件感知桶採樣	訓練效率	支持可變分辨率批處理
DiffusionNFT	文字編輯	圖中文字清晰不模糊
非對稱梯度 DPO	質量優化	人類偏好對齊

💡 開發者視角: FireRed 1.1 的編輯能力可遷移到任意 T2I 基礎模型上，這意味着它不僅僅是一個編輯模型，更是一個可複用的編輯能力框架。

FireRed Image Edit 1.1 API 接入指南

當前可用的 API 平臺

FireRed Image Edit 1.1 已在多個第三方平臺提供 API 服務:

平臺	預估價格	特點
Replicate	~$0.036/次	按次計費，簡單易用
fal.ai	按用量計費	Serverless 部署，響應快
WaveSpeedAI	按用量計費	專注 AI 圖像模型加速
HuggingFace Spaces	免費體驗	在線演示，無需代碼

本地部署要求

如果你需要本地部署 FireRed 1.1:

顯存需求: 30GB VRAM（推薦 A100 或 H100）
推理速度: 約 4.5 秒/張
開源協議: Apache 2.0，支持商業使用
模型來源: HuggingFace FireRedTeam/FireRed-Image-Edit-1.1

API易平臺接入說明

FireRed Image Edit 1.1 目前尚未在 API易平臺上線，但已在技術評估和接入準備中。

🔔 接入預告: API易 apiyi.com 正在評估接入 FireRed Image Edit 1.1 模型。如果你有圖像編輯 API 需求，歡迎聯繫 API易團隊瞭解接入進度和預約測試。平臺上線後，可通過統一 API 接口直接調用，無需自行部署。

FireRed Image Edit 1.1 應用場景

電商和內容創作

產品圖編輯: 更換產品背景、調整光影、添加場景
模特換裝: 虛擬試穿效果，降低拍攝成本
社交媒體封面: 快速生成風格統一的封面圖
舊照修復: 修復老照片，提升圖片質量

設計和創意

風格遷移: 將照片轉換爲各種藝術風格
創意合成: 組合多個元素生成創意海報
品牌物料: 統一品牌視覺風格的批量圖片處理

與其他圖像模型的定位差異

模型	定位	核心優勢	適用場景
FireRed Image Edit 1.1	圖像編輯	身份一致性、指令跟隨	精確編輯已有圖片
Gemini Imagen 4	文生圖	高質量生成	從零生成新圖片
DALL-E 3	文生圖	文字渲染	創意圖片生成
Stable Diffusion 3	文生圖+編輯	開源生態	靈活定製

FireRed 1.1 的核心差異化在於: 它不是在生成新圖片，而是在精確編輯已有圖片。這決定了它在電商、內容創作等需要基於真實素材進行二次加工的場景中具有獨特優勢。

🚀 場景建議: 如果你的需求是"基於已有圖片做精確修改"（換背景、換風格、添加元素等），FireRed 是目前開源最佳選擇。如需文生圖能力，可通過 API易 apiyi.com 平臺使用 Gemini Imagen、DALL-E 等模型，根據具體場景靈活搭配。

常見問題

Q1: FireRed Image Edit 1.1 可以免費商用嗎？

可以。FireRed Image Edit 1.1 採用 Apache 2.0 開源協議，允許自由使用、修改和分發，包括商業用途。你可以從 HuggingFace 下載模型權重進行本地部署，或通過第三方 API 平臺按用量付費使用。

Q2: FireRed 1.1 和 1.0 有什麼區別，應該用哪個？

建議直接使用 1.1 版本。1.1 在 1.0 的基礎上重點優化了人像身份一致性、多元素融合、風格化文字和妝容效果。所有方面都是升級，沒有退步的維度。1.1 在 GEdit 綜合評分上達到 7.94，而 1.0 的基線更低。

Q3: 需要什麼硬件才能本地部署？

FireRed 1.1 需要至少 30GB 顯存，推薦使用 NVIDIA A100（40/80GB）或 H100 顯卡。如果沒有足夠的 GPU 資源，建議通過 API 方式使用，Replicate 上單次調用約 $0.036。後續 API易 apiyi.com 平臺上線後也可通過 API 直接調用。

Q4: API易什麼時候會接入 FireRed Image Edit？

FireRed Image Edit 1.1 目前正在 API易平臺的技術評估階段。如果你有明確的圖像編輯 API 需求，歡迎聯繫 API易 apiyi.com 團隊，你的需求將幫助我們加速評估和接入進度。

總結

FireRed Image Edit 1.1 的核心要點:

開源 SOTA: GEdit 綜合分 7.94，ImgEdit 4.56，全面超越 Qwen-Image-Edit-2511
身份一致性領先: 可微分一致性損失機制讓人像編輯不再"換臉"
中文原生支持: 小紅書團隊打造，中英雙語指令均表現優秀
完全開源可商用: Apache 2.0 協議，HuggingFace 可直接下載
推理高效: 30GB 顯存即可部署，4.5 秒/張生成速度

對於需要精確圖像編輯能力的開發者和企業，FireRed 1.1 是當前開源領域的最佳選擇。

API易 apiyi.com 正在積極評估接入 FireRed Image Edit 1.1，有需求的用戶歡迎提前聯繫瞭解。平臺已支持 Gemini、Claude、GPT 等多模型統一調用，圖像編輯模型的加入將進一步完善多模態 API 矩陣。

📚 參考資料

FireRed-Image-Edit GitHub 倉庫: 官方開源代碼和文檔
- 鏈接: github.com/FireRedTeam/FireRed-Image-Edit
- 說明: 包含完整源碼、模型權重下載鏈接和使用示例
FireRed-Image-Edit 1.1 HuggingFace: 模型權重下載
- 鏈接: huggingface.co/FireRedTeam/FireRed-Image-Edit-1.1
- 說明: 可直接下載模型權重進行本地部署
FireRed-Image-Edit 1.0 技術報告: 學術論文
- 鏈接: arxiv.org/abs/2602.13344
- 說明: 詳細的架構設計和訓練方法說明
REDEdit-Bench 基準測試: 評測方法論
- 鏈接: github.com/FireRedTeam/FireRed-Image-Edit
- 說明: 15 類別、1，673 個雙語編輯對的評測標準

作者: APIYI 技術團隊
技術交流: 歡迎在評論區分享你的 AI 圖像編輯使用經驗，更多 AI 模型資訊可訪問 API易 docs.apiyi.com 文檔中心