title: "小紅書の最新モデル「FireRed-Image-Edit 1.1」徹底解説:オープンソースSOTAでQwenを超越"
description: "小紅書(Xiaohongshu)が公開した最新の画像編集モデル「FireRed-Image-Edit 1.1」を徹底解析。5つの核心能力、技術アーキテクチャ、およびAPI活用方法を網羅し、オープンソースSOTAとしての実力を紹介します。"
作者注:小紅書(Xiaohongshu)がオープンソース化した画像編集モデル「FireRed Image Edit 1.1」を徹底解析します。5つの核心能力、ベンチマークデータ、技術アーキテクチャ、およびAPI利用方法をカバーしており、このオープンソースのSOTAモデルが、いかにしてAlibabaのQwenを凌駕したかを解説します。
2026年3月3日、小紅書のFireRedチームは、Diffusion Transformerアーキテクチャに基づく画像編集基盤モデルFireRed-Image-Edit 1.1をリリースしました。本モデルは、ImgEdit、GEdit、REDEditという3つの主要なベンチマークにおいてオープンソースのSOTA(最高性能)を達成し、総合スコア7.94を記録。AlibabaのQwen-Image-Edit-2511の7.88を上回り、現時点で最強のオープンソース画像編集モデルとなりました。
核心的価値: この記事を読めば、FireRed Image Edit 1.1が持つ5つの核心能力、技術アーキテクチャの革新ポイント、そしてAPIを介して素早く活用する方法がわかります。

FireRed Image Edit 1.1 核心要点
| 要点 | 说明 | 优势 |
|---|---|---|
| オープンソースSOTA | ImgEdit 総合スコア 4.56、GEdit 総合スコア 7.94 | Qwen-Image-Edit を凌駕 |
| 顔の一貫性 | 微分可能な一貫性損失メカニズム、顔の特徴を高度に維持 | 人物編集でも崩れない |
| 多要素融合 | 10種類以上の要素を自由自在に組み合わせ可能 | Agentが自動で切り抜き・合成 |
| 中英バイリンガル | 1,673件の中英バイリンガル編集ペアで評価 | 中国語プロンプトをネイティブサポート |
| Apache 2.0 | 完全オープンソース、商用利用可能 | 無料かつ商用利用可 |
FireRed Image Edit 1.1 とは
FireRed-Image-Editは、小紅書のFireRedチームが開発した画像編集基盤モデルです。一般的なテキストから画像生成(Text-to-Image)モデルとは異なり、「画像編集(Image Editing)」に特化しています。元画像の核心部分を維持したまま、自然言語による指示に従って画像を正確に変更します。
最大3枚の参照画像をアップロードし、自然言語(中国語または英語)で希望する編集効果を記述すれば、モデルが参照画像内の要素、スタイル、人物をインテリジェントに合成して出力画像を作成します。
1.1バージョンにおける1.0からの主な改善点:
- 顔の一貫性の向上: 背景変更やスタイル変換時でも、顔の特徴をより正確に保持
- 多要素融合の強化: 複雑な多画像合成シーンの処理能力が向上
- スタイル付き文字参照: より豊富なフォントやレイアウトスタイルをサポート
- 顔のメイクアップ効果: 精緻なメイクアップ編集能力を新たに追加
FireRed Image Edit 1.1 の5つの核心能力
能力1: IDの一貫性保持(Identity Consistency)
これは1.1バージョンにおける最も重要なアップグレードです。革新的な微分可能な一貫性損失メカニズム(Differentiable Consistency Loss)を採用することで、モデルはポートレート編集時に顔の特徴、表情、個人の特性を正確に維持できるようになりました。
活用シーン:
- 写真の背景を変更しても、顔立ちをそのまま維持
- 異なるアートスタイルを適用しても、本人情報を保持
- 人物を異なるシーンに合成しても、外見の特徴が変わらない
従来の画像編集モデルでは、スタイル変換時に「顔の崩れ」が発生し、別人のように見えてしまうことがよくありました。FireRed 1.1は、生成プロセス全体でIDの差異を最小限に抑えることで、この問題を解決しています。
能力2: 多要素融合(Multi-Element Fusion)
FireRed 1.1は10種類以上の視覚要素の自由な組み合わせをサポートし、Agentによる自動クロップおよび合成機能と連携します。
| 融合タイプ | 説明 | 代表的なシーン |
|---|---|---|
| 人物+背景 | 人物を新しい背景に配置 | 商品モデルの背景差し替え |
| 人物+服装 | バーチャル試着効果 | ECサイトの服飾展示 |
| 多人物合成 | 異なる写真の人物を合成 | クリエイティブな合成ポスター |
| スタイル+コンテンツ | 参照画像のスタイルをコンテンツに適用 | アートスタイル転送 |
| テキスト+画面 | 文字を自然に画像へ融合 | SNS用カバー画像制作 |
能力3: 精度の高いプロンプト追従(Instruction Following)
モデルは確率的プロンプトアライメント(Stochastic Instruction Alignment)技術を採用し、動的なプロンプトのインデックス再構築と組み合わせることで、ユーザーの指示に対して高い整合性を保った出力を行います。
テスト結果によると、FireRed 1.1のREDEdit-Benchベンチマークにおけるプロンプト追従性能は以下の通りです。
- 中国語プロンプトスコア: 4.33
- 英語プロンプトスコア: 4.26
これは、モデルが「背景をビーチに変えて」といった単純な指示だけでなく、「人物はそのままで、背景を夕暮れのトロピカルビーチに差し替え、柔らかな暖色系の光と影の効果を追加して」といった複雑な記述も理解できることを意味しています。

能力4: 高忠実度なテキスト編集(Text Editing)
DiffusionNFT技術とレイアウト認識OCR報酬メカニズムを通じて、FireRed 1.1は画像内のテキスト内容を正確に保持・編集できます。多くの画像編集モデルでは文字を含む画像を処理する際に文字がぼやけたり歪んだりしてしまいますが、本モデルではこれを克服しており、実用において非常に重要な強みとなっています。
能力5: 古写真の修復とスタイル変換
FireRed 1.1は、古写真の修復やスタイル変換においても優れたパフォーマンスを発揮します。
- 古写真修復: 傷、退色、ぼけなど、古い写真によくある劣化を自動的に修復
- スタイル変換: 写真を油絵、水彩画、アニメ調など多様なアートスタイルに変換
- メイクアップ編集: 1.1で新たに追加された、細かいメイクアップの調整機能
FireRed Image Edit 1.1 ベンチマーク成績
3つの主要ベンチマークで全面的なリード
| ベンチマーク | FireRed 1.1 | Qwen-Image-Edit | 比較結果 |
|---|---|---|---|
| ImgEdit (総合) | 4.56 | 4.51 | ✅ FireRedの勝利 |
| GEdit (総合 G_O) | 7.94 (英) / 7.89 (中) | 7.88 | ✅ FireRedの勝利 |
| REDEdit (中国語) | 4.33 | — | オープンソースSOTA |
| REDEdit (英語) | 4.26 | — | オープンソースSOTA |
GEdit 詳細項目
| 項目 | 英語スコア | 中国語スコア | 意味 |
|---|---|---|---|
| G_SC (意味の一貫性) | 8.363 | 8.287 | 編集結果と指示のセマンティックな一致度 |
| G_PQ (知覚品質) | 8.245 | 8.227 | 生成画像の視覚的品質 |
| G_O (総合評価) | 7.943 | 7.887 | 多次元加重総合評価 |
REDEdit-BenchはFireRedチームが独自に開発したベンチマークであり、15のカテゴリ、1,673件の中英バイリンガル編集ペアをカバーしており、既存のベンチマークよりも実際のユーザーの編集ニーズに近い内容となっています。
🎯 パフォーマンスのヒント: FireRed 1.1は「顔の一貫性」と「プロンプトへの追従性」という2つの面で最も顕著な強みを発揮し、特に人物の特徴を維持する必要がある編集シーンに適しています。APIYI apiyi.com では、今後このモデルの導入を予定しています。ご興味のある方は、ぜひお問い合わせの上、詳細をご確認ください。

FireRed Image Edit 1.1 技術アーキテクチャ
コアアーキテクチャ: MM-DiT ダブルストリーム・マルチモーダル拡散Transformer
FireRed 1.1 のコア生成エンジンは、ダブルストリーム・マルチモーダル拡散Transformer(Double-Stream Multi-Modal Diffusion Transformer, MM-DiT)です。
- テキスト埋め込み: ユーザーの編集プロンプトをテキストエンコーダーでセマンティックベクトルに変換します。
- 画像 latent tokens: 原画像を高忠実度 VAE で潜在空間表現にエンコードします。
- 参照画像特徴: 参照画像(最大3枚)の視覚的特徴を抽出します。
- 統合入力ストリーム: 3つの情報源を統合入力として結合し、MM-DiT に入力して密な双方向インタラクションを行います。
- 生成出力: モデルは編集後の画像の潜在表現を生成し、VAE を通じて最終的な画像としてデコードします。
学習パイプライン: Pretrain → SFT → RL
FireRed 1.1 は完全な3段階の学習プロセスを採用しています。
- 事前学習 (Pretrain): 16億件のサンプルからなる大規模コーパス(うち1億件以上は高品質サンプル)に基づいています。
- 監督微調整 (SFT): 編集タスクに特化した精緻なチューニングを行います。
- 強化学習 (RL): 非対称勾配最適化 DPO を使用し、編集品質をさらに向上させています。
主な技術革新
| 技術 | 役割 | 効果 |
|---|---|---|
| 微分可能一貫性損失 | 身份保持 | 人物編集における顔の崩れ防止 |
| ランダムプロンプトアライメント | プロンプト理解 | 複雑な記述を正確に実行 |
| 多条件感知バケットサンプリング | 学習効率 | 可変解像度のバッチ処理をサポート |
| DiffusionNFT | テキスト編集 | 画像内の文字を鮮明に保つ |
| 非対称勾配 DPO | 品質最適化 | 人間の好みに合致した生成 |
💡 開発者視点: FireRed 1.1 の編集能力は、あらゆる T2I(テキストから画像生成)基盤モデルに転移可能です。つまり、これは単なる編集モデルではなく、再利用可能な編集能力フレームワークと言えます。
description: FireRed Image Edit 1.1 のAPI接続ガイド。特徴、ローカルデプロイ要件、APIYI(apiyi.com)での対応状況、および画像編集分野における活用シーンを詳細に解説します。
FireRed Image Edit 1.1 API 接続ガイド
現在利用可能な API プラットフォーム
FireRed Image Edit 1.1 は、以下のサードパーティプラットフォームで API サービスとして提供されています。
| プラットフォーム | 推定価格 | 特徴 |
|---|---|---|
| Replicate | ~$0.036/回 | 回数ごとの課金、使いやすさ抜群 |
| fal.ai | 従量課金 | Serverless デプロイ、高速な応答 |
| WaveSpeedAI | 従量課金 | AI 画像モデルの高速化に特化 |
| HuggingFace Spaces | 無料体験 | コード不要のオンラインデモ |
ローカルデプロイ要件
FireRed 1.1 をローカル環境にデプロイする場合の要件は以下の通りです。
- VRAM 要件: 30GB VRAM(A100 または H100 を推奨)
- 推論速度: 約 4.5 秒/枚
- オープンソースライセンス: Apache 2.0(商用利用可能)
- モデルソース: HuggingFace
FireRedTeam/FireRed-Image-Edit-1.1
APIYI プラットフォームの接続について
FireRed Image Edit 1.1 は、現時点では APIYI プラットフォームには実装されていませんが、技術評価および接続準備を進めています。
🔔 接続予告: APIYI (apiyi.com) では、FireRed Image Edit 1.1 モデルの導入を検討中です。画像編集 API のニーズがある方は、ぜひ APIYI チームまで接続状況の確認やテスト予約についてお問い合わせください。プラットフォームでの提供開始後は、統一された API インターフェースを通じて、自前でのデプロイなしに直接利用可能になります。
FireRed Image Edit 1.1 の活用シーン
EC およびコンテンツ制作
- 商品画像編集: 背景の差し替え、光影の調整、シーンの追加
- モデルの着せ替え: バーチャル試着による撮影コストの削減
- ソーシャルメディア用カバー画像: スタイルの統一されたカバー画像の迅速な生成
- 古い写真の修復: 古い写真の補正および画質向上
デザインおよびクリエイティブ
- スタイル変換: 写真をさまざまな芸術的スタイルに変換
- クリエイティブ合成: 複数の要素を組み合わせてクリエイティブなポスターを作成
- ブランド素材: ブランドの視覚的スタイルを統一したバッチ画像処理
他の画像モデルとの位置付けの比較
| モデル | 位置付け | 核となる強み | 適用シーン |
|---|---|---|---|
| FireRed Image Edit 1.1 | 画像編集 | アイデンティティの一貫性、指示への追従性 | 既存画像の精密な編集 |
| Gemini Imagen 4 | テキストから画像生成 | 高品質な生成 | ゼロからの新規画像生成 |
| DALL-E 3 | テキストから画像生成 | テキストレンダリング | クリエイティブな画像生成 |
| Stable Diffusion 3 | テキストから画像生成+編集 | オープンソースエコシステム | 柔軟なカスタマイズ |
FireRed 1.1 の核心的な差別化要因は、**「新しい画像を生成すること」ではなく、「既存の画像を精密に編集すること」**にあります。これにより、EC やコンテンツ制作など、実在の素材をベースにした二次加工が必要なシーンで独自の強みを発揮します。
🚀 シーン別アドバイス: 「既存の画像をベースに精密な修正を行いたい」(背景変更、スタイル変更、要素追加など)というニーズがある場合、FireRed は現在オープンソースとして最高の選択肢です。テキストから画像生成(文生図)能力が必要な場合は、APIYI (apiyi.com) プラットフォームを通じて Gemini Imagen や DALL-E などのモデルを柔軟に組み合わせて利用することをお勧めします。
よくある質問
Q1: FireRed Image Edit 1.1 は無料で商用利用できますか?
はい、可能です。FireRed Image Edit 1.1 は Apache 2.0 ライセンスを採用しており、商用利用を含め、自由な使用、改変、配布が認められています。HuggingFace からモデルの重みをダウンロードしてローカル環境にデプロイすることも、サードパーティの API プラットフォームを通じて従量課金で利用することも可能です。
Q2: FireRed 1.1 と 1.0 にはどのような違いがありますか?どちらを使うべきですか?
基本的には 1.1 バージョンの利用を推奨します。1.1 は 1.0 をベースに、人物の顔の一貫性、複数要素の融合、スタイリッシュなテキスト処理、メイクアップ効果などを重点的に最適化しています。あらゆる面で性能が向上しており、機能の低下はありません。1.1 は GEdit 総合スコアで 7.94 を記録しており、1.0 よりも高い性能を実現しています。
Q3: ローカル環境でのデプロイにはどのようなハードウェアが必要ですか?
FireRed 1.1 を動かすには最低 30GB の VRAM が必要です。NVIDIA A100(40GB/80GB)または H100 GPU の使用を推奨します。十分な GPU リソースがない場合は、API 経由での利用をお勧めします。Replicate では 1 回の呼び出しあたり約 0.036 ドルで利用可能です。今後、APIYI(apiyi.com)プラットフォームでも API を直接呼び出せるようになる予定です。
Q4: APIYI にはいつ FireRed Image Edit が導入されますか?
FireRed Image Edit 1.1 は現在、APIYI プラットフォームにて技術評価を行っている段階です。画像編集 API の導入をご希望の場合は、ぜひ APIYI (apiyi.com) チームまでご連絡ください。お客様からのニーズが、評価および導入プロセスの迅速化につながります。
まとめ
FireRed Image Edit 1.1 の主な特徴は以下の通りです:
- オープンソースで SOTA を達成: GEdit 総合スコア 7.94、ImgEdit 4.56 を記録し、Qwen-Image-Edit-2511 を総合的に上回ります。
- 顔の一貫性において優位: 微分可能な整合性損失メカニズムにより、画像編集時に「別人になってしまう」現象を防ぎます。
- 中国語ネイティブ対応: 小紅書(Red)チームが開発したため、中国語と英語の両方のプロンプトで優れたパフォーマンスを発揮します。
- 完全オープンソースかつ商用利用可能: Apache 2.0 ライセンスで提供され、HuggingFace から直接ダウンロード可能です。
- 効率的な推論: 30GB の VRAM でデプロイ可能であり、生成速度は 4.5 秒/枚と非常に高速です。
高精度な画像編集能力を求める開発者や企業にとって、FireRed 1.1 は現在オープンソース界における最良の選択肢といえるでしょう。
APIYI(apiyi.com)では、FireRed Image Edit 1.1 の導入を積極的に検討しています。利用を希望される方は、ぜひ事前にお問い合わせください。当プラットフォームでは現在、Gemini、Claude、GPT などの複数の大規模言語モデルを統合的に呼び出すことができます。画像編集モデルの追加により、さらに充実したマルチモーダル API 環境を提供してまいります。
📚 参考資料
-
FireRed-Image-Edit GitHub リポジトリ: 公式のオープンソースコードとドキュメント
- リンク:
github.com/FireRedTeam/FireRed-Image-Edit - 説明: 完全なソースコード、モデルウェイトのダウンロードリンク、および使用例が含まれています
- リンク:
-
FireRed-Image-Edit 1.1 HuggingFace: モデルウェイトのダウンロード
- リンク:
huggingface.co/FireRedTeam/FireRed-Image-Edit-1.1 - 説明: モデルウェイトを直接ダウンロードしてローカル環境にデプロイ可能です
- リンク:
-
FireRed-Image-Edit 1.0 技術レポート: 学術論文
- リンク:
arxiv.org/abs/2602.13344 - 説明: アーキテクチャの設計と学習手法に関する詳細な解説
- リンク:
-
REDEdit-Bench ベンチマーク: 評価方法論
- リンク:
github.com/FireRedTeam/FireRed-Image-Edit - 説明: 15カテゴリ、1,673個のバイリンガル編集ペアによる評価基準
- リンク:
著者: APIYI 技術チーム
技術交流: AI画像編集の使用経験をぜひコメント欄で共有してください。その他のAIモデルに関する情報は、APIYIのドキュメントセンター(docs.apiyi.com)をご覧ください。