تحليل عميق لـ FireRed Image Edit 1.1 من Xiaohongshu: القدرات الخمس الأساسية لأحدث تقنيات توليد الصور مفتوحة المصدر

ملاحظة من الكاتب: تحليل شامل لنموذج تعديل الصور مفتوح المصدر FireRed Image Edit 1.1 من شركة "شياوهونغشو" (Xiaohongshu)، يغطي القدرات الأساسية الخمس، وبيانات قياس الأداء، والبنية التقنية، وطرق الوصول إلى واجهة برمجة التطبيقات (API). يتفوق هذا النموذج كأفضل أداء (SOTA) مفتوح المصدر متجاوزًا نموذج Qwen من علي بابا.

في 3 مارس 2026، أطلق فريق FireRed في "شياوهونغشو" نموذج FireRed-Image-Edit 1.1، وهو نموذج أساسي لتعديل الصور يعتمد على بنية "محول الانتشار" (Diffusion Transformer). حقق هذا النموذج صدارة الأداء (SOTA) بين النماذج مفتوحة المصدر في اختبارات الأداء الرئيسية الثلاثة: ImgEdit، وGEdit، وREDEdit، حيث سجل 7.94 نقطة إجمالية، متجاوزًا بذلك نموذج Qwen-Image-Edit-2511 التابع لشركة علي بابا (الذي سجل 7.88)، ليصبح بذلك أقوى نموذج مفتوح المصدر لتعديل الصور حاليًا.

القيمة الجوهرية: بعد قراءة هذا المقال، ستتعرف على القدرات الخمس الرئيسية لنموذج FireRed Image Edit 1.1، والابتكارات في بنيته التقنية، وكيفية دمجه واستخدامه بسرعة عبر API.

النقاط الجوهرية في FireRed Image Edit 1.1

النقطة	الشرح	الميزة
مفتوح المصدر SOTA	ImgEdit حصل على 4.56، و GEdit حصل على 7.94	يتفوق على Qwen-Image-Edit
اتساق الهوية	آلية فقدان الاتساق القابلة للاشتقاق، دقة عالية لملامح الوجه	تحرير صور الأشخاص دون تشويه
دمج عناصر متعددة	يدعم دمج أكثر من 10 عناصر بحرية	القص والدمج التلقائي بواسطة الوكيل (Agent)
ثنائي اللغة (عربي/إنجليزي)	تقييم على 1,673 زوجاً تعليمياً للتحرير	دعم أصلي للأوامر باللغة الصينية والإنجليزية
ترخيص Apache 2.0	مفتوح المصدر بالكامل، يدعم الاستخدام التجاري	مجاني وقابل للاستخدام التجاري

ما هو FireRed Image Edit 1.1؟

FireRed-Image-Edit هو نموذج أساسي لتعديل الصور طوره فريق FireRed في منصة Xiaohongshu. يختلف عن نماذج تحويل النص إلى صورة (Text-to-Image) التقليدية، حيث يركز على تحرير الصور (Image Editing) — أي إجراء تعديلات دقيقة على الصور بناءً على أوامر لغوية طبيعية مع الحفاظ على المحتوى الأصلي للصورة.

يمكنك تحميل ما يصل إلى 3 صور مرجعية، ووصف تأثير التحرير الذي تريده بلغة طبيعية (الصينية أو الإنجليزية)، وسيقوم النموذج بدمج العناصر والأنماط والشخصيات من الصور المرجعية في الصورة الناتجة بذكاء.

أهم التحسينات في الإصدار 1.1 مقارنة بـ 1.0:

تحسين كبير في اتساق صور الأشخاص: الحفاظ بدقة أكبر على ملامح الوجه عند تغيير الخلفية أو نقل الأسلوب.
تعزيز دمج العناصر المتعددة: معالجة أفضل لسيناريوهات تركيب الصور المعقدة.
مراجع نصية منمقة: دعم أكبر لأنماط الخطوط وتنسيق النصوص.
تأثيرات مكياج الوجه: قدرة جديدة على تحرير المكياج بدقة عالية.

القدرات الأساسية الخمس لـ FireRed Image Edit 1.1

القدرة الأولى: الحفاظ على اتساق الهوية (Identity Consistency)

هذا هو التحديث الأهم في الإصدار 1.1. من خلال آلية مبتكرة تُسمى آلية فقدان الاتساق القابلة للاشتقاق (Differentiable Consistency Loss)، يستطيع النموذج الحفاظ بدقة على ملامح الوجه، وتعبيراته، وسماته الشخصية عند تحرير صور الأشخاص.

سيناريوهات التطبيق:

تغيير خلفية الصورة مع بقاء الوجه كما هو.
تطبيق أنماط فنية مختلفة مع الاحتفاظ ببيانات الهوية.
تركيب الأشخاص في مشاهد مختلفة مع الحفاظ على ثبات الملامح.

غالباً ما تواجه نماذج تحرير الصور التقليدية مشكلة "تشوه الوجه" عند نقل الأسلوب، حيث يبدو الشخص وكأنه شخص آخر. يحل FireRed 1.1 هذه المشكلة من خلال تقليل تباين الهوية إلى أدنى حد طوال عملية التوليد.

القدرة الثانية: دمج عناصر متعددة (Multi-Element Fusion)

يدعم FireRed 1.1 دمج أكثر من 10 عناصر بصرية بحرية، مع خاصية القص والدمج التلقائي المدعومة بالوكيل (Agent):

نوع الدمج	الشرح	السيناريو المثالي
شخص + خلفية	وضع الشخص في مشهد جديد	تغيير خلفية عارض أزياء لمنتج
شخص + ملابس	تأثير تجربة الملابس الافتراضية	عرض ملابس التجارة الإلكترونية
دمج عدة أشخاص	تركيب أشخاص من صور مختلفة	ملصقات تركيب إبداعية
أسلوب + محتوى	تطبيق أسلوب الصورة المرجعية على صورة المحتوى	نقل الأسلوب الفني
نص + صورة	دمج النص بشكل طبيعي في الصورة	غلاف منصات التواصل الاجتماعي

القدرة الثالثة: اتباع الأوامر بدقة (Instruction Following)

يعتمد النموذج تقنية محاذاة الأوامر العشوائية (Stochastic Instruction Alignment)، مقترنة بإعادة فهرسة الموجهات الديناميكية، لضمان اتساق المخرجات مع أوامر المستخدم.

تظهر الاختبارات أن FireRed 1.1 في معيار التقييم REDEdit-Bench فيما يخص اتباع الأوامر حقق:

نقاط الأوامر بالصينية: 4.33
نقاط الأوامر بالإنجليزية: 4.26

هذا يعني أن النموذج لا يفهم فقط الأوامر البسيطة مثل "غيّر الخلفية إلى شاطئ"، بل يمكنه معالجة أوصاف معقدة مثل "حافظ على الشخص كما هو، واستبدل الخلفية بشاطئ استوائي عند الغروب، مع إضافة تأثيرات إضاءة دافئة وناعمة".

القدرة الرابعة: تحرير نصي عالي الدقة (Text Editing)

من خلال تقنية DiffusionNFT وآلية مكافأة التعرف الضوئي على الحروف (OCR) الواعية بالتخطيط، يستطيع FireRed 1.1 الحفاظ على المحتوى النصي وتعديله بدقة داخل الصورة. هذا أمر بالغ الأهمية في التطبيقات العملية، حيث تعاني العديد من نماذج تحرير الصور عند التعامل مع الصور التي تحتوي على نصوص، مما يؤدي إلى عدم وضوحها أو تشوهها.

القدرة الخامسة: ترميم الصور القديمة ونقل الأسلوب

يتفوق FireRed 1.1 في ترميم الصور القديمة ونقل الأنماط الفنية:

ترميم الصور القديمة: إصلاح الخدوش وتدهور الألوان والضبابية تلقائياً، وهي مشكلات شائعة في الصور القديمة.
نقل الأسلوب: تحويل الصور إلى أنماط فنية متعددة مثل الرسم الزيتي، والألوان المائية، والأنيمي.
تحرير المكياج: قدرة جديدة في الإصدار 1.1 لتعديل المكياج بدقة.

نتائج اختبار الأداء لنموذج FireRed Image Edit 1.1

تفوق شامل في ثلاثة اختبارات معيارية رئيسية

الاختبار المعياري	FireRed 1.1	Qwen-Image-Edit	النتيجة
ImgEdit (شامل)	4.56	4.51	✅ تفوق FireRed
GEdit (شامل G_O)	7.94 (EN) / 7.89 (CN)	7.88	✅ تفوق FireRed
REDEdit (صيني)	4.33	—	الأفضل في المصادر المفتوحة
REDEdit (إنجليزي)	4.26	—	الأفضل في المصادر المفتوحة

تفاصيل أبعاد اختبار GEdit

البعد	الدرجة بالإنجليزية	الدرجة بالصينية	المعنى
G_SC (الاتساق الدلالي)	8.363	8.287	مدى تطابق نتائج التعديل مع الموجه
G_PQ (الجودة الإدراكية)	8.245	8.227	الجودة البصرية للصور المولدة
G_O (التقييم الشامل)	7.943	7.887	التقييم الموزون متعدد الأبعاد

يعد REDEdit-Bench اختباراً معيارياً طوره فريق FireRed ذاتياً، ويغطي 15 فئة و1,673 زوجاً من التعديلات باللغتين الصينية والإنجليزية، وهو أقرب لاحتياجات التعديل الحقيقية للمستخدمين مقارنة بالاختبارات الحالية.

🎯 تلميحة تقنية: يظهر نموذج FireRed 1.1 تفوقاً واضحاً في بعدي اتساق الوجوه واتباع الموجهات، مما يجعله مناسباً بشكل خاص لسيناريوهات التعديل التي تتطلب الحفاظ على ملامح الشخصيات. تخطط خدمة APIYI (apiyi.com) لدمج هذا النموذج لاحقاً، نرحب بالمستخدمين المهتمين بالتواصل معنا للحصول على معلومات مسبقة.

البنية التقنية لـ FireRed Image Edit 1.1

البنية الأساسية: MM-DiT ثنائي المسار لنموذج الانتشار المحول متعدد الوسائط

يعتمد محرك التوليد الأساسي في FireRed 1.1 على نموذج الانتشار المحول ثنائي المسار متعدد الوسائط (Double-Stream Multi-Modal Diffusion Transformer, MM-DiT):

تضمين النص: يتم تحويل تعليمات التعديل الخاصة بالمستخدم إلى متجهات دلالية عبر مشفر النصوص.
رموز الصور الكامنة (latent tokens): يتم ترميز الصورة الأصلية إلى تمثيل في الفضاء الكامن باستخدام VAE عالي الدقة.
خصائص الصورة المرجعية: استخراج الخصائص البصرية للصور المرجعية (حتى 3 صور).
مسار إدخال موحد: دمج المسارات الثلاثة للمعلومات كمدخل موحد، ثم تمريرها إلى MM-DiT لإجراء تفاعل ثنائي الاتجاه مكثف.
مخرجات التوليد: يقوم النموذج بتوليد التمثيل الكامن للصورة المعدلة، ثم فك تشفيرها عبر VAE للحصول على الصورة النهائية.

خط أنابيب التدريب: التدريب المسبق (Pretrain) ← الضبط الدقيق (SFT) ← التعلم التعزيزي (RL)

يعتمد FireRed 1.1 على عملية تدريب متكاملة من ثلاث مراحل:

التدريب المسبق (Pretrain): استناداً إلى مجموعة بيانات ضخمة تضم 1.6 مليار عينة، منها أكثر من 100 مليون عينة عالية الجودة.
الضبط الدقيق الخاضع للإشراف (SFT): ضبط دقيق مخصص لمهام التعديل.
التعلم التعزيزي (RL): تحسين جودة التعديل باستخدام تقنية DPO مع تحسين التدرج غير المتماثل.

الابتكارات التقنية الرئيسية

التقنية	الدور	التأثير
خسارة الاتساق القابلة للاشتقاق	الحفاظ على الهوية	الحفاظ على اتساق الوجوه عند التعديل
محاذاة التعليمات العشوائية	فهم الأوامر	تنفيذ دقيق للأوصاف المعقدة
أخذ العينات المعتمد على الظروف المتعددة	كفاءة التدريب	دعم معالجة الدفعات بدقة متغيرة
DiffusionNFT	تعديل النصوص	وضوح النصوص داخل الصور دون ضبابية
DPO بتدرج غير متماثل	تحسين الجودة	المحاذاة مع تفضيلات البشر

💡 من منظور المطور: يمكن نقل قدرات التعديل في FireRed 1.1 إلى أي نموذج أساسي من نوع (تحويل النص إلى صورة – T2I)، مما يعني أنه ليس مجرد نموذج تعديل، بل إطار عمل لقدرات تعديل قابلة لإعادة الاستخدام.

دليل الربط البرمجي (API) لـ FireRed Image Edit 1.1

المنصات المتاحة حالياً للربط البرمجي

تم توفير خدمات API لنموذج FireRed Image Edit 1.1 عبر عدة منصات خارجية:

المنصة	السعر التقديري	المميزات
Replicate	~$0.036/استدعاء	محاسبة بالاستخدام، سهولة الاستخدام
fal.ai	حسب الاستهلاك	نشر Serverless، استجابة سريعة
WaveSpeedAI	حسب الاستهلاك	التركيز على تسريع نماذج الذكاء الاصطناعي للصور
HuggingFace Spaces	تجربة مجانية	عرض توضيحي عبر الإنترنت، لا يتطلب كود

متطلبات النشر المحلي

إذا كنت بحاجة إلى نشر FireRed 1.1 محلياً:

متطلبات ذاكرة الفيديو (VRAM): 30 جيجابايت (يُنصح بـ A100 أو H100)
سرعة الاستدلال: حوالي 4.5 ثانية لكل صورة
رخصة المصدر المفتوح: Apache 2.0، تدعم الاستخدام التجاري
مصدر النموذج: HuggingFace FireRedTeam/FireRed-Image-Edit-1.1

ملاحظات الربط عبر منصة APIYI

نموذج FireRed Image Edit 1.1 غير متاح حالياً على منصة APIYI، ولكنه في مرحلة التقييم الفني والتحضير للربط.

🔔 تنبيه الربط: تقوم منصة APIYI (apiyi.com) حالياً بتقييم دمج نموذج FireRed Image Edit 1.1. إذا كانت لديك متطلبات خاصة بـ API تعديل الصور، يرجى التواصل مع فريق APIYI لمعرفة حالة الربط وحجز اختبار تجريبي. بمجرد إطلاق النموذج على المنصة، سيكون بإمكانك استدعاؤه مباشرة عبر واجهة API موحدة دون الحاجة للنشر الذاتي.

سيناريوهات استخدام FireRed Image Edit 1.1

التجارة الإلكترونية وصناعة المحتوى

تعديل صور المنتجات: تغيير خلفية المنتج، تعديل الإضاءة والظلال، وإضافة عناصر للمشهد.
تبديل ملابس العارضين: محاكاة تجربة الملابس افتراضياً، مما يقلل من تكاليف التصوير.
أغلفة وسائل التواصل الاجتماعي: إنشاء أغلفة بصور ذات نمط موحد بسرعة.
ترميم الصور القديمة: إصلاح الصور القديمة وتحسين جودتها.

التصميم والإبداع

نقل الأنماط: تحويل الصور إلى مختلف الأنماط الفنية.
التركيب الإبداعي: دمج عناصر متعددة لإنشاء ملصقات إبداعية.
مواد العلامة التجارية: معالجة دفعات من الصور لتوحيد النمط البصري للعلامة التجارية.

الفروقات في التموضع مقارنة بنماذج الصور الأخرى

النموذج	التموضع	الميزة الأساسية	سيناريو الاستخدام
FireRed Image Edit 1.1	تعديل الصور	اتساق الهوية، اتباع التعليمات	التعديل الدقيق للصور الموجودة
Gemini Imagen 4	تحويل النص إلى صورة	توليد عالي الجودة	توليد صور جديدة من الصفر
DALL-E 3	تحويل النص إلى صورة	تقديم النصوص	توليد صور إبداعية
Stable Diffusion 3	توليد + تعديل صور	بيئة مفتوحة المصدر	تخصيص مرن

يكمن الاختلاف الجوهري لنموذج FireRed 1.1 في أنه: لا يقوم بتوليد صور جديدة من العدم، بل يركز على تعديل الصور الموجودة بدقة. وهذا ما يمنحه ميزة فريدة في مجالات التجارة الإلكترونية وصناعة المحتوى التي تتطلب معالجة ثانوية لمواد حقيقية.

🚀 نصيحة حول السيناريو: إذا كانت متطلباتك هي "إجراء تعديلات دقيقة على صور موجودة" (تغيير الخلفية، تغيير النمط، إضافة عناصر، إلخ)، فإن FireRed هو الخيار الأفضل حالياً ضمن المصادر المفتوحة. وإذا كنت بحاجة إلى قدرات تحويل النص إلى صورة، يمكنك استخدام نماذج مثل Gemini Imagen وDALL-E عبر منصة APIYI (apiyi.com)، ومزجها بمرونة حسب الحاجة.

الأسئلة الشائعة

س1: هل يمكن استخدام FireRed Image Edit 1.1 تجارياً بشكل مجاني؟

نعم. يعتمد FireRed Image Edit 1.1 على رخصة Apache 2.0 مفتوحة المصدر، مما يسمح بالاستخدام الحر والتعديل والتوزيع، بما في ذلك الأغراض التجارية. يمكنك تنزيل أوزان النموذج من HuggingFace للنشر المحلي، أو استخدامه عبر منصات API التابعة لجهات خارجية والدفع حسب الاستخدام.

س2: ما الفرق بين FireRed 1.1 و 1.0، وأيهما يجب أن أستخدم؟

ننصح باستخدام إصدار 1.1 مباشرة. حيث ركز الإصدار 1.1 على تحسين اتساق هوية الشخصيات، دمج العناصر المتعددة، النصوص المنمقة، وتأثيرات المكياج مقارنة بـ 1.0. جميع الجوانب شهدت ترقية ولا يوجد تراجع في أي ميزة. حقق 1.1 تقييماً شاملاً قدره 7.94 في GEdit، بينما كان خط الأساس في 1.0 أقل.

س3: ما هي الأجهزة المطلوبة للنشر المحلي؟

يحتاج FireRed 1.1 إلى ذاكرة فيديو (VRAM) لا تقل عن 30 جيجابايت، ويوصى باستخدام بطاقة NVIDIA A100 (40/80GB) أو H100. إذا لم تتوفر لديك موارد GPU كافية، يُنصح باستخدام النموذج عبر API، حيث تبلغ تكلفة الاستدعاء الواحد على منصة Replicate حوالي 0.036 دولار. كما سيكون متاحاً للاستدعاء المباشر عبر API لاحقاً عند إطلاقه على منصة APIYI (apiyi.com).

س4: متى ستوفر منصة APIYI خدمة FireRed Image Edit؟

يخضع FireRed Image Edit 1.1 حالياً لمرحلة التقييم التقني على منصة APIYI. إذا كانت لديك متطلبات محددة لواجهة برمجة تطبيقات (API) لتعديل الصور، فنحن نرحب بتواصلك مع فريق APIYI (apiyi.com)، حيث ستساعدنا احتياجاتك في تسريع وتيرة التقييم ودمج الخدمة.

ملخص

النقاط الجوهرية لـ FireRed Image Edit 1.1:

تقنية مفتوحة المصدر رائدة (SOTA): حقق النموذج تقييم 7.94 في GEdit و 4.56 في ImgEdit، متفوقاً بشكل شامل على Qwen-Image-Edit-2511.
ريادة في اتساق الهوية: آلية فقدان الاتساق القابلة للاشتقاق تضمن عدم "تغيير الوجه" أثناء تحرير الصور الشخصية.
دعم أصلي للغة العربية والصينية: صُمم بواسطة فريق "شياوهونغشو" (Xiaohongshu)، ويقدم أداءً ممتازاً في توجيهات اللغتين الصينية والإنجليزية.
مفتوح المصدر بالكامل ومتاح للاستخدام التجاري: مرخص بموجب Apache 2.0، ومتاح للتحميل المباشر عبر HuggingFace.
كفاءة عالية في الاستنتاج: يمكن نشره بذاكرة فيديو (VRAM) سعة 30 جيجابايت، مع سرعة توليد تصل إلى 4.5 ثانية لكل صورة.

بالنسبة للمطورين والشركات التي تحتاج إلى قدرات دقيقة في تحرير الصور، يُعد FireRed 1.1 الخيار الأمثل حالياً في مجال المصادر المفتوحة.

تقوم منصة APIYI (apiyi.com) حالياً بتقييم عملية دمج FireRed Image Edit 1.1، ونرحب بالمستخدمين المهتمين بالتواصل معنا مسبقاً. تدعم المنصة بالفعل استدعاء نماذج متعددة مثل Gemini، وClaude، وGPT، ومن شأن إضافة نماذج تحرير الصور أن تعزز بشكل أكبر مصفوفة API متعددة الوسائط لدينا.

📚 المراجع

مستودع FireRed-Image-Edit على GitHub: الكود المصدري الرسمي والوثائق.
- الرابط: github.com/FireRedTeam/FireRed-Image-Edit
- ملاحظة: يتضمن الكود المصدري الكامل، روابط تحميل أوزان النموذج، وأمثلة للاستخدام.
نموذج FireRed-Image-Edit 1.1 على HuggingFace: لتحميل أوزان النموذج.
- الرابط: huggingface.co/FireRedTeam/FireRed-Image-Edit-1.1
- ملاحظة: يمكن تحميل أوزان النموذج مباشرة للنشر المحلي.
التقرير التقني لـ FireRed-Image-Edit 1.0: الورقة البحثية.
- الرابط: arxiv.org/abs/2602.13344
- ملاحظة: شرح مفصل لتصميم البنية وطرق التدريب.
معيار التقييم REDEdit-Bench: منهجية التقييم.
- الرابط: github.com/FireRedTeam/FireRed-Image-Edit
- ملاحظة: معيار تقييم يشمل 15 فئة و1,673 زوج تحرير ثنائي اللغة.

الكاتب: الفريق التقني لـ APIYI
تبادل الخبرات: نرحب بمشاركة تجاربكم في استخدام تقنيات تحرير الصور بالذكاء الاصطناعي في قسم التعليقات، ولمزيد من المعلومات حول نماذج الذكاء الاصطناعي يمكنكم زيارة مركز توثيق APIYI عبر الرابط docs.apiyi.com.