عندما أطلقت Google DeepMind نموذج Nano Banana Pro في 20 نوفمبر 2025، ركزت بشكل متكرر على عبارة: "المناطق غير المعدلة تظل مثالية على مستوى البكسل — لا يوجد انحراف في التوليد، ولا فقدان للجودة عبر التعديلات التكرارية". إذا أخذت هذا الكلام حرفياً، فقد تظن أن الذكاء الاصطناعي قد حقق "تعديلاً محلياً حقيقياً بأسلوب فوتوشوب". ولكن إذا كنت على دراية ببنية Gemini 3 Pro Image، ستكتشف أنها في جوهرها عبارة عن إعادة رسم للصورة بالكامل عبر نموذج Transformer ذاتي الانحدار (Autoregressive) — وهي نفس الآلية التي يستخدمها نموذج النصوص للتنبؤ بالرمز (token) التالي.
كيف يمكن لهذين الأمرين أن يكونا صحيحين في آن واحد؟ ما هي حقيقة مبدأ توليد الصور في Nano Banana Pro؟ هل يقوم بإعادة رسم الصورة بالكامل أم يقوم بتعديل محلي حقيقي؟ سنقوم في هذا المقال بتفكيك الآلية من أربعة مستويات: هيكل الاستدلال في Gemini 3، الرموز البصرية ذاتية الانحدار، قيود القناع (Mask) الصارمة، وتحديد المواقع الدلالي عبر صندوق الإحاطة (Bounding Box)، لنقدم لك فهماً تقنياً يمكنك استخدامه فعلياً.

| السؤال الجوهري | الإجابة البديهية | الحقيقة |
|---|---|---|
| هل هو تعديل محلي بأسلوب فوتوشوب؟ | نعم | لا، الأساس لا يزال إعادة رسم للصورة بالكامل عبر الرموز |
| لماذا يبدو مثالياً على مستوى البكسل؟ | النموذج ذكي جداً | ثلاث طبقات من القيود الصارمة: القناع + التحديد الدلالي + صندوق الإحاطة |
| هل هو من نفس أصل GPT-Image-2؟ | مشابه | كلاهما ذاتي الانحدار، لكن Gemini 3 أضاف استدلالاً صريحاً |
| هل ستحدث انحرافات في التعديلات المتعددة؟ | نعم | لا تكاد تحدث، وهذا هو الميزة الأساسية لنسخة Pro |
بمجرد فهمك لهذه المنطق الأساسي، ستتمكن من كتابة موجه (prompt) ينشط قدرات الاستدلال في Gemini 3، واختيار وضع القناع بشكل معقول، وتجنب فخ "التعديل الذي يبدو محلياً ولكنه في الواقع إعادة رسم". ننصح القراء بتجربة واجهة Nano Banana Pro على منصة APIYI (apiyi.com) أثناء القراءة، وربط كل مبدأ بالنتائج الفعلية.
مبدأ توليد الصور في Nano Banana Pro: إعادة رسم كاملة أم تعديل محلي حقيقي؟
قبل الإجابة على هذا السؤال، يجب التمييز بين أمرين يسهل الخلط بينهما: آلية التوليد و تجربة الاستخدام.
من منظور آلية التوليد، يسير Nano Banana Pro وسلفه Nano Banana، بالإضافة إلى GPT-Image-2 من OpenAI، على نفس المسار — إعادة رسم الصورة بالكامل عبر رموز Transformer ذاتية الانحدار. بعبارة أخرى، حتى لو طلبت من الذكاء الاصطناعي تغيير لون ربطة عنق شخص ما فقط، فإن النموذج داخلياً سيقوم بضغط الصورة بالكامل إلى رموز بصرية، ثم إعادة التنبؤ بسلسلة الرموز من البداية إلى النهاية، وأخيراً فك تشفيرها إلى بكسلات. لا يوجد مسار فيزيائي يقوم بتغيير بكسلات صغيرة فقط مع ترك البقية كما هي.
ولكن من منظور تجربة الاستخدام، يقدم Nano Banana Pro للمستخدم شعوراً بـ "تعديل محلي شبه حقيقي". فقد صرحت Google رسمياً: في وضع القناع أو التحديد الدلالي، تظل المناطق غير المعدلة محفوظة تقريباً على مستوى البكسل، دون انحراف في التوليد، وبدون فقدان للجودة في التعديلات المتعددة. كيف تم استخلاص هذه التجربة من البنية التحتية التي تعتمد على "إعادة رسم الصورة بالكامل"؟
الإجابة هي: هندسة القيود (constraint engineering). لقد قامت Google بوضع ثلاث طبقات من القيود الصارمة فوق عملية التوليد ذاتية الانحدار: قفل رموز القناع (Mask tokens)، تحديد منطقة صندوق الإحاطة (Bounding Box)، و"قائمة الحفظ" الدلالية في Gemini 3. هذه القيود الثلاثة تجعل النموذج "يختار طوعاً" إعادة إنتاج رموز المناطق غير المعدلة عند إعادة الرسم. وهذا هو الإنجاز الحقيقي لفريق هندسة Nano Banana Pro.
العلاقة بين منطق إعادة الرسم وتجربة التعديل المحلي
| المنظور | الواقع | شعور المستخدم |
|---|---|---|
| البنية التحتية | إعادة رسم كامل للصورة | يبدو كأنه تعديل محلي |
| المناطق غير المعدلة | رموز مُعاد توليدها | تساوي تقريباً بكسلات الصورة الأصلية |
| حدود التعديل | توليد مستمر ذاتي الانحدار | انتقال طبيعي بدون تشوهات |
| تعليمات التعديل | تمرير عبر القيود | مطابقة تلقائية للإضاءة/الزاوية |
بفهمك لهذا الفصل بين "الآلية" و"التجربة"، ستتمكن من تفسير سبب حدوث تغييرات طفيفة جداً في المناطق غير المعدلة بعد التعديل في Nano Banana Pro — فهذا هو الثمن الحتمي لإعادة رسم الرموز، لكن Google نجحت من خلال القيود في تقليل هذه التغييرات إلى مستوى لا تلاحظه العين البشرية تقريباً. ننصحك بالاستعانة بمنصة APIYI (apiyi.com) لاستدعاء Nano Banana Pro وتعديل نفس الصورة بشكل متكرر، ومراقبة مدى انحراف التفاصيل؛ فهذه المقارنة ستجعل فهمك للمبدأ واقعياً وملموساً.
مبدأ عمل Nano Banana Pro: العمود الفقري للنموذج التوليدي الذاتي Gemini 3 Pro Image
لفهم مبدأ عمل Nano Banana Pro بعمق، لا بد من العودة إلى اسمه الرسمي: Gemini 3 Pro Image. يكشف هذا الاسم عن ركيزتيه الأساسيتين: العمود الفقري للاستدلال Gemini 3 و وحدة فك تشفير توليد الصور.
يُعد Gemini 3 نموذج اللغة متعدد الوسائط الرائد الذي أطلقته جوجل قبل يومين فقط من إصدار Nano Banana Pro، وهو يشتهر بـ "قدراته الاستدلالية". لقد أعاد Nano Banana Pro استخدام العمود الفقري لنموذج Transformer الخاص بـ Gemini 3 Pro مباشرة، مع إضافة رموز (tokens) بصرية إلى قاموس المفردات، وربط وحدة فك تشفير الصور في جانب المخرجات. بعبارة أخرى، هو ليس نموذج صور مستقلاً، بل هو شكل متخصص من عائلة Gemini 3 متعددة الوسائط مخصص لتوليد الصور.
يؤدي هذا إلى تغيير جوهري: قبل أن يرسم Nano Banana Pro أول بكسل، فإنه يستخدم Gemini 3 لاستنتاج "ما يجب رسمه". وكما تصفه جوجل رسمياً: "يعمل بشكل أقل كنموذج انتشار (diffusion model) تقليدي، وأكثر كمدير فني رقمي"؛ حيث يقوم أولاً بتحليل المنطق الدلالي للموجه (prompt)، والعلاقات السببية الفيزيائية، والعلاقات المكانية، ثم ينتقل إلى مرحلة توليد الرموز البصرية.

يمكن تقسيم سير العمل إلى خمس مراحل:
- تحليل المدخلات متعددة الوسائط: يقوم العمود الفقري للاستدلال Gemini 3 باستيعاب موجه المستخدم النصي وما يصل إلى 14 صورة مرجعية، لفهم سياق المهمة بالكامل.
- الاستدلال الهيكلي (المخطط الداخلي): يقوم النموذج أولاً بـ "تحديد" التخطيط المكاني للمشهد، وهويات الشخصيات، وإعدادات الإضاءة، والأجزاء التي يجب الاحتفاظ بها أو تعديلها، ليولد "مخططاً إبداعياً" غير مرئي.
- ترميز الصورة المرجعية: يتم ضغط الصور المرجعية إلى سلسلة من الرموز البصرية عبر آلية تكميم مشابهة لـ VQ-VAE.
- التنبؤ الذاتي بالرموز: تحت آلية الانتباه في Gemini 3، يتنبأ النموذج بالرموز البصرية لكل صورة مخرجة واحداً تلو الآخر من اليسار إلى اليمين، حيث يمكنه في كل خطوة "رؤية" رموز الموجه الكاملة ورموز الصورة الأصلية.
- فك التشفير والرفع: يتم استعادة رموز المخرجات عبر وحدة فك تشفير بعمق لوني 16 بت لإنتاج صورة 2K أصلية، ثم يتم رفع دقتها بذكاء إلى 4K.
قدرتان فريدتان للعمود الفقري Gemini 3
الأولى هي "التفكير قبل الرسم". هذا ليس مجرد شعار، فقدرة Gemini 3 على الاستدلال في المهام النصية تنتقل مباشرة إلى توليد الصور. إذا أعطيته أمراً معقداً مثل "غيّر ملابس هذا الشخص لتناسب مهنته"، فإن نماذج الصور العادية قد ترتبك، بينما سيقوم Nano Banana Pro أولاً بالاستنتاج: "هذا الشخص يبدو كطبيب ← يجب أن يرتدي معطفاً أبيض"، ثم يبدأ بالرسم.
الثانية هي التأريض عبر بحث جوجل (Grounding with Google Search). يمكن لـ Nano Banana Pro استدعاء أدوات بحث جوجل أثناء عملية التوليد للتحقق من الحقائق؛ على سبيل المثال، إذا طلبت منه رسم "أحدث منتج لعلامة تجارية معينة"، فيمكنه الاتصال بالإنترنت للحصول على مراجع واقعية للمظهر. هذا هو نموذج توليد الصور الوحيد حالياً الذي يدعم التأريض بالبحث الأصلي، وهو أحد أكبر القدرات التمايزية بين Nano Banana Pro و GPT-Image-2. إذا كنت بحاجة إلى اختبار قدرات التأريض في بيئة الإنتاج، يمكنك الوصول إلى Nano Banana Pro عبر APIYI (apiyi.com)، حيث توفر المنصة مواصفات واجهة برمجة تطبيقات متوافقة تماماً مع واجهة جوجل الرسمية.
تجدر الإشارة إلى أن Nano Banana Pro لا يدعم معامل البذرة (seed). ولأنه توليد ذاتي، فإن كل خطوة أخذ عينات تتم من توزيع احتمالي (تتحكم فيه معاملات temperature و top-k)، على عكس نماذج الانتشار التي يمكنها إعادة إنتاج النتائج تماماً عبر تثبيت الضوضاء الأولية. هذه الخاصية هي قيد وخيار تصميم في آن واحد، مما يسمح للنموذج بالحفاظ على إبداعيته.
آليات التقييد الأربع للتحرير الجزئي للصور بالذكاء الاصطناعي: كيف يتم تحقيق دقة البكسل المثالية (Pixel-Perfect)؟
بما أن الأساس هو إعادة رسم الصورة بالكامل، فكيف يضمن Nano Banana Pro بقاء المناطق غير المعدلة قريبة من دقة البكسل المثالية؟ الإجابة تكمن في أن جوجل طبقت أربع طبقات من آليات التقييد في سيناريوهات التحرير الجزئي للصور بالذكاء الاصطناعي. وهذا هو الابتكار الهندسي الأبرز في إصدار Pro مقارنة بإصدار Nano Banana الأساسي.
الطبقة الأولى: التقييد الصارم عبر القناع (Mask). هذه هي الطريقة الأكثر مباشرة؛ حيث يقدم المستخدم قناعاً (mask) أبيض وأسود بنفس الأبعاد، حيث تسمح المناطق البيضاء للذكاء الاصطناعي بتوليد رموز (tokens) جديدة، بينما تفرض المناطق السوداء على النموذج نسخ الرموز الأصلية للمنطقة المقابلة في الصورة الأصلية. وهذا يعادل إضافة "قاعدة نسخ صارمة" للنموذج أثناء التوليد الذاتي. وهذا هو المصدر التقني الأساسي لما تسميه جوجل "المناطق غير الملموسة بدقة البكسل".
الطبقة الثانية: تحديد المنطقة عبر مربع الإحاطة (Bounding Box). يدعم Nano Banana Pro معاملات مربع الإحاطة (BBox) مع تطبيع الإحداثيات في نطاق 0-1000، مما يتيح لك إخبار النموذج: "قم بالتعديل فقط داخل هذا المستطيل من (200, 300) إلى (600, 500)". يقوم النظام تلقائياً بتحويل BBox إلى قيود قناع داخلية، وهو أسهل بكثير من رسم القناع يدوياً.
الطبقة الثالثة: التحديد الدلالي عبر Gemini 3. هذه هي الطبقة الأكثر "سحراً". ما عليك سوى استخدام لغة طبيعية مثل "استبدل الخلفية بشاطئ"، وسيقوم محرك الاستدلال في Gemini 3 تلقائياً بتحديد أي الرموز في الصورة تمثل "الخلفية" وتوليد قناع ضمني. يغطي نمط التحرير الخالي من الأقنعة (mask-free) هذا ما تسميه جوجل "معظم سيناريوهات التحرير".
الطبقة الرابعة: انحياز "ما لم يُذكر يُحفظ" في بيانات التدريب. استخدمت جوجل كميات هائلة من بيانات "الصورة الأصلية – الصورة المعدلة" المقترنة، ليتعلم النموذج أثناء التدريب قاعدة ضمنية: ما لم يطلب الموجه (prompt) تغييراً صريحاً، يجب نسخ الصورة الأصلية رمزاً برمز في المناطق الأخرى قدر الإمكان. هذا الانحياز مدمج في الأوزان ويتم تفعيله تلقائياً أثناء الاستدلال.

مقارنة آليات التقييد الأربع
| آلية التقييد | دقة التحكم | تكلفة المستخدم | سيناريو الاستخدام |
|---|---|---|---|
| التقييد الصارم بالقناع | مستوى البكسل | يتطلب رسم قناع | الإصلاح الدقيق / استبدال العناصر |
| مربع الإحاطة | منطقة مستطيلة | إدخال الإحداثيات فقط | التعديل في منطقة مستطيلة معروفة |
| التحديد الدلالي | كائن دلالي | أوامر نصية فقط | معظم عمليات التحرير اليومية |
| انحياز التدريب | عالمي | لا يتطلب إعداداً | مفعل افتراضياً في جميع السيناريوهات |
الطبقات الأربع ليست متنافية، بل تعمل بشكل تراكمي. أقوى مزيج هو "القناع + مربع الإحاطة + الأوامر الدلالية"، مما يدفع تجربة دقة البكسل في Nano Banana Pro إلى أقصى حدودها. ومن خلال اختباراتنا على APIYI (apiyi.com)، وجدنا أنه حتى باستخدام التحديد الدلالي مع انحياز التدريب فقط، يمكن لمعظم عمليات التحرير اليومية تحقيق اتساق لا يمكن تمييزه بالعين المجردة.
الأسباب الهندسية لعدم حدوث انحراف في التحرير متعدد الجولات
أحد نقاط التسويق الرئيسية لـ Nano Banana Pro هو "عدم وجود فقدان تراكمي للجودة في التحرير متعدد الجولات". هناك سببان لذلك: الأول هو أن بنية التوليد الذاتي لا تتطلب ترميزاً وفك ترميز متكرر مثل نماذج الانتشار (Diffusion Models)، حيث توجد عملية تحويل واحدة فقط من رمز إلى بكسل، مما لا يؤدي إلى تراكم أخطاء إعادة الترميز. والثاني هو أن التقييد الصارم بالقناع يجعل المناطق غير المعدلة تنسخ الصورة الأصلية رمزاً برمز، مما لا يضيف أي عشوائية جديدة حتى مع التكرار لعدة مرات.
هذا يتناقض بشكل صارخ مع نماذج Stable Diffusion التقليدية التي تصبح "ضبابية" بعد عدة عمليات تحرير (inpainting). إذا كان سير عملك يتطلب إجراء 5-10 جولات من التحرير على نفس الصورة الأساسية، فإن Nano Banana Pro هو النموذج الوحيد حالياً القادر على تحمل ذلك.
Gemini 3 Pro Image 与 GPT-Image-2:两条路线的差异化分析
许多团队目前都在同时关注 Gemini 3 Pro Image (Nano Banana Pro) 和 OpenAI 的 GPT-Image-2。虽然两者底层都采用了自回归架构,但在产品定位和核心能力上各有侧重。
GPT-Image-2 强调“思考模式 (Thinking 模式)”和文字渲染的准确率(官方数据约为 99%),非常擅长处理多对象布局和大文本场景。而 Nano Banana Pro 则将重心放在了 Gemini 3 推理骨干、4K 输出、14 张多图融合、5 人身份保持,以及独有的基于 Google 搜索的 Grounding 技术上。

两者在 Nano Banana Pro 图片生成原理与 GPT-Image-2 实现路径上的关键差异,可以通过下表一目了然:
| 维度 | Nano Banana Pro | GPT-Image-2 |
|---|---|---|
| 底层模型 | Gemini 3 Pro | GPT-4o 多模态 |
| 推理增强 | Gemini 3 隐式推理 | 显式 Thinking 模式 |
| 最高分辨率 | 4K (从 2K 升采样) | 4K 原生 |
| 多图输入上限 | 14 张 | 多张 (未公开上限) |
| 人物一致性 | 最多 5 人同时 | 强,未公开人数上限 |
| 文字渲染 | 行业领先,多语言 | 99% 准确率 |
| 实时信息 | ✅ Google Search Grounding | ❌ |
| Seed 参数 | ❌ 不支持 | 部分受控 |
| 局部编辑卖点 | Pixel-perfect 未编辑区域 | 多轮无漂移 |
| 单图定价 | 2K $0.139 / 4K $0.24 | 高质 1024 $0.211 |
选型建议主要看两点:如果你需要制作品牌素材、产品图或进行多角色场景合成,Nano Banana Pro 的多图融合和人物一致性表现会更适合;如果你的核心场景是长文本海报、复杂版式或 100+ 对象布局,GPT-Image-2 的 Thinking 模式可能更稳定。我们建议通过 APIYI (apiyi.com) 平台同时接入这两个模型,基于实际场景进行小批量 A/B 测试后再决定主用模型。
تطبيق عملي لواجهة برمجة تطبيقات Nano Banana Pro: من القناع (Mask) إلى صندوق التحديد (Bounding Box)
بعد فهم المبادئ الأساسية، دعنا نرى كيف يمكننا الاستفادة من قدرات التحرير الجزئي للصور بالذكاء الاصطناعي في Nano Banana Pro. فيما يلي مثال برمجي بلغة Python قابل للتشغيل، يستخدم نقطة نهاية متوافقة مع APIYI لاستدعاء نموذج Gemini 3 Pro Image:
from google import genai
from PIL import Image
client = genai.Client(
api_key="your-apiyi-key",
http_options={"base_url": "https://vip.apiyi.com/v1"}
)
original = Image.open("portrait.png")
response = client.models.generate_content(
model="gemini-3-pro-image-preview",
contents=[
"حافظ على هوية الشخصية والخلفية كما هي، وقم فقط بتغيير القميص من تي شيرت أبيض إلى سترة بدلة زرقاء داكنة، مع الحفاظ على اتجاه الإضاءة والظلال الأصلي",
original
]
)
for part in response.candidates[0].content.parts:
if part.inline_data:
with open("edited.png", "wb") as f:
f.write(part.inline_data.data)
لاحظ طريقة كتابة الموجه (Prompt): صرح بوضوح عما يجب "الحفاظ عليه" وعما يجب "تعديله" وعن "الإضاءة الأصلية"، فهذا ينشط مباشرة قدرات التحديد الدلالي في نموذج Gemini 3. إذا كنت بحاجة إلى تحكم أكثر دقة في المنطقة، يمكنك إضافة موجه صندوق التحديد (Bounding Box):
response = client.models.generate_content(
model="gemini-3-pro-image-preview",
contents=[
"ضمن نطاق صندوق التحديد [200, 150, 600, 700] في الصورة، استبدل الملابس بسترة بدلة زرقاء داكنة. حافظ على بكسلات الصورة الأصلية في المناطق الأخرى.",
original
]
)
تستخدم الإحداثيات نطاقاً طبيعياً من 0 إلى 1000، ويتم تعيينها وفقاً لأبعاد الصورة عند المعالجة الفعلية. إذا كنت بحاجة إلى تحكم أكثر صرامة، يمكنك إضافة صورة قناع (Mask) كمدخل إضافي.
5 نصائح لتحسين الأداء العملي
بناءً على مبادئ عمل Nano Banana Pro، نلخص 5 توصيات للتطبيق الهندسي:
- اكتب دائماً قائمة بما يجب الحفاظ عليه في الموجه: "الحفاظ على هوية الشخصية، الخلفية، والإضاءة" هو مفتاح تفعيل القيود الأربعة.
- أعطِ الأولوية للتحديد الدلالي: ما لم تتطلب حدود التعديل دقة على مستوى البكسل، فإن وضع "بدون قناع" (mask-free) أكثر كفاءة.
- لا تتجاوز 14 صورة في الدمج: تجاوز الحد الأقصى الرسمي سيؤدي إلى اقتطاع البيانات، مما يؤثر على اتساق الصور المتعددة.
- اختر بين 2K و 4K حسب الغرض: دقة 2K ($0.139) كافية للعرض على الويب/الجوال، بينما تُستخدم 4K ($0.24) للطباعة أو شاشات العرض الكبيرة.
- لا تحاول استخدام البذرة (Seed) للنسخ المتطابق: لا يدعم Nano Banana Pro خاصية البذرة، للحصول على نتائج مستقرة، استخدم ترجيح الموجه (Prompt weighting) والصورة المرجعية.
مطابقة الأسعار والسيناريوهات
| الإعداد | تكلفة الصورة الواحدة | السيناريو الموصى به |
|---|---|---|
| 2K صورة واحدة | $0.139 | وسائل التواصل الاجتماعي / صور الويب |
| 4K صورة واحدة | $0.24 | المطبوعات / شاشات العرض الكبيرة / التصاميم التسويقية |
| 4K + دمج 14 صورة | $0.24 + رموز المدخلات | تركيب سيناريوهات العلامة التجارية متعددة الشخصيات |
| 4K + البحث (Grounding) | $0.24 + رموز البحث | صور المنتجات الحقيقية / الأحداث |
نوصي باستخدام Batch API على منصة APIYI (apiyi.com) في بيئة الإنتاج لمعالجة المهام المجمعة، مما يقلل التكاليف بشكل كبير مع الحفاظ على الجودة، وهو مناسب لإنتاج مكتبات المواد بشكل جماعي.
الأسئلة الشائعة حول مبادئ توليد الصور في Nano Banana Pro وتوصيات القرار
س1: هل Nano Banana Pro يقوم بالرسم أم بالتعديل الجزئي؟
ج: الأساس هو [إعادة رسم رموز الصورة الكاملة ذاتية الانحدار]، أي "الرسم". ولكن من خلال القيود الأربعة: القناع (Mask)، صندوق التحديد (Bounding Box)، التحديد الدلالي لـ Gemini 3، والتحيز التدريبي، حققنا تجربة استخدام تقترب من "التعديل الجزئي الحقيقي". الأمران ليسا متناقضين؛ فالبنية تعتمد على إعادة الرسم، والهندسة تعتمد على القفل.
س2: لماذا تقول الجهة الرسمية إن المناطق غير المعدلة مثالية على مستوى البكسل؟
ج: في وضع القناع، تُجبر رموز المخرجات في المناطق السوداء على أن تكون مساوية لرموز الصورة الأصلية في المواقع المقابلة، وبعد فك التشفير تكون البكسلات متطابقة تقريباً. ولكن من الناحية الفنية الصارمة، هناك فقدان بسيط في تشفير وفك تشفير VQ-VAE، لذا فهي "تقترب" من الكمال وليست متطابقة رياضياً تماماً. في الاستخدام اليومي، لا يمكن للعين البشرية تمييز الفرق.
س3: لماذا لا يدعم Nano Banana Pro البذرة (Seed)؟
ج: التوليد ذاتي الانحدار يعتمد على أخذ عينات من توزيع احتمالي في كل خطوة، وهو يختلف تماماً عن آلية النماذج الانتشارية التي تثبت الضوضاء الأولية. اختارت Google عدم كشف معامل البذرة للحفاظ على التنوع الإبداعي للنموذج. إذا كنت بحاجة إلى نتائج مستقرة، يرجى استخدام مزيج من الموجه المفصل والصورة المرجعية.
س4: كيف أختار بين Nano Banana Pro و GPT-Image-2؟
ج: للسيناريوهات متعددة الشخصيات، مواد العلامة التجارية، والحاجة إلى معلومات لحظية (Grounding) → اختر Nano Banana Pro؛ للتخطيطات المعقدة، ملصقات النصوص الطويلة، وتنسيق أكثر من 100 عنصر → اختر GPT-Image-2.
س5: هل يمكنني تحديد منطقة التعديل بدقة بدون قناع؟
ج: نعم، بطريقتين. الأولى استخدام معامل صندوق التحديد (إحداثيات 0-1000)؛ والثانية الاعتماد على التحديد الدلالي لنموذج Gemini 3، فقط قل في الموجه "عدل الجسم الأحمر في أسفل يمين الصورة".
س6: كيف أستخدم خاصية البحث (Grounding with Google Search) فعلياً؟
ج: حدد بوضوح في الموجه العناصر التي تحتاج إلى تحقق من الحقائق، مثل "ارسم صورة لأحدث سيارة تسلا Cybertruck لعام 2025 على سطح القمر"، وسيقوم النموذج تلقائياً باستدعاء بحث Google للحصول على مرجع المظهر الحقيقي قبل البدء في مرحلة التوليد.
الخلاصة: فهم هندسة القيود هو مفتاح النجاح
Nano Banana Pro منتج هندسي متقن للغاية. فهو لم يخترع نموذجاً جديداً لتوليد الصور، بل اعتمد على بنية Gemini 3 ذاتية الانحدار، وعززها بأربع طبقات من هندسة القيود، ليحول "إعادة رسم الصورة الكاملة" إلى تجربة "تعديل جزئي حقيقي".
نوصي بإجراء الاختبارات والمقارنات الفعلية عبر منصة APIYI (apiyi.com)، التي تدعم استدعاء واجهات برمجة التطبيقات لمجموعة متنوعة من النماذج الرائدة، مما يسهل التحقق السريع من المبادئ وتقنيات التحسين المذكورة هنا.
تمت كتابة هذا المقال بواسطة فريق APIYI، بناءً على المواد الرسمية من Google DeepMind و Vertex AI والاختبارات الميدانية. للحصول على وثائق الربط، يرجى زيارة موقع APIYI: apiyi.com.