Guide de génération d’images Nano Banana Pro : 6 astuces de mise en scène pour une cohérence multi-images

Lorsque vous créez des illustrations en série, des images principales pour l'e-commerce ou des storyboards pour des livres illustrés, le plus frustrant n'est jamais de « dessiner une belle image », mais plutôt de « s'assurer que le personnage est toujours reconnaissable lorsqu'on dessine la deuxième image ». Nano Banana Pro (c'est-à-dire Gemini 3 Pro Image de Google) excelle dans la cohérence multi-images, ce qui soulève une question récurrente : pour générer une série d'images, suffit-il de superposer l'image de référence et tout sera réglé ?

La réponse n'est pas si simple. L'utilisation d'images de référence est effectivement le moyen le plus fiable pour assurer la cohérence dans la génération de séries d'images avec Nano Banana Pro, mais ce n'est pas un interrupteur « plus j'en ajoute, mieux c'est ». Une mauvaise utilisation peut au contraire dégrader l'image. Cet article expliquera d'abord clairement les limites de sa capacité de génération de séries, puis vous présentera 6 techniques de superposition d'images éprouvées pour une utilisation correcte, et enfin expliquera dans quels scénarios il ne faut pas superposer d'images.

I. Les limites de la génération de séries d'images avec Nano Banana Pro

Clarifions d'abord ce que signifie « génération de séries d'images ». Il ne s'agit pas de combiner plusieurs éléments en une seule image, mais plutôt de produire plusieurs images indépendantes avec un contenu différent mais un style et des personnages cohérents à partir d'une seule demande, comme 4 images de storyboard pour un personnage, ou 5 images de scène pour un ensemble de produits e-commerce.

Nano Banana Pro possède deux capacités clés pour cela. Premièrement, il peut générer plusieurs images indépendantes en une seule instruction : tant que vous demandez explicitement « générer 4 images indépendantes, pas une seule image composite », il produira des images une par une plutôt que de les assembler. Deuxièmement, il peut maintenir la cohérence entre les images. La documentation officielle indique qu'il peut maintenir la cohérence du visage et de l'apparence de jusqu'à 5 personnages sous différents angles, scènes et environnements, ce qui est précisément la capacité la plus importante pour la génération de séries d'images.

Le tableau ci-dessous présente ses spécifications clés relatives à la génération de séries d'images, afin que vous puissiez déterminer s'il convient à votre projet.

Dimension de capacité	Performance de Nano Banana Pro
Sortie multi-images	Plusieurs images indépendantes peuvent être générées par instruction unique
Cohérence des personnages	Maintient la cohérence du visage/apparence de jusqu'à 5 personnages
Limite d'images de référence	Jusqu'à 14 images (6 en haute fidélité)
Résolution	1K / 2K / 4K
Rendu de texte	Texte clair multilingue, infographies
Filigrane	Identifiant SynthID intégré automatiquement

Il faut noter que la génération de séries d'images implique des générations multiples ou une sortie multi-images, ce qui augmente considérablement la consommation de tokens et de puissance de calcul. Il est conseillé, avant de lancer une production en masse, d'utiliser APIYI apiyi.com pour intégrer Nano Banana Pro et tester quelques échantillons afin de confirmer que le style et la cohérence répondent aux exigences, avant de passer à une production à grande échelle, afin d'éviter de dépenser rapidement un quota important.

II. Pourquoi l'image de référence est au cœur de la cohérence des séries d'images avec Nano Banana Pro

Pour comprendre la valeur d'une image de référence, il faut d'abord saisir les limites des invites textuelles pures. Lorsque vous décrivez « une ingénieure aux cheveux courts et portant des lunettes », le modèle ré-imagine un visage basé sur des probabilités à chaque fois, ce qui entraîne des dérives entre les images. C'est le principal ennemi de la cohérence des séries d'images.

L'image de référence (ajouter une image de référence) sert à transformer l'« imagination » en « référence ». Lorsque vous fournissez la première image de personnage satisfaisante comme référence, le modèle ne génère plus à partir de rien, mais reproduit les traits du visage, la palette de couleurs et le style en se basant sur cette image comme point d'ancrage. Nano Banana Pro peut accepter jusqu'à 14 images de référence, dont 6 peuvent être fusionnées avec une haute fidélité. Cela fait de l'« image qui définit le ton » le plus puissant levier de cohérence dans une série d'images.

Sa puissance se manifeste également dans la fusion de références multiples : vous pouvez fournir le personnage, les vêtements et le décor comme différentes images de référence, et le modèle analysera intelligemment et combinera ces éléments pour créer une image naturelle. Cette capacité permet à l'image de référence non seulement de « verrouiller le visage », mais aussi de « verrouiller le produit » et de « verrouiller le style », ce qui est idéal pour les projets marketing et narratifs nécessitant qu'un même protagoniste apparaisse à plusieurs reprises. C'est précisément parce qu'elle est si cruciale que l'utilisation correcte de l'image de référence devient le point de démarcation entre le succès et l'échec d'une série d'images.

III. Meilleures pratiques pour les images de référence : 6 astuces clés

L'utilisation d'images de référence n'est pas une simple question de « jeter une image ». En combinant les recommandations officielles et l'expérience pratique, nous avons résumé 6 astuces qui influencent réellement les résultats. En les suivant, vous pouvez améliorer considérablement la stabilité de la génération de séries d'images avec Nano Banana Pro.

Créez une fiche de personnage en trois vues. Incluez une vue de face, une vue de profil à 45 degrés et une vue de profil à 90 degrés dans une seule image de référence. Cela fournit au modèle suffisamment d'informations structurelles, ce qui est beaucoup plus cohérent qu'une seule photo de face.
Limitez les images de référence à 6 images de haute qualité. Bien que la limite supérieure soit de 14 images, il n'y a que 6 places pour une haute fidélité. Trop d'images de référence dilueront la précision structurelle. Il vaut mieux en avoir moins que trop.
Une résolution de 1024×1024 est suffisante, pas besoin de plus. La pratique montre que des images de référence de résolution plus élevée n'apportent pas de meilleurs résultats. Limitez chaque image à moins de 20 Mo et utilisez des formats courants comme JPEG/PNG/WebP.
Unifiez la direction de l'éclairage des images de référence. Il est préférable d'utiliser la même direction et la même intensité d'éclairage pour toutes les images de référence. Des éclairages contradictoires entraîneront des dérives dans la luminosité et la couleur de peau dans la série d'images.
Réutilisez les mots-clés de l'invite textuelle mot pour mot. Si la première invite mentionne « yeux vert émeraude », chaque invite suivante doit également mentionner « yeux vert émeraude » exactement de la même manière, sans les remplacer par « yeux verts ». La cohérence des tokens affecte directement la cohérence de l'apparence.
Utilisez l'énumération des caractéristiques pour verrouiller l'identité. Au lieu de dire vaguement « la même personne », énumérez clairement : « conservez la même forme d'yeux, le même contour du nez, le même angle de la mâchoire, la même proportion des lèvres et la même texture de peau que l'image de référence ».

Le tableau ci-dessous compare les points clés et les erreurs courantes pour ces 6 astuces, afin de faciliter votre auto-vérification.

Astuce	Bonne pratique	Erreur courante
Fiche de personnage	Trois vues dans une seule image	Une seule photo de face
Nombre d'images de référence	≤ 6 images de haute qualité	Empiler plus de 10 images
Résolution	1024×1024	Utiliser aveuglément des images de référence 4K
Éclairage	Direction et intensité uniformes	Mélanger des éléments d'éclairage différents
Invite textuelle	Réutiliser les mots-clés mot pour mot	Remplacer les synonymes à volonté
Verrouillage d'identité	Énumérer les caractéristiques spécifiques du visage	Dire seulement « la même personne »

Une fois ces 6 points mis en œuvre, vous constaterez une amélioration immédiate de la cohérence de vos séries d'images. Si vous souhaitez tester rapidement cette méthode, vous pouvez intégrer Nano Banana Pro sur APIYI apiyi.com et tester à plusieurs reprises différentes formulations d'invites avec le même ensemble d'images de référence pour trouver la combinaison la plus stable.

Quatre : L'image de référence n'est pas une panacée : quand faut-il en utiliser moins, voire pas du tout ?

Revenons à la question initiale : l'image de référence est-elle la meilleure pratique pour la génération d'images par lots ? C'est une pratique essentielle, mais pas la seule réponse, et certainement pas "plus c'est mieux". Comprendre ses limites est la clé pour l'utiliser efficacement.

Il existe trois scénarios où les avantages de l'image de référence diminuent, voire deviennent un fardeau. Premièrement, lorsque seule l'uniformité du style est requise, sans verrouiller un personnage spécifique, une description de style fixe (illustration plate, tons chauds) suffit souvent ; forcer une image de référence peut en fait limiter la liberté de composition. Deuxièmement, lorsque la qualité de l'image de référence elle-même est inégale, une image à basse résolution ou avec un éclairage incohérent introduira du bruit dans chaque image. Dans ce cas, utiliser moins d'images de haute qualité donnera de meilleurs résultats que d'en utiliser beaucoup de médiocres. Troisièmement, lors de la création de variations créatives majeures, une référence trop forte peut empêcher le modèle de s'écarter. Ce dont vous avez besoin, c'est précisément de divergence, et c'est là qu'il faut réduire le poids de la référence ou passer à du texte pur.

Par conséquent, une formulation plus précise serait : l'image de référence est responsable du « verrouillage de la cohérence », tandis que l'invite est responsable du « contrôle du contenu et du style ». La combinaison des deux est la véritable meilleure pratique. Le tableau ci-dessous fournit des suggestions de choix de méthodes pour différents objectifs de génération d'images par lots.

Objectif de génération d'images par lots	Méthode principale recommandée	L'image de référence est-elle nécessaire ?
Plusieurs plans pour le même personnage	Image de référence en trois vues + réutilisation des mots-clés	Fortement nécessaire
Plusieurs scénarios pour le même produit	Image de référence du produit + description textuelle du scénario	Nécessaire
Style uniforme sans verrouillage de personnage	Principalement par des invites de style	Facultatif / Utiliser moins
Divergence créative majeure	Texte pur + faible poids de référence	Pas recommandé d'en utiliser beaucoup

Pour résumer en une phrase : l'image de référence sert la « cohérence ». Lorsque votre objectif n'est pas la cohérence mais la diversité, il faut la relâcher. Si vous souhaitez comparer les différences entre l'utilisation d'une « image de référence » et du « texte pur » dans votre scénario spécifique, APIYI apiyi.com vous permet d'utiliser la même clé API pour appeler Nano Banana Pro à plusieurs reprises afin d'effectuer des tests A/B. Quelques expériences suffiront pour trouver la combinaison appropriée.

Cinq : Utiliser l'API pour générer des images par lots avec Nano Banana Pro : prise en main rapide

Une fois les principes et les techniques compris, le code est en fait assez simple. L'essentiel est de transmettre l'image de référence et les « invites réutilisées mot par mot » au modèle, et de spécifier clairement la sortie de plusieurs images indépendantes. Voici une structure simplifiée qui démontre la logique de requête pour générer des images par lots avec des images de référence.

import requests, base64

# base_url pointe vers APIYI, pour une gestion unifiée des clés de plusieurs modèles
URL = "https://api.apiyi.com/v1/chat/completions"
HEAD = {"Authorization": "Bearer VOTRE_CLE"}

ref = base64.b64encode(open("character_sheet.png", "rb").read()).decode()
prompt = "Génère 4 plans indépendants, en gardant la forme des yeux, la coiffure et les vêtements exactement cohérents avec l'image de référence ; yeux vert émeraude, style illustration plate"

payload = {
    "model": "nano-banana-pro",  # L'ID spécifique du modèle dépend de la plateforme
    "messages": [{"role": "user", "content": [
        {"type": "text", "text": prompt},
        {"type": "image_url", "image_url": {"url": f"data:image/png;base64,{ref}"}}
    ]}]
}
resp = requests.post(URL, headers=HEAD, json=payload).json()
# Analyse des URL d'images multiples / base64 retournées dans resp...

Quelques rappels pour la mise en œuvre : utiliser la fiche de personnage en trois vues comme image de référence, spécifier clairement « plans indépendants » dans l'invite au lieu de « collage d'images », et réutiliser les mots-clés mot par mot. Ces trois points déterminent directement la qualité de la génération d'images par lots. Si vous devez réaliser des projets multi-personnages, vous pouvez superposer plusieurs images de référence (notez la limite de 6 images haute fidélité). Sur APIYI apiyi.com, Nano Banana Pro partage la même interface et la même clé API que d'autres modèles d'images grand public, ce qui vous permet de changer de modèle pour des comparaisons horizontales sans modifier le code. Pour plus de détails sur l'intégration, consultez le centre d'aide help.apiyi.com.

Six : Édition multi-tours : Affiner les séries d'images Nano Banana Pro pour une cohérence accrue

Beaucoup négligent un positionnement clé de Nano Banana Pro : c'est l'un des modèles d'images les plus performants actuellement pour les scénarios complexes et l'édition multi-tours. Cela signifie que les séries d'images n'ont pas besoin d'être parfaites du premier coup ; elles peuvent être progressivement affinées vers le résultat souhaité par le biais de dialogues, comme si vous communiquiez avec un designer. Cette « génération d'images itérative » est souvent plus contrôlable que d'empiler tous les mots-clés en une seule fois.

En pratique, nous recommandons d'utiliser le flux de travail en cinq étapes suivant pour produire une série d'images hautement cohérentes, combinant les techniques de référence d'image et l'édition multi-tours abordées précédemment.

Définir l'image de référence. Commencez par générer et peaufiner à plusieurs reprises la première « image de référence » à l'aide d'une fiche de personnage en trois vues et d'invites détaillées, en définissant le personnage, la palette de couleurs et le style artistique en une seule fois.
Verrouiller les mots-clés. Enregistrez les caractéristiques satisfaisantes de l'image de référence sous forme de mots spécifiques pour créer une liste d'invites fixe, qui sera réutilisée telle quelle pour chaque image suivante.
Étendre image par image. En utilisant l'image de référence comme image de référence, et en conjonction avec l'instruction de « générer des plans indépendants plutôt qu'un collage », générez les images restantes une par une, plutôt que de tout demander d'un coup.
Affinage multi-tours. Lancez des instructions d'édition séparées pour une image qui a dérivé, par exemple « ajuster uniquement l'arrière-plan de cette image, le personnage doit rester complètement inchangé », en utilisant l'édition multi-tours pour un raffinement.
Vérification finale unifiée. Après la génération complète, comparez l'ensemble des expressions faciales, des palettes de couleurs et de l'éclairage. Effectuez une autre série d'éditions pour les images qui présentent encore des écarts.

Le tableau ci-dessous résume les objectifs et les points clés correspondants à ces cinq étapes pour faciliter leur exécution.

Étape	Objectif principal	Action clé
Définir l'image de référence	Définir le ton général de la série	Trois vues + invites détaillées
Verrouiller les mots-clés	Fixer la description de l'apparence	Liste d'invites réutilisables à organiser
Étendre image par image	Produire plusieurs plans	Image de référence + instruction de plan indépendant
Affinage multi-tours	Corriger les dérives individuelles	Édition d'une seule image, verrouillage des autres éléments
Vérification finale unifiée	Assurer la cohérence de l'ensemble de la série	Comparaison globale + édition de correction

L'avantage de ce processus est qu'il répartit le risque à chaque étape. Si une image pose problème, elle peut être retravaillée localement sans avoir à recommencer toute la série. Si vous envisagez de mettre en place une chaîne de production automatisée pour les séries d'images, vous pouvez intégrer Nano Banana Pro sur APIYI apiyi.com et transformer ces cinq étapes en scripts réutilisables. Cela garantira la cohérence tout en maintenant les coûts de l'édition multi-tours dans une fourchette prévisible.

Sept : Foire Aux Questions (FAQ)

Q1 : Nano Banana Pro peut-il générer une série d'images en une seule fois ?

Oui. Tant que vous spécifiez dans l'invite « générer N images indépendantes, pas un collage », il produira plusieurs images avec un contenu différent, image par image, en essayant de maintenir la cohérence du style et du personnage.

Q2 : L'utilisation d'images de référence est-elle une bonne pratique ?

C'est une pratique essentielle, mais elle doit être utilisée correctement. Les images de référence servent à verrouiller la cohérence et sont adaptées aux scénarios où le même personnage ou produit apparaît à plusieurs reprises ; si vous avez seulement besoin d'une cohérence stylistique ou d'une grande liberté créative, les invites seules sont plus flexibles. La meilleure approche est de combiner les images de référence avec les invites, plutôt que de simplement empiler des images de référence.

Q3 : Plus il y a d'images de référence, mieux c'est ?

Non. Bien que la limite soit de 14 images, seules 6 peuvent être fusionnées avec une haute fidélité. Plus il y a d'images, plus la précision structurelle risque d'être diluée. Il est conseillé de se limiter à 6 images de référence de haute qualité, la qualité étant prioritaire sur la quantité.

Q4 : Quelle résolution d'image de référence dois-je utiliser ?

Une résolution de 1024×1024 est généralement suffisante. Une résolution plus élevée n'apporte pas nécessairement de meilleurs résultats. Chaque image doit être limitée à 20 Mo et utiliser des formats courants. Vous pouvez effectuer des comparaisons et des validations avec des images de référence de différentes résolutions sur APIYI apiyi.com.

Q5 : Pourquoi le personnage de ma série d'images dérive-t-il toujours ?

Il est fort probable que les mots-clés de l'invite ne soient pas réutilisés mot pour mot, ou que la description de l'identité soit trop vague. En remplaçant « yeux verts » par « yeux vert émeraude » et en énumérant des caractéristiques faciales spécifiques pour verrouiller l'identité, la dérive diminuera considérablement.

8. Conclusion

Pour revenir au sujet : la clé de la génération d'images groupées avec Nano Banana Pro ne réside pas dans la capacité à produire plusieurs images en une seule fois, mais dans la capacité à maintenir la cohérence entre ces images. L'image de référence (ou "padding image") est le levier le plus puissant pour y parvenir – elle transforme le modèle d'une "réimagination à chaque fois" à une "référence basée sur une image". C'est pourquoi elle est largement considérée comme la meilleure pratique fondamentale pour les groupes d'images.

Cependant, "fondamental" ne signifie pas "unique". Une approche véritablement mature consiste à utiliser une combinaison de techniques : une fiche de personnage en trois vues, jusqu'à 6 images de référence de haute qualité, un éclairage unifié, la réutilisation mot à mot des mots-clés et le verrouillage de l'identité par énumération des caractéristiques. Ensuite, en fonction de l'objectif – "cohérence" ou "diversité" – on décide de manière flexible d'utiliser ou non l'image de référence, et dans quelle mesure. En combinant judicieusement l'image de référence et les invites, vous pourrez produire de manière stable un ensemble complet d'images groupées au style unifié.

Si vous souhaitez tester vous-même chaque technique mentionnée dans cet article, APIYI apiyi.com propose une interface unifiée et un tableau de bord d'utilisation pour des modèles d'images tels que Nano Banana Pro. C'est un point de départ pratique pour expérimenter la génération d'images groupées, comparer les stratégies d'images de référence et contrôler les coûts.

Cet article est un contenu de référence basé sur la pratique, compilé par l'équipe technique d'APIYI. Les spécifications du modèle et les limites des paramètres sont sujettes aux informations officielles et en temps réel de la plateforme.