Google выпустил официальный гайд по генерации изображений в
Nano Banana aka Gemini 2.5 Flash Image, а я перевел его для вас и добавил свой опыт.
Banana создана на мультимодальной архитектуре, способной обрабатывать текст и изображения за один шаг. Это открывает возможность создавать и редактировать изображения простым человеческим текстом без сложных промптов, как в Midjourney.
Возможности, которые вы можете использовать:
- Text-to-image: генерировать высококачественные изображения по простым или сложным текстовым описаниям.
- Image + text-to-image (editing): предоставить изображение и с помощью текстовых промптов добавить, удалить или изменить элементы, сменить стиль или отрегулировать цвета.
- Multi-image to image (composition & style transfer): использовать несколько входных изображений для составления новой сцены или переноса стиля с одного изображения на другое.
- Iterative refinement: вести диалог для поэтапного уточнения и улучшения изображения за несколько шагов, внося небольшие правки до получения идеального результата.
- Text rendering: генерировать изображения, содержащие чётко читаемый и грамотно расположенный текст — идеально для логотипов, диаграмм и плакатов.
Это руководство научит вас, как писать промпты, которые обеспечат наилучшие результаты от Gemini 2.5 Flash и других мультимодальных моделей, например ChatGPT Image-1.
Всё начинается с одного фундаментального принципа:Опишите всю сцену подробно, а не просто перечисляйте ключевые слова. Основная сила модели — в глубоком понимании человеческого языка. Нарративный, описательный абзац почти всегда даст лучшее, более связное изображение, чем простой список несвязанных слов.
Самый распространённый способ сгенерировать изображение — подробно описать то, что вы хотите увидеть. Лучше всего это делать на английском языке.
Далее мы разберем несколько примеров в разных стилях, а в телеграм канале «
AI на практике» вы найдете универсальный шаблон промпта и примеры промптов по редактированию изображений.