La “banana “di Google che fa sul serio con le immagini
Cos’è Nano Banana, perché funziona e cosa ci puoi fare davvero
di Rosa Buzzi
Nella notte fonda dell’estate 2025 un modello in anteprima di intelligenza artificiale sta per essere caricato in forma anonima su una piattaforma pubblica, dove gli utenti confrontano e votano sistemi diversi. La piattaforma è LM Arena, oggi raggiungibile come lmarena.ai, e funziona con una logica semplice, simile a un test alla cieca. L’utente inserisce una richiesta, riceve due risultati prodotti da sistemi diversi senza sapere quali siano, poi vota quello che sembra migliore. Migliaia di voti, accumulati nel tempo, permettono a LM Arena di costruire classifiche che fotografano in modo abbastanza realistico ciò che funziona davvero, al di là dei benchmark ufficiali.
In quel momento, però, il modello non ha ancora un nome. Serve un nome provvisorio, uno qualunque, per catalogarlo. La product manager Nina digita due parole a caso, “Nano Banana”. Sono le 02:30 di notte quando il nome inizia a circolare online, diventa un meme e finisce per restare.
“Nano Banana” è infatti il soprannome di Gemini 2.5 Flash Image, il modello di Google pensato non solo per generare immagini, ma soprattutto per modificarle bene, interagendovi come farebbe un editor. Chi prova le AI per immagini lo nota subito. Molte AI sanno generare immagini piacevoli, ma appena si chiede una seconda correzione spesso perdono il filo. Il volto cambia, alcuni dettagli si spostano, l’insieme diventa incoerente e la scena sembra un’altra. È
È proprio su questo punto che Google colloca “Nano Banana”. L’idea è offrire un modello capace di mantenere riconoscibile lo stesso soggetto anche dopo più passaggi di editing, di intervenire su parti specifiche dell’immagine senza doverla rigenerare da zero e di combinare più foto in un risultato che resti credibile e uniforme. Non sorprende, quindi, che durante i test pubblici su LM Arena il modello identificato come “Nano Banana” abbia raccolto moltissimi voti e sia arrivato in alto nelle classifiche dedicate all’image editing.
La promessa dell’editing si comprende meglio con una prova rapida. Abbiamo eseguito un test esemplificativo collegandoci al link: https://deepmind.google/models/gemini-image/flash/ .
Da lì si può procedere in due modi. Gemini è l’opzione più immediata, pensata per provare ai test veloci in chat, mentre AI Studio è l’ambiente più da laboratorio, con più controlli e opzioni per chi vuole test più precisi.
Nel presente esempio ho usato Gemini nella versione standard, quella più semplice. Il prompt inserito è “Illustrazione editoriale minimalista. una banana stilizzata seduta a una scrivania, davanti a un computer…”
L’immagine di apertura è l’output ottenuto con Gemini 2.5 Flash Image (“Nano Banana”) dal prompt riportato sopra. A parte l’esempio proposto volutamente riconoscibile come irreale, il punto è che le immagini generate dall’AI sono sempre più verosimili, e per molti utenti è difficile se non impossibile, capire a colpo d’occhio cosa sia vero e cosa non lo sia. Infatti, pur esistendo strumenti come SynthID, una filigrana invisibile di Google DeepMind che marca le immagini in modo impercettibile ma verificabile con un programma di controllo detector, ciò non basta. Non tutti sanno questi controlli esistono, non tutti hanno il tempo o gli strumenti per farlo. E non basterebbe neppure un bollino visibile, perché potrebbe mancare, essere rimosso o alterato. La prossima sfida sarà rendere riconoscibile all’occhio umano l’irreale e distinguerlo dall’immagine verosimile prodotta dall’AI.
