App

Gboard accoglie l'intelligenza artificiale: con Imagen tradurrà il testo in immagini

Antonio Lepore
Antonio Lepore
Gboard accoglie l'intelligenza artificiale: con Imagen tradurrà il testo in immagini

Google sta spingendo molto sull'intelligenza artificiale. Difatti, prossimamente saranno diversi i progetti della società che beneficeranno di questa tecnologia, a partire dalla tastiera Gboard per i dispositivi Android. Nello specifico, la più recente versione beta dall'applicazione – la versione 12.7.05.507749191 – contiene delle stringhe di codice che fanno riferimento ad una Imagen Keyboard. Questa nuova opzione – che si potrebbe posizionare nel pannello dedicato agli shortcut della tastiera, come GIF – dovrebbe consentire di generare le immagini da input testuali.

Imagen, annunciato lo scorso maggio, abbinerà un profondo livello di comprensione del testo ad un "grado di fotorealismo senza precedenti". In un confronto di benchmark dello scorso anno e che includeva VQ-GAN-CLIP, Latent Diffusion Models e DALL-E 2, Google affermò che gli utenti umani preferirono "Imagen rispetto ad altri modelli nei confronti affiancati, sia in termini di qualità del campione che di abbinamento tra immagini e testo". Inoltre, la società ha dichiarato che Imagen sia più efficiente anche nelle relazioni spaziali, nei testi lunghi, nelle parole rare e nei suggerimenti più impegnativi.

Infine, la società ha aggiunto che "La nostra scoperta chiave è che modelli linguistici generici di grandi dimensioni (e.g. T5), preaddestrati su corpora di solo testo, sono sorprendentemente efficaci nella codifica del testo per la sintesi di immagini: l'aumento delle dimensioni del modello linguistico in Imagen si traduce in un aumento notevole sia della fedeltà del campione che dell'allineamento immagine-testo, molto più che aumentando le dimensioni del modello di diffusione dell'immagine".