Questo “Frankenphone” è il segreto della modalità ritratto dei Pixel 3 (foto)

Nicola Ligas

La modalità ritratto dei Google Pixel è divenuta famosa lo scorso anno, combinando una rete neurale e le informazioni derivanti dal phase detection auto focus (PDAF) per determinare quali pixel della foto corrispondano al soggetto in primo piano, e quali facciano parte dello sfondo. Tutto ciò allo scopo di ottenere un bell’effetto Bokeh anche con i piccoli sensori che si trovano in uno smartphone, e la missione può in fondo dirsi compiuta. Almeno in parte.

La modalità ritratto dei Pixel 3 ha infatti fatto dei passi in avanti, superando i possibili errori del precedente modello, ed aggiungendo alle informazioni viste finora anche altri “indizi” sulla profondità di campo della scena. Per esempio, i punti che sono più lontani dal soggetto in primo piano sono già meno definiti di suo rispetto a quelli più vicini, e questo può aiutare a separarli meglio. Inoltre, conoscendo la dimensione approssimativa di oggetti comuni, il numero di pixel che compongono tali oggetti nella foto può essere usato proprio per stimare la loro distanza.

Sì, questi “indizi semantici” sono una serie di complicazioni in più che Google dovrà tenere di conto in fase di elaborazione dello scatto, per avere una mappa di profondità più raffinata, e tutto ciò non è affatto semplice. Per semplificare questo processo è stato quindi utilizzato il machine learning, addestrando una rete neurale convoluzionale, scritta in TensorFlow, grazie ad un “Frankenphone” costituito da 5 Pixel 3 “fusi” assieme. In questo modo venivano scattate 5 foto simultaneamente (con una tolleranza di circa 2 millisecondi) dello stesso soggetto ad angolature lievemente differenti, così da addestrare la rete neurale con foto simili a quelle che gli utenti tipicamente catturano con i propri smartphone (nell’esempio una bambina, ma non sappiamo quante scene diverse abbia utilizzato Google).

C’è senz’altro tanto lavoro dietro una cosa del genere, tanto da chiedersi se davvero ne valga la pena e se non possano esserci soluzioni hardware per semplificare le cose. Un sensore più grande potrebbe infatti aiutare moltissimo, ma sono le dimensioni stesse degli smartphone a rappresentare un vincolo insormontabile, ed il lavoro fatto da Google migliore di anno in anno.

Per apprezzare i progressi fatti potete guardare questo album su Google Foto o un piccolo estratto nella galleria qui sotto. La differenza tra le immagini “stereo” e quelle “learned” (cioè con l’uso del machine learning di cui sopra) è evidente, e serve anche ad illustrare i limiti della tecnica impiegata sui Pixel 2. Per ulteriori dettagli tecnici, vi rimandiamo al link alla fonte.

Fonte: Google