La fotografia in condizioni di scarsa illuminazione rappresenta da sempre una delle sfide più ardue per il settore degli smartphone. Chiunque abbia provato a scattare una foto di notte conosce bene i limiti fisici dei sensori mobili: immagini sgranate, piene di rumore digitale o, nel tentativo di correggere questi difetti, risultati pastosi e privi di dettaglio.
Recentemente, i ricercatori di Apple, in collaborazione con la Purdue University, hanno svelato una nuova tecnologia che potrebbe rivoluzionare questo ambito.
Attraverso lo studio di un nuovo modello di intelligenza artificiale denominato “DarkDiff“, Apple sta esplorando come l’integrazione profonda dell’IA generativa nel cervello della fotocamera possa recuperare dettagli che sembravano perduti per sempre.
L’IA usata a livello di ISP migliora drasticamente i risultati
Il problema fondamentale della fotografia notturna risiede nella scarsità di fotoni che colpiscono il sensore. Per compensare la mancanza di luce, i produttori come Apple hanno storicamente applicato algoritmi di elaborazione delle immagini molto aggressivi.
Sebbene efficaci nel rimuovere il rumore digitale (la classica “grana”), questi metodi tendono spesso a creare un effetto collaterale indesiderato: le immagini risultano eccessivamente levigate, simili a dipinti a olio o acquerelli.
In questo processo di pulizia, i dettagli fini scompaiono o vengono ricostruiti in forme appena riconoscibili, rendendo le texture innaturali e poco leggibili.
La risposta dei ricercatori a questo limite è DarkDiff, un sistema descritto nello studio intitolato “DarkDiff: Advancing Low-Light Raw Enhancement by Retasking Diffusion Models for Camera ISP“. L’idea alla base è radicale: invece di applicare l’intelligenza artificiale solo come ritocco finale in post-produzione, il modello viene integrato direttamente nella pipeline del processore del segnale immagine (ISP).
Come funziona DarkDiff: l’IA nel cervello del sensore
La metodologia sviluppata prevede l’utilizzo di modelli di diffusione, simili a quelli usati da Stable Diffusion (addestrato su milioni di immagini), ma “ri-addestrati” per comprendere specificamente quali dettagli dovrebbero esistere nelle aree buie di una foto, basandosi sul contesto generale.
Il processo inizia presto: l’ISP della fotocamera gestisce le prime fasi essenziali, come il bilanciamento del bianco e la demosaicizzazione dei dati grezzi del sensore. Successivamente, DarkDiff interviene su questa immagine RGB lineare.
A differenza dei metodi tradizionali che cercano solo di minimizzare l’errore sui pixel, questo sistema utilizza un meccanismo che calcola l’attenzione su porzioni localizzate dell’immagine. Questo è fondamentale per preservare le strutture locali e mitigare il rischio di “allucinazioni”, ovvero la tendenza dell’IA generativa a inventare contenuti o oggetti che non esistono nella scena reale.
DarkDiff utilizza anche una tecnica chiamata “guida senza classificatore” (classifier-free guidance), che permette di bilanciare quanto il modello debba aderire all’immagine originale rumorosa rispetto ai suoi modelli visivi appresi. Una guida più bassa produce pattern più lisci, mentre aumentandola si ottengono texture più nitide, accettando però un rischio maggiore di artefatti.
Risultati promettenti ma il traguardo è lontano
Per validare la tecnologia, il team ha condotto esperimenti utilizzando foto reali scattate in condizioni di luce estrema con fotocamere come la Sony A7SII.
Confrontando immagini scattate con un tempo di esposizione brevissimo (0,033 secondi) e migliorate da DarkDiff, con immagini di riferimento scattate su treppiede con esposizioni 300 volte più lunghe, i risultati hanno mostrato una qualità percettiva superiore rispetto ad altri modelli di riduzione del rumore e baselines di diffusione come ExposureDiffusion.
Tuttavia, l’implementazione commerciale non è dietro l’angolo. I ricercatori ammettono che DarkDiff presenta ostacoli significativi: il processo basato sull’IA è notevolmente più lento dei metodi tradizionali e richiede una potenza di calcolo tale che, se eseguito localmente su uno smartphone, drenerebbe rapidamente la batteria.
È probabile che una tale tecnologia richieda, almeno inizialmente, un’elaborazione in cloud per essere sostenibile. Inoltre, sono stati notati limiti nel riconoscimento di testo non inglese in scene scarsamente illuminate.
Nonostante lo studio non confermi l’arrivo imminente di questa funzione su iPhone, esso dimostra chiaramente che il futuro della fotografia computazionale passa per una fusione sempre più stretta tra dati grezzi del sensore e intelligenza artificiale generativa.
