Il mondo dell’intelligenza artificiale è nuovamente scosso da una controversia legale che vede protagonista Nvidia.

Secondo recenti rivelazioni emerse nell’ambito di una class action in corso, l’azienda californiana non si sarebbe limitata a raccogliere dati liberamente accessibili sul web, ma avrebbe attivamente cercato di pagare per ottenere un accesso privilegiato a una delle più grandi “biblioteche ombra” del mondo: Anna’s Archive.

Le accuse, supportate da documenti pubblicati dal portale specializzato TorrentFreak, dipingono un quadro in cui la fame di dati per addestrare i Large Language Models (LLM) sembra aver prevalso sul rispetto delle normative sul copyright.

Nvidia e la presunta trattativa con Anna’s Archive

Crediti: NVIDIA

Al centro dello scandalo vi sono alcune comunicazioni interne che sembrano inchiodare il Data Strategy Team di Nvidia. Stando ai documenti depositati durante la fase di discovery del processo, i rappresentanti dell’azienda avrebbero contattato gli amministratori di Anna’s Archive per negoziare un “accesso ad alta velocità”.

Anna’s Archive è noto per essere un aggregatore massiccio di materiale protetto da diritto d’autore, inclusi libri, articoli scientifici e testi presi da altri portali pirata come Bibliotik.

Ciò che rende la situazione particolarmente critica per la difesa di Nvidia è la tempistica e la consapevolezza delle azioni. Le email suggeriscono che, nonostante l’azienda fosse stata avvertita della natura illegale delle collezioni ospitate dall’archivio, il management avrebbe dato il “via libera” all’operazione nel giro di una settimana.

L’obiettivo era scaricare circa 500 terabyte di dati, una mole immensa di conoscenza umana necessaria per raffinare le capacità cognitive delle intelligenze artificiali generative.

Sebbene non vi sia ancora la prova definitiva che il pagamento sia stato effettivamente processato o che la transazione sia andata a buon fine, l’intento di instaurare un rapporto commerciale con un sito pirata rappresenta un precedente significativo.

Una difesa che scricchiola

Questa nuova ondata di prove ha portato gli autori che hanno intentato la causa legale contro Nvidia a modificare e ampliare significativamente la loro denuncia.

Inizialmente, l’accusa si concentrava sull’uso del dataset Books3, una raccolta contenente migliaia di opere letterarie piratate, utilizzata anche da altri giganti del settore come Meta e Anthropic.

Fino ad ora, la linea difensiva standard della Silicon Valley si è basata sul concetto di “Fair Use” (uso equo), sostenendo che l’addestramento delle IA rientri in una zona grigia del diritto d’autore che permette l’uso trasformativo delle opere.

Tuttavia, le nuove prove rendono la posizione di Nvidia molto più precaria rispetto ai suoi concorrenti. Se venisse confermato che l’azienda ha cercato attivamente di finanziare un’attività illecita per ottenere un vantaggio competitivo, la tesi dell’uso equo potrebbe crollare.

I legali dei querelanti sostengono che Nvidia non solo ha utilizzato materiale rubato, ma ha anche offerto ai propri clienti aziendali l’accesso automatico a dataset contaminati come The Pile, che include al suo interno la collezione Books3. Questo comportamento dimostrerebbe, secondo l’accusa, una totale indifferenza verso i diritti di proprietà intellettuale altrui.

L’ironia sul furto di proprietà intellettuale

La vicenda solleva una questione etica di fondo che non è sfuggita agli osservatori del settore. Aziende come Nvidia, che proteggono gelosamente i propri brevetti tecnologici e i segreti industriali con eserciti di avvocati, sembrano non farsi scrupoli quando si tratta di appropriarsi del lavoro creativo di scrittori e ricercatori.

Mentre Nvidia continua a macinare profitti record grazie alla vendita dei suoi acceleratori grafici, gli autori vedono le proprie opere ingurgitate dalle macchine senza ricevere alcun compenso o richiesta di permesso.

Al momento, Anna’s Archive rimane online, sebbene la sua crescente notorietà lo abbia reso bersaglio di continue notifiche di rimozione DMCA, costringendo i gestori a un continuo gioco del gatto col topo per mantenere i server attivi.

La class action contro Nvidia, arricchita da queste nuove email, potrebbe portare a un punto di svolta nella regolamentazione dell’addestramento delle IA, stabilendo confini più netti su cosa è lecito fare nella corsa all’oro digitale.