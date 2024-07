Aggiornamento 18/07: la vicenda ha destato grande scalpore, ma iniziano ad arrivare le prime discolpe. In particolare, Apple ha annunciato che la sua AI non utilizza i dati incriminati. Trovate tutte le informazioni all’interno dell’articolo.

Nel corso dei mesi le intelligenze artificiali generative sono diventate sempre più potenti ed impressionanti, ma per realizzare questa crescita è stato necessario un addestramento di migliaia e migliaia di ore. OpenAI, per esempio, secondo gli ultimi report emersi in rete avrebbe utilizzato oltre un milione di ore di trascrizioni di video di YouTube per portare a termine l’addestramento di GPT-4, nonostante questo fosse chiaramente contro le regole del servizio. L’illecito, tuttavia, non sarebbe stato commesso soltanto dagli sviluppatori statunitensi, ma anche dalla stessa Google per Gemini.

Anche Google ha sfruttato YouTube per Gemini, contravvenendo alle proprie regole

Utilizzando uno strumento chiamato “Whisper“, in grado di trascrivere l’audio dai video di YouTube per trasformarlo in “materiale didattico” per i modelli di linguaggio, OpenAI avrebbe addestrato GPT-4 andando contro le indicazioni dei Termini di Servizio di Google e del file robots.txt che impedisce il download dei contenuti. Tuttavia, OpenAI sarebbe proprio in buona compagnia: anche Google, secondo il report del New York Times, avrebbe fatto lo stesso per addestrare il suo Gemini.

L’addestramento dei grandi modelli di linguaggio è forse la parte più importante per la creazione di una intelligenza artificiale e le compagnie sembrano essere disposte a tutto pur di rendere sempre più potenti le proprie creazioni: anche andare contro le proprie regole.

Aggiornamento 17/07: anche Apple, NVIDIA, Anthropic e Salesforce hanno utilizzato YouTube per l’addestramento

Una recente indagine pubblicata da Proof News e Wired ha evidenziato come OpenAI non sia sta l’unica ad utilizzare YouTube per l’addestramento della propria intelligenza artificiale, ma anche altre grandi aziende avrebbero sfruttato nello stesso modo la piattaforma di streaming video di Google. In particolar modo sarebbero stati utilizzati più di 170.000 filmati di YouTube per l’addestramento delle AI di Apple, NVIDIA, Anthropic e Salesforce.

Le aziende avrebbero, secondo il report, utilizzato i sottotitoli di YouTube in maniere impropria, estrapolandoli senza permesso dai filmati per allenare l’intelligenza artificiale. Tra i canali utilizzati ci sarebbero anche quelli più famosi come MrBeast e Marques Brownlee, oltre a quelli delle emittenti televisive come ABC News, BBC e New York Times.

Sarà interessante capire, adesso, se Google proseguirà per vie legali vista l’evidente infrazione dei termini di utilizzo di YouTube, oppure se cercherà un accordo in forma privata.

Aggiornamento 18/07: Apple si discolpa e si allontana dalla controversia

L’indagine di Proof News e Wired ha sicuramente fatto scalpore, tanto da costringere Apple a commentare l’intera vicenda. L’azienda di Mountain View ha annunciato, però, di non utilizzare il modello incriminato OpenELM (nonostante i suoi ingegneri lo avessore definito “lo stato dell’arte dell’AI“)per addestrare la propria Apple Intelligence e che di conseguenza non avrebbe mai utilizzato in modo improprio i video di YouTube.

Stando alle dichiarazioni di Apple, il modello AI al centro di Intelligence è stato addestrato su dati concessi in licenza, inclusi dati selezionati per migliorare funzionalità specifiche, nonché dati disponibili al pubblico raccolti dal proprio web-crawler.

