AI GENERATIVA

Reddit blocca i crawler AI: da ora dati solo a pagamento

La piattaforma aggiorna il suo Robots Exclusion Protocol per limitare l’accesso ai dati e stringe accordi con sviluppatori di AI come Google e OpenAI. Un modo per proteggere gli utenti o per fare cassa?

Pubblicato il 2 lug 2024

Pierluigi Sandonnini

giornalista

Reddit blocca i crawler AI per proteggere i dati dall’accesso gratuito. La piattaforma ha adottato misure per proteggere i dati degli utenti richiedendo alle aziende di intelligenza artificiale di pagare per l’accesso. Reddit ha intrapreso azioni per proteggere il prezioso contenuto generato dagli utenti dai crawler web delle aziende di intelligenza artificiale, aggiornando il proprio backend per limitare l’accesso ai dati della piattaforma. La piattaforma di social network ha annunciato che aggiornerà il suo Robots Exclusion Protocol (file robots.txt) per impedire a fonti esterne di raccogliere informazioni dal sito.

Indice degli argomenti:

Il problema: i crawler web raccolgono migliaia di pagine Internet

I crawler web come GPTBot di OpenAI raccolgono migliaia di pagine su internet, accumulando enormi quantità di dati ininterrottamente da pochi giorni a qualche settimana. Nel mondo dell’IA, i creatori dei modelli fanno questo per raccogliere dati – spesso senza il permesso del proprietario della piattaforma. La pratica del web crawling è sempre più criticata man mano che i detentori dei diritti diventano più protettivi nei confronti del loro contenuto.

Reddit farà pagare alle aziende di AI i dati dei suoi utenti

La decisione di Reddit di bloccare i crawler arriva mentre cerca di proteggere un asset redditizio: i dati. La piattaforma ha stretto accordi con sviluppatori di AI, tra cui Google e OpenAI, fornendo loro accesso a una vasta quantità di post degli utenti in cambio di denaro. L’accordo con Google vale circa 60 milioni di dollari all’anno. Secondo Business of Apps, Reddit ha generato 810 milioni di dollari nel 2023, principalmente dalla pubblicità. Tuttavia, recentemente Reddit ha cercato altri modi per generare entrate, inclusa la richiesta ai terzi dell’accesso alla sua API, una mossa che lo scorso giugno ha suscitato l’ira degli utenti. Limitando i crawler dal raccogliere dati dalla piattaforma, gli sviluppatori AI che desiderano addestrare i loro modelli sui contenuti Reddit saranno costretti a pagare una licenza.

“Siamo selettivi riguardo i soggetti con cui collaboriamo e a cui affidiamo l’accesso su larga scala ai contenuti Reddit”, si legge in un annuncio aziendale. “Chiunque acceda ai contenuti Reddit deve rispettare le nostre politiche, incluse quelle messe in atto per proteggere gli utenti”.

Esistono anche delle eccezioni

Tuttavia ci sono alcune eccezioni non commerciali che permettono a ricercatori e organizzazioni archivistiche come Internet Archive di accedere ai contenuti Reddit. “Internet Archive è grata che Reddit apprezzi l’importanza di aiutare ad assicurare che i registri digitali dei nostri tempi siano archiviati e preservati affinché le future generazioni possano goderne e impararne”, ha dichiarato Mark Graham direttore della Wayback Machine dell’Internet Archive. “Collaborando con Reddit continueremo a registrare e rendere disponibili archivi di Reddit insieme alle centinaia di milioni di URL da altri siti che archiviamo ogni giorno”.

L’utilizzo dei contenuti Reddit da parte di Google non è andato troppo bene, poiché la funzione Overviews alimentata dall’intelligenza artificiale ha dovuto essere rivista dopo aver risposto accidentalmente alle domande degli utenti con risposte assurde provenienti da Reddit, come suggerire il salto dal Golden Gate Bridge come cura per la depressione…

@RIPRODUZIONE RISERVATA