Dati personali per addestrare l’AI: il garante della privacy apre un’indagine
Garante privacy apre un’indagine sulla raccolta di dati personali on line per addestrare gli algoritmi. L’iniziativa è volta a verificare l’adozione di misure di sicurezza da parte di siti pubblici e privati.
L’indagine
AGI, Il Garante per la protezione dei dati personali, ha avviato una indagine conoscitiva sui siti internet pubblici e privati per “verificare l’adozione di idonee misure di sicurezza adeguate ad impedire la raccolta massiva (webscraping) di dati personali a fini di addestramento degli algoritmi di intelligenza artificiale da parte di soggetti terzi”.
L’azione del Garante è in linea con le disposizioni del Digital services act europeo (Dsa), che impongono di fornire agli utenti un maggiore controllo e sicurezza sui propri dati personali e sul modo in cui questi vengono utilizzati dalle piattaforme online. L’azione di tutela del regolamento ha spinto anche Meta a permettere ai suoi utenti di scegliere se includere le proprie informazioni nell’addestramento della sua intelligenza artificiale o meno.
L’indagine riguarda tutti i soggetti pubblici e privati, “operanti quali titolari del trattamento, stabiliti in Italia o che offrono in Italia servizi, che mettono a disposizione on-line dati personali liberamente accessibili”, anche dai produttori di algoritmi di intelligenza artificiale.
Webscraping
È noto come molte piattaforme di intelligenza artificiale utilizzino il webscraping per raccogliere enormi quantità di dati personali pubblicati per specifiche finalità, all’interno di siti sia pubblici che privati, per usarli in modi diversi, tra cui l’addestramento degli algoritmi.
Ma che cosa è esattamente? Il webscraping è una particolare tecnica di crawling. Un crawler, è un software che ha lo scopo di raccogliere tutte le informazioni necessarie per indirizzare in modo automatico le pagine di un sito, analizzare i collegamenti ipertestuali e trovare associazioni tra termini di ricerca e classificarli. È usato da tutti i motori di ricerca, a cominciare da Google, per offrire agli utenti risultati sempre aggiornati. Il webscraping serve a estrarre dati dalle pagine web per poi raccoglierli in database o tabelle locali per analizzarli. Si tratta di un sistema in grado di estrapolare una grande varietà di informazioni: dati di contatto, indirizzi di posta elettronica, numeri di telefono, così come singoli termini di ricerca o URL.
Un invito alla sicurezza
Il Garante rivolge quindi “un invito alle associazioni di categoria interessate, alle associazioni di consumatori, ad esperti e rappresentanti del mondo accademico affinché facciano pervenire i loro commenti e contributi sulle misure di sicurezza adottate e adottabili contro la raccolta massiva di dati personali a fini di addestramento degli algoritmi, all’indirizzo webscraping@gpdp.it, entro 60 giorni dalla data di pubblicazione dell’avviso di consultazione sul sito dell’Autorità. A seguito dell’indagine conoscitiva l’Autorità si riserva di adottare i necessari provvedimenti, anche in via d’urgenza”.