di Antonio Dini
In pratica le caratteristiche di questi volti sintetici sono le stesse dei volti umani (due occhi, una bocca, un naso, un certo tipo di proporzioni) ma non appartengono a persone reali. Aindo utilizza la stessa tecnologia ma applicata a dataset in forma tabellare. A partire da database reali, i dati sintetici vengono generati per mezzo di modelli di machine learning capaci di mantenere inalterato il contenuto statistico e le relazioni tipiche di un database relazionale. Non c’è quindi solo una fedeltà statistica ma anche la struttura relazionale viene mantenuta.
A cosa serve avere un database sintetico? È fondamentale perché consente di addestrare i modelli di machine learning e creare intelligenze artificiali capaci di svolgere attività tra le più disparate: dal riconoscimento delle patologie partendo dagli esami di laboratorio alla previsione del rischio nel settore assicurativo.
“Abbiamo studiato e applicato il principio – dice Panfilo – a insiemi diversi: per esempio quello dei pazienti di un ospedale e le analisi che fanno lungo un certo arco di tempo. Dati sensibili che non possono essere utilizzati ma che servono per addestrare le Ai a capire come funziona un certo test. Noi generiamo per loro un dataset di dati sintetici, non anonimizzati, ma che mantengono le relazioni interne, e loro possono usare questi dati per addestrare il loro sistema di intelligenza artificiale”.
L’opportunità di mercato
C’è un mercato enorme per i database sintetici: secondo la società di ricerche di mercato Gartner nel 2025 il 60-70% dei modelli di machine learning sarà allenato utilizzando dati sintetici anziché dati “veri”. Ci sono due progetti aperti all’interno del programma Horizon dell’Unione europea, segnale chiaro che il Vecchio continente si sta sbilanciando in quella direzione. Ed è lo stesso anche negli Stati Uniti.
“Oggi quella dei dati sintetici – dice Panfilo – è una “grey area”. Siamo prima della prima legislazione sull’argomento. È considerata un potenziamento dell’anonimizzazione standard, le leggi arriveranno almeno tra un anno. Gdpr, la Ccpa americana e il corrispettivo cinese sono i nostri più grandi alleati: più irrigidiscono i criteri, più i dati sintetici diventano appetibili rispetto a quelli semplicemente anonimi”.
Aindo è una startup di otto persone: ingegneri, fisici, informatici e una persona olandese con un Mba a Oxford “per sviluppare il business“, dice Panfilo. La base è la ricerca delle tesi di dottorato in fisica statistica. “Quando l’azienda è nata – dice Panfilo – c’era forse un concorrente. Adesso non ce ne sono ancora cinque. La maggior difficoltà è riuscire a portare una soluzione di frontiera come questa nel mondo reale, riuscire cioè a generalizzare il modello perché possa trattare una grande varietà di tipologie di dati. Il lavoro sta tutto qui”.
Aindo ha clienti internazionali nei settori medicale, insurtech, fintech. La sua soluzione dal punto di vista informatico è completamente containerizzata con Docker e può funzionare indipendentemente sia nel cloud di Aws o Azure sia sui server dell’azienda cliente: le specifiche per il deployment sono molto semplici (praticamente un server con 16 Gb di Ram libera, una o più Cpu e Python ) e questo rende molto veloci i tempi e le complessità di avvio del progetto dai clienti oltre che più flessibile la parte della privacy dei dati. Il problema adesso? Scalare sul mercato.
Source link
www.wired.it
2022-01-09 06:00:00