Negli ultimi anni sono stati compiuti progressi significativi nel campo della computer vision, ma insegnare a identificare gli oggetti quando cambiano forma rimane un’impresa ardua, in particolare per i sistemi di intelligenza artificiale (AI). Ora i ricercatori di informatica dell’Università del Maryland stanno affrontando il problema utilizzando frutta e verdura.
Il loro prodotto è Chop & Learn, un set di dati che insegna ai sistemi di apprendimento automatico a riconoscere i prodotti in varie forme, anche quando vengono sbucciati, affettati o tagliati a pezzi.
Il progetto è stato presentato all’inizio del mese alla “International Conference on Computer Vision” di Parigi. “Noi possiamo visualizzare l’aspetto di una mela o di un’arancia tagliata a fette rispetto a un frutto intero, ma i modelli di apprendimento automatico richiedono molti dati per imparare a interpretarli”, ha dichiarato Nirat Saini, dottorando in informatica al quinto anno e autore principale dell’articolo. “Dovevamo trovare un metodo per aiutare il computer a immaginare scenari inediti nello stesso modo in cui lo fanno gli esseri umani”.
Per sviluppare i set di dati, Saini e i colleghi dottorandi in informatica Hanyu Wang e Archana Swaminathan si sono filmati mentre tagliavano 20 tipi di frutta e verdura in sette stili, utilizzando videocamere poste a quattro angolazioni.
Oltre a Saini, Wang e Swaminathan, il team di Chop & Learn comprende i dottorandi in informatica Vinoj Jayasundara e Bo He, Kamal Gupta Ph.D. ’23, ora alla Tesla Optimus, e il loro consulente Abhinav Shrivastava, professore assistente di informatica.
“Essere in grado di riconoscere gli oggetti mentre subiscono diverse trasformazioni è fondamentale per costruire sistemi di comprensione dei video a lungo termine”, ha dichiarato Shrivastava, che è anche professore presso l’Istituto di Studi Avanzati di Informatica dell’Università del Maryland. “Riteniamo che il nostro set di dati sia un buon inizio per fare progressi reali sul nocciolo fondamentale di questo problema”.
A breve termine, ha detto Shrivastava, il set di dati Chop & Learn contribuirà al progresso di compiti di immagine e video come la ricostruzione 3D, la generazione di video, la sintesi e il parsing di video a lungo termine. Questi progressi potrebbero un giorno avere un impatto più ampio su applicazioni come le funzioni di sicurezza dei veicoli senza conducente o l’aiuto ai funzionari nell’identificazione delle minacce alla sicurezza pubblica.
E anche se non è l’obiettivo immediato, Shrivastava ha detto che Chop & Learn potrebbe contribuire allo sviluppo di un cuoco robotico che, a comando, potrebbe trasformare i prodotti in pasti sani.