La classificazione supervisionata del Machine Learning: come automatizzarla?

La Redazione
Content Intelligence Network

Sembra di aver a che fare con delle matrioske: dentro la macro-categoria AI ci sta il Machine Learning e dentro il Machine Learning ci sta il Deep Learning.

Con il termine Machine Learning si indicano quelle tecniche che consentono ai computer di estrarre informazioni dai dati, una sorta di precondizione di intelligenza. La macchina, ricevendo input dal mondo esterno, dovrebbe riuscire a imparare continuamente dando un significato ai dati raccolti.

Questo è totalmente naturale negli animali: essi, grazie all’evoluzione del loro cervello, sono in grado di riscontrare eventuali anomalie nel loro raggio d’azione. Per un computer è davvero difficile. Per capire i motivi utilizziamo l’esempio portato al Tedx dal prof. Riccardo Zecchina dell’Università Bocconi.

Immaginiamo di dover scrivere uno pseudo codice per istruire correttamente gli algoritmi a classificare una sedia. Se un oggetto ha quattro “gambe”, ha una superficie piana su cui sedersi e uno schienale esso è da identificare come “sedia”. Questo funziona nel caso di sedie “normali” ma già con una sedia girevole, con 5 ruote, l’algoritmo va in tilt. E così bisogna aggiornare il codice. E nel caso di una sedia progettata da un designer con forme strane o senza gambe come la mettiamo?

 sedie

Nuove sfide all’orizzonte


Ecco che, come sottolinea Zecchina, si richiede una strategia completamente diversa, è meglio che il sistema impari dagli esempi piuttosto che a priori. Quando parliamo di reti neurali profonde, composte da molti strati a loro volta formati da diversi nodi, ovvero i neuroni artificiali (sono un modello stilizzato di neuroni biologici), bisognerebbe riuscire a ricondizionare le connessioni attraverso un processo eidetico al punto in cui la rete è in grado di classificare correttamente gli esempi forniti.

Con questo training la rete impara col tempo ad estrarre tutte le caratteristiche fondamentali dell’input (modello) e riesce a rinvenirle in immagini che non ha mai visto: per esempio è in grado di riconoscere una persona in una foto di 25 anni prima.  

Le sfide che si prospettano all’orizzonte secondo Zecchina sono due: la prima è riuscire a creare algoritmi in grado di estrarre informazioni per identificare i modelli senza alcuna supervisione umana, la seconda è renderli capaci di riconoscere la causalità, ovvero le relazioni tra causa ed effetto.

Un simile desiderio sta coinvolgendo anche i tecnici di soluzioni AI lato business, come possono essere quelle che si occupano di Content Management. Non serve ricordare come, con la proliferazione dei contenuti aziendali, sia sempre più necessario ordinarli e classificarli per permetterne il recupero e il riutilizzo del tempo.

 

Il caso THRON

 

C’è un Saas DAM italiano che sta lavorando in questa direzione, parliamo di THRON: uno dei suoi goal è quello di rendere sempre più automatica la classificazione dei contenuti, eliminando il più possibile l’intervento manuale per arricchirli.

Si è deciso di togliere il costo della manutenzione del training, una spesa poco sostenibile all’interno dell’azienda. Cosa significa? Mentre prima a THRON veniva fornita una libreria di apprendimento, ovvero una sorta di vocabolario standard, che poi l’utente andava a rivedere manualmente attraverso il Tag Center con la tassonomia specifica del brand, adesso i nuovi motori AI che verranno implementati verso la fine del 2019 utilizzeranno la tecnica del “learning by doing”. 

Questo vuol dire che mano a mano che i contenuti vengono taggati dall’editor già nell’ottica di rispettare il paradigma della tassonomia del marchio, i motori AI apprendono automaticamente le tag corrette e a loro volta imparano ad applicarle. All’inizio THRON non saprà ancora quando una determinata tag è adatta ai contenuti proposti ma con pochi contenuti classificati sarà già in grado di farlo autonomamente.

Questo significa abbattere completamente il tempo di tagging perché i motori non richiedono più una dispendiosa attività di training preventiva perché l’apprendimento si farà itinerante. Tra l’altro le informazioni semantiche non spariranno ma resteranno “sotto al cofano” e saranno utilizzabili a fini di ricerca.