Vai al contenuto

Safe Exploration-Exploitation: come conciliare performance e garanzie sul comportamento dell’AI

  • di

L’Online Learning è un paradigma dell’apprendimento automatico (machine learning) molto studiato dalla comunità scientifica per i problemi decisionali in tutti quei casi in cui i dati diventano disponibili solo durante l’esecuzione degli algoritmi. Il principio alla base del suo funzionamento è la ricerca del migliore trade-off tra una sufficiente raccolta di dati (Exploration) e un utilizzo efficace di questi ultimi (Exploitation) per trovare la soluzione ottimale al problema di decisione da affrontare. Nonostante la grande mole di articoli scientifici prodotta sull’argomento, l’applicazione dell’Online Learning in domini reali legati al mondo delle imprese presenta alcune criticità. Queste riguardano principalmente il modo con cui gli algoritmi esplorano. Infatti, una esplorazione troppo limitata può impedire agli algoritmi di trovare buone soluzioni e di conseguenza dare risultati non del tutto soddisfacenti all’azienda. Dall’altra parte, una esplorazione incontrollata può portare a prestazioni molto oscillanti nelle fasi iniziali dell’apprendimento (ad esempio in termini di fatturato) che solitamente spaventano i decisori umani, spingendoli a spegnere gli algoritmi. In questo articolo, proponiamo quella che si sta dimostrando la soluzione più promettente a queste criticità: costruire algoritmi di apprendimento online che siano safe, cioè che controllino in modo opportuno l’esplorazione in modo tale da avere sia garanzie di prestazioni stabili e non oscillanti nel tempo che il raggiungimento della soluzione ottima.

Questo è il tema centrale del nuovo articolo scritto dai ricercatori di AIRIC per AI4Business: trovi l’articolo completo qui.