Con overfitting si intende un super adattamento durante il processo di apprendimento induttivo in progetti di machine learning e intelligenza artificiale.
Può capitare, infatti, che l’algoritmo si adatti eccessivamente ai dati di training, quando cioè si “istruisce” la macchina, e che si riveli dunque inefficace quando messo alla prova su dati generici: il modello garantirà dunque previsioni credibili durante la messa a punto, ma meno accurate per dati “reali”, riducendo il buon funzionamento del sistema e diminuendo l’attendibilità delle previsioni generate sui nuovi dati.
Come avviene l’overfitting?
L’overfitting si verifica nel momento in cui il modello di machine learning calza talmente bene sui dati di addestramento che non può più essere generalizzato in un contesto di dati estremamente variabile come l’applicazione in un contesto non più sperimentale.
Questo accade, ad esempio, quando il numero degli attributi da considerare è troppo elevato, poiché aumenta parallelamente il rischio di riscontrare un dato non rilevante che inquini gli altri, creando un albero decisionale compromesso.
Come capire quando è presente?
In genere, i dati di addestramento (o una parte degli stessi) vengono utilizzati per analizzare ulteriormente il comportamento del modello, mettendolo alla prova proponendogli valori differenti per natura e input: se vengono riscontrati alti tassi di errore, è probabile che si verificherà l’overfitting.
Ecco un esempio pratico di overfitting: immaginiamo un modello di machine learning impegnato ad analizzare dati di training relativi al thermal management:
Il compito del modello è identificare gli sbalzi di temperatura e umidità. Se molte delle variazioni di temperatura avvengono in uno scenario comune, ad esempio la notte, il modello potrebbe non mettere più il dato temperatura in relazione all’umidità, ma imparare a usare l’alternanza giorno/notte per classificare i dati. In questo caso, l’albero decisionale viene falsato e reso inutilizzabile da un errore nella classificazione del dato.
Quali sono le cause più frequenti e come evitarle
Le cause più comuni di overfitting sono:
- una scarsa dimensione dei dati di addestramento. Occorre fare in modo che il set di addestramento contenga campioni sufficienti utili a rappresentare tutte le variabili e i possibili input (nel nostro esempio, coprire più eventi possibili)
- una grande quantità di informazioni non rilevanti contenuta nei dati di addestramento. I parametri non rilevanti dovrebbero essere selezionati e rimossi (nel nostro esempio: l’orario)
- un addestramento orientato solo su un set di dati campione. Il modello si focalizza eccessivamente su quel determinato set e non riesce quindi ad adattarsi a dati differenti (nel nostro esempio: trovare un giusto “tempo”, come un ciclo annuo che preveda tutte le stagioni)
- un modello troppo complesso. In questi casi, il modello stesso interpreta i dati di addestramento individuando i “rumori” (nel nostro esempio: eliminare altre variabili non rilevanti, come i fermi macchina per la manutenzione)
C’è dunque un altro rischio: senza dati rilevanti sufficienti, infatti, si corre il rischio opposto: l’underfitting.
Quindi, è solo addestrando adeguatamente il modello che è possibile ridurre la percentuale di errori, ma bisogna prestare attenzione a trovare il giusto compromesso tra i due estremi, underfitting e overfitting.
Il machine learning nei quadri elettrici
Se si parla di thermal management dei quadri elettrici, Sensis di Fandis è il primo dispositivo IIoT in grado di misurare le grandezze climatiche nell’armadio e regolare di conseguenza i dispositivi di riscaldamento e raffrescamento al suo interno, per mantenere il livello di temperatura ottimale, elaborando informazioni e riconoscendo gli eventi anomali, grazie a un’analisi predittiva.
Per saperne di più su Sensis e su tutti i nostri prodotti per la quadristica, visita il nostro sito fandis.com, sfoglia il nostro blog oppure invia una mail a support@fandis.com. Il nostro staff ti risponderà il prima possibile.
Lascia un commento