Cluster Analysis Workshop

6 April 2022
INAPP

Data: 06-07 Aprile 2022
Luogo: Roma, Italia

Descrizione del Workshop

Il workshop illustra le i metodi statistici più diffusi di Classificazione Automatica basati sia sull’approccio gerarchico, con riferimento agli algoritmi agglomerativi, sia sull’approccio non gerarchico o partitivo. In particolare, nell’ambito dei modelli partitivi, il workshop presenta i metodi geometrici con alcuni cenni agli metodi basati su modelli di miscugli di gaussiane.

L’Istituto Nazionale per l’Analisi delle Politiche Pubbliche (INAPP) è un ente pubblico di ricerca, che svolge analisi, monitoraggio e valutazione delle politiche del lavoro e dei servizi per il lavoro, delle politiche dell’istruzione e della formazione, delle politiche sociali e di tutte quelle politiche pubbliche che hanno effetti sul mercato del lavoro. L’INAPP collabora con le istituzioni europee e fa parte del Sistema Statistico Nazionale (SISTAN) all’interno del quale, insieme ad Istat, è l’unico ente di informazione statistica.

Requisiti

Si raccomanda di portare il proprio laptop con sè, dotato di una versione recente di R e RStudio. Alcuni pacchetti aggiuntivi sono richiesti e saranno presentati ed installati durante le sessioni di laboratorio.

Si presume che i partecipanti abbiano familiarità con gli strumenti statistici di base e con l’ambiente R, ma non si presuppone alcuna conoscenza avanzata riguardo i modelli statistici e il clustering.

Programma

Giorno 1
09:30 - 13:00 Richiami ai concetti di distanza, prossimità e alla misura dell’eterogeneità in statistica Slides Lab
13:00 - 14:00 Pausa pranzo
14:00 - 16:30 Metodi gerarchici: legame semplice, medio, completo e criterio di Ward, scelta del numero di gruppi e valutazione della classificazione Slides Lab
Giorno 2
09:30 - 13:00 Metodi non gerarchici: l’algoritmo di McQueen e il metodo delle k-medie, altri algoritmi partitivi di tipo geometrico Slides Lab
13:00 - 14:00 Pausa pranzo
14:00 - 16:30 Miscugli di Gaussiane: definizione di distribuzione miscuglio, criterio di stima dei parametri del miscuglio e determinazione delle classi Slides Lab

« Stats and Football | Power Analysis: principali fonti di errore statistico, calcolo della sample size ed effect size, potenza dei test »