Corsi di Laurea Corsi di Laurea Magistrale Corsi di Laurea Magistrale
a Ciclo Unico
Scuola di Scienze
SCIENZE STATISTICHE
Insegnamento
ANALISI DEI DATI (DATA MINING)
SCP4062891, A.A. 2017/18

Informazioni valide per gli studenti immatricolati nell'A.A. 2017/18

Principali informazioni sull'insegnamento
Corso di studio Corso di laurea magistrale in
SCIENZE STATISTICHE
SS1736, ordinamento 2014/15, A.A. 2017/18
N0
porta questa
pagina con te
Crediti formativi 9.0
Tipo di valutazione Voto
Denominazione inglese DATA MINING
Sito della struttura didattica http://scienzestatistiche.scienze.unipd.it/2017/laurea_magistrale
Dipartimento di riferimento Dipartimento di Scienze Statistiche
Obbligo di frequenza No
Lingua di erogazione ITALIANO
Sede PADOVA
Corso singolo È possibile iscriversi all'insegnamento come corso singolo
Corso a libera scelta È possibile utilizzare l'insegnamento come corso a libera scelta

Docenti
Responsabile BRUNO SCARPA SECS-S/01

Dettaglio crediti formativi
Tipologia Ambito Disciplinare Settore Scientifico-Disciplinare Crediti
CARATTERIZZANTE Statistico SECS-S/01 9.0

Modalità di erogazione
Periodo di erogazione Secondo semestre
Anno di corso I Anno
Modalità di erogazione frontale

Organizzazione della didattica
Tipo ore Crediti Ore di
Corso
Ore Studio
Individuale
Turni
LABORATORIO 4.0 30 70.0 2
LEZIONE 5.0 34 91.0 Nessun turno

Calendario
Inizio attività didattiche 26/02/2018
Fine attività didattiche 01/06/2018

Syllabus
Prerequisiti: Sostanziali ma non formali:
Modelli statistici II
Analisi dei dati Multidimensionali,
un primo corso di Programmazione,
un primo corso di Algebra Lineare
Conoscenze e abilita' da acquisire: Lo scopo del corso è di introdurre gli studenti alla comprensione e alla reale capacità di utilizzo di strumenti di data mining e di metodi statistici per l’analisi dei dati.
Modalita' di esame: La prova d'esame consta di tre parti: una parte "teorica", una "pratica" ed una "orale".
Criteri di valutazione: Correttezza e qualità delle prove d'esame
Contenuti: - Nozioni generali: motivazioni e contesto, contrasto tra aderenza ai dati e complessità del modello ovvero contrasto tra distorsione e varianza, tecniche generali per la selezione del modello (AIC, BIC, convalida incrociata, oltre ai test statistici classici), suddivisione dei dati in un insieme di lavoro e uno di verifica.
- Metodi di regressione: richiami sui modelli lineari e sui glm; regressione non parametrica mediante il metodo della regressione locale, splines di regressione, splines di lisciamento, modelli additivi, alberi, mars, projection pursuit, reti neurali (cenni).
- Metodi di classificazione: mediante la regressione lineare, richiami sulla regressione logistica e multilogit, modelli additivi, alberi, polymars, reti neurali, combinazione di classificatori (bagging, boosting, foreste casuali), support vector machines.
- Metodi di analisi interna: nozioni sui metodi di raggruppamento: dissimilarità, metodo delle k-medie, metodi gerarchici. Analisi delle associazioni tra variabili, algoritmo Apriori. Reti sociali (cenni).
- Miscellanea: sentiment analysis (cenni), tecniche di visualizzazione dei dati, cenni ad aspetti computazionali.
Attivita' di apprendimento previste e metodologie di insegnamento: Lezioni frontali. Esercitazioni in laboratorio
Eventuali indicazioni sui materiali di studio: Strumenti informatici
Lo strumento di calcolo primario adottato per questo corso è l'ambiente di programmazione R; questo può essere prelevato, assieme alla relativa documentazione, da una postazione CRAN.
Testi di riferimento:
  • Azzalini, A. e Scarpa, B., Data analysis and data mining: an introduction. New York: Oxford University Press, 2012. Cerca nel catalogo
  • Azzalini, A. e Scarpa, B., Analisi dei dati e data mining. Milano: Springer-Verlag Italia, 2004. Cerca nel catalogo