Corsi di Laurea Corsi di Laurea Magistrale Corsi di Laurea Magistrale
a Ciclo Unico
Scuola di Scienze
SCIENZE STATISTICHE
Insegnamento
ANALISI DEI DATI (DATA MINING)
SCP4062891, A.A. 2018/19

Informazioni valide per gli studenti immatricolati nell'A.A. 2018/19

Principali informazioni sull'insegnamento
Corso di studio Corso di laurea magistrale in
SCIENZE STATISTICHE
SS1736, ordinamento 2014/15, A.A. 2018/19
N0
porta questa
pagina con te
Crediti formativi 9.0
Tipo di valutazione Voto
Denominazione inglese DATA MINING
Sito della struttura didattica http://scienzestatistiche.scienze.unipd.it/2018/laurea_magistrale
Dipartimento di riferimento Dipartimento di Scienze Statistiche
Obbligo di frequenza No
Lingua di erogazione ITALIANO
Sede PADOVA
Corso singolo È possibile iscriversi all'insegnamento come corso singolo
Corso a libera scelta È possibile utilizzare l'insegnamento come corso a libera scelta

Docenti
Responsabile BRUNO SCARPA SECS-S/01

Dettaglio crediti formativi
Tipologia Ambito Disciplinare Settore Scientifico-Disciplinare Crediti
CARATTERIZZANTE Statistico SECS-S/01 9.0

Modalità di erogazione
Periodo di erogazione Secondo semestre
Anno di corso I Anno
Modalità di erogazione frontale

Organizzazione della didattica
Tipo ore Crediti Ore di
Corso
Ore Studio
Individuale
Turni
LABORATORIO 4.0 30 70.0 Nessun turno
LEZIONE 5.0 34 91.0 Nessun turno

Calendario
Inizio attività didattiche 25/02/2019
Fine attività didattiche 14/06/2019

Syllabus
Prerequisiti: Sostanziali ma non formali:
Modelli statistici II
Analisi dei dati Multidimensionali,
un primo corso di Programmazione,
un primo corso di Algebra Lineare
Conoscenze e abilita' da acquisire: Lo scopo del corso è di introdurre gli studenti alla comprensione e alla reale capacità di utilizzo di strumenti di data mining e di metodi statistici per l’analisi dei dati.
Modalita' di esame: La prova d'esame consta di tre parti: una parte "teorica", una "pratica" ed una "orale".
Criteri di valutazione: Correttezza e qualità delle prove d'esame
Contenuti: - Nozioni generali: motivazioni e contesto, contrasto tra aderenza ai dati e complessità del modello ovvero contrasto tra distorsione e varianza, tecniche generali per la selezione del modello (AIC, BIC, convalida incrociata, oltre ai test statistici classici), suddivisione dei dati in un insieme di lavoro e uno di verifica.
- Metodi di regressione: richiami sui modelli lineari e sui glm; regressione non parametrica mediante il metodo della regressione locale, splines di regressione, splines di lisciamento, modelli additivi, alberi, mars, projection pursuit, reti neurali (cenni).
- Metodi di classificazione: mediante la regressione lineare, richiami sulla regressione logistica e multilogit, modelli additivi, alberi, polymars, reti neurali, combinazione di classificatori (bagging, boosting, foreste casuali), support vector machines.
- Metodi di analisi interna: nozioni sui metodi di raggruppamento: dissimilarità, metodo delle k-medie, metodi gerarchici. Analisi delle associazioni tra variabili, algoritmo Apriori. Reti sociali (cenni).
- Miscellanea: sentiment analysis (cenni), tecniche di visualizzazione dei dati, cenni ad aspetti computazionali.
Attivita' di apprendimento previste e metodologie di insegnamento: Lezioni frontali. Esercitazioni in laboratorio
Eventuali indicazioni sui materiali di studio: Strumenti informatici
Lo strumento di calcolo primario adottato per questo corso è l'ambiente di programmazione R; questo può essere prelevato, assieme alla relativa documentazione, da una postazione CRAN.
Testi di riferimento:
  • Azzalini, A. e Scarpa, B., Data analysis and data mining: an introduction. New York: Oxford University Press, 2012. Cerca nel catalogo
  • Azzalini, A. e Scarpa, B., Analisi dei dati e data mining. Milano: Springer-Verlag Italia, 2004. Cerca nel catalogo
  • Hastie, Trevor J.; Tibshirani, Robert, The elements of statistical learningdata mining, inference, and predictionTrevor Hastie, Robert Tibshirami, Jerome Friedman. New York: Springer, 2009.

Didattica innovativa: Strategie di insegnamento e apprendimento previste
  • Lecturing
  • Laboratory
  • Case study
  • Working in group
  • Questioning
  • Story telling
  • Problem solving
  • Files e pagine caricati online (pagine web, Moodle, ...)

Didattica innovativa: Software o applicazioni utilizzati
  • Moodle (files, quiz, workshop, ...)

Obiettivi Agenda 2030 per lo sviluppo sostenibile
Istruzione di qualita' Industria, innovazione e infrastrutture