Insegnamento
METODI STATISTICI PER BIG DATA
SCP4063754, A.A. 2016/17

Principali informazioni sull'insegnamento
Corso di studio Corso di laurea in
STATISTICA PER LE TECNOLOGIE E LE SCIENZE
SC2094, ordinamento 2014/15, A.A. 2016/17
1113382
Crediti formativi 9.0
Denominazione inglese STATISTICAL METHODS FOR BIG DATA
Dipartimento di riferimento Dipartimento di Scienze Statistiche
Obbligo di frequenza No
Lingua di erogazione ITALIANO
Sede PADOVA

Docenti
Responsabile BRUNO SCARPA SECS-S/01
Altri docenti ANTONIO CANALE SECS-S/01

Mutuazioni
Codice Insegnamento Responsabile Corso
SCP4063754 METODI STATISTICI PER BIG DATA BRUNO SCARPA SC2095

Dettaglio crediti formativi
Tipologia Ambito Disciplinare Settore Scientifico-Disciplinare Crediti
AFFINE/INTEGRATIVA Attività formative affini o integrative SECS-S/01 9.0

Modalità di erogazione
Periodo di erogazione Secondo semestre
Anno di corso III Anno
Modalità di erogazione frontale

Organizzazione della didattica
Tipo ore Crediti Ore di
Corso
Ore Studio
Individuale
Turni
LABORATORIO 4.0 30 70.0 Nessun turno
LEZIONE 5.0 34 91.0 Nessun turno

Calendario
Inizio attività didattiche 27/02/2017
Fine attività didattiche 09/06/2017
Orario della didattica Visualizza calendario delle lezioni
Giorno Ora Aula Edificio
Orari_chiudi Lunedi' 14.30-16.30 ASID60, SC30, SC60 S.CATERINA
  06/03/2017 14.30-16.30 ASID60 S.CATERINA
13/03/2017 14.30-16.30 ASID60 S.CATERINA
20/03/2017 14.30-16.30 ASID60 S.CATERINA
27/03/2017 14.30-16.30 ASID60 S.CATERINA
03/04/2017 14.30-16.30 ASID60 S.CATERINA
10/04/2017 14.30-16.30 ASID60 S.CATERINA
08/05/2017 14.30-16.30 ASID60 S.CATERINA
15/05/2017 14.30-16.30 SC30 S.CATERINA
22/05/2017 14.30-16.30 SC60 S.CATERINA
29/05/2017 14.30-16.30 ASID60 S.CATERINA
05/06/2017 14.30-16.30 ASID60 S.CATERINA
Orari_chiudi Martedi' 10.30-12.30 ASID60, SC60 S.CATERINA
  28/02/2017 10.30-12.30 SC60 S.CATERINA
07/03/2017 10.30-12.30 SC60 S.CATERINA
14/03/2017 10.30-12.30 SC60 S.CATERINA
21/03/2017 10.30-12.30 SC60 S.CATERINA
28/03/2017 10.30-12.30 SC60 S.CATERINA
04/04/2017 10.30-12.30 SC60 S.CATERINA
11/04/2017 10.30-12.30 SC60 S.CATERINA
18/04/2017 10.30-12.30 SC60 S.CATERINA
09/05/2017 10.30-12.30 SC60 S.CATERINA
16/05/2017 10.30-12.30 ASID60 S.CATERINA
23/05/2017 10.30-12.30 ASID60 S.CATERINA
30/05/2017 10.30-12.30 SC60 S.CATERINA
06/06/2017 10.30-12.30 ASID60 S.CATERINA
Orari_chiudi Mercoledi' 10.30-12.30 ASID60, SC60 S.CATERINA
  01/03/2017 10.30-12.30 SC60 S.CATERINA
08/03/2017 10.30-12.30 SC60 S.CATERINA
15/03/2017 10.30-12.30 SC60 S.CATERINA
22/03/2017 10.30-12.30 SC60 S.CATERINA
29/03/2017 10.30-12.30 ASID60 S.CATERINA
05/04/2017 10.30-12.30 SC60 S.CATERINA
12/04/2017 10.30-12.30 SC60 S.CATERINA
19/04/2017 10.30-12.30 SC60 S.CATERINA
26/04/2017 10.30-12.30 SC60 S.CATERINA
03/05/2017 10.30-12.30 SC60 S.CATERINA
10/05/2017 10.30-12.30 SC60 S.CATERINA
17/05/2017 10.30-12.30 SC60 S.CATERINA
24/05/2017 10.30-12.30 SC60 S.CATERINA
31/05/2017 10.30-12.30 SC60 S.CATERINA
07/06/2017 10.30-12.30 SC60 S.CATERINA

Commissioni d'esame
Nessuna commissione d'esame definita

Syllabus
Prerequisiti: Algebra Lineare, Sistemi di elaborazione, Statistica 2, Modelli Statistici 1, Modelli
Statistici 2, Statistica Computazionale
Conoscenze e abilita' da acquisire: I metodi di analisi dei dati in statistica e machine learning giocano ormai un ruolo centrale nelle
realtà aziendali, industriali e scientifiche. La crescita del web e lo sviluppo di strumenti tecnologici
che raccolgono e salvano enormi quantità di dati e informazioni hanno portato ad un rapido
incremento nella dimensione dei dati e nella complessità delle analisi e della modellazione
statistica. Sorgono inoltre nuove forme di dati non direttamente riportabili alla classica matrice dei
dati statistica, ma a strutture più complesse come funzioni, grafi e reti. Queste moderne ed
emergenti applicazioni in ambito aziendale, industriale e tecnologico spiegano la necessità di
introdurre modelli statistici e algoritmi (scalabili, paralleli, ricorsivi e dinamici) che possano essere
adattati a queste grandi masse di dati. Il corso si propone di fornire, a livello di laurea triennale, gli
strumenti statistici di base per affrontare questi problemi, ponendosi in continuità rispetto al corso
di Analisi di dati multidimensionali. In particolare, il nuovo corso si propone di approfondire alcuni
argomenti (quali quelli legati ai metodi di riduzione della dimensionalità, analisi dei fattori, metodi
di raggruppamento), caratterizzandone l'applicazione al contesto dei "Big Data", introducendone
alcuni completamente nuovi, quali quelli legati all'analisi di dati funzionali, di reti sociali e
all'analisi di un numero elevato di variabili rispetto ad un numero esiguo di osservazioni.
Modalita' di esame: prova scritta e/o prova pratica
Criteri di valutazione: Correttezza e qualità delle prove d'esame.
Contenuti: - Metodi di visualizzazione dei dati e di big data.
- Metodi di riduzione della dimensionalità (independent component analysis, principal curves,
principal surfaces, projection pursuit)
- Metodi di estrazione di fattori: esempi di modelli di analisi fattoriale confermativa (e.g. Partial
Least Squares)
- Metodi di raggruppamento basati su modelli parametrici e non parametrici
- Metodi di analisi in presenza di un numero elevato di variabili e un esiguo numero di
osservazioni: metodi di stima penalizzata, lasso e lars e relative modifiche. Altri algoritmi
efficienti.
- Introduzione all'analisi dei dati funzionali
- Metodi di analisi di dati raccolti da reti (e reti sociali): struttura dei dati, modelli grafici e
semplici modelli statistici (e.g. logistico, di Erdos-Renyi, ERGM) ; modelli per dati da social
networks (e.g. Hopkins and King).
- Aspetti di statistica computazionale: algoritmi statistici di calcolo parallelo, ricorsivo e
dinamico. Stime ricorsive per modelli lineari e modelli lineari dinamici (algoritmo per stima
ricorsiva, filtro di Kalman).
Attivita' di apprendimento previste e metodologie di insegnamento: Lezioni frontali. Esercitazioni in laboratorio
Eventuali indicazioni sui materiali di studio: Materiale didattico disponibile sulla pagina web del corso. Lo strumento di calcolo primario
adottato per questo corso è l'ambiente di programmazione R; questo può essere prelevato, assieme
alla relativa documentazione, da una postazione CRAN.
Testi di riferimento:
  • Scarpa, B., Materiale didattico via web per l'insegnamento di Big Data. --: --, --.