Corsi di Laurea Corsi di Laurea Magistrale Corsi di Laurea Magistrale
a Ciclo Unico
Scuola di Scienze
STATISTICA PER LE TECNOLOGIE E LE SCIENZE
Insegnamento
METODI STATISTICI PER BIG DATA
SCP4063754, A.A. 2018/19

Informazioni valide per gli studenti immatricolati nell'A.A. 2016/17

Principali informazioni sull'insegnamento
Corso di studio Corso di laurea in
STATISTICA PER LE TECNOLOGIE E LE SCIENZE
SC2094, ordinamento 2014/15, A.A. 2018/19
N0
porta questa
pagina con te
Crediti formativi 9.0
Tipo di valutazione Voto
Denominazione inglese STATISTICAL METHODS FOR BIG DATA
Sito della struttura didattica http://www.stat.unipd.it/studiare/ammissione-lauree-triennali
Dipartimento di riferimento Dipartimento di Scienze Statistiche
Obbligo di frequenza No
Lingua di erogazione ITALIANO
Sede PADOVA
Corso singolo È possibile iscriversi all'insegnamento come corso singolo
Corso a libera scelta È possibile utilizzare l'insegnamento come corso a libera scelta

Docenti
Responsabile BRUNO SCARPA SECS-S/01
Altri docenti MARIO NAMTAO SHIANTI LARCHER

Mutuazioni
Codice Insegnamento Responsabile Corso di studio
SCP4063754 METODI STATISTICI PER BIG DATA BRUNO SCARPA SC2095

Dettaglio crediti formativi
Tipologia Ambito Disciplinare Settore Scientifico-Disciplinare Crediti
AFFINE/INTEGRATIVA Attività formative affini o integrative SECS-S/01 9.0

Organizzazione dell'insegnamento
Periodo di erogazione Secondo semestre
Anno di corso III Anno
Modalità di erogazione frontale

Tipo ore Crediti Ore di
didattica
assistita
Ore Studio
Individuale
LABORATORIO 4.0 30 70.0
LEZIONE 5.0 34 91.0

Calendario
Inizio attività didattiche 25/02/2019
Fine attività didattiche 14/06/2019
Visualizza il calendario delle lezioni Lezioni 2019/20 Ord.2014

Commissioni d'esame
Commissione Dal Al Membri
3 Commissione a.a.2018/19 01/10/2018 30/09/2019 SCARPA BRUNO (Presidente)
CANALE ANTONIO (Membro Effettivo)
FINOS LIVIO (Membro Effettivo)
MENARDI GIOVANNA (Membro Effettivo)

Syllabus
Prerequisiti: Sostanziali ma non formali:
Algebra Lineare, Sistemi di elaborazione, Statistica 2, Modelli Statistici 1, Analisi di dati multidimensionali
Conoscenze e abilita' da acquisire: I metodi di analisi dei dati in statistica e machine learning giocano ormai un ruolo centrale nelle realtà aziendali, industriali e scientifiche. La crescita del web e lo sviluppo di strumenti tecnologici che raccolgono e salvano enormi quantità di dati e informazioni hanno portato ad un rapido incremento nella dimensione dei dati e nella complessità delle analisi e della modellazione
statistica. Sorgono inoltre nuove forme di dati non direttamente riportabili alla classica matrice dei dati statistica, ma a strutture più complesse come funzioni, grafi e reti. Queste moderne ed emergenti applicazioni in ambito aziendale, industriale e tecnologico spiegano la necessità di introdurre modelli statistici e algoritmi (scalabili, paralleli, ricorsivi e dinamici) che possano essere adattati a queste grandi masse di dati. Il corso si propone di fornire, a livello di laurea triennale, gli strumenti statistici di base per affrontare questi problemi, ponendosi in continuità rispetto al corso di Analisi di dati multidimensionali. In particolare, il nuovo corso si propone di approfondire alcuni argomenti (quali quelli legati ai metodi di riduzione della dimensionalità, analisi dei fattori, metodi di raggruppamento), caratterizzandone l'applicazione al contesto dei "Big Data", introducendone alcuni completamente nuovi, quali quelli legati all'analisi di dati funzionali, di reti sociali e all'analisi di un numero elevato di variabili rispetto ad un numero esiguo di osservazioni.
Modalita' di esame: Prova pratica e prova orale

La prova pratica consiste in un lavoro di gruppo in cui gli studenti dovranno analizzare un insieme di dati reali, predisporre una relazione scritta e presentarne oralmente l'attività e i risultati.

La prova orale consiste in colloquio individuale su tutto il programma del corso.
Criteri di valutazione: Gli elementi di valutazione saranno:
- l’effettiva congruenza del dataset alla definizione di big data (dimensione, complessità,…)
- la qualità dell’analisi statistica condotta e la sua adeguatezza e corrispondenza al problema posto
- la chiarezza ed organicità della relazione
- la qualità della presentazione e della discussione orale
- la correttezza e qualità della prova orale
Contenuti: - Metodi di visualizzazione di big data.
- Metodi di riduzione della dimensionalità (independent component analysis, principal curves, principal surfaces, t-sne)
- Metodi di analisi in presenza di un numero elevato di variabili e un esiguo numero di osservazioni: metodi di stima penalizzata, ridge, lasso e relative modifiche. Algoritmi efficienti.
- Introduzione all'analisi dei dati funzionali
- Metodi di analisi di dati raccolti da reti (e reti sociali): struttura dei dati, modelli grafici e semplici modelli statistici (logistico, di Erdos-Renyi, ERGM)
- Modelli per dati da testi e sentiment analysis (iSA).
- Regole di associazione
- Aspetti di statistica computazionale: algoritmi statistici di calcolo parallelo, ricorsivo e dinamico. Stime ricorsive per modelli lineari e modelli lineari dinamici (filtro di Kalman).
Attivita' di apprendimento previste e metodologie di insegnamento: Lezioni frontali. Esercitazioni in laboratorio
Eventuali indicazioni sui materiali di studio: Materiale didattico disponibile sulla piattaforma di elearning del corso.
Testi di riferimento:
  • Scarpa, B., Materiale didattico via web per l'insegnamento di Big Data. --: --, --.
  • Azzalini, Adelchi; Scarpa, Bruno, Data analysis and data miningan introduction. New York: Oxford University Press, 2012. Cerca nel catalogo
  • Ceron, Andrea; Curini, Luigi, Social media e sentiment analysisl'evoluzione dei fenomeni sociali attraverso la rete. Milano: Springer, 2014. Cerca nel catalogo

Didattica innovativa: Strategie di insegnamento e apprendimento previste
  • Lecturing
  • Laboratory
  • Problem based learning
  • Case study
  • Interactive lecturing
  • Working in group
  • Questioning
  • Action learning
  • Story telling
  • Problem solving
  • Mappe concettuali
  • Peer feedback
  • Files e pagine caricati online (pagine web, Moodle, ...)

Didattica innovativa: Software o applicazioni utilizzati
  • Moodle (files, quiz, workshop, ...)
  • Latex
  • R, Python

Obiettivi Agenda 2030 per lo sviluppo sostenibile
Istruzione di qualita' Industria, innovazione e infrastrutture