Corsi di Laurea Corsi di Laurea Magistrale Corsi di Laurea Magistrale
a Ciclo Unico
Scuola di Scienze
SCIENZE STATISTICHE
Insegnamento
METODI INFORMATICI PER LA STATISTICA E IL DATA SCIENCE
SCP7081820, A.A. 2018/19

Informazioni valide per gli studenti immatricolati nell'A.A. 2018/19

Principali informazioni sull'insegnamento
Corso di studio Corso di laurea magistrale in
SCIENZE STATISTICHE
SS1736, ordinamento 2014/15, A.A. 2018/19
N0
porta questa
pagina con te
Crediti formativi 9.0
Tipo di valutazione Voto
Denominazione inglese INFORMATIC METHODS FOR STATISTICS AND DATA SCIENCE
Sito della struttura didattica http://www.stat.unipd.it/studiare/ammissione-laurea-magistrale
Dipartimento di riferimento Dipartimento di Scienze Statistiche
Sito E-Learning https://elearning.unipd.it/stat/course/view.php?idnumber=2018-SS1736-000ZZ-2018-SCP7081820-N0
Obbligo di frequenza No
Lingua di erogazione ITALIANO
Sede PADOVA
Corso singolo È possibile iscriversi all'insegnamento come corso singolo
Corso a libera scelta È possibile utilizzare l'insegnamento come corso a libera scelta

Docenti
Responsabile MASSIMO MELUCCI ING-INF/05

Dettaglio crediti formativi
Tipologia Ambito Disciplinare Settore Scientifico-Disciplinare Crediti
AFFINE/INTEGRATIVA Attività formative affini o integrative ING-INF/05 9.0

Organizzazione dell'insegnamento
Periodo di erogazione Secondo semestre
Anno di corso I Anno
Modalità di erogazione frontale

Tipo ore Crediti Ore di
didattica
assistita
Ore Studio
Individuale
LEZIONE 9.0 64 161.0

Calendario
Inizio attività didattiche 25/02/2019
Fine attività didattiche 14/06/2019
Visualizza il calendario delle lezioni Lezioni 2019/20 Ord.2014

Commissioni d'esame
Commissione Dal Al Membri
2 Commissione a.a.2018/19 01/10/2018 30/09/2019 MELUCCI MASSIMO (Presidente)
MORO MICHELE (Membro Effettivo)
ZINGIRIAN NICOLA (Membro Effettivo)

Syllabus
Prerequisiti: I prerequisiti sono relativamente semplici, ma necessari: elementi di strutture di dati (variabile, file, vettore, matrice), algoritmi elementari, sistemi di elaborazione, e sistemi di gestione delle basi di dati. La conoscenza di un linguaggio di programmazione e' utile, ma non strettamente necessaria. La conoscenza di R e' sconsigliata.
Conoscenze e abilita' da acquisire: S’intende fornire le conoscenze concrete di metodi e strumenti informatici affinché uno studente possegga maggiore competenza in Statistica di un informatico e maggiore competenza in Informatica di uno statistico. Particolare enfasi sarà posta su programmazione e gestione dei dati e sul superamento del modo di scrivere software indotto da linguaggi come R e da pacchetti di software preconfezionato.
Modalita' di esame: La prova d’esame sarà orale e si baserà sulla discussione di un mini-progetto d'approfondimento delle tematiche affrontate.
Il “mini-progetto e` un progetto di un'applicazione di Data Science. E` scelto e condotto da un gruppo autonomo di uno, due o tre studenti. Lo scopo e` la messa in pratica dei contenuti della disciplina illustrati durante le lezioni. Si deve consegnare una documentazione scritta in formato digitale di cui si dara` il modello mediante moodle.”
Il gruppo deve essere in grado di spiegare le problematiche, le metodologie, gli strumenti e i risultati otte- nuti col proprio mini-progetto. La verifica della spiegazione consistera` in un questionario somministrato ai membri degli altri gruppi.
Il tema _deve_ essere scelto tra i seguenti:
1. Flussi di dati (Stream Processing).
2. Insiemi frequenti nei flussi di dati.
3. Algoritmo FPgrowth per il calcolo di insiemi frequenti.
4. Raggruppamento di immagini / musica / film.
5. Raccomandazione di immagini / musica / film.
6. Percettori e SVM.
7. Raggruppamento sovrapposto.
8. Analisi spettrale dei grafi.
9. Simrank.
10. Motore di ricerca di argomenti.
11. Decomposizione CUR.
12. PageRank sensibile agli argomenti.
13. Link Spam e Link Farm.
14. Pubblicita` a bilancio variabile (algoritmo BALANCE).
Qualunque sia il tema il mini-progetto puo` essere:
• descrittivo: si tratta di raccontare il problema, gli approcci, gli aspetti computazionali; si faccia attenzione a non tradurre ciecamente dall’inglese, si cerchi piuttosto di far capire gli aspetti es- senziali come se si trattasse di materiale per un esame; si raccomanda di sviluppare del software esemplificativo;
• empirico: si illustrano i risultati dell’utilizzo di uno o piu` metodi senza necessariamente mostrare la superiorita` di un metodo su un altro; bisogna realizzare del software e rendere disponibili i dataset utilizzati;
• sperimentale: si progettano e si effettuano degli esperimenti con raccolte di dati pubblici allo scopo di mostrare la superiorita` di un metodo su un altro; si deve consegnare anche il software sviluppato; la relazione deve descrivere nel dettaglio gli esperimenti allo scopo di permetterne la riproducibilita`;
• teorico: si illustrano proprieta` teoriche e formale di metodi, modelli e algoritmi mediante teore- mi o discussioni approfondite e rigorose; sebbene, in questo caso, il software non sia strettamente necessario, si consiglia di accompagnare la trattazione con prove empiriche (vedi sopra);
• metodologico: si progetta una metodologia, ovvero un insieme di metodi coordinati allo scopo di risolvere un problema e raggiungere dei risultati; la metodologia deve essere implementata da una serie di programmi funzionanti e deve essere documentata nella relazione.
Ci sono alcuni requisiti:
• il software dell’applicazione deve essere sviluppato in Python; altri strumenti sono ammessi, ma solo di “contorno”, come ad esempio R per le analisi statistiche e la grafica; i programmi e i dati devono essere consegnati in archivi compressi o cartelle chiamati col nome del gruppo;
• il software deve essere scritto in modo “pulito” e deve essere commentato in inglese o in italiano; i nomi degli oggetti e delle funzioni devono essere auto-esplicativi; i nomi dei file dei programmi e dei dati devono essere anch’essi auto-esplicativi;
• l’applicazione finale deve essere accompagnata dal file di nome README.txt in cui si descrivono brevemente i file e le modalita` di utilizzo.
Criteri di valutazione: Si valuterà la comprensione delle problematiche e la capacità di trovare e di progettare soluzioni automatizzate per l'organizzazione, la gestione e l'analisi di dati allo scopo di svolgere i compiti illustrati nei contenuti e previsti dal progetto della prova orale.
Contenuti: 1. Introduzione a Python: ambiente, costrutti, primi esempi.
2. Raccolta, organizzazione e gestione di grandi masse di dati: pattern matching, parsing (XML, CSV).
3. Strutture di dati fondamentali: liste, hash, grafi, alberi.
4. Algoritmi fondamentali: ricorsione, ricerca, ordinamento.
5. Architetture distribuite con MapReduce.
6. Rappresentazione e reperimento.
7. Reti, link e click-through: WWW, Link Analysis, HITS, Pagerank.
8. Decomposizione e riduzione della dimensionalita'.
9. Insiemi frequenti.
Attivita' di apprendimento previste e metodologie di insegnamento: I contenuti saranno trattati in forma prevalentemente laboratoriale mediante lo sviluppo di programmi e l’utilizzo di librerie software in Python.
Gli elementi metodologici saranno introdotti allo scopo di conoscere le problematiche sottostanti, di progettare e realizzare progetti, e di utilizzare gli strumenti in modo consapevole.
Eventuali indicazioni sui materiali di studio: Materiale didattico sarà distribuito durante le lezioni in aggiunta ai testi di riferimento. Alcuni testi, specialmente quelli per la programmazione e la gestione dei dati, saranno indicati all'inizio delle lezioni.
Testi di riferimento:
  • Melucci, Massimo, Information Retrieval. --: Franco Angeli, 2013. Cerca nel catalogo
  • Aho, Alfred; Ullmann, Jeffrey D., Fondamenti di informatica. --: Zanichelli, --. Versione inglese disponibile all'indirizzo http://infolab.stanford.edu/~ullman/focs.html [visitato in aprile 2018] Cerca nel catalogo
  • Leskovec, Juri; Rajaraman, Anand; Ullman, Jeffrey D., Mining Massive Datasets. --: Cambridge University Press, 2014. Disponibile all'indirizzo http://www.mmds.org [visitato in aprile 2018] Cerca nel catalogo

Didattica innovativa: Software o applicazioni utilizzati
  • Latex