Corsi di Laurea Corsi di Laurea Magistrale Corsi di Laurea Magistrale
a Ciclo Unico
Scuola di Scienze
STATISTICA PER LE TECNOLOGIE E LE SCIENZE
Insegnamento
BASI DI DATI 2
SCP4063825, A.A. 2018/19

Informazioni valide per gli studenti immatricolati nell'A.A. 2016/17

Principali informazioni sull'insegnamento
Corso di studio Corso di laurea in
STATISTICA PER LE TECNOLOGIE E LE SCIENZE
SC2094, ordinamento 2014/15, A.A. 2018/19
N0
porta questa
pagina con te
Crediti formativi 9.0
Tipo di valutazione Voto
Denominazione inglese DATABASES 2
Sito della struttura didattica http://www.stat.unipd.it/studiare/ammissione-lauree-triennali
Dipartimento di riferimento Dipartimento di Scienze Statistiche
Obbligo di frequenza No
Lingua di erogazione ITALIANO
Sede PADOVA
Corso singolo È possibile iscriversi all'insegnamento come corso singolo
Corso a libera scelta È possibile utilizzare l'insegnamento come corso a libera scelta

Docenti
Responsabile MASSIMO MELUCCI ING-INF/05
Altri docenti MARCO DUSSIN 000000000000

Dettaglio crediti formativi
Tipologia Ambito Disciplinare Settore Scientifico-Disciplinare Crediti
AFFINE/INTEGRATIVA Attività formative affini o integrative ING-INF/05 9.0

Organizzazione dell'insegnamento
Periodo di erogazione Secondo semestre
Anno di corso III Anno
Modalità di erogazione frontale

Tipo ore Crediti Ore di
didattica
assistita
Ore Studio
Individuale
LABORATORIO 2.0 12 38.0
LEZIONE 7.0 52 123.0

Calendario
Inizio attività didattiche 25/02/2019
Fine attività didattiche 14/06/2019

Commissioni d'esame
Commissione Dal Al Membri
3 Commissione a.a.2018/19 01/10/2018 30/09/2019 MELUCCI MASSIMO (Presidente)
DUSSIN MARCO (Membro Effettivo)
GIUNTA ANTONIO (Membro Effettivo)
ZINGIRIAN NICOLA (Membro Effettivo)

Syllabus
Prerequisiti: E' richiesta la conoscenza dei concetti di Basi di Dati 1 e di Sistemi di elaborazione 1. Si raccomanda la conoscenza dei contenuti di Sistemi di elaborazione 2.
Conoscenze e abilita' da acquisire: S'intende formare una figura professionale in grado di descrivere, raccogliere, organizzare, gestire e analizzare grandi moli di dati eterogenei mediante rigorose metodologie informatiche. A questo scopo, s'intende promuovere la conoscenza dei principali metodi e strumenti di gestione, estrazione e analisi di basi di dati anche di grandi dimensioni.
Modalita' di esame: L'esame consiste in una relazione scritta relativa ad un mini-progetto che, nel caso dei non frequentanti o comunque in appelli successivi al primo, e' integrata da una prova orale. Il mini-progetto verte sui metodi di rappresentazione, indicizzazione, reperimento e ordinamento di dati non strutturati trattati durante l'insegnamento.
Il mini-progetto e` un progetto di un servizio di IR. E` scelto e condotto da un gruppo autonomo di uno, due o tre studenti. Lo scopo del progetto e` la messa in pratica dei contenuti della disciplina illustrati durante le lezioni. Il gruppo deve essere in grado di spiegare le problematiche, le metodologie, gli strumenti e i risultati ottenuti col proprio mini-progetto.
Sara` distribuita una collezione sperimentale comune a tutti i gruppi; solo e tutta questa collezione dovra` essere utilizzata.
Il contenuto del mini-progetto deve includere:
1. uno o piu` programmi di indicizzazione del corpus di documenti;
2. uno o piu` programmi di reperimento di documenti in risposta a ciascuna interrogazione del corpus di interrogazioni; tra i programmi di reperimento ci sono le eventuali funzioni di reperimento appositamente realizzate dal gruppo in alternativa a quelle fornite dalla libreria di IR per python;
3. una baseline run ed almeno una comparison run;
4. i file contenenti l’uscita di trec eval per ciascuna run;
5. la documentazione precisa e completa per poter condurre gli esperimenti mediante linee di comando e terminale;
6. un’interfaccia grafica basata su un browser, come mostrato durante le lezioni di laboratorio, per poter interrogare la collezione in modo interattivo.
Ci sono alcuni requisiti:
• il software dell’ applicazione deve essere sviluppato in Python; altri strumenti sono ammessi, ma solo di “contorno”, come ad esempio R per le analisi statistiche e la grafica; i programmi e i dati devono essere consegnati in archivi compressi o cartelle chiamati col nome del gruppo;
• il software deve essere scritto in modo “pulito” e deve essere commentato in inglese o in italiano; i nomi degli oggetti e delle funzioni devono essere auto-esplicativi; i nomi dei file dei programmi e dei dati devono essere anch’essi auto-esplicativi;
• l’applicazione finale deve essere accompagnata dal file di nome README.txt in cui si descrivono brevemente i file e le modalita` di utilizzo.
Il mini-progetto deve essere descritto in una relazione le cui versioni sono da consegnare mediante moodle entro le seguenti scadenze; deviazioni dalla scaletta devono essere concordate col docente:
• meta' maggio: prima bozza della relazione anche incompleta; il docente dara` un consiglio su come procedere;
• fine giugno: relazione finale; il docente procedera` con la valutazione del mini-progetto;
• la relazione consiste in non piu` di 12 pagine, in italiano o in inglese, in formato PDF e con lo stile LNCS distribuito da Springer e caricato su moodle sia per LATEX che per Microsoft Word.
Criteri di valutazione: Si valutera' innanzitutto la completezza e la precisione della relazione. Si terra' conto della capacita' d'uso del calcolatore e di produrre autonomamente i risultati richiesti. Nel caso di colloquio orale, si valuteranno le conoscenze generali dei contenuti dell'insegnamento, sia teorici che pratici. Il voto di una prova rimane valido fino all'ultimo appello previsto per l'anno accademico in cui si e' sostenuta la prova.
Contenuti: * INTRODUZIONE E MOTIVAZIONI: evoluzione delle tecnologie, Information Retrieval, World Wide Web, motori di ricerca
* RAPPRESENTAZIONE E INDICIZZAZIONE: analisi lessicale, stoplist, stemming, statistica dell'indice, termini e posizione
* REPERIMENTO E ORDINAMENTO: operatori logici, livello di coordinamento
* PRINCIPI E MODELLI: modello vettoriale, modello probabilistico
* MISURAZIONE E VALUTAZIONE: collezione sperimentale, metodi e misure
* ESPANSIONE E RETROAZIONE: espansione delle interrogazioni, retroazione, estrazione degli argomenti latenti, reperimento mediante argomenti latenti
* LABORATORIO E PROGRAMMAZIONE: python, libreria di Information Retrieval, gestione delle interrogazioni, indicizzazione di documenti testuali, ordinamento di documenti, funzioni di reperimento, misurazione, presentazione dei risultati (snippet), gestione di grandi moli di dati, analizzatori, interfaccia WWW e motori di ricerca
Attivita' di apprendimento previste e metodologie di insegnamento: L'attivita' di apprendimento principale si svolge in aula in forma di lezioni frontali tenute in italiano con l'ausilio della lavagna e del video proiettore.
Sebbene la frequenza delle lezioni sia facoltativa, si consiglia di partecipare alle lezioni comunque, specialmente a quelle di laboratorio.
Attivita' altrettante importante e' lo studio individuale e in particolare lo svolgimento di esercitazioni proposte alle lezioni di laboratorio.
Eventuali indicazioni sui materiali di studio: Il materiale sara' reso disponibile man mano che l'insegnamento procede. In particolare saranno messi a disposizione dati e programmi da utilizzare e volendo da modificare.
Testi di riferimento:
  • Melucci, Massimo, Information Retrieval. --: Franco Angeli, 2013. Cerca nel catalogo

Didattica innovativa: Strategie di insegnamento e apprendimento previste
  • Lecturing
  • Laboratory
  • Working in group
  • Files e pagine caricati online (pagine web, Moodle, ...)

Didattica innovativa: Software o applicazioni utilizzati
  • Moodle (files, quiz, workshop, ...)