21210210 - Statistica per big data

Il corso di Statistica per Big Data propone di introdurre gli studenti alle tecniche moderne di visualizzazione dei dati, ai metodi e modelli statistici per l’analisi di struture di dipendenza semplici e complesse, ai metodi statistici di supporto alle decisioni. Verranno anche introdotte anche alcune tecniche multivariate. Il corso si concentra in particolare sull'analisi esplorativa dei dati, sui modelli lineari e sui modelli lineari generalizzati, sui loro punti di forza e sui loro limiti.
Facendo ampio uso di esempi di dati reali e della loro analisi con R attraverso RStudio e con il software Minitab, il corso enfatizzerà il ruolo dei modelli statistici nell'affrontare le domande scientifiche e come queste si traducono in domande statistiche rilevanti. Lo studente imparerà a distinguere tra problemi di stima dei parametri, test di ipotesi e previsione. Pertanto allo studente verrà insegnato non solo ad applicare tecniche statistiche ma anche a scegliere la tecnica più opportuna ed a commentare l’output ai fini decisionali.
scheda docente | materiale didattico

Programma

La probabilità: Definizione e assiomi. Calcolo combinatorio: Permutazioni e Combinazioni
Probabilità bivariate: Tabelle a doppia entrata e probabilità condizionata
Variabili aleatorie: Definizione ed esempi, Funzione di massa di probabilità, funzione di densità di probabilità, funzione di ripartizione, valore atteso e sue proprietà, varianza e sue proprietà.. Variabili aleatorie discrete: Uniforme, Bernoulli, Binomiale, Ipergeometrica e Poisson
Variabili aleatorie continue: Uniforme, Normale, Approssimazione della variabile Binomiale tramite la Normale. Variabili aleatorie congiunte, funzione di probabilità congiunta, funzione di probabilità condizionata, valore atteso e varianza condizionata. Combinazioni lineari di variabili aleatorie: valore atteso e varianza
Le distribuzioni campionarie: distribuzione della media campionaria, valore atteso e varianza. Teorema del Limite Centrale. Distribuzione di funzioni della media
La funzione di verosimiglianza: interpretazione e usi inferenziali. Stimatore di Massima Verosimiglianza (MLE)
Proprietà degli stimatori: non distorsione, consistenza, varianza ed errore quadratico medio (MSE). Stimatori intervallari: costruzione e intervalli di confidenza
La regressione lineare semplice. Il metodo dei minimi quadrati: stima e interpretazione dei coefficienti, connessioni con la funzione di verosimiglianza, proprietà inferenziali dei coefficienti di regressione, significatività dei coefficienti. Indice $R^2$
Il modello di regressione lineare multipla. Stimatore dei minimi quadrati: interpretazione e proprietà, significatività dei coefficienti. La regressione con predittori categorici e numerici.
La regressione logistica: motivazione applicazioni a casi reali. Interpretazione e significatività dei coefficienti. Aspetti di classificazione: matrice di confusione, tasso di errata classificazione, costruzione e interpretazione della curva ROC.
Classificazione non supervisionata: la cluster analysis. Il meotodo delle k-medie. Valutazione del modello l'indice di Silhouette e Total Within Sum of Squares
Analisi delle componenti principali: accenni e utilizzo


Testi Adottati

"Introduzione all’apprendimento statistico con applicazioni in R". Autori: G. James, D. Witten, T. Hastie, R. Tibshirani. Casa Editrice: Piccin
Appunti di Statistica di Frederic, P. , reperibile al seguente link: https://ix-pat.github.io/appunti/Appunti_di_Statistica_2024.pdf

Per utleriori spunti:
"Statistica per Data Scientist con R e Python" a cura di Agresti, A. e Kateri, M. Casa Editrice: Egea
"Statistica". Autori: Newbold P. Casa Editrice: Pearson



Modalità Valutazione

Gli studenti possono scegliere tra due diverse modalità: 1) Esame scritto con domande inerenti il software statistico R 2) Esame scritto più presentazione di un progetto elaborato sulla base di un insieme di dati forniti dal docente Si comunica che il docente si riserva di accettare come tesisti soltanto gli studenti che abbiano scelto di utilizzare la seconda modalità di valutazione