Grundlagen des Maschinellen Lernens und der Statistik

Korbinian Strimmer, Uni Leipzig, Wintersemester 2008/09

Synopsis:

Organisatorische Details zur Vorlesung (z.B. Raum und Zeit) finden Sie im kommentierten Vorlesungsverzeichnis WS 2008/09.

Ziel der Vorlesung ist es, die konzeptionellen Grundlagen des maschinellen Lernes zu verstehen. Ein Großteil der Vorlesung beschäftigt sich mit statistischen Lernverfahren und Informationstheorie.

Geplante Inhalte:

Zufallsvariablen und Wahrscheinlichkeitstheorie
Stochastische Modellierung
Entropy und Information
Maximum likelihood und Bayesianische Inferenz
Clustering und Klassifikation
Resampling Verfahren (Bootstrap und MCMC)
Modellwahl und Hypothesentesten
Hochdimensionale Statistik und Regularisierung
Analyse räumlich-zeitlich korrellierter Daten

Empfohlene Literatur:

D. R. Cox. 2006. Principles of statistical inference. CUP.
F. M. Dekking et al. 2005. A modern introduction to probability and statistics: understanding why and how. Springer.
P. J. Diggle. 1990. Time Series: A Biostatistical Introduction. OUP.
P. J. Diggle und P. J. Ribeiro Jr. 2007. Model-based geostatistics. Springer.
T. Hastie, R. Tibshirani, and J. Friedman. 2001. The elements of statistical learning. Springer.
M. L. Lavine. 2005. Introduction to statistical thought.
D. J. C. MacKay. 2003. Information theory, inference, and learning algorithms. CUP.

Software:

R Project for Statistical Computing: http://www.r-project.org

Vorlesungsübersicht:

Datum	Besprochene Konzepte	Literatur
14. Oktober	Grundlagen I: Zufallsvariable, Beobachtungen, Dichtefunktion, Verteilungsfunktion, Normalverteilung, Lokationsparameter, Skalenparameter, Erwartungswert, Varianz, Median, Quantilfunktion, Schätzfunktion, Stichprobenverteilung, Bias, MSE, Varianz-Bias Zerlegung, empirischer Erwartungswert, empirische Varianz, Histogramm.	Lavine (Kap. 1)
21. Oktober	Grundlagen II: Multivariate Normalverteilung, Kovarianz, Korrelation, Identitäten für Erwartungswert und (Ko)varianz, Unabhängigkeit, Shannon Entropie, Mutual Information, Entropie der Normalverteilung, Mutual Information zwischen normalverteilten Variablen, Exponentialverteilung, Gammaverteilung, Binomialverteilung, Poissonverteilung, R Programm, Plot von Dichten und Verteilungen.
28. Oktober	Likelihood Inferenz: Statistisches Lernen, Kullback-Leibler Distanz, Hierarchie Inferenzmethoden, Maximum-Likelihood, Least-Squares, Penalized Likelihood, Bayes, Likelihood Funktion, Score Funktion, (beobachtete) Fisher Information, Mittelwert als MLE, quadratische Approximation, Likelihood interval, Wald interval, Likelihood ratio, Transformationsinvarianz, Optimalität für große Stichproben, Bias.
4. November	Bayesianische Inferenz und Sampling Strategien: Bayes' Theorem, A Priori Verteilung, A Posteriori Verteilung, Kredibilitätsintervall, Unterschied zu klassischer Statistik (zufällige Parameter, Wahl der Priori), Monte Carlo Algorithmen, Rejection Sampling, Importance Sampling, Markov Chain Monte Carlo (MCMC), Metropolis Algorithmus, Metropolis Hastings, Gibbs Sampling, Reversible Jump MCMC, Hamiltonian MCMC.	Mackay Kap. 29 (Monte Carlo Methods) und Kap. 30 (Efficient Monte Carlo Methods).
11. November	Klassifikationsverfahren: Prädiktionsproblem, Mischmodell, Diskriminanzfunktion, Entscheidungsgrenzen, Zentroide, gemeinsame oder getrennte Kovarianzmatrizen, Quadratische Diskriminanzanalyse (QDA), Lineare Diskriminanzanalyse (LDA), Diagonale Diskriminanzanalyse (DDA), weitere Verfahren (SVM, Naive Bayes, logistische Regression), Variablenselection, LDA für zwei Klassen, t-Statistik.	Hastie et al., Kap. 4.
18. November	Frequentistische Fehlerabschätzung: Delta Methode (univariat und multivariat), Standardkonfidenzintervalle, Bootstrapverfahren, Bootstrap-Schätzer für Varianz und Bias, Bootstrap-Schätzer für Konfidenzintervall, Bagging, Jacknife, Prädiktionsfehler, Schätzung duch Kreuzvalidierung.	Efron and Gong 1983 - A leisurely look at the bootstrap, the jackknife, and cross-validation. American Statistician 37:36-48.
25. November	Computerdemonstration 1: Alle Beispiele benutzen R: classification-non-nested.R classification-nested-groups.R monte-carlo-pi.R monte-carlo-integral.R bootstrap-examples.R mcmc-examples.R
2. Dezember	Shrinkage Schätzer: Entscheidungstheorie, Risko, Verlustfunktion, Hochdimensionale Inferenz, "small n, large p" Daten (z.B. DNA Chips, Proteomics), Stein-Paradox, James-Stein Schätzer, Dominanz, Zulässigkeit, Shrinkage, Model Averaging, Bias-Varianz Trade-off, Regularisierung, hierarchische Modelle, empirische Bayes Inferenz, Shrinkage Schätzer für Varianz und Korrelation.	Efron and Morris 1977 - Stein's paradox in statistics. Scientific American 236:119-127.
9. Dezember	Computerdemonstration 2: stein.R shrinkage-covariance.R Beispieldaten: smalldata.txt, largedata.txt. Regularisierte Klassifikation: Regularisierte Diskriminanzanalyse, PAM (Tibshirani), RDA (Hastie). Statistisches Testen: Nullmodell, Alternativverteilung, Mischmodell, Wahl des Schwellenwertes, Fisher's p-Werte (nur Nullmodell), Bayesianische Entscheidungsregel (Nullmodell plus Alternative), Sensitivität, Spezifizität, Power, Recall, False Discovery Rate, False Nondiscovery Rate, True Discovery Rate, Precision, multiples Testen.	PAM und RDA papers, overview of FDR methods.
16. Dezember	Dies Academicus (statt 2. Dezember)
6. Januar	Regression: Lineares Modell, Prediktoren, Response, Regressionskoeffizienten, Residual, RSS, Normalengleichung, Least-Squares Schätzer, ML Schätzer, Zusammenhang Regressionskoeffizient und partieller Korrelation und partieller Varianz, generalisierte lineares Modell (GLM), Link Funktion, Exponentialfamilie, logistische Regression und Logit Link, generalisiertes additives Modell (GAM), Ridge Regression, Lasso Regression, L1 und L2 Penalisierung, Dantzig Selector, LARS, Elastic Net, Variablenselektion.	Hastie et al. (Kapitel 3)
13. Januar	Zeitreihenanalyse: Zeitreihe, longitudinale Daten, Trend, Autocovarianz, Autokorrelation, Stationarität, Variogramm, Korrelogramm, Periodogramm, Spektrum, Schätzung der Autocorrelation, AR Modell, VAR Modell, State-Space Modell, ARMA, GARCH.	Diggle (Kapitel 1 bis 3)
20. Januar	Räumliche Statistik: Räumliche Daten, räumliches Modellieren, räumliche Kovarianzfunktion, geostatistische Modell, Stationarität, Istropie, Gauss-Modell, räumliches GLM, räumliches Variogramm, Matern Kovarianzfunktion, räumliche Prädiktion, Kriging. Computerdemonstration 3: geoR-examples.R	Diggle und Ribeiro Jr. (Kapitel 1-3)
27. Januar	Rückblick - Ausblick