Korbinian Strimmer, Uni Leipzig, Wintersemester 2012/13

Beginn: 16. Oktober 2012
Zeit: Dienstag 11:00-12:30, Mittwoch 11:00-12:30
Ort: Seminarraum 109, Rittersaal, CIP Pool Härtelstr. 16-18
Modulnr.: 10-202-2206 (5 LP)

Synopsis:

Ziel der Vorlesung ist es, die konzeptionellen Grundlagen des maschinellen Lernes zu verstehen. Ein Großteil der Vorlesung beschäftigt sich mit statistischen Lernverfahren und Informationstheorie.

Der Kurs besteht aus einer 2-stündigen Vorlesung und einem Seminar. Die Vorlesungen finden alle vor Weihnachten statt (Mittwoch und Donnerstag), das Seminar dann anschliessend im Januar. Die Prüfungsleistung zur Erlangung der 5 ECTS Punkte des Moduls besteht aus einem Seminarvortrag zu einer aktuellen wissenschaftlichen Arbeit (Auswahl gegen Ende November) sowie einer mündlichen Prüfung über den Inhalt der Vorlesung.

Themenüberblick:

Empfohlene Literatur:

Weitere relevante Literatur und Software:

Kursplan:

Woche Datum Besprochene Konzepte
Teil I: Vorlesung (Seminarraum 109, nur am 24.10. und 14.11. im Rittersaal)
W1 -
W2 Di 16. Oktober 2012 Was ist Statistik: Lernen aus Daten, Entwicklung der Statistik im 20 Jahrhundert. Was ist Wahrscheinlichkeit: Kolmogorov Axiome, Freqentistische und Bayesianische Interpretation Grundbegriffe: Zufallsvariable, Beobachtungen, Dichtefunktion, Verteilungsfunktion, Erwartungswert, Varianz, Median, Quantilfunktion, Kovarianz, Korrelation, Identitäten für Erwartungswert und (Ko)varianz, Unabhängigkeit, Variablentransformation, Delta Methode, Jensen Ungleichung.
W3 Di 23. Oktober 2012 Verteilungen: Katalog wichtiger Verteilungen, Normalverteilung, Multivariate Normalverteilung, Beta Verteilung, Exponentialverteilung, Gammaverteilung, Binomialverteilung, Poissonverteilung, Lokationsparameter, Skalenparameter, Varianzstabilisierung.
Mi 24. Oktober 2012 Explorative Datenanalyse: empirische CDF, Histogramm, Box-Plot, Violin Plot, Streu-Plot, qq-Plot, Ausreißer Inferenz: Statistisches Lernen, Probabilistische Modellierung von Daten, Unsicherheitverteilung Parameter, Schätzfunktion, Eigenschaften von Schätzern, Bias, MSE, Varianz-Bias Zerlegung, Effizienz, Konsistenz, Stichprobenverteilung. Einfache Schätzer: empirischer Erwartungswert, empirische Varianz, ECDF und Histogramm als Schätzer. Computerdemonstration:
  1. Vergleich von Varianzschätzern
W4 Di 30. Oktober 2012 Information: Kullback-Leibler Divergenz, Boltzmann Entropie, Shannon Entropie, Mutual Information, Mutual Information zwischen normalverteilten Variablen, Fisher Informationsmatrix. Hierarchie Inferenzmethoden: KL, Maximum likelihood, Kleinste Quadrate, Penalized ML, Bayes, empirisches Bayes.
W5 Di 6. November 2012 Likelihood Inferenz: Kullback-Leibler Distanz, Approximation bei großen Fallzahlen, Maximum-Likelihood, Least-Squares, Likelihood Funktion, Score Funktion, (beobachtete) Fisher Information, Mittelwert als MLE, quadratische Approximation, Likelihood interval, Wald interval, Likelihood ratio, Transformationsinvarianz, Optimalität für große Stichproben, Bias. Cramer-Rao Ungleichung, Overfitting, Suffizienz.
Mi 7. November 2012 Frequentistische Fehlerabschätzung: Delta Methode (univariat und multivariat), Standardkonfidenzintervalle, Bootstrapverfahren, Bootstrap-Schätzer für Varianz und Bias, Bootstrap-Schätzer für Konfidenzintervall, Bagging, Jacknife, Prädiktionsfehler, Schätzung duch Kreuzvalidierung. Computerdemonstration:
  1. bootstrap-examples.R
W6 Di 13. November 2012 Regularisierung und Shrinkage: Entscheidungstheorie, Risko, Verlustfunktion, Hochdimensionale Inferenz, "small n, large p" Daten (z.B. DNA Chips, Proteomics), Stein-Paradox, James-Stein Schätzer, Dominanz, Zulässigkeit, Shrinkage, Model Averaging, Bias-Varianz Trade-off, Regularisierung, hierarchische Modelle, empirische Bayes Inferenz, Shrinkage Schätzer für Varianz und Korrelation. Entscheidungstheorie, Bayes Risko. Computerdemonstration:
  1. stein.R
  2. shrinkage-covariance.R
  3. Beispieldaten: smalldata.txt, largedata.txt.
Mi 14. November 2012 Bayesianische Inferenz: Bayes' Theorem, A Priori Verteilung, A Posteriori Verteilung, Kredibilitätsintervall, Bayesian Learning, Zusammenhang mit Shrinkage (Linearität in Exponentialfamilie, Regularisierung), Wahl der Priori, Kompatibilität Priori VT und Likelihood, Jeffreys prior, Referenz Prior, Posteriori Matching Priors. Maximum Entropie Prior.
W7 Di 20. November 2012 Sampling: Rejection Sampling, Importance Sampling, Markov Chain Monte Carlo (MCMC), Metropolis Algorithmus, Metropolis Hastings, Gibbs Sampling, Reversible Jump MCMC, Hamiltonian MCMC. Approximations. Computerdemonstration: Alle Beispiele benutzen R:
  1. monte-carlo-pi.R
  2. monte-carlo-integral.R
  3. mcmc-examples.R
W8 Di 27 November 2012 Statistisches Testen und Modellwahl: Nullmodell, Alternativverteilung, Mischmodell, Wahl des Schwellenwertes, Fisher's p-Werte (nur Nullmodell), Bayesianische Entscheidungsregel (Nullmodell plus Alternative), Sensitivität, Spezifizität, Power, Recall, False Discovery Rate, False Nondiscovery Rate, True Discovery Rate, Precision, multiples Testen.
W9 Di 4. Dezember 2012 Klassifikationsverfahren: Prädiktionsproblem, Mischmodell, Diskriminanzfunktion, Entscheidungsgrenzen, Zentroide, gemeinsame oder getrennte Kovarianzmatrizen, Quadratische Diskriminanzanalyse (QDA), Lineare Diskriminanzanalyse (LDA), Diagonale Diskriminanzanalyse (DDA), weitere Verfahren (SVM, Naive Bayes, logistische Regression), Variablenselection, LDA für zwei Klassen, t-Statistik. Regularisierte Diskriminanzanalyse, PAM (Tibshirani), RDA (Hastie). Computerdemonstration: Alle Beispiele benutzen R:
  1. classification-non-nested.R
  2. classification-nested-groups.R
W9 Mi 5. Dezember 2012 Regression: Lineares Modell, Prediktoren, Response, Regressionskoeffizienten, Residual, RSS, Normalengleichung, Least-Squares Schätzer, ML Schätzer, Zusammenhang Regressionskoeffizient und partieller Korrelation und partieller Varianz, generalisierte lineares Modell (GLM), Link Funktion, Exponentialfamilie, logistische Regression und Logit Link, generalisiertes additives Modell (GAM), Ridge Regression, Lasso Regression, L1 und L2 Penalisierung, Dantzig Selector, lasso und LARS, Elastic Net, Variablenselektion.
W10 11. Dezember 2012 Graphische Modelle: Korrelation und partielle Korrelation, Gaussianische Graphische Modelle, Bayesianische Netzwerke, Kettengraphen. Inferenz von graphischen Modellen. Kausalität.
W11 18. Dezember 2012 Zeitreihenanalyse: Zeitreihe, longitudinale Daten, Trend, Autocovarianz, Autokorrelation, Stationarität, Variogramm, Korrelogramm, Periodogramm, Spektrum, Schätzung der Autocorrelation, AR Modell, VAR Modell, State-Space Modell, ARMA, GARCH. Räumliche Statistik: Räumliche Daten, räumliches Modellieren, räumliche Kovarianzfunktion, geostatistische Modell, Stationarität, Istropie, Gauss-Modell, räumliches GLM, räumliches Variogramm, Matern Kovarianzfunktion, räumliche Prädiktion, Kriging.
Computerdemonstration:
  1. geoR-examples.R
Teil II: Seminar (CIP Pool 009)
W12 Di 8. Januar 2013 Seminarvorträge
W12 Mi 9. Januar 2013
W13 Di 15. Januar 2013
W13 Mi 16. Januar 2013
W14 Di 22. Januar 2013
W14 Mi 23. Januar 2013
W15 Di 29. Januar 2013 Mündliche Prüfungen.