Korbinian Strimmer, Uni Leipzig, Wintersemester 2012/13
Beginn: 16. Oktober 2012Zeit: Dienstag 11:00-12:30, Mittwoch 11:00-12:30
Ort: Seminarraum 109, Rittersaal, CIP Pool Härtelstr. 16-18
Modulnr.: 10-202-2206 (5 LP)
Synopsis:
Ziel der Vorlesung ist es, die konzeptionellen Grundlagen des maschinellen Lernes zu verstehen. Ein Großteil der Vorlesung beschäftigt sich mit statistischen Lernverfahren und Informationstheorie.
Der Kurs besteht aus einer 2-stündigen Vorlesung und einem Seminar. Die Vorlesungen finden alle vor Weihnachten statt (Mittwoch und Donnerstag), das Seminar dann anschliessend im Januar. Die Prüfungsleistung zur Erlangung der 5 ECTS Punkte des Moduls besteht aus einem Seminarvortrag zu einer aktuellen wissenschaftlichen Arbeit (Auswahl gegen Ende November) sowie einer mündlichen Prüfung über den Inhalt der Vorlesung.
Themenüberblick:
- Zufallsvariablen und Wahrscheinlichkeitstheorie
- Stochastische Modellierung
- Entropy und Information
- Maximum likelihood und Bayesianische Inferenz
- Clustering und Klassifikation
- Resampling Verfahren (Bootstrap und MCMC)
- Modellwahl und Hypothesentesten
- Hochdimensionale Statistik und Regularisierung
- Graphische Modelle
- Analyse räumlich-zeitlich korrellierter Daten
Empfohlene Literatur:
- T. Hastie, R. Tibshirani, and J. Friedman. 2009. The elements of statistical learning. 2nd Edition. Springer.
Das Standardlehrbuch zu modernen statistischen Lernverfahren (PDF ist frei verfügbar). - D. J. C. MacKay. 2003. Information theory, inference, and learning algorithms. Cambridge University Press.
Informationstheorie und Bayesianische Inferenz (PDF ist frei verfügbar).
Weitere relevante Literatur und Software:
- A. Caticha 2008. Lectures on Probability, Entropy, and Statistical Physics.
Vorlesungsskript u.a. zu Bayesianischer Inferenz und Entropie (PDF frei verfügbar). - D. M. Diez, D. D. Barr, und M. Cetinkaya-Rundel. 2012. OpenIntro Statistics. 2nd Edition.
Einführendes Statistiklehrbuch (PDF frei verfügbar). - R. O. Duda, P. E. Hart, und D. G. Stork. 2000. Pattern Classification. 2nd Edition. John Wiley and Sons.
Der Klassiker zum Thema Machine Learning (erste Auflage 1973!). - E.T. Jayes. 2003. Probability Theory - The Logic of Science". Cambridge University Press.
Sehr bedeutendes Buch zu den Grundlagen der Bayesianischen Inferenz. - R Project for Statistical Computing: http://www.r-project.org
Eine freie und sehr leistungsfähige Software für statistische Analysen.
Kursplan:
Woche | Datum | Besprochene Konzepte |
---|---|---|
Teil I: Vorlesung (Seminarraum 109, nur am 24.10. und 14.11. im Rittersaal) | ||
W1 | - | |
W2 | Di 16. Oktober 2012 | Was ist Statistik: Lernen aus Daten, Entwicklung der Statistik im 20 Jahrhundert. Was ist Wahrscheinlichkeit: Kolmogorov Axiome, Freqentistische und Bayesianische Interpretation Grundbegriffe: Zufallsvariable, Beobachtungen, Dichtefunktion, Verteilungsfunktion, Erwartungswert, Varianz, Median, Quantilfunktion, Kovarianz, Korrelation, Identitäten für Erwartungswert und (Ko)varianz, Unabhängigkeit, Variablentransformation, Delta Methode, Jensen Ungleichung. |
W3 | Di 23. Oktober 2012 | Verteilungen: Katalog wichtiger Verteilungen, Normalverteilung, Multivariate Normalverteilung, Beta Verteilung, Exponentialverteilung, Gammaverteilung, Binomialverteilung, Poissonverteilung, Lokationsparameter, Skalenparameter, Varianzstabilisierung. |
Mi 24. Oktober 2012 | Explorative Datenanalyse: empirische CDF, Histogramm, Box-Plot, Violin Plot, Streu-Plot, qq-Plot, Ausreißer Inferenz: Statistisches Lernen, Probabilistische Modellierung von Daten, Unsicherheitverteilung Parameter, Schätzfunktion, Eigenschaften von Schätzern, Bias, MSE, Varianz-Bias Zerlegung, Effizienz, Konsistenz, Stichprobenverteilung. Einfache Schätzer: empirischer Erwartungswert, empirische Varianz, ECDF und Histogramm als Schätzer. Computerdemonstration: | |
W4 | Di 30. Oktober 2012 | Information: Kullback-Leibler Divergenz, Boltzmann Entropie, Shannon Entropie, Mutual Information, Mutual Information zwischen normalverteilten Variablen, Fisher Informationsmatrix. Hierarchie Inferenzmethoden: KL, Maximum likelihood, Kleinste Quadrate, Penalized ML, Bayes, empirisches Bayes. |
W5 | Di 6. November 2012 | Likelihood Inferenz: Kullback-Leibler Distanz, Approximation bei großen Fallzahlen, Maximum-Likelihood, Least-Squares, Likelihood Funktion, Score Funktion, (beobachtete) Fisher Information, Mittelwert als MLE, quadratische Approximation, Likelihood interval, Wald interval, Likelihood ratio, Transformationsinvarianz, Optimalität für große Stichproben, Bias. Cramer-Rao Ungleichung, Overfitting, Suffizienz. |
Mi 7. November 2012 | Frequentistische Fehlerabschätzung: Delta Methode (univariat und multivariat), Standardkonfidenzintervalle, Bootstrapverfahren, Bootstrap-Schätzer für Varianz und Bias, Bootstrap-Schätzer für Konfidenzintervall, Bagging, Jacknife, Prädiktionsfehler, Schätzung duch Kreuzvalidierung. Computerdemonstration: | |
W6 | Di 13. November 2012 | Regularisierung und Shrinkage: Entscheidungstheorie, Risko, Verlustfunktion,
Hochdimensionale Inferenz, "small n, large p" Daten (z.B. DNA Chips, Proteomics),
Stein-Paradox,
James-Stein Schätzer, Dominanz, Zulässigkeit, Shrinkage, Model Averaging, Bias-Varianz Trade-off,
Regularisierung, hierarchische Modelle, empirische Bayes Inferenz, Shrinkage Schätzer für Varianz und
Korrelation. Entscheidungstheorie, Bayes Risko.
Computerdemonstration:
|
Mi 14. November 2012 | Bayesianische Inferenz: Bayes' Theorem, A Priori Verteilung, A Posteriori Verteilung, Kredibilitätsintervall, Bayesian Learning, Zusammenhang mit Shrinkage (Linearität in Exponentialfamilie, Regularisierung), Wahl der Priori, Kompatibilität Priori VT und Likelihood, Jeffreys prior, Referenz Prior, Posteriori Matching Priors. Maximum Entropie Prior. | |
W7 | Di 20. November 2012 | Sampling: Rejection Sampling, Importance Sampling, Markov Chain Monte Carlo (MCMC), Metropolis Algorithmus, Metropolis Hastings, Gibbs Sampling, Reversible Jump MCMC, Hamiltonian MCMC. Approximations. Computerdemonstration: Alle Beispiele benutzen R: |
W8 | Di 27 November 2012 | Statistisches Testen und Modellwahl: Nullmodell, Alternativverteilung, Mischmodell, Wahl des Schwellenwertes, Fisher's p-Werte (nur Nullmodell), Bayesianische Entscheidungsregel (Nullmodell plus Alternative), Sensitivität, Spezifizität, Power, Recall, False Discovery Rate, False Nondiscovery Rate, True Discovery Rate, Precision, multiples Testen. |
W9 | Di 4. Dezember 2012 | Klassifikationsverfahren: Prädiktionsproblem, Mischmodell, Diskriminanzfunktion, Entscheidungsgrenzen, Zentroide, gemeinsame oder getrennte Kovarianzmatrizen, Quadratische Diskriminanzanalyse (QDA), Lineare Diskriminanzanalyse (LDA), Diagonale Diskriminanzanalyse (DDA), weitere Verfahren (SVM, Naive Bayes, logistische Regression), Variablenselection, LDA für zwei Klassen, t-Statistik. Regularisierte Diskriminanzanalyse, PAM (Tibshirani), RDA (Hastie). Computerdemonstration: Alle Beispiele benutzen R: |
W9 | Mi 5. Dezember 2012 | Regression: Lineares Modell, Prediktoren, Response, Regressionskoeffizienten, Residual, RSS, Normalengleichung, Least-Squares Schätzer, ML Schätzer, Zusammenhang Regressionskoeffizient und partieller Korrelation und partieller Varianz, generalisierte lineares Modell (GLM), Link Funktion, Exponentialfamilie, logistische Regression und Logit Link, generalisiertes additives Modell (GAM), Ridge Regression, Lasso Regression, L1 und L2 Penalisierung, Dantzig Selector, lasso und LARS, Elastic Net, Variablenselektion. |
W10 | 11. Dezember 2012 | Graphische Modelle: Korrelation und partielle Korrelation, Gaussianische Graphische Modelle, Bayesianische Netzwerke, Kettengraphen. Inferenz von graphischen Modellen. Kausalität. |
W11 | 18. Dezember 2012 |
Zeitreihenanalyse:
Zeitreihe, longitudinale Daten, Trend, Autocovarianz, Autokorrelation,
Stationarität, Variogramm, Korrelogramm, Periodogramm, Spektrum, Schätzung
der Autocorrelation, AR Modell, VAR Modell, State-Space Modell, ARMA, GARCH.
Räumliche Statistik:
Räumliche Daten, räumliches Modellieren, räumliche Kovarianzfunktion,
geostatistische Modell, Stationarität, Istropie, Gauss-Modell, räumliches GLM,
räumliches Variogramm, Matern Kovarianzfunktion, räumliche Prädiktion,
Kriging. Computerdemonstration: |
Teil II: Seminar (CIP Pool 009) | ||
W12 | Di 8. Januar 2013 | Seminarvorträge |
W12 | Mi 9. Januar 2013 | |
W13 | Di 15. Januar 2013 | |
W13 | Mi 16. Januar 2013 | |
W14 | Di 22. Januar 2013 | |
W14 | Mi 23. Januar 2013 | |
W15 | Di 29. Januar 2013 | Mündliche Prüfungen. |