Statistisches Lernen

Modulnr.: 09-INF-BI01 (10 LP)

Vorlesung:
Beginn: 22. Oktober 2013
Zeit: Dienstag 11:00-12:30, Mittwoch 11:00-12:30
Ort: Seminarraum 109, Härtelstr. 16-18

R Praktikum:
Beginn: 3. Dezember 2013
Zeit: Dienstag 14:00-19:00
Ort: PC Pool 009 Härtelstr. 16-18

Universität Leipzig, Wintersemester 2013/14

Dozenten:

Vorlesung: Korbinian Strimmer und Kristin Reiche
R-Kurs: Katja Nowick und Markus Kreuz

Synopsis:

Ziel des Moduls ist das Erlernen der konzeptionellen Grundlagen des statistischen Lernens ("statistical machine learning") und deren praktische Anwendung auf bioinformatische Probleme. Die Vorlesung beschäftigt sich mit fortgeschrittten statistischen Lernverfahren und Informationstheorie. Das Praktikum vermittelt praktische Kenntnisse in der Programmierung und Datenanalyse mit der Statistiksoftware R.

Vorkenntnisse:
Elementarkenntnisse in Statistik sind sehr hilfreich.
Zur Auffrischung empfiehlt sich das Moduls "Grundlagen der Biometrie" (09-202-4106) von Dirk Hasenclever (im WS 2013/14 immer Montag und Donnerstag).

Das Modul besteht aus einer 3-stündigen Vorlesung (wöchentlich) und einem Computer-Praktikum (5 Blöcke). Thematisch werden vor Weihnachten die allgemeinen Grundlagen erarbeitet (sowohl in der VL und im R Kurs). Nach Weihnachten erfolgt dann die explizite Anwendung auf bioinformatische Problemstellungen.

Am Ende des Semester erfolgt eine mündlichen Prüfung über den Inhalt der Vorlesung und des R-Praktikums.

Themenüberblick:

Zufallsvariablen und Wahrscheinlichkeitstheorie
Stochastische Modellierung
Entropy und Information
Maximum likelihood und Bayesianische Inferenz
Clustering und Klassifikation
Resampling Verfahren (Bootstrap und MCMC)
Modellwahl und Hypothesentesten
Hochdimensionale Statistik und Regularisierung
Graphische Modelle
Analyse räumlich-zeitlich korrellierter Daten

Empfohlene Literatur (Vorlesung):

K. P. Murphy. 2012. Machine learning: a probabilistic perspective. MIT Press.
Das zur Zeit aktuellste und sehr umfassende Lehrbuch zu statistischen Verfahren für maschinelles Lernen.
T. Hastie, R. Tibshirani, and J. Friedman. 2009. The elements of statistical learning. 2nd Edition. Springer.
Das Standardlehrbuch zu modernen statistischen Lernverfahren (PDF ist frei verfügbar).
G. James, D. Witten, T. Hastie, and R. Tibshirani. 2013. An introduction to statistical learning, with Applications in R. Springer.
Ähnlicher Inhalt wie "Elements of Statistical Learning", weniger theoretisch und mit R Code (PDF ist frei verfügbar).

Weitere Literatur (Empfehlung):

C. R. Shalizi. 2013. Advanced Data Analysis from an Elementary Point of View (freies PDF)
D. J. C. MacKay. 2003. Information theory, inference, and learning algorithms. Cambridge University Press. (freies PDF)
R. Schutt and C. O'Neil. 2013. Doing data science. O'Reilly.

Weitere relevante Links:

R Project for Statistical Computing: http://www.r-project.org
Eine freie und sehr leistungsfähige Software für statistische Analysen.
RStudio
Platformunabhängige graphische Benutzeroberfläche für R.
Leipzig R statistical computing
Eine Gruppe von enthusiastischen Leipziger R Benutzern.
The Science of Chance
Sehenswerter BBC Dokumentarfilm über die Entstehung der Statistik als wissenschaftliche Disziplin und den Nutzen in der heutigen Gesellschaft (mit David Spiegelhalter).

Kursplan (R-Kurs):

Der R-Kurs findet an fünf Dienstagnachmittagen (14-19 Uhr) ab dem 3. Dezember 2013 statt. Genauere Details finden Sie auf einer eigenen Seite.

Kursplan (Vorlesung):

Bitte beachten Sie die genauen Wochentage, an denen die VL stattfindet!

Woche	Datum	Besprochene Konzepte
		Teil I: Vorlesung (Allgemeine Methodik)
W1	-
W2	Di 22. Oktober 2013	Was ist Statistik: Lernen aus Daten, Entwicklung der Statistik im 20 Jahrhundert. Was ist Wahrscheinlichkeit: Kolmogorov Axiome, Freqentistische und Bayesianische Interpretation Grundbegriffe: Zufallsvariable, Beobachtungen, Dichtefunktion, Verteilungsfunktion, Erwartungswert, Varianz, Median, Quantilfunktion, Kovarianz, Korrelation, Identitäten für Erwartungswert und (Ko)varianz, Unabhängigkeit, Variablentransformation, Delta Methode, Jensen Ungleichung. Verteilungen: Katalog wichtiger Verteilungen, Normalverteilung, Multivariate Normalverteilung, Beta Verteilung, Exponentialverteilung, Gammaverteilung, Binomialverteilung, Poissonverteilung, Lokationsparameter, Skalenparameter, Varianzstabilisierung.
	Mi 23. Oktober 2013	Explorative Datenanalyse: empirische CDF, Histogramm, Box-Plot, Violin Plot, Streu-Plot, qq-Plot, Ausreißer Inferenz: Statistisches Lernen, Probabilistische Modellierung von Daten, Unsicherheitverteilung Parameter, Schätzfunktion, Eigenschaften von Schätzern, Bias, MSE, Varianz-Bias Zerlegung, Effizienz, Konsistenz, Stichprobenverteilung. Einfache Schätzer: empirischer Erwartungswert, empirische Varianz, ECDF und Histogramm als Schätzer. Computerdemonstration: Vergleich von Varianzschätzern
W3	Di 29. Oktober 2013	Information: Kullback-Leibler Divergenz, Boltzmann Entropie, Shannon Entropie, Mutual Information, Mutual Information zwischen normalverteilten Variablen, Fisher Informationsmatrix. Hierarchie Inferenzmethoden: KL, Maximum likelihood, Kleinste Quadrate, Penalized ML, Bayes, empirisches Bayes.
	Mi 30. Oktober 2013	Likelihood Inferenz: Kullback-Leibler Distanz, Approximation bei großen Fallzahlen, Maximum-Likelihood, Least-Squares, Likelihood Funktion, Score Funktion, (beobachtete) Fisher Information, Mittelwert als MLE, quadratische Approximation, Likelihood interval, Wald interval, Likelihood ratio, Transformationsinvarianz, Optimalität für große Stichproben, Bias. Cramer-Rao Ungleichung, Overfitting, Suffizienz.
W4	Di 5. November 2013	Frequentistische Fehlerabschätzung: Delta Methode (univariat und multivariat), Standardkonfidenzintervalle, Bootstrapverfahren, Bootstrap-Schätzer für Varianz und Bias, Bootstrap-Schätzer für Konfidenzintervall, Bagging, Jacknife, Prädiktionsfehler, Schätzung duch Kreuzvalidierung. Computerdemonstration: bootstrap-examples.R
	Mi 6. November 2013	Regularisierung und Shrinkage: Entscheidungstheorie, Risko, Verlustfunktion, Hochdimensionale Inferenz, "small n, large p" Daten (z.B. DNA Chips, Proteomics), Stein-Paradox, James-Stein Schätzer, Dominanz, Zulässigkeit, Shrinkage, Model Averaging, Bias-Varianz Trade-off, Regularisierung, hierarchische Modelle, empirische Bayes Inferenz, Shrinkage Schätzer für Varianz und Korrelation. Entscheidungstheorie, Bayes Risko. Computerdemonstration: stein.R shrinkage-covariance.R Beispieldaten: smalldata.txt, largedata.txt.
W5	Di 12. November 2013	Bayesianische Inferenz: Bayes' Theorem, A Priori Verteilung, A Posteriori Verteilung, Kredibilitätsintervall, Bayesian Learning, Zusammenhang mit Shrinkage (Linearität in Exponentialfamilie, Regularisierung), Wahl der Priori, Kompatibilität Priori VT und Likelihood, Jeffreys prior, Referenz Prior, Posteriori Matching Priors. Maximum Entropie Prior.
	Mi 13. November 2013	Sampling: Rejection Sampling, Importance Sampling, Markov Chain Monte Carlo (MCMC), Metropolis Algorithmus, Metropolis Hastings, Gibbs Sampling, Reversible Jump MCMC, Hamiltonian MCMC. Approximations. Computerdemonstration: Alle Beispiele benutzen R: monte-carlo-pi.R monte-carlo-integral.R mcmc-examples.R
W6	Di 19 November 2013	Statistisches Testen und Modellwahl: Nullmodell, Alternativverteilung, Mischmodell, Wahl des Schwellenwertes, Fisher's p-Werte (nur Nullmodell), Bayesianische Entscheidungsregel (Nullmodell plus Alternative), Sensitivität, Spezifizität, Power, Recall, False Discovery Rate, False Nondiscovery Rate, True Discovery Rate, Precision, multiples Testen.
W7	Di 26. November 2013	Klassifikationsverfahren: Prädiktionsproblem, Mischmodell, Diskriminanzfunktion, Entscheidungsgrenzen, Zentroide, gemeinsame oder getrennte Kovarianzmatrizen, Quadratische Diskriminanzanalyse (QDA), Lineare Diskriminanzanalyse (LDA), Diagonale Diskriminanzanalyse (DDA), weitere Verfahren (SVM, Naive Bayes, logistische Regression), Variablenselection, LDA für zwei Klassen, t-Statistik. Regularisierte Diskriminanzanalyse, PAM (Tibshirani), RDA (Hastie). Computerdemonstration: Alle Beispiele benutzen R: classification-non-nested.R classification-nested-groups.R
W8	Di 3. Dezember 2013	Regression: Lineares Modell, Prediktoren, Response, Regressionskoeffizienten, Residual, RSS, Normalengleichung, Least-Squares Schätzer, ML Schätzer, Zusammenhang Regressionskoeffizient und partieller Korrelation und partieller Varianz, generalisierte lineares Modell (GLM), Link Funktion, Exponentialfamilie, logistische Regression und Logit Link, generalisiertes additives Modell (GAM), Ridge Regression, Lasso Regression, L1 und L2 Penalisierung, Dantzig Selector, lasso und LARS, Elastic Net, Variablenselektion.
W9	Di 10. Dezember 2013	Graphische Modelle: Korrelation und partielle Korrelation, Gaussianische Graphische Modelle, Bayesianische Netzwerke, Kettengraphen. Inferenz von graphischen Modellen. Kausalität.
W10	Di 17. Dezember 2013 entfällt!	Zeitreihenanalyse: Zeitreihe, longitudinale Daten, Trend, Autocovarianz, Autokorrelation, Stationarität, Variogramm, Korrelogramm, Periodogramm, Spektrum, Schätzung der Autocorrelation, AR Modell, VAR Modell, State-Space Modell, ARMA, GARCH. Räumliche Statistik: Räumliche Daten, räumliches Modellieren, räumliche Kovarianzfunktion, geostatistische Modell, Stationarität, Istropie, Gauss-Modell, räumliches GLM, räumliches Variogramm, Matern Kovarianzfunktion, räumliche Prädiktion, Kriging. Computerdemonstration: geoR-examples.R
		Teil II: Vorlesung (Bioinformatische Anwendung)
W11	Mi 8. Januar 2014	Statistische Analyse von Expressionsdaten
W12	Mi 15. Januar 2014	Statistische Analyse von Sequenzdaten
W13	Di 21. Januar 2014	Wiederholung und Terminvergabe Prüfung
W14
W15	Mo 3.2 - Mi 5.2 (nach Vereinbarung)	Mündliche Prüfungen.