Modulnr.: 09-INF-BI01 (10 LP)

Vorlesung:
Beginn: 22. Oktober 2013
Zeit: Dienstag 11:00-12:30, Mittwoch 11:00-12:30
Ort: Seminarraum 109, Härtelstr. 16-18

R Praktikum:
Beginn: 3. Dezember 2013
Zeit: Dienstag 14:00-19:00
Ort: PC Pool 009 Härtelstr. 16-18

Universität Leipzig, Wintersemester 2013/14

Dozenten:

Vorlesung: Korbinian Strimmer und Kristin Reiche
R-Kurs: Katja Nowick und Markus Kreuz

Synopsis:

Ziel des Moduls ist das Erlernen der konzeptionellen Grundlagen des statistischen Lernens ("statistical machine learning") und deren praktische Anwendung auf bioinformatische Probleme. Die Vorlesung beschäftigt sich mit fortgeschrittten statistischen Lernverfahren und Informationstheorie. Das Praktikum vermittelt praktische Kenntnisse in der Programmierung und Datenanalyse mit der Statistiksoftware R.

Vorkenntnisse:
Elementarkenntnisse in Statistik sind sehr hilfreich.
Zur Auffrischung empfiehlt sich das Moduls "Grundlagen der Biometrie" (09-202-4106) von Dirk Hasenclever (im WS 2013/14 immer Montag und Donnerstag).

Das Modul besteht aus einer 3-stündigen Vorlesung (wöchentlich) und einem Computer-Praktikum (5 Blöcke). Thematisch werden vor Weihnachten die allgemeinen Grundlagen erarbeitet (sowohl in der VL und im R Kurs). Nach Weihnachten erfolgt dann die explizite Anwendung auf bioinformatische Problemstellungen.

Am Ende des Semester erfolgt eine mündlichen Prüfung über den Inhalt der Vorlesung und des R-Praktikums.

Themenüberblick:

Empfohlene Literatur (Vorlesung):

  1. K. P. Murphy. 2012. Machine learning: a probabilistic perspective. MIT Press.
    Das zur Zeit aktuellste und sehr umfassende Lehrbuch zu statistischen Verfahren für maschinelles Lernen.
  2. T. Hastie, R. Tibshirani, and J. Friedman. 2009. The elements of statistical learning. 2nd Edition. Springer.
    Das Standardlehrbuch zu modernen statistischen Lernverfahren (PDF ist frei verfügbar).
  3. G. James, D. Witten, T. Hastie, and R. Tibshirani. 2013. An introduction to statistical learning, with Applications in R. Springer.
    Ähnlicher Inhalt wie "Elements of Statistical Learning", weniger theoretisch und mit R Code (PDF ist frei verfügbar).

Weitere Literatur (Empfehlung):

  1. C. R. Shalizi. 2013. Advanced Data Analysis from an Elementary Point of View (freies PDF)
  2. D. J. C. MacKay. 2003. Information theory, inference, and learning algorithms. Cambridge University Press. (freies PDF)
  3. R. Schutt and C. O'Neil. 2013. Doing data science. O'Reilly.

Weitere relevante Links:

Kursplan (R-Kurs):

Der R-Kurs findet an fünf Dienstagnachmittagen (14-19 Uhr) ab dem 3. Dezember 2013 statt. Genauere Details finden Sie auf einer eigenen Seite.

Kursplan (Vorlesung):

Bitte beachten Sie die genauen Wochentage, an denen die VL stattfindet!

Woche Datum Besprochene Konzepte
Teil I: Vorlesung (Allgemeine Methodik)
W1 -
W2 Di 22. Oktober 2013 Was ist Statistik: Lernen aus Daten, Entwicklung der Statistik im 20 Jahrhundert. Was ist Wahrscheinlichkeit: Kolmogorov Axiome, Freqentistische und Bayesianische Interpretation Grundbegriffe: Zufallsvariable, Beobachtungen, Dichtefunktion, Verteilungsfunktion, Erwartungswert, Varianz, Median, Quantilfunktion, Kovarianz, Korrelation, Identitäten für Erwartungswert und (Ko)varianz, Unabhängigkeit, Variablentransformation, Delta Methode, Jensen Ungleichung. Verteilungen: Katalog wichtiger Verteilungen, Normalverteilung, Multivariate Normalverteilung, Beta Verteilung, Exponentialverteilung, Gammaverteilung, Binomialverteilung, Poissonverteilung, Lokationsparameter, Skalenparameter, Varianzstabilisierung.
Mi 23. Oktober 2013 Explorative Datenanalyse: empirische CDF, Histogramm, Box-Plot, Violin Plot, Streu-Plot, qq-Plot, Ausreißer Inferenz: Statistisches Lernen, Probabilistische Modellierung von Daten, Unsicherheitverteilung Parameter, Schätzfunktion, Eigenschaften von Schätzern, Bias, MSE, Varianz-Bias Zerlegung, Effizienz, Konsistenz, Stichprobenverteilung. Einfache Schätzer: empirischer Erwartungswert, empirische Varianz, ECDF und Histogramm als Schätzer. Computerdemonstration:
  1. Vergleich von Varianzschätzern
W3 Di 29. Oktober 2013 Information: Kullback-Leibler Divergenz, Boltzmann Entropie, Shannon Entropie, Mutual Information, Mutual Information zwischen normalverteilten Variablen, Fisher Informationsmatrix. Hierarchie Inferenzmethoden: KL, Maximum likelihood, Kleinste Quadrate, Penalized ML, Bayes, empirisches Bayes.
Mi 30. Oktober 2013 Likelihood Inferenz: Kullback-Leibler Distanz, Approximation bei großen Fallzahlen, Maximum-Likelihood, Least-Squares, Likelihood Funktion, Score Funktion, (beobachtete) Fisher Information, Mittelwert als MLE, quadratische Approximation, Likelihood interval, Wald interval, Likelihood ratio, Transformationsinvarianz, Optimalität für große Stichproben, Bias. Cramer-Rao Ungleichung, Overfitting, Suffizienz.
W4 Di 5. November 2013 Frequentistische Fehlerabschätzung: Delta Methode (univariat und multivariat), Standardkonfidenzintervalle, Bootstrapverfahren, Bootstrap-Schätzer für Varianz und Bias, Bootstrap-Schätzer für Konfidenzintervall, Bagging, Jacknife, Prädiktionsfehler, Schätzung duch Kreuzvalidierung. Computerdemonstration:
  1. bootstrap-examples.R
Mi 6. November 2013 Regularisierung und Shrinkage: Entscheidungstheorie, Risko, Verlustfunktion, Hochdimensionale Inferenz, "small n, large p" Daten (z.B. DNA Chips, Proteomics), Stein-Paradox, James-Stein Schätzer, Dominanz, Zulässigkeit, Shrinkage, Model Averaging, Bias-Varianz Trade-off, Regularisierung, hierarchische Modelle, empirische Bayes Inferenz, Shrinkage Schätzer für Varianz und Korrelation. Entscheidungstheorie, Bayes Risko. Computerdemonstration:
  1. stein.R
  2. shrinkage-covariance.R
  3. Beispieldaten: smalldata.txt, largedata.txt.
W5 Di 12. November 2013 Bayesianische Inferenz: Bayes' Theorem, A Priori Verteilung, A Posteriori Verteilung, Kredibilitätsintervall, Bayesian Learning, Zusammenhang mit Shrinkage (Linearität in Exponentialfamilie, Regularisierung), Wahl der Priori, Kompatibilität Priori VT und Likelihood, Jeffreys prior, Referenz Prior, Posteriori Matching Priors. Maximum Entropie Prior.
Mi 13. November 2013 Sampling: Rejection Sampling, Importance Sampling, Markov Chain Monte Carlo (MCMC), Metropolis Algorithmus, Metropolis Hastings, Gibbs Sampling, Reversible Jump MCMC, Hamiltonian MCMC. Approximations. Computerdemonstration: Alle Beispiele benutzen R:
  1. monte-carlo-pi.R
  2. monte-carlo-integral.R
  3. mcmc-examples.R
W6 Di 19 November 2013 Statistisches Testen und Modellwahl: Nullmodell, Alternativverteilung, Mischmodell, Wahl des Schwellenwertes, Fisher's p-Werte (nur Nullmodell), Bayesianische Entscheidungsregel (Nullmodell plus Alternative), Sensitivität, Spezifizität, Power, Recall, False Discovery Rate, False Nondiscovery Rate, True Discovery Rate, Precision, multiples Testen.
W7 Di 26. November 2013 Klassifikationsverfahren: Prädiktionsproblem, Mischmodell, Diskriminanzfunktion, Entscheidungsgrenzen, Zentroide, gemeinsame oder getrennte Kovarianzmatrizen, Quadratische Diskriminanzanalyse (QDA), Lineare Diskriminanzanalyse (LDA), Diagonale Diskriminanzanalyse (DDA), weitere Verfahren (SVM, Naive Bayes, logistische Regression), Variablenselection, LDA für zwei Klassen, t-Statistik. Regularisierte Diskriminanzanalyse, PAM (Tibshirani), RDA (Hastie). Computerdemonstration: Alle Beispiele benutzen R:
  1. classification-non-nested.R
  2. classification-nested-groups.R
W8 Di 3. Dezember 2013 Regression: Lineares Modell, Prediktoren, Response, Regressionskoeffizienten, Residual, RSS, Normalengleichung, Least-Squares Schätzer, ML Schätzer, Zusammenhang Regressionskoeffizient und partieller Korrelation und partieller Varianz, generalisierte lineares Modell (GLM), Link Funktion, Exponentialfamilie, logistische Regression und Logit Link, generalisiertes additives Modell (GAM), Ridge Regression, Lasso Regression, L1 und L2 Penalisierung, Dantzig Selector, lasso und LARS, Elastic Net, Variablenselektion.
W9 Di 10. Dezember 2013 Graphische Modelle: Korrelation und partielle Korrelation, Gaussianische Graphische Modelle, Bayesianische Netzwerke, Kettengraphen. Inferenz von graphischen Modellen. Kausalität.
W10 Di 17. Dezember 2013
entfällt!
Zeitreihenanalyse: Zeitreihe, longitudinale Daten, Trend, Autocovarianz, Autokorrelation, Stationarität, Variogramm, Korrelogramm, Periodogramm, Spektrum, Schätzung der Autocorrelation, AR Modell, VAR Modell, State-Space Modell, ARMA, GARCH. Räumliche Statistik: Räumliche Daten, räumliches Modellieren, räumliche Kovarianzfunktion, geostatistische Modell, Stationarität, Istropie, Gauss-Modell, räumliches GLM, räumliches Variogramm, Matern Kovarianzfunktion, räumliche Prädiktion, Kriging.
Computerdemonstration:
  1. geoR-examples.R
Teil II: Vorlesung (Bioinformatische Anwendung)
W11 Mi 8. Januar 2014 Statistische Analyse von Expressionsdaten
W12 Mi 15. Januar 2014 Statistische Analyse von Sequenzdaten
W13 Di 21. Januar 2014 Wiederholung und Terminvergabe Prüfung
W14
W15 Mo 3.2 - Mi 5.2 (nach Vereinbarung) Mündliche Prüfungen.