Vorlesung:
Beginn: 22. Oktober 2013
Zeit: Dienstag 11:00-12:30, Mittwoch 11:00-12:30
Ort: Seminarraum 109, Härtelstr. 16-18
R Praktikum:
Beginn: 3. Dezember 2013
Zeit: Dienstag 14:00-19:00
Ort: PC Pool 009 Härtelstr. 16-18
Universität Leipzig, Wintersemester 2013/14
Dozenten:
Vorlesung:
Korbinian Strimmer und
Kristin Reiche
R-Kurs:
Katja Nowick und
Markus Kreuz
Synopsis:
Ziel des Moduls ist das Erlernen der konzeptionellen Grundlagen des statistischen Lernens ("statistical machine learning") und deren praktische Anwendung auf bioinformatische Probleme. Die Vorlesung beschäftigt sich mit fortgeschrittten statistischen Lernverfahren und Informationstheorie. Das Praktikum vermittelt praktische Kenntnisse in der Programmierung und Datenanalyse mit der Statistiksoftware R.
Vorkenntnisse:Elementarkenntnisse in Statistik sind sehr hilfreich.
Zur Auffrischung empfiehlt sich das Moduls "Grundlagen der Biometrie" (09-202-4106) von Dirk Hasenclever (im WS 2013/14 immer Montag und Donnerstag).
Das Modul besteht aus einer 3-stündigen Vorlesung (wöchentlich) und einem Computer-Praktikum (5 Blöcke). Thematisch werden vor Weihnachten die allgemeinen Grundlagen erarbeitet (sowohl in der VL und im R Kurs). Nach Weihnachten erfolgt dann die explizite Anwendung auf bioinformatische Problemstellungen.
Am Ende des Semester erfolgt eine mündlichen Prüfung über den Inhalt der Vorlesung und des R-Praktikums.
Themenüberblick:
- Zufallsvariablen und Wahrscheinlichkeitstheorie
- Stochastische Modellierung
- Entropy und Information
- Maximum likelihood und Bayesianische Inferenz
- Clustering und Klassifikation
- Resampling Verfahren (Bootstrap und MCMC)
- Modellwahl und Hypothesentesten
- Hochdimensionale Statistik und Regularisierung
- Graphische Modelle
- Analyse räumlich-zeitlich korrellierter Daten
Empfohlene Literatur (Vorlesung):
- K. P. Murphy. 2012. Machine learning: a probabilistic perspective. MIT Press.
Das zur Zeit aktuellste und sehr umfassende Lehrbuch zu statistischen Verfahren für maschinelles Lernen. - T. Hastie, R. Tibshirani, and J. Friedman. 2009. The elements of statistical learning. 2nd Edition. Springer.
Das Standardlehrbuch zu modernen statistischen Lernverfahren (PDF ist frei verfügbar). - G. James, D. Witten, T. Hastie, and R. Tibshirani. 2013. An introduction to statistical learning, with Applications in R. Springer.
Ähnlicher Inhalt wie "Elements of Statistical Learning", weniger theoretisch und mit R Code (PDF ist frei verfügbar).
Weitere Literatur (Empfehlung):
- C. R. Shalizi. 2013. Advanced Data Analysis from an Elementary Point of View (freies PDF)
- D. J. C. MacKay. 2003. Information theory, inference, and learning algorithms. Cambridge University Press. (freies PDF)
- R. Schutt and C. O'Neil. 2013. Doing data science. O'Reilly.
Weitere relevante Links:
- R Project for Statistical Computing: http://www.r-project.org
Eine freie und sehr leistungsfähige Software für statistische Analysen. - RStudio
Platformunabhängige graphische Benutzeroberfläche für R. - Leipzig R statistical computing
Eine Gruppe von enthusiastischen Leipziger R Benutzern. - The Science of Chance
Sehenswerter BBC Dokumentarfilm über die Entstehung der Statistik als wissenschaftliche Disziplin und den Nutzen in der heutigen Gesellschaft (mit David Spiegelhalter).
Kursplan (R-Kurs):
Der R-Kurs findet an fünf Dienstagnachmittagen (14-19 Uhr) ab dem 3. Dezember 2013 statt. Genauere Details finden Sie auf einer eigenen Seite.
Kursplan (Vorlesung):
Bitte beachten Sie die genauen Wochentage, an denen die VL stattfindet!
Woche | Datum | Besprochene Konzepte |
---|---|---|
Teil I: Vorlesung (Allgemeine Methodik) | ||
W1 | - | |
W2 | Di 22. Oktober 2013 | Was ist Statistik: Lernen aus Daten, Entwicklung der Statistik im 20 Jahrhundert. Was ist Wahrscheinlichkeit: Kolmogorov Axiome, Freqentistische und Bayesianische Interpretation Grundbegriffe: Zufallsvariable, Beobachtungen, Dichtefunktion, Verteilungsfunktion, Erwartungswert, Varianz, Median, Quantilfunktion, Kovarianz, Korrelation, Identitäten für Erwartungswert und (Ko)varianz, Unabhängigkeit, Variablentransformation, Delta Methode, Jensen Ungleichung. Verteilungen: Katalog wichtiger Verteilungen, Normalverteilung, Multivariate Normalverteilung, Beta Verteilung, Exponentialverteilung, Gammaverteilung, Binomialverteilung, Poissonverteilung, Lokationsparameter, Skalenparameter, Varianzstabilisierung. |
Mi 23. Oktober 2013 | Explorative Datenanalyse: empirische CDF, Histogramm, Box-Plot, Violin Plot, Streu-Plot, qq-Plot, Ausreißer Inferenz: Statistisches Lernen, Probabilistische Modellierung von Daten, Unsicherheitverteilung Parameter, Schätzfunktion, Eigenschaften von Schätzern, Bias, MSE, Varianz-Bias Zerlegung, Effizienz, Konsistenz, Stichprobenverteilung. Einfache Schätzer: empirischer Erwartungswert, empirische Varianz, ECDF und Histogramm als Schätzer. Computerdemonstration: | |
W3 | Di 29. Oktober 2013 | Information: Kullback-Leibler Divergenz, Boltzmann Entropie, Shannon Entropie, Mutual Information, Mutual Information zwischen normalverteilten Variablen, Fisher Informationsmatrix. Hierarchie Inferenzmethoden: KL, Maximum likelihood, Kleinste Quadrate, Penalized ML, Bayes, empirisches Bayes. |
Mi 30. Oktober 2013 | Likelihood Inferenz: Kullback-Leibler Distanz, Approximation bei großen Fallzahlen, Maximum-Likelihood, Least-Squares, Likelihood Funktion, Score Funktion, (beobachtete) Fisher Information, Mittelwert als MLE, quadratische Approximation, Likelihood interval, Wald interval, Likelihood ratio, Transformationsinvarianz, Optimalität für große Stichproben, Bias. Cramer-Rao Ungleichung, Overfitting, Suffizienz. | |
W4 | Di 5. November 2013 | Frequentistische Fehlerabschätzung: Delta Methode (univariat und multivariat), Standardkonfidenzintervalle, Bootstrapverfahren, Bootstrap-Schätzer für Varianz und Bias, Bootstrap-Schätzer für Konfidenzintervall, Bagging, Jacknife, Prädiktionsfehler, Schätzung duch Kreuzvalidierung. Computerdemonstration: |
Mi 6. November 2013 | Regularisierung und Shrinkage: Entscheidungstheorie, Risko, Verlustfunktion,
Hochdimensionale Inferenz, "small n, large p" Daten (z.B. DNA Chips, Proteomics),
Stein-Paradox,
James-Stein Schätzer, Dominanz, Zulässigkeit, Shrinkage, Model Averaging, Bias-Varianz Trade-off,
Regularisierung, hierarchische Modelle, empirische Bayes Inferenz, Shrinkage Schätzer für Varianz und
Korrelation. Entscheidungstheorie, Bayes Risko.
Computerdemonstration:
|
|
W5 | Di 12. November 2013 | Bayesianische Inferenz: Bayes' Theorem, A Priori Verteilung, A Posteriori Verteilung, Kredibilitätsintervall, Bayesian Learning, Zusammenhang mit Shrinkage (Linearität in Exponentialfamilie, Regularisierung), Wahl der Priori, Kompatibilität Priori VT und Likelihood, Jeffreys prior, Referenz Prior, Posteriori Matching Priors. Maximum Entropie Prior. |
Mi 13. November 2013 | Sampling: Rejection Sampling, Importance Sampling, Markov Chain Monte Carlo (MCMC), Metropolis Algorithmus, Metropolis Hastings, Gibbs Sampling, Reversible Jump MCMC, Hamiltonian MCMC. Approximations. Computerdemonstration: Alle Beispiele benutzen R: | |
W6 | Di 19 November 2013 | Statistisches Testen und Modellwahl: Nullmodell, Alternativverteilung, Mischmodell, Wahl des Schwellenwertes, Fisher's p-Werte (nur Nullmodell), Bayesianische Entscheidungsregel (Nullmodell plus Alternative), Sensitivität, Spezifizität, Power, Recall, False Discovery Rate, False Nondiscovery Rate, True Discovery Rate, Precision, multiples Testen. |
W7 | Di 26. November 2013 | Klassifikationsverfahren: Prädiktionsproblem, Mischmodell, Diskriminanzfunktion, Entscheidungsgrenzen, Zentroide, gemeinsame oder getrennte Kovarianzmatrizen, Quadratische Diskriminanzanalyse (QDA), Lineare Diskriminanzanalyse (LDA), Diagonale Diskriminanzanalyse (DDA), weitere Verfahren (SVM, Naive Bayes, logistische Regression), Variablenselection, LDA für zwei Klassen, t-Statistik. Regularisierte Diskriminanzanalyse, PAM (Tibshirani), RDA (Hastie). Computerdemonstration: Alle Beispiele benutzen R: |
W8 | Di 3. Dezember 2013 | Regression: Lineares Modell, Prediktoren, Response, Regressionskoeffizienten, Residual, RSS, Normalengleichung, Least-Squares Schätzer, ML Schätzer, Zusammenhang Regressionskoeffizient und partieller Korrelation und partieller Varianz, generalisierte lineares Modell (GLM), Link Funktion, Exponentialfamilie, logistische Regression und Logit Link, generalisiertes additives Modell (GAM), Ridge Regression, Lasso Regression, L1 und L2 Penalisierung, Dantzig Selector, lasso und LARS, Elastic Net, Variablenselektion. |
W9 | Di 10. Dezember 2013 | Graphische Modelle: Korrelation und partielle Korrelation, Gaussianische Graphische Modelle, Bayesianische Netzwerke, Kettengraphen. Inferenz von graphischen Modellen. Kausalität. |
W10 | Di 17. Dezember 2013 entfällt! |
Zeitreihenanalyse:
Zeitreihe, longitudinale Daten, Trend, Autocovarianz, Autokorrelation,
Stationarität, Variogramm, Korrelogramm, Periodogramm, Spektrum, Schätzung
der Autocorrelation, AR Modell, VAR Modell, State-Space Modell, ARMA, GARCH.
Räumliche Statistik:
Räumliche Daten, räumliches Modellieren, räumliche Kovarianzfunktion,
geostatistische Modell, Stationarität, Istropie, Gauss-Modell, räumliches GLM,
räumliches Variogramm, Matern Kovarianzfunktion, räumliche Prädiktion,
Kriging. Computerdemonstration: |
Teil II: Vorlesung (Bioinformatische Anwendung) | ||
W11 | Mi 8. Januar 2014 | Statistische Analyse von Expressionsdaten |
W12 | Mi 15. Januar 2014 | Statistische Analyse von Sequenzdaten |
W13 | Di 21. Januar 2014 | Wiederholung und Terminvergabe Prüfung |
W14 | ||
W15 | Mo 3.2 - Mi 5.2 (nach Vereinbarung) | Mündliche Prüfungen. |