Statistical Foundations of Data Science
Wintersemester 2022/2023
Seminar
- Zeit: Dienstag 14:15-15:45
- Ort: INF 205 SR 6
Kontakt
Dozent: Prof. Dr. Enno Mammen
- Assistent:in: Joseph Meyer
- Assistent:in: Ricardo Blum
Vorläufiger Seminarinhalt
Das Seminar basiert auf dem Buch "Statistical Foundations of Data Science" von Fan, J., Li, R., Zhang, C.-H., und Zou (2020).Durch den technischen Fortschritt der letzten Jahrzehnte wurde es möglich, riesige, hochdimensionale Datensätze zu generieren. Wissenschaftler wollen diese verwenden, um empirische Aussagen zu treffen. In der Anwendung stellt sich nun heraus, dass traditionelle statistische Verfahren wie beispielsweise Lineare Regression oder nicht-parametrische Kernschätzungen in diesen Situationen oft keine guten Ergebnisse liefern. Außerdem kann man in der Theorie zeigen, dass ohne zusätzliche Annahmen im Allgemeinen nur sehr langsame Konvergenzraten in hochdimensionalen Problemen möglich sind (Fluch der Dimensionalität). Es gibt nun viele verschiedene Möglichkeiten, sich diesen Problemen zu stellen. Anwender entwickeln neue Algorithmen und theoretische Statistiker entwickeln Aussagen über das Verhalten dieser Verfahren und studieren für Modelle, die reale Situationen möglichst gut beschreiben, welche Optimalitätseigenschaften, wie etwa Konvergenzraten, in diesen Modellen erreicht werden können. In diesem Seminar wollen wir die statistischen theoretischen Grundlagen einiger dieser Ansätze genauer betrachten. Wir werden Methoden aus dem Buch "Statistical Foundations of Data Science" vorstellen und diese durch ein paar moderne Paper ergänzen.
Vorbesprechung
Die Vorbesprechung findet in der ersten Semesterwoche Dienstag, den 18.10. um 14:00 statt.Vorträge
Teilnehmer:innen des Seminars müssen eines der folgenden Themem in einem einstündigen Seminarvortrag vorstellen.- Lasso (2 Vorträge)
- Statistical Foundations of Data Science: Seiten 66-81,145-161
- PCA (3 Vorträge)
- Statistical Foundations of Data Science: Seiten 471-507
- Sriperumbudur, Sterge (2022) - Approximate Kernel PCA using Random Features
- SVM (2 Vorträge)
- Statistical Foundations of Data Science: Seiten 575-578
- Hamm, Steinwart (2021) - Adaptive Learning Rates for Support Vector Machines Working on Data with Low Intrinsic Dimension
- Neuronale Netze (3 Vorträge)
- Statistical Foundations of Data Science: Seiten 643-680
- Schmidt-Hieber (2020) - Nonparametric Regression using Deep Neural Networks with ReLU Activation Function
- Montanari, Zhong (2022) - The Interpolation Phase Transition in Neural Networks - Memorization and Generalization under Lazy Training
- Zusätzliche Vorträge (2 Vorträge)
- Javanmard, Soltanolkotabi (2022) - Precise Statistical Analysis of Classification Accuracies for Adversarial Training
- Liang, Sura (2022) - Precise High-Dimensional Asymptotic Theory for Boosting and Minimum-L1-Norm Interpolated Classifiers
Zulassungsvoraussetzungen und Abschlussnote
Das Seminar richtet sich an Bachelor und Masterstudierende des Fachbereichs Mathematik. Als Voraussetzungen empfehlen wir gute Kenntnisse in- Analysis 1
- Lineare Algebra 1
- Einführung in die Wahrscheinlichkeitstheorie
- Wahrscheinlichkeitstheorie 1
- Statistik 1