Statistical Foundations of Data Science

Wintersemester 2022/2023

Seminar

Zeit: Dienstag 14:15-15:45
Ort: INF 205 SR 6

Kontakt

Dozent: Prof. Dr. Enno Mammen
Assistent:in: Joseph Meyer
Assistent:in: Ricardo Blum

Vorläufiger Seminarinhalt

Das Seminar basiert auf dem Buch "Statistical Foundations of Data Science" von Fan, J., Li, R., Zhang, C.-H., und Zou (2020).

Durch den technischen Fortschritt der letzten Jahrzehnte wurde es möglich, riesige, hochdimensionale Datensätze zu generieren. Wissenschaftler wollen diese verwenden, um empirische Aussagen zu treffen. In der Anwendung stellt sich nun heraus, dass traditionelle statistische Verfahren wie beispielsweise Lineare Regression oder nicht-parametrische Kernschätzungen in diesen Situationen oft keine guten Ergebnisse liefern. Außerdem kann man in der Theorie zeigen, dass ohne zusätzliche Annahmen im Allgemeinen nur sehr langsame Konvergenzraten in hochdimensionalen Problemen möglich sind (Fluch der Dimensionalität). Es gibt nun viele verschiedene Möglichkeiten, sich diesen Problemen zu stellen. Anwender entwickeln neue Algorithmen und theoretische Statistiker entwickeln Aussagen über das Verhalten dieser Verfahren und studieren für Modelle, die reale Situationen möglichst gut beschreiben, welche Optimalitätseigenschaften, wie etwa Konvergenzraten, in diesen Modellen erreicht werden können. In diesem Seminar wollen wir die statistischen theoretischen Grundlagen einiger dieser Ansätze genauer betrachten. Wir werden Methoden aus dem Buch "Statistical Foundations of Data Science" vorstellen und diese durch ein paar moderne Paper ergänzen.

Vorbesprechung

Die Vorbesprechung findet in der ersten Semesterwoche Dienstag, den 18.10. um 14:00 statt.

Vorträge

Teilnehmer:innen des Seminars müssen eines der folgenden Themem in einem einstündigen Seminarvortrag vorstellen.

Lasso (2 Vorträge)
- Statistical Foundations of Data Science: Seiten 66-81,145-161
PCA (3 Vorträge)
- Statistical Foundations of Data Science: Seiten 471-507
- Sriperumbudur, Sterge (2022) - Approximate Kernel PCA using Random Features
SVM (2 Vorträge)
- Statistical Foundations of Data Science: Seiten 575-578
- Hamm, Steinwart (2021) - Adaptive Learning Rates for Support Vector Machines Working on Data with Low Intrinsic Dimension
Neuronale Netze (3 Vorträge)
- Statistical Foundations of Data Science: Seiten 643-680
- Schmidt-Hieber (2020) - Nonparametric Regression using Deep Neural Networks with ReLU Activation Function
- Montanari, Zhong (2022) - The Interpolation Phase Transition in Neural Networks - Memorization and Generalization under Lazy Training
Zusätzliche Vorträge (2 Vorträge)
- Javanmard, Soltanolkotabi (2022) - Precise Statistical Analysis of Classification Accuracies for Adversarial Training
- Liang, Sura (2022) - Precise High-Dimensional Asymptotic Theory for Boosting and Minimum-L1-Norm Interpolated Classifiers

Tragen Sie sich bei Interesse am Seminar im MÜSLI ein.

Zulassungsvoraussetzungen und Abschlussnote

Das Seminar richtet sich an Bachelor und Masterstudierende des Fachbereichs Mathematik. Als Voraussetzungen empfehlen wir gute Kenntnisse in

Analysis 1
Lineare Algebra 1
Einführung in die Wahrscheinlichkeitstheorie
Wahrscheinlichkeitstheorie 1
Statistik 1

Für die Abschlussnote ist der Seminarvortrag ausschlaggebend. Für weitere Fragen können Sie gerne Joseph Meyer kontaktieren.