Heidelberg University

Seminar: Random Forests und andere Baum-basierte Verfahren in der Statistik

Sommersemester 2020

Aufgrund der aktuellen Situation können sich noch einige der unteren Angaben ändern. Wir informieren alle im MÜSLI eingetragenen Studierenden per Mail über Änderungen dieser Webseite.

Termine

  • Vorbesprechung: Dienstag, 21.04.2020, 16–18 Uhr.
  • Zeit: Dienstags 16–18 Uhr
  • (nicht aktuell) Ort: INF 205 (Mathematikon), SR5
  • Ort: Das Seminar findet digital auf einem Discordserver statt.

Voraussetzungen und Anmeldung

Wichtig: Schreiben Sie eine E-mail an Joseph Meyer, falls Sie an der Vorbesprechung teilnehmen möchten.

Bitte melden Sie sich bei Interesse im MÜSLI für das Seminar an.
Das Seminar richtet sich an Studierende der Mathematik (Bachelor und Master). Der Inhalt einer Vorlesung Statistik 1 und Wahrscheinlichkeitstheorie 1 sind sehr hilfreich.

Kontakt

Inhalt des Seminars

In diesem Seminar lernen wir verschiede Schätzmethoden kennen, die auf dem sogenannten Random Forests Algorithmus basieren. Der von Leo Breiman eingeführte Algorithmus ist eine nicht-parametrische Methode um Regressionsprobleme zu lösen. Durch iteratives Teilen des Definitionsbereichs erhält man eine Partition um dann separat auf jeder Teilmenge eine einfache Schätzung des bedingten Erwartungswerts zu berechnen. Er wird insbesondere in Situationen mit vielen Regressoren (hochdimensionale Probleme) verwendet. Der rekursive Aufbau des Verfahrens, sowie einige statistische Größen, die an verschiedenen Stellen einfließen, ergeben ein mathematisch interessantes Modell. Es werden Konvergenzraten unterschiedlicher Varianten des Algorithmus und Konfidenzintervalle für Hypothesentests berechnet. Hierbei werden auch Modifikationen und Verallgemeinerungen der Problemstellung betrachtet.

Themenauswahl

Die Zuteilung der Themen findet am Vorbesprechungsthermin statt. Folgende Themen stehen für die Vorträge zur Verfügung.
  1. Einführung mit Datenbeispielen
    • James, G., Witten, D., Hastie, T., Tibshirani, R. An Introduction to Statistical Learning with Applications in R. Springer 2013
    • Hastie, T., Tibshirani, R., Friedman, J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer 2009
    • Richter, S. Statistisches und maschinelles Lernen. Springer 2019
  2. Konvergenzraten für Random Forests Models
    • Biau, G. (2012). Analysis of a random forests model.
    • J. M. Klusowski (2019) Sharp Analysis of a Simple Model for Random Forests
  3. Ein allgemeines Konsistenzresultat für Breiman's Originalversion des Random Forests für additive Modelle.
    • E. Scornet, G. Biau, J.-P. Vert (2015). Consistency of Random Forests
  4. Asymptotik für Splitverteilungen
    • M. Banerjee, I.W. McKeague (2007) Confidence sets for split points in decision trees.
  5. Verteilungstheorie für Random Forests
    • L. Mentch, G. Hooker (2016) Quantifying uncertainty in random forests via confidence intervals and hypothesis testing.
    • S. Wager and S. Athey (2017) Estimation and Inference of Heterogeneous Treatment Effects using Random Forests
  6. Modifikationen und Versionen von Random Forests.

Modulprüfung

Voraussetzung für das Bestehen des Moduls ist das Halten eines 90-minütigen Vortrags über eines der oben angegebenen Themen, sowie eine regelmäßige (digitale) Anwesenheit bei den Seminarvorträgen. Für die Benotung ist allein der Seminarvortrag maßgeblich.