Methoden zum Prüfen von Methoden

Datenanalyse sind mathematische Verfahren und daher oft analytisch beweisbar, benötigen allerdings dafür oft Annahmen, etwa über asymptotisches Verhalten von Verteilungen. Wenn unklar ist, in welchem Ausmaß diese Annahmen erfüllt sind, benötigt man empirische Verfahren, um Analyseverfahren zu testen. Das betrifft zum Beispiel empirische Analysen mit wenig Probanden, aber auch aufwendige Fitverfahren, deren Komplexität sich einem formalen Beweis entziehen.

Monte Carlo Simulationen bieten sich hier an: Ein Programm erzeugt zufällig eine Forschungssituation nach bekannten Modellparametern, und dann wird das Analyseverfahren darauf angewendet, um zu schauen, ob das ursprüngliche Modell rekonstruiert werden kann. Mehrere Wiederholungen erlauben eine Einschätzung, mit welchem Bias und Fehler Punktschätzer behaftet sind. Empirische Forscher mit komplexen, in Multiplen Ebenen angeordneten Daten erhalten so eine Möglichkeit, sich einen Eindruck zu verschaffen, ob ihre Analysemethoden ausreichend präzise sind bzw. ob ein spezifisches Versuchsdesign ausreichend statistische Power liefert. Das gilt besonders für Forscher mit Interesse an längsschnittlichen Datenerhebungen, wo viele Ressourcen und Lebenszeit in ein Projekt gebündelt wird.

Bayesianische Verfahren liefern allerdings in der Regel nicht (oder nicht primär) einen Punktschätzer, sondern eine Verteilung der Parameter, die bei jeder Simulationswiederholung unterschiedlich ist. Der ‚ground truth‘ durch die Simulationsparameter liefert jetzt nur einen Wert, der aus dieser Verteilung kommen sollte. Dadurch stellt sich die mathematische Aufgabe, aus einer Reihe von Ziehungen einer Verteilung und jeweils eines Wertes festzustellen, ob die Verteilung in geeigneter Weise den Wert repräsentiert.

Das Thomas Bayes Institut forscht sowohl bei der Entwicklung solcher ‚Meta-Methoden‘ und wendet diese auch an. Wir interessieren uns für (1) Simulation längsschnittlicher Analysemethoden wie z.B. latenten Wachstumsmodellen oder autoregressiven Zeitreihenanalysen, (2) Simulation moderner KI-basierten empirischen Methoden wie z.B. Gruppenvergleichen über Classifier, (3) finden geeigneter Definition und Algorithmen zur Überprüfung bayesianischer Schätzverfahren.