Künstliche Intelligenz begegnet uns in jedem Haushaltsgerät in unserer Umgebung. Manchmal klar als solche zu erkennen wie zum Beispiel bei Large Language Models, manchmal aber auch versteckte Classifier, die zu erraten versuchen, ob uns ein Film auf einer Streamingplattform gefallen wird. Beide Varianten von künstlicher Intelligenz können auch die Datenauswertung in den empirischen Wissenschaften vereinfachen, und am Thomas Bayes Institut forschen wir in beide Richtungen.
Classifier finden schon seit einiger Zeit Anwendung in der Analyse von großen und komplexen Datensätzen, wie etwa bei bildgebenden Verfahren in den Neurowissenschaften. Der Grundgedanke ist, wenn sich zwei Bedingungen – zum Beispiel junge und alte Probanden – in einem komplexen Datensatz unterscheiden, dann wird ein Classifier in der Lage sein, anhand dieser Daten die beiden Bedingungen voneinander zu trennen. Andersrum, wenn sich die beiden Bedingungen nicht unterscheiden, dann kann auch eine effektive künstliche Intelligenz die beiden Bedingungen anhand dieser Daten nicht trennen. Um zu prüfen, ob Classifier verlässlich zwei Bedingungen trennen können, wird oft ein Permutationsverfahren verwendet. Hierbei werden in vielen Wiederholungen die Gruppenlabel vermischt, um die Verteilung der Classiferleistung zu bestimmen, wenn die Gruppen nicht unterscheidbar sind. In dieser Verteilung wird dann die Leistung des Classifiers mit den echten Daten eingeordnet.
Dieses Verfahren hat zwei wesentliche Nachteile, (1) ist es sehr aufwändig, weil der Classifier für sehr viele Permutation trainiert werden muss, und (2) kann die Verteilung der Classifierleistung nur für den Punkt bestimmt, dass die Bedingungen gleich sind. Dadurch ist es z.B. unmöglich zu testen, ob der Classifier besser als 60% Leistung bringt, und auch eine bayesianische Auswertung ist unmöglich.
Eine Alternative ist die am Thomas Bayes Institut erforschte Independent Validation, ein Verfahren, mit dem die Leistung eines Classifiers mit bekannter Dichteverteilung bestimmt werden kann und somit dann auch bayesianisch geschätzt werden kann. Damit kann man auch bei Classifier-Unterscheidung von Gruppen auf Frequentismus verzichten und moderne Inferenzverfahren verwenden. Die Abgrenzung der Classifierleistung von 50% (dass die beiden Gruppen ununterscheidbar sind) ist damit genauso einfach wie von jeder anderen Grenze. Außerdem ist das Verfahren ein gutes Stück schneller.
Meistens finden Classifier bei ‚Big Data‘ Einsatz, also wenn viele Datensätze mit vielen Datenpunkten vorliegen. Am Thomas Bayes Institut erforschen wir aber auch das Verhalten von Classifier-Analyseverfahren für kleine Probandenzahlen. Auch hier zeigt sich, dass diese Verfahren flexibler als klassischen Verfahren sind, gleiche oder bessere statistische Power aufweisen, und nicht-frequentistische Inferenzen erlauben selbst bei Gruppenvergleichen mit ordinalen oder kategorischen Daten, die in der Vergangenheit nur nicht-parametrische ausgewertet werden konnten. Classifier zur Gruppenunterschiedsanalyse sind ein generalisierendes Framework, in dem eine große Anzahl an klassischen Testverfahren (wie etwa U-Tests, chi-quadrat-Tests, und viele andere) in einem Framework zusammengebunden werden können und daher auch in der Methodenlehre deutlich einfacher werden.
Large Language Models (LLMs) sind ein weiteres Forschungsgebiet, an dem Künstliche Intelligenz bei der Datenanalyse eingesetzt werden können. Das Ziel ist hier, dem Forscher bei der Übersetzung von inhaltlichen Modellen in empirisch testbare Hypothesen zu helfen. Am Thomas Bayes Institut erforschen wir die Möglichkeiten, Large Language Modelle als ‚Assistent‘ bei der Erstellung von statistischen Modellen und sogar ganzen Versuchsdesigns zu verwenden. In Kooperation mit der University of Virginia spezialisieren wir dafür LLMs auf diese Aufgaben.
Im Bereich der künstlichen Intelligenz zur Datenanalyse forschen wir am Thomas Bayes Institut an (1) effizienten und flexiblen Methoden zur Schätzung der Leistung von Classifiern und Inferenz darüber, (2) an Anwendungen von Classifier-Methoden für kleine Probandenzahlen, (3) Zusammenfassung von klassisch nicht-parametrischen Tests in ein einfaches, uniformes und bayesianisches Inferenzverfahren, und (4) der Anwendung von LLM bei der Erstellung von Analysemodellen und Versuchsdesigns.