Mit Daten die Welt erfassen? Aber wozu?

Alhazen, Popper, Lakatos – bei allen war der Abgleich von Vermutungen mit Beobachtungen in der Welt zentraler Bestandteil von Wissenschaft. Um das machen zu können, muss die Welt hinsichtlich einer konkreten Frage beobachtet werden. Beispielsweise das Phänomen, warum die Sonne in der früh hier und abends dort ist. Wenn man am Anfang ist, sich diese Frage zu stellen, beobachtet man erst einmal den Verlauf der Sonne, hält alle Beobachtungen dazu fest, und überlegt sich eine Antwort – die Hypothese – die auch die Beobachtungen erklären kann. Als nächsten Schritt muss getestet werden, ob die  Hypothese neue Beobachtungen  erklären kann, wodurch sie zur Theorie wird, oder sie muss geändert oder sogar fallen gelassen werden. Dann muss eine neue Hypothese her.

Die notwendigen Beobachtungen der Welt werden beschrieben und festgehalten – also zu Daten. Dadurch wollen Wissenschafter Phänomene erklären. Das hilft, um mit ihnen umzugehen und sie vielleicht zum Nutzen von Menschen zu verwenden. Das ist im Grunde die Motivation, um in gezielter Weise Daten über die Welt zu erfassen.

Nun gibt es seit jeher die Diskussion unter Wissenschafter, wie viel wir überhaupt verstehen können. Ist die Welt nicht zu komplex, um sie tiefgehend verstehen zu können? Reicht es nicht für die meisten Zwecke, oberflächliche Fragen zu stellen, die man durch Beobachtungen direkt beantworten kann. Solche Ansätze betrachten die Mechanismen des Phänomens als eine Kiste, in die man nicht hinein sehen muss – die sogenannte Black box. Diesen Gedanken folgend, bräuchten wir nicht zu verstehen, warum die Sonne sich so verhält. Es reicht zu wissen, welches Verhalten sie unter bestimmten Bedingungen zeigt. Denn dann können wir einfach an diesen Bedingungen anknüpfen, um uns das Phänomen ihres Verhalten zunutze zu machen.

Spätestens seit der zweiten Hälfte des Zwanzigsten Jahrhunderts ist man von diesem oberflächlichen wissenschaftlichen Ansatz weggekommen. Denn um mit einem Phänomen umgehen zu können, müssen wir den Mechanismus kennen, der es erzeugt, und diesen (im besten Fall) am besten sogar nachbilden können, um  die unterschiedlichen Auswirkungen nachvollziehen zu können. Einfach gesagt: an die Ursachen anknüpfen ist wirkungsvoller als an die Symptome.

Natürlich sind viele Mechanismen von Phänomenen zu komplex, damit wir sie mit  Regeln erfassen können. Dafür gibt es jedoch Methoden, zB. die Dekomposition – das (hierarchische) Aufteilen der Mechanismen. Auch systemische Ansätze und das Betrachten unterschiedlicher Ebenen helfen bei dieser Problematik.

Zurück zu den Daten. Diese können auf unterschiedliche Weise gesammelt werden. Vor, sagen wir einmal, hundert Jahren war es oft so, dass der Prozess der Datensammlung und Theoriebildung nicht klar getrennt war, v.a. in den Geisteswissenschaften – man denke an Freud. Später wurden sie strukturiert erfasst, zB. in Logbüchern. In unserem digitalen Zeitalter werden sie nun oft automatisiert erfasst. Das scheint einerseits dazu zu führen, dass eine Menge Daten über ein Phänomen gesammelt werden kann. Andererseits hat man nicht die Mittel, um damit im klassisch-wissenschaftlichen Sinn umzugehen. Das liegt hauptsächlich an der Menge und Anzahl der Eigenschaften der Daten. Die Möglichkeiten mit relativ wenig Aufwand viele Daten zu erfassen, ist anscheinend so verlockend, dass man sich nicht mehr fragt warum wir es tun sollen. Nach dem Motto: Warum nicht, wenn wir es tun können? Schau ma mal, wofür es nützlich ist (Wir werden sehen, wofür die Daten nützlich sind).

Das wäre im Grunde kompatibel mit der klassischen wissenschaftlichen Methode, falls es nur der explorative erste Schritt wäre. Also: falls aus den (Korrelationen der) Daten, Theorien und Modelle entwickelt werden, womit wir ein Phänomen erklären und die Mechanismen, die es erzeugen, nachvollziehen können. In der rein daten-getriebenen Forschung, die nach keinen erklärenden Rahmen für diese Daten sucht, passiert dies jedoch nicht. Es ist zu aufwendig für die gewaltigen Datenmengen (einfache) Erklärungen zu finden, die alle Aspekte dieser Daten abdecken können. Außerdem haben wir durch Computeralgorithmen und Rechenkraft die Möglichkeit erhalten, mit relativ einfachen Aufwand mit den Daten zu experimentieren.

Theoretisch könnte man diese Algorithmen auch dafür verwenden, schrittweise Strukturen in den Daten zu finden, bis hin zu einer allgemeinen Theorie. Aber warum sich mit Theoriebildung aufhalten, wenn wir alle möglichen Beziehungen zwischen den Daten testen können? Vielleicht können wir daraus direkten Nutzen, also Anwendungen erstellen. Hauptsache es wirkt. Wie das passiert ist sekundär. Denn die (finanziellen) Investitionen in die Forschung müssen schnell direkte Auswirkungen (rasche Ergebnisse) zeigen. Im Endeffekt entspricht das jedoch nichts anderes als einer extremen Form der Black-Box-Wissenschaft, die sich mit allen möglichen Aspekten von Symptomen beschäftigt, ohne uns Antworten über die Ursachen bieten zu können.

Die Möglichkeiten der automatisierten Datenerfassung und -verarbeitung bieten somit großes Potential für die Wissenschaft, falls sie in die klassische wissenschaftlichen Methode eingebettet werden. Dafür müssen wir Wege finden, unter den neuen Bedingungen Theorien und Daten zusammenzubringen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.