blaue Platine

6.3.2015 | Von:
Viktor Mayer-Schönberger

Was ist Big Data? Zur Beschleunigung des menschlichen Erkenntnisprozesses

Von Quantität und Qualität

Stehen lediglich wenige Daten zur Verfügung, muss besonders darauf geachtet werden, dass die gesammelten Daten die Wirklichkeit genau widerspiegeln – denn jeder Messfehler kann das Ergebnis verfälschen. Besonders schlimm ist dies etwa, wenn alle diese Daten von einem einzigen verfälschenden Messinstrument stammen. Mit Big Data hingegen liegen große Datensammlungen vor, die sich technisch relativ einfach auch kombinieren lassen. Bei einem so viel Mehr an Daten fallen Messfehler bei einem oder einer Handvoll Datenpunkten deutlich weniger ins Gewicht. Und wenn die Daten aus unterschiedlichen Quellen stammen, ist auch die Wahrscheinlichkeit eines systematischen Fehlers geringer.

Gleichzeitig bedeutet ein Mehr an Daten aus sehr unterschiedlichen Quellen aber auch neue mögliche Problemfelder. So können unterschiedliche Datenbestände die Wirklichkeit mit unterschiedlichen Fehlerraten gemessen haben oder gar unterschiedliche Aspekte der Wirklichkeit abbilden – wodurch sie nicht unmittelbar vergleichbar sind. Würden wir sie trotzdem einer gemeinsamen Analyse unterziehen, hieße das, Äpfel mit Birnen zu vergleichen. Damit ist klar, dass weder eine kleine, mit hoher Genauigkeit gesammelte Datenmenge einer sehr großen, aus unterschiedlichen Quellen stammenden Datenmenge überlegen ist, noch umgekehrt. Stattdessen sehen wir uns im Kontext von Big Data bei der Auswahl der Daten viel häufiger einem Zielkonflikt gegenüber, bei dem es auf den jeweiligen Kontext ankommt, ob wir uns für das Eine oder Andere entscheiden. Bisher trat dieser Zielkonflikt selten auf, weil wir aufgrund der hohen Kosten des Sammelns und Auswertens von Daten in der Regel nur wenige davon sammelten. Daraus hat sich mit der Zeit der generelle Fokus auf die Qualität der Daten entwickelt.

Zur Verdeutlichung ein Beispiel: Ende der 1980er Jahre experimentierten Forscher bei IBM mit einem neuen Ansatz der automatisierten maschinellen Übersetzung von Texten einer Sprache in eine andere. Die Idee war, statistisch zu ermitteln, welches Wort einer Sprache in ein bestimmtes Wort einer anderen Sprache übersetzt wird. Dafür bedurfte es eines Trainingstextes, der den Forschern in Form der offiziellen Protokolle des kanadischen Parlaments in den zwei Amtssprachen Englisch und Französisch zur Verfügung stand. Das Ergebnis war verblüffend gut, konnte in der Folge aber kaum verbessert werden. Ein Jahrzehnt später nahm Google alles an mehrsprachigen Texten aus dem Internet, das sich finden ließ, unabhängig von der Qualität dieser Übersetzungen. Die um Größenordnungen größere Datenmenge lieferte trotz sehr unterschiedlicher – und in Summe durchschnittlich wohl geringerer – Qualität der Übersetzungen ein sehr viel besseres Ergebnis, als es IBM mit weniger, aber besseren Daten erzielt hatte.

Ende des Ursachen-Monopols

Die gängigen Big-Data-Analysen identifizieren statistische Korrelationen in den Datenbeständen, die auf Zusammenhänge hindeuten. Sie erklären damit im besten Fall, was passiert, nicht aber warum. Das ist für uns Menschen oftmals unbefriedigend, weil wir die Welt in der Regel als Verkettungen von Ursachen und Wirkungen verstehen.

Der Nobelpreisträger für Wirtschaftswissenschaften Daniel Kahneman hat eindrücklich nachgewiesen, dass schnelle Ursachenschlüsse von Menschen oftmals fehlerhaft sind.[8] Sie mögen uns das Gefühl geben, die Welt zu verstehen, aber sie reflektieren die Wirklichkeit und ihre Ursachen nur unzureichend. Die echte Ursachensuche hingegen ist zumeist außergewöhnlich schwierig und aufwendig und gelingt vollständig gerade bei komplexen Zusammenhängen nur in ausgewählten Fällen. Diese Schwierigkeit der Ursachenforschung führte bisher dazu, dass wir trotz mitunter erheblichen Einsatzes an Ressourcen die Kausalitäten nur relativ weniger komplexer Phänomene ausreichend verstanden haben. Auch schleichen sich beträchtliche Fehler schon deshalb ein, weil sich die beteiligten Forscherinnen und Forscher mit der eigenen Ursachenhypothese identifizieren und nur diese erfolgreich beweisen wollen. Dieses Risiko lässt sich allenfalls durch aufwendige Methoden – etwa dem Doppelblindverfahren – mindern.

Die auf Korrelationen beruhende Big-Data-Analyse könnte hier Vorteile bieten – etwa, indem wir schon die daraus resultierende Antwort auf das "Was" mitunter als werthaltige Erkenntnis wahrnehmen und daraus pragmatische Konsequenzen ziehen. Zum Beispiel haben die Gesundheitsinformatikerin Carolyn McGregor und ihr Team an der Universität Toronto in den Daten der Vitalfunktionen von Frühgeborenen Muster erkannt, die eine wahrscheinliche zukünftige Infektion anzeigen, viele Stunden bevor erste Symptome auftreten. McGregor kennt damit zwar nicht die Ursache der Infektion, aber die auf Wahrscheinlichkeiten beruhende Erkenntnis reicht aus, um den betroffenen Frühchen entsprechende Medikamente zu verabreichen. Das mag in Einzelfällen gar nicht nötig gewesen sein, aber in der Mehrzahl der Fälle rettet es das Leben des Frühgeborenen und ist daher, gerade auch wegen der relativ geringen Nebenwirkungen, die pragmatisch richtige Konsequenz aus der Datenanalyse.

Im Gegenzug müssen wir freilich auf der Hut sein, nicht jeder statistischen Korrelation auch einen tieferen Zusammenhang zu unterstellen. Denn mittels Korrelationen werden auch bloß zufällige Übereinstimmungen erfasst, die keinen tieferen inneren Zusammenhang widerspiegeln.

Erkenntnisse über das Was der Wirklichkeit können darüber hinaus auch für die Ursachenforschung von bedeutendem Nutzen sein. Denn anstatt lediglich auf der Basis einer Intuition einen bestimmten Zusammenhang aufwendig zu erforschen, erlaubt eine auf Korrelationen basierende Big-Data-Analyse die Bewertung einer großen Vielzahl leicht unterschiedlicher Hypothesen. Die Erfolg versprechendsten Hypothesen können dann für die Ursachenforschung herangezogen werden. Mit anderen Worten: Big Data kann helfen, die Stecknadel der Erkenntnis im Heuhaufen der Daten für die Ursachenforschung zu finden.

Schon daraus wird klar, dass mit Big Data die Suche der Menschen nach Ursachen nicht abbricht. Aber die nahezu monopolartige Stellung der Ursachenforschung im Erkenntnisprozess weicht sich auf, indem öfter das Was vor dem Warum ermittelt werden wird. In manchen Fällen mag das schon reichen, jedenfalls fürs Erste. Und in vielen anderen Fällen wird die nachfolgende Suche nach dem Warum vom Verständnis über das Was deutlich profitieren. In Summe wird damit der menschliche Erkenntnisprozess verbessert.

Fußnoten

8.
Vgl. Daniel Kahneman, Schnelles Denken, langsames Denken, München 2012.
Creative Commons License

Dieser Text ist unter der Creative Commons Lizenz "CC BY-NC-ND 3.0 DE - Namensnennung - Nicht-kommerziell - Keine Bearbeitung 3.0 Deutschland" veröffentlicht. Autor/-in: Viktor Mayer-Schönberger für Aus Politik und Zeitgeschichte/bpb.de

Sie dürfen den Text unter Nennung der Lizenz CC BY-NC-ND 3.0 DE und des/der Autors/-in teilen.
Urheberrechtliche Angaben zu Bildern / Grafiken / Videos finden sich direkt bei den Abbildungen.


Ein Wordle aus dem Einführungstext des Dossiers.
Dossier

Open Data

Open Data steht für die Idee, Daten öffentlich frei verfügbar und nutzbar zu machen. Welches Potential verbirgt sich hinter den Daten, die Behörden und Ministerien, Parlamente, Gerichte und andere Teile der öffentlichen Verwaltung produzieren? Das Dossier klärt über die Möglichkeiten offener Daten für eine nachhaltige demokratische Entwicklung auf und zeigt, wie Datenjournalisten mit diesen Datensätzen umgehen.

Mehr lesen

Leiterbahnen auf einer Computerplatine.
Dossier

Datenschutz

Was bedeutet Datenschutz? Wie ist er gesetzlich geregelt? Was steckt hinter den Begriffen informationelle Selbstbestimmung und Privatsphäre? Wie können persönliche Daten im Internet geschützt werden? Das Online-Dossier Datenschutz klärt über Hintergründe auf und gibt praktische Handlungsanleitungen zum Thema.

Mehr lesen

Publikation zum Thema

Coverbild APuZ - Jahresband 2013

APuZ - Jahresband 2015

Der APuZ-Jahresband 2015: Sämtliche Ausgaben der Zeitschrift "Aus Politik und Zeitgeschichte" aus dem Jahr 2015.Weiter...

Zum Shop