Header Big Data

6.3.2015 | Von:
Viktor Mayer-Schönberger

Big Data - Zur Beschleunigung des menschlichen Erkenntnisprozesses

Von Quantität und Qualität

Stehen lediglich wenige Daten zur Verfügung, muss besonders darauf geachtet werden, dass die gesammelten Daten die Wirklichkeit genau widerspiegeln – denn jeder Messfehler kann das Ergebnis verfälschen. Besonders schlimm ist dies etwa, wenn alle diese Daten von einem einzigen verfälschenden Messinstrument stammen. Mit Big Data hingegen liegen große Datensammlungen vor, die sich technisch relativ einfach auch kombinieren lassen. Bei einem so viel Mehr an Daten fallen Messfehler bei einem oder einer Handvoll Datenpunkten deutlich weniger ins Gewicht. Und wenn die Daten aus unterschiedlichen Quellen stammen, ist auch die Wahrscheinlichkeit eines systematischen Fehlers geringer.

Gleichzeitig bedeutet ein Mehr an Daten aus sehr unterschiedlichen Quellen aber auch neue mögliche Problemfelder. So können unterschiedliche Datenbestände die Wirklichkeit mit unterschiedlichen Fehlerraten gemessen haben oder gar unterschiedliche Aspekte der Wirklichkeit abbilden – wodurch sie nicht unmittelbar vergleichbar sind. Würden wir sie trotzdem einer gemeinsamen Analyse unterziehen, hieße das, Äpfel mit Birnen zu vergleichen. Damit ist klar, dass weder eine kleine, mit hoher Genauigkeit gesammelte Datenmenge einer sehr großen, aus unterschiedlichen Quellen stammenden Datenmenge überlegen ist, noch umgekehrt. Stattdessen sehen wir uns im Kontext von Big Data bei der Auswahl der Daten viel häufiger einem Zielkonflikt gegenüber, bei dem es auf den jeweiligen Kontext ankommt, ob wir uns für das Eine oder Andere entscheiden. Bisher trat dieser Zielkonflikt selten auf, weil wir aufgrund der hohen Kosten des Sammelns und Auswertens von Daten in der Regel nur wenige davon sammelten. Daraus hat sich mit der Zeit der generelle Fokus auf die Qualität der Daten entwickelt.

Zur Verdeutlichung ein Beispiel: Ende der 1980er Jahre experimentierten Forscher bei IBM mit einem neuen Ansatz der automatisierten maschinellen Übersetzung von Texten einer Sprache in eine andere. Die Idee war, statistisch zu ermitteln, welches Wort einer Sprache in ein bestimmtes Wort einer anderen Sprache übersetzt wird. Dafür bedurfte es eines Trainingstextes, der den Forschern in Form der offiziellen Protokolle des kanadischen Parlaments in den zwei Amtssprachen Englisch und Französisch zur Verfügung stand. Das Ergebnis war verblüffend gut, konnte in der Folge aber kaum verbessert werden. Ein Jahrzehnt später nahm Google alles an mehrsprachigen Texten aus dem Internet, das sich finden ließ, unabhängig von der Qualität dieser Übersetzungen. Die um Größenordnungen größere Datenmenge lieferte trotz sehr unterschiedlicher – und in Summe durchschnittlich wohl geringerer – Qualität der Übersetzungen ein sehr viel besseres Ergebnis, als es IBM mit weniger, aber besseren Daten erzielt hatte.

Ende des Ursachen-Monopols

Die gängigen Big-Data-Analysen identifizieren statistische Korrelationen in den Datenbeständen, die auf Zusammenhänge hindeuten. Sie erklären damit im besten Fall, was passiert, nicht aber warum. Das ist für uns Menschen oftmals unbefriedigend, weil wir die Welt in der Regel als Verkettungen von Ursachen und Wirkungen verstehen.

Der Nobelpreisträger für Wirtschaftswissenschaften Daniel Kahneman hat eindrücklich nachgewiesen, dass schnelle Ursachenschlüsse von Menschen oftmals fehlerhaft sind.[8] Sie mögen uns das Gefühl geben, die Welt zu verstehen, aber sie reflektieren die Wirklichkeit und ihre Ursachen nur unzureichend. Die echte Ursachensuche hingegen ist zumeist außergewöhnlich schwierig und aufwendig und gelingt vollständig gerade bei komplexen Zusammenhängen nur in ausgewählten Fällen. Diese Schwierigkeit der Ursachenforschung führte bisher dazu, dass wir trotz mitunter erheblichen Einsatzes an Ressourcen die Kausalitäten nur relativ weniger komplexer Phänomene ausreichend verstanden haben. Auch schleichen sich beträchtliche Fehler schon deshalb ein, weil sich die beteiligten Forscherinnen und Forscher mit der eigenen Ursachenhypothese identifizieren und nur diese erfolgreich beweisen wollen. Dieses Risiko lässt sich allenfalls durch aufwendige Methoden – etwa dem Doppelblindverfahren – mindern.

Die auf Korrelationen beruhende Big-Data-Analyse könnte hier Vorteile bieten – etwa, indem wir schon die daraus resultierende Antwort auf das "Was" mitunter als werthaltige Erkenntnis wahrnehmen und daraus pragmatische Konsequenzen ziehen. Zum Beispiel haben die Gesundheitsinformatikerin Carolyn McGregor und ihr Team an der Universität Toronto in den Daten der Vitalfunktionen von Frühgeborenen Muster erkannt, die eine wahrscheinliche zukünftige Infektion anzeigen, viele Stunden bevor erste Symptome auftreten. McGregor kennt damit zwar nicht die Ursache der Infektion, aber die auf Wahrscheinlichkeiten beruhende Erkenntnis reicht aus, um den betroffenen Frühchen entsprechende Medikamente zu verabreichen. Das mag in Einzelfällen gar nicht nötig gewesen sein, aber in der Mehrzahl der Fälle rettet es das Leben des Frühgeborenen und ist daher, gerade auch wegen der relativ geringen Nebenwirkungen, die pragmatisch richtige Konsequenz aus der Datenanalyse.

Im Gegenzug müssen wir freilich auf der Hut sein, nicht jeder statistischen Korrelation auch einen tieferen Zusammenhang zu unterstellen. Denn mittels Korrelationen werden auch bloß zufällige Übereinstimmungen erfasst, die keinen tieferen inneren Zusammenhang widerspiegeln.

Erkenntnisse über das Was der Wirklichkeit können darüber hinaus auch für die Ursachenforschung von bedeutendem Nutzen sein. Denn anstatt lediglich auf der Basis einer Intuition einen bestimmten Zusammenhang aufwendig zu erforschen, erlaubt eine auf Korrelationen basierende Big-Data-Analyse die Bewertung einer großen Vielzahl leicht unterschiedlicher Hypothesen. Die Erfolg versprechendsten Hypothesen können dann für die Ursachenforschung herangezogen werden. Mit anderen Worten: Big Data kann helfen, die Stecknadel der Erkenntnis im Heuhaufen der Daten für die Ursachenforschung zu finden.

Schon daraus wird klar, dass mit Big Data die Suche der Menschen nach Ursachen nicht abbricht. Aber die nahezu monopolartige Stellung der Ursachenforschung im Erkenntnisprozess weicht sich auf, indem öfter das Was vor dem Warum ermittelt werden wird. In manchen Fällen mag das schon reichen, jedenfalls fürs Erste. Und in vielen anderen Fällen wird die nachfolgende Suche nach dem Warum vom Verständnis über das Was deutlich profitieren. In Summe wird damit der menschliche Erkenntnisprozess verbessert.

Fußnoten

8.
Vgl. Daniel Kahneman, Schnelles Denken, langsames Denken, München 2012.
Creative Commons License

Dieser Text ist unter der Creative Commons Lizenz "CC BY-NC-ND 3.0 DE - Namensnennung - Nicht-kommerziell - Keine Bearbeitung 3.0 Deutschland" veröffentlicht. Autor/-in: Viktor Mayer-Schönberger für Aus Politik und Zeitgeschichte/bpb.de

Sie dürfen den Text unter Nennung der Lizenz CC BY-NC-ND 3.0 DE und des/der Autors/-in teilen.
Urheberrechtliche Angaben zu Bildern / Grafiken / Videos finden sich direkt bei den Abbildungen.


Publikation

Arbeitshilfe für die Jugendarbeit

Das jfc Medienzentrum Köln hat eine kostenlose Arbeitshilfe für die Jugendarbeit zum Thema Big Data entwickelt. Sie behandelt grundlegende Fragen zum Thema, stellt praktische Methoden für die Jugendarbeit vor und verschafft einen Überblick über weitere Informationen rund um das Thema.

Mehr lesen

Übersicht

Tools zur Verschlüsselung

Viele Daten, die online verschickt werden, können mitgelesen werden – von Dienst-Anbietern, Hackern oder Geheimdiensten. Digitale Spuren, die bei der Internetnutzung automatisch hinterlassen werden, sind nachvollziehbar und auswertbar. Das "SIN-Studio im Netz" hat in einer Broschüre Tipps und hilfreiche Tools zusammengestellt, die bei der Verschlüsselung von Daten und Absicherung eigener Geräte unterstützen sollen.

Mehr lesen

Datenbank

Medienkompetenz-Datenbank

Die Medienkompetenz-Datenbank bietet einen Überblick über die Vielfalt an länderübergreifenden, überregionalen und regionalen Angeboten zur Förderung der digitalen Medienkompetenz für Kinder, Jugendliche und Erwachsene. Es ist eine systematische Sammlung von nachhaltigen institutionalisierten nicht kommerziellen Angeboten, deren erklärtes Ziel es ist, Medienkompetenz als Kernkompetenz zu fördern.

Mehr lesen

Schwerpunktthema "Die Netzdebatte"

Überwachung, Tracking, Datenschutz

Alarmismus, antiamerikanische Reflexe, Paranoia oder berechtigte Angst vor der Aushöhlung des Rechtsstaats und der Übermacht technisch hochgerüsteter Geheimdienste? Die Debatte zum Thema Überwachung und Datenschutz ist kompliziert. Netzdebatte vergleicht Positionen, erörtert Hintergründe und diskutiert Perspektiven.

Mehr lesen

Viktor Mayer-Schönberger bei den Bonner Gesprächen 2016

Viktor Mayer-Schönberger, der weltbekannte Wissenschaftler und Autor mehrerer Grundsatzwerke zu "Big Data" führte bei den Bonner Gesprächen mit seiner faszinierenden Vortragsweise in das herausfordernde Thema ein.

Jetzt ansehen

einfach Internet

einfach Internet: Online-Leitfäden in einfacher Sprache

Teilhabe mit Medien für alle. Die "Internet-Leitfäden in einfacher Sprache" sind für alle Menschen, die noch wenig Erfahrung mit dem Internet gemacht haben: Die ersten Schritte ins Netz, Facebook, YouTube, WhatsApp selbständig nutzen. Einfache Sprache soll dabei helfen, Informationen besser zu verstehen.

Mehr lesen

Dossier

Die Politik des Suchens

Beherrschen Suchmaschinen nicht nur Märkte, sondern auch unser Denken? Am Beispiel von Google untersucht das Dossier deren Bedeutung und innere Systematik. Es diskutiert angemessene Reaktionen in Gesellschaft, Gesetzgebung und Politik sowie von Verbraucherseite.

Mehr lesen

Schwerpunktthema "Die Netzdebatte"

Internet der Dinge

In ziemlich naher Zukunft werden die Dinge unseres Alltags miteinander kommunizieren und uns das Denken abnehmen. Unser Haus regelt dann selbstständig Wärme und Strom, unser Auto erkennt seinen Fahrer und lenkt uns autonom zur Arbeit. Wie das unser Leben gravierend verändern wird, zeigt der Schwerpunkt „Internet der Dinge“ auf Netzdebatte.

Mehr lesen

Mediathek

Evgeny Morozov: Big Data and You

Vortrag und Diskussion in englischer Sprache mit Evgeny Morozov in der neuen Staffel der Reihe Die Neue Weltbühne der Bundeszentrale für politische Bildung am 07.10.2013 in Berlin.

Jetzt ansehen

Schwerpunktthema "Die Netzdebatte"

Wer regiert das Netz?

Seit den Anfängen des Internets wird viel und gerne darüber diskutiert, wer im Netz das Sagen hat. Wer regelt den Zugang zum Netz? Wer bestimmt die Spielregeln? Im Schwerpunkt "Wer regiert das Netz" blickt Netzdebatte auf die aktuellen Entwicklungen und Debatten um die Netzinfrastruktur und Netzneutralität.

Mehr lesen

Schwerpunktthema "Die Netzdebatte"

Open & Big Data

Open und Big Data - zwei Begriffe, deren Bedeutung für die Gesellschaft momentan sehr unterschiedlich verhandelt wird. Während Open Data in der öffentlichen Wahrnehmung zumeist für Offenheit und Transparenz steht, verbindet man mit Big Data riesige, undurchsichtige Datenmengen, die von Geheimdiensten wie Unternehmen unter Ausschluss der Öffentlichkeit verarbeitet werden. Was steckt tatsächlich dahinter?

Mehr lesen

Schwerpunktthema "Die Netzdebatte"

Brauchen wir die Vorratsdatenspeicherung?

Die Vorratsdatenspeicherung steht in Deutschland wieder zur Debatte. Auch ein Alleingang, ohne Abstimmung mit Brüssel, scheint nicht undenkbar. Zeit, sich ernsthaft mit dem Thema auseinanderzusetzen. Diskutieren sie mit, hier bei uns auf netzdebatte.bpb.de!

Mehr lesen