blaue Platine
1 | 2 | 3 | 4 Pfeil rechts

Was ist Big Data? Zur Beschleunigung des menschlichen Erkenntnisprozesses


6.3.2015
Aus Suchanfragen im Internet auf die Verbreitung der Grippe schließen; Schäden an Bauteilen eines Flugzeugtriebwerks vorhersagen; die Inflationsrate nahezu in Echtzeit ermitteln; potenzielle Verbrecher fassen, noch bevor sie das Verbrechen begangen haben: Die Versprechen von Big Data sind so atemberaubend wie vielschichtig. Schon hat sich ein Heer von Dienstleistern darauf spezialisiert, uns die "Wohltaten" von Big Data zukommen zu lassen – oder uns kompetent davor zu schützen. Viel Geld wird mit diesen Ratschlägen verdient, aber was Big Data genau ist, bleibt weitgehend unklar.

Viele mögen den Begriff "Big Data" intuitiv gleichsetzen mit riesigen Datenmengen, die analysiert werden. Es ist zweifellos richtig, dass die absolute Menge an Daten in der Welt in den zurückliegenden Jahrzehnten dramatisch zugenommen hat. Die beste verfügbare Einschätzung geht davon aus, dass sich die gesamte Datenmenge in den zwei Jahrzehnten von 1987 bis 2007 verhundertfacht hat.[1] Zum Vergleich: Die Historikerin Elisabeth Eisenstein schreibt, dass sich in den ersten fünf Jahrzehnten nach Erfindung des Buchdrucks mit beweglichen Lettern durch Johannes Gutenberg die Menge der Bücher in der Welt in etwa verdoppelte.[2] Und die Zunahme an Daten lässt nicht nach; derzeit soll sich die Datenmenge in der Welt spätestens alle zwei Jahre jeweils verdoppeln.[3] Eine verbreitete Vorstellung ist, dass die Zunahme der Quantität an Daten irgendwann zu einer neuen Qualität führt. Dass aber allein die Datenvermehrung Big Data als Phänomen, das unsere Wirtschaft und unsere Gesellschaft tief greifend verändern soll, ausreichend beschreibt, erscheint zweifelhaft. Der alleinige Fokus auf das absolute Mehr an Daten wird dem Phänomen nicht gerecht.

Um Big Data zu charakterisieren, wurden von vielen Medien häufig die drei "Vs" herangezogen: Diese stehen für die englischen Begriffe volume, velocity und variety. Auch dabei wird auf die absolute Menge abgestellt, aber dazu noch auf die Geschwindigkeit und die Vielfalt verwiesen. Einsichten schnell aus Daten gewinnen zu können, ist sicherlich von großem Vorteil. Was nützt etwa eine auf großen Datenmengen basierende Vorhersage, wenn die Auswertung so lange dauert, dass sie zu spät kommt? Auch dass die Datenvielfalt zunimmt und im Kontext von Big Data immer öfter unterschiedliche Daten verknüpft werden, steht außer Zweifel. Aber so sehr Geschwindigkeit und Datenvielfalt bei Big Data regelmäßig auftreten, so schwer ist vorstellbar, dass diese beiden Eigenschaften auch konstitutiv sind. Viel wahrscheinlicher sind die drei Vs nur Hinweise auf dahinter liegende, fundamentalere Eigenschaften.

Was diese grundlegenden Eigenschaften sind, erhellt sich vielleicht, wenn wir verstehen, dass Big Data uns neue Einsichten in die Wirklichkeit eröffnet. Big Data ist also weniger eine neue Technologie denn eine neue oder jedenfalls signifikant verbesserte Methode der Erkenntnisgewinnung. Mit Big Data verbindet sich die Hoffnung, dass wir die Welt besser verstehen – und abgeleitet von diesem Verständnis bessere Entscheidungen treffen. Als Extrapolation der Vergangenheit und der Gegenwart erwarten wir, bessere Vorhersagen über die Zukunft machen zu können. Wieso aber verbessert Big Data menschliche Erkenntnis?

Relatives Mehr an Daten



In Zukunft werden wir relativ zum Phänomen, das wir verstehen wollen, oder der Frage, die wir beantworten wollen, deutlich mehr Daten sammeln und auswerten. Es geht also nicht um die absolute Zahl an Daten, sondern um ihre relative Größe. Menschen haben seit jeher versucht, die Welt zu erklären, indem sie diese beobachteten. Das Sammeln und Auswerten von Daten ist also ganz ursprünglich mit menschlicher Erkenntnis verbunden. Aber diese Arbeit der Datenerfassung und -analyse war stets auch mit hohem Zeit- und Kostenaufwand verbunden. Als Folge entwickelten wir Methoden und Verfahren, Strukturen und Institutionen, die darauf ausgelegt waren, mit möglichst wenigen Daten auszukommen.

Das ist grundsätzlich sinnvoll, wenn wenige Daten zur Verfügung stehen. Aber es führte in der Vergangenheit auch dazu, dass wir schon aus einem oder wenigen Fällen auf das Ganze schlossen und uns schrecklich irrten. Erst seit nicht einmal einem Jahrhundert steht uns mit Zufallsstichproben ein probates Verfahren zur Verfügung, aus relativ wenigen Daten auf das Ganze zu schließen. Das hat große Fortschritte mit sich gebracht, von der Qualitätskontrolle in der industriellen Fertigung bis zu robusten Meinungsumfragen zu gesellschaftlich relevanten Themen. Aber Zufallsstichproben bleiben im Kern eine Krücke. Ihnen fehlt die Detaildichte, um das zugrunde liegende Phänomen umfassend abzubilden. Unsere aus den Stichproben gewonnene Erkenntnis bleibt damit zwangsläufig detailarm. In der Regel können wir aus den Stichproben nur jene Fragen beantworten, die uns schon von Anfang an bekannt waren. Die auf Stichproben basierende Erkenntnis ist also bestenfalls eine Bestätigung oder Widerlegung einer vorab formulierten Hypothese. Wird der Umgang mit Daten aber drastisch leichter, dann können wir in einer zunehmenden Zahl von Fällen nahezu alle Daten eines bestimmten Phänomens, das wir studieren wollen, sammeln und auswerten. Weil wir nahezu alle Daten haben, können wir auch nahezu beliebig Details analysieren. Vor allem aber können wir die Daten als Inspiration für neue Hypothesen einsetzen, die sich in Zukunft öfter ohne erneute Datensammlung evaluieren lassen.

Ein Beispiel mag dies verdeutlichen: Google leitet aus Anfragen, die in seine Suchmaschine eingegeben werden, die Verbreitung von Grippe ab. Die Idee dahinter ist, dass Menschen sich zumeist dann über die Grippe informieren, wenn sie selbst oder ihnen nahestehende Personen davon betroffen sind. Eine entsprechende Analyse von Suchanfragen und historischen Grippedaten über fünf Jahre fand in der Tat eine Korrelation.[4] Dabei wurden 50 Millionen unterschiedliche Suchbegriffe und 450 Millionen Begriffskombinationen automatisiert evaluiert; es wurden, mit anderen Worten, fast eine halbe Milliarde konkreter Hypothesen generiert und anhand der Daten bewertet, um daraus nicht bloß eine, sondern die optimal passende Hypothese auszuwählen. Und weil Google neben den Suchanfragen und deren Datum auch noch speicherte, von wo die Anfrage kam, konnten am Ende auch geografisch differenzierte Aussagen über die wahrscheinliche Verbreitung der Grippe abgeleitet werden.[5]

In einem viel diskutierten Beitrag argumentierte der damalige "Wired"-Chefredakteur Chris Anderson vor einigen Jahren, das automatisierte Entwickeln von Hypothesen mache menschliche Theoriebildung überflüssig.[6] Schon bald revidierte er seine Meinung, denn so sehr Big Data in der parametrischen Generierung von Hypothesen den Erkenntnisprozess zu beschleunigen vermag, so wenig gelingen damit abstrakte Theorien. Das bleibt auch künftig den Menschen vorbehalten; der Mensch bleibt also weiterhin im Mittelpunkt der Erkenntnisschöpfung. Das hat aber auch zur Folge, dass die Ergebnisse jeder Big-Data-Analyse durchwoben sind von menschlichen Theorien – und damit auch von deren Schwächen und Unzulänglichkeiten. Auch durch die beste Big-Data-Analyse können wir uns also nicht aus den daraus resultierenden möglichen Verzerrungen befreien.[7] In Summe lassen sich also mit Hilfe von Big Data nicht bloß bereits vorgefasste Hypothesen bestätigen, sondern automatisiert neue Hypothesen generieren und evaluieren. Dies beschleunigt den Erkenntnisprozess.


Fußnoten

1.
Vgl. Martin Hilbert/Priscilla López, The World’s Technological Capacity to Store, Communicate, and Compute Information, in: Science, 332 (2011) 6025, S. 60–65.
2.
Vgl. Elizabeth L. Eisenstein, The Printing Revolution in Early Modern Europe, Cambridge 1993, S. 13f.
3.
Vgl. John Gantz/David Reinsel, Extracting Value from Chaos, 2011, http://www.emc.com/collateral/analyst-reports/idc-extracting-value-from-chaos-ar.pdf« (24.2.2015).
4.
Vgl. Jeremy Ginsburg et al., Detecting Influenza Epidemics Using Search Engine Query Data, in: Nature, 457 (2009), S. 1012ff.
5.
Vgl. Andrea Freyer Dugas et al., Google Flu Trends: Correlation With Emergency Department Influenza Rates and Crowding Metrics, in: Clinical Infectious Diseases, 54 (2012) 4, S. 463–469.
6.
Vgl. Chris Anderson, The End of Theory, in: Wired, 16 (2008) 7, http://www.wired.com/science/discoveries/magazine/16-07/pb_theory« (24.2.2015).
7.
Vgl. danah boyd/Kate Crawford, Six Provocations for Big Data, Research Paper, 21.9.2011, ssrn.com/abstract=1926431 (24.2.2015).
Creative Commons License Dieser Text ist unter der Creative Commons Lizenz veröffentlicht. by-nc-nd/3.0/
Der Name des Autors/Rechteinhabers soll wie folgt genannt werden: by-nc-nd/3.0/
Autor: Viktor Mayer-Schönberger für Aus Politik und Zeitgeschichte/bpb.de
Urheberrechtliche Angaben zu Bildern / Grafiken / Videos finden sich direkt bei den Abbildungen.

 
Ein Wordle aus dem Einführungstext des Dossiers.Dossier

Open Data

Open Data steht für die Idee, Daten öffentlich frei verfügbar und nutzbar zu machen. Welches Potential verbirgt sich hinter den Daten, die Behörden und Ministerien, Parlamente, Gerichte und andere Teile der öffentlichen Verwaltung produzieren? Das Dossier klärt über die Möglichkeiten offener Daten für eine nachhaltige demokratische Entwicklung auf und zeigt, wie Datenjournalisten mit diesen Datensätzen umgehen. Weiter... 

Leiterbahnen auf einer Computerplatine.Dossier

Datenschutz

Was bedeutet Datenschutz? Wie ist er gesetzlich geregelt? Was steckt hinter den Begriffen informationelle Selbstbestimmung und Privatsphäre? Wie können persönliche Daten im Internet geschützt werden? Das Online-Dossier Datenschutz klärt über Hintergründe auf und gibt praktische Handlungsanleitungen zum Thema. Weiter... 

Publikation zum Thema

Coverbild APuZ - Jahresband 2013

APuZ - Jahresband 2015

Der APuZ-Jahresband 2015: Sämtliche Ausgaben der Zeitschrift "Aus Politik und Zeitgeschichte" aus dem Jahr 2015.Weiter...

Zum Shop