Header Big Data
1 | 2 | 3 | 4 Pfeil rechts

Big Data - Zur Beschleunigung des menschlichen Erkenntnisprozesses


6.3.2015
Aus Suchanfragen im Internet auf die Verbreitung der Grippe schließen; Schäden an Bauteilen eines Flugzeugtriebwerks vorhersagen; die Inflationsrate nahezu in Echtzeit ermitteln; potenzielle Verbrecher fassen, noch bevor sie das Verbrechen begangen haben: Die Versprechen von Big Data sind so atemberaubend wie vielschichtig. Schon hat sich ein Heer von Dienstleistern darauf spezialisiert, uns die "Wohltaten" von Big Data zukommen zu lassen – oder uns kompetent davor zu schützen. Viel Geld wird mit diesen Ratschlägen verdient, aber was Big Data genau ist, bleibt weitgehend unklar.

Viele mögen den Begriff "Big Data" intuitiv gleichsetzen mit riesigen Datenmengen, die analysiert werden. Es ist zweifellos richtig, dass die absolute Menge an Daten in der Welt in den zurückliegenden Jahrzehnten dramatisch zugenommen hat. Die beste verfügbare Einschätzung geht davon aus, dass sich die gesamte Datenmenge in den zwei Jahrzehnten von 1987 bis 2007 verhundertfacht hat.[1] Zum Vergleich: Die Historikerin Elisabeth Eisenstein schreibt, dass sich in den ersten fünf Jahrzehnten nach Erfindung des Buchdrucks mit beweglichen Lettern durch Johannes Gutenberg die Menge der Bücher in der Welt in etwa verdoppelte.[2] Und die Zunahme an Daten lässt nicht nach; derzeit soll sich die Datenmenge in der Welt spätestens alle zwei Jahre jeweils verdoppeln.[3] Eine verbreitete Vorstellung ist, dass die Zunahme der Quantität an Daten irgendwann zu einer neuen Qualität führt. Dass aber allein die Datenvermehrung Big Data als Phänomen, das unsere Wirtschaft und unsere Gesellschaft tief greifend verändern soll, ausreichend beschreibt, erscheint zweifelhaft. Der alleinige Fokus auf das absolute Mehr an Daten wird dem Phänomen nicht gerecht.

Um Big Data zu charakterisieren, wurden von vielen Medien häufig die drei "Vs" herangezogen: Diese stehen für die englischen Begriffe volume, velocity und variety. Auch dabei wird auf die absolute Menge abgestellt, aber dazu noch auf die Geschwindigkeit und die Vielfalt verwiesen. Einsichten schnell aus Daten gewinnen zu können, ist sicherlich von großem Vorteil. Was nützt etwa eine auf großen Datenmengen basierende Vorhersage, wenn die Auswertung so lange dauert, dass sie zu spät kommt? Auch dass die Datenvielfalt zunimmt und im Kontext von Big Data immer öfter unterschiedliche Daten verknüpft werden, steht außer Zweifel. Aber so sehr Geschwindigkeit und Datenvielfalt bei Big Data regelmäßig auftreten, so schwer ist vorstellbar, dass diese beiden Eigenschaften auch konstitutiv sind. Viel wahrscheinlicher sind die drei Vs nur Hinweise auf dahinter liegende, fundamentalere Eigenschaften.

Was diese grundlegenden Eigenschaften sind, erhellt sich vielleicht, wenn wir verstehen, dass Big Data uns neue Einsichten in die Wirklichkeit eröffnet. Big Data ist also weniger eine neue Technologie denn eine neue oder jedenfalls signifikant verbesserte Methode der Erkenntnisgewinnung. Mit Big Data verbindet sich die Hoffnung, dass wir die Welt besser verstehen – und abgeleitet von diesem Verständnis bessere Entscheidungen treffen. Als Extrapolation der Vergangenheit und der Gegenwart erwarten wir, bessere Vorhersagen über die Zukunft machen zu können. Wieso aber verbessert Big Data menschliche Erkenntnis?

Relatives Mehr an Daten



In Zukunft werden wir relativ zum Phänomen, das wir verstehen wollen, oder der Frage, die wir beantworten wollen, deutlich mehr Daten sammeln und auswerten. Es geht also nicht um die absolute Zahl an Daten, sondern um ihre relative Größe. Menschen haben seit jeher versucht, die Welt zu erklären, indem sie diese beobachteten. Das Sammeln und Auswerten von Daten ist also ganz ursprünglich mit menschlicher Erkenntnis verbunden. Aber diese Arbeit der Datenerfassung und -analyse war stets auch mit hohem Zeit- und Kostenaufwand verbunden. Als Folge entwickelten wir Methoden und Verfahren, Strukturen und Institutionen, die darauf ausgelegt waren, mit möglichst wenigen Daten auszukommen.

Das ist grundsätzlich sinnvoll, wenn wenige Daten zur Verfügung stehen. Aber es führte in der Vergangenheit auch dazu, dass wir schon aus einem oder wenigen Fällen auf das Ganze schlossen und uns schrecklich irrten. Erst seit nicht einmal einem Jahrhundert steht uns mit Zufallsstichproben ein probates Verfahren zur Verfügung, aus relativ wenigen Daten auf das Ganze zu schließen. Das hat große Fortschritte mit sich gebracht, von der Qualitätskontrolle in der industriellen Fertigung bis zu robusten Meinungsumfragen zu gesellschaftlich relevanten Themen. Aber Zufallsstichproben bleiben im Kern eine Krücke. Ihnen fehlt die Detaildichte, um das zugrunde liegende Phänomen umfassend abzubilden. Unsere aus den Stichproben gewonnene Erkenntnis bleibt damit zwangsläufig detailarm. In der Regel können wir aus den Stichproben nur jene Fragen beantworten, die uns schon von Anfang an bekannt waren. Die auf Stichproben basierende Erkenntnis ist also bestenfalls eine Bestätigung oder Widerlegung einer vorab formulierten Hypothese. Wird der Umgang mit Daten aber drastisch leichter, dann können wir in einer zunehmenden Zahl von Fällen nahezu alle Daten eines bestimmten Phänomens, das wir studieren wollen, sammeln und auswerten. Weil wir nahezu alle Daten haben, können wir auch nahezu beliebig Details analysieren. Vor allem aber können wir die Daten als Inspiration für neue Hypothesen einsetzen, die sich in Zukunft öfter ohne erneute Datensammlung evaluieren lassen.

Ein Beispiel mag dies verdeutlichen: Google leitet aus Anfragen, die in seine Suchmaschine eingegeben werden, die Verbreitung von Grippe ab. Die Idee dahinter ist, dass Menschen sich zumeist dann über die Grippe informieren, wenn sie selbst oder ihnen nahestehende Personen davon betroffen sind. Eine entsprechende Analyse von Suchanfragen und historischen Grippedaten über fünf Jahre fand in der Tat eine Korrelation.[4] Dabei wurden 50 Millionen unterschiedliche Suchbegriffe und 450 Millionen Begriffskombinationen automatisiert evaluiert; es wurden, mit anderen Worten, fast eine halbe Milliarde konkreter Hypothesen generiert und anhand der Daten bewertet, um daraus nicht bloß eine, sondern die optimal passende Hypothese auszuwählen. Und weil Google neben den Suchanfragen und deren Datum auch noch speicherte, von wo die Anfrage kam, konnten am Ende auch geografisch differenzierte Aussagen über die wahrscheinliche Verbreitung der Grippe abgeleitet werden.[5]

In einem viel diskutierten Beitrag argumentierte der damalige "Wired"-Chefredakteur Chris Anderson vor einigen Jahren, das automatisierte Entwickeln von Hypothesen mache menschliche Theoriebildung überflüssig.[6] Schon bald revidierte er seine Meinung, denn so sehr Big Data in der parametrischen Generierung von Hypothesen den Erkenntnisprozess zu beschleunigen vermag, so wenig gelingen damit abstrakte Theorien. Das bleibt auch künftig den Menschen vorbehalten; der Mensch bleibt also weiterhin im Mittelpunkt der Erkenntnisschöpfung. Das hat aber auch zur Folge, dass die Ergebnisse jeder Big-Data-Analyse durchwoben sind von menschlichen Theorien – und damit auch von deren Schwächen und Unzulänglichkeiten. Auch durch die beste Big-Data-Analyse können wir uns also nicht aus den daraus resultierenden möglichen Verzerrungen befreien.[7] In Summe lassen sich also mit Hilfe von Big Data nicht bloß bereits vorgefasste Hypothesen bestätigen, sondern automatisiert neue Hypothesen generieren und evaluieren. Dies beschleunigt den Erkenntnisprozess.


Fußnoten

1.
Vgl. Martin Hilbert/Priscilla López, The World’s Technological Capacity to Store, Communicate, and Compute Information, in: Science, 332 (2011) 6025, S. 60–65.
2.
Vgl. Elizabeth L. Eisenstein, The Printing Revolution in Early Modern Europe, Cambridge 1993, S. 13f.
3.
Vgl. John Gantz/David Reinsel, Extracting Value from Chaos, 2011, http://www.emc.com/collateral/analyst-reports/idc-extracting-value-from-chaos-ar.pdf« (24.2.2015).
4.
Vgl. Jeremy Ginsburg et al., Detecting Influenza Epidemics Using Search Engine Query Data, in: Nature, 457 (2009), S. 1012ff.
5.
Vgl. Andrea Freyer Dugas et al., Google Flu Trends: Correlation With Emergency Department Influenza Rates and Crowding Metrics, in: Clinical Infectious Diseases, 54 (2012) 4, S. 463–469.
6.
Vgl. Chris Anderson, The End of Theory, in: Wired, 16 (2008) 7, http://www.wired.com/science/discoveries/magazine/16-07/pb_theory« (24.2.2015).
7.
Vgl. danah boyd/Kate Crawford, Six Provocations for Big Data, Research Paper, 21.9.2011, ssrn.com/abstract=1926431 (24.2.2015).
Creative Commons License Dieser Text ist unter der Creative Commons Lizenz veröffentlicht. by-nc-nd/3.0/
Der Name des Autors/Rechteinhabers soll wie folgt genannt werden: by-nc-nd/3.0/
Autor: Viktor Mayer-Schönberger für Aus Politik und Zeitgeschichte/bpb.de
Urheberrechtliche Angaben zu Bildern / Grafiken / Videos finden sich direkt bei den Abbildungen.

 

Bonner Gespräche zur politischen Bildung 2018

Künstliche Intelligenz, Big Data und digitale Gesellschaft – Herausforderungen für die politische Bildung

Die "Bonner Gespräche" werden 2018 mit einem noch breiteren Programm für alle Generationen fortgesetzt.
Die entstehenden Angebote können Sie auf der Seite "Big Data und politische Bildung" mitverfolgen.

Hier geht es zur Veranstaltungsseite Weiter... 

Publikation

Arbeitshilfe für die Jugendarbeit

Das jfc Medienzentrum Köln hat eine kostenlose Arbeitshilfe für die Jugendarbeit zum Thema Big Data entwickelt. Sie behandelt grundlegende Fragen zum Thema, stellt praktische Methoden für die Jugendarbeit vor und verschafft einen Überblick über weitere Informationen rund um das Thema. Weiter... 

Übersicht

Tools zur Verschlüsselung

Viele Daten, die online verschickt werden, können mitgelesen werden – von Dienst-Anbietern, Hackern oder Geheimdiensten. Digitale Spuren, die bei der Internetnutzung automatisch hinterlassen werden, sind nachvollziehbar und auswertbar. Das "SIN-Studio im Netz" hat in einer Broschüre Tipps und hilfreiche Tools zusammengestellt, die bei der Verschlüsselung von Daten und Absicherung eigener Geräte unterstützen sollen. Weiter... 

Datenbank

Medienkompetenz-Datenbank

Die Medienkompetenz-Datenbank bietet einen Überblick über die Vielfalt an länderübergreifenden, überregionalen und regionalen Angeboten zur Förderung der digitalen Medienkompetenz für Kinder, Jugendliche und Erwachsene. Es ist eine systematische Sammlung von nachhaltigen institutionalisierten nicht kommerziellen Angeboten, deren erklärtes Ziel es ist, Medienkompetenz als Kernkompetenz zu fördern. Weiter... 

Schwerpunktthema "Die Netzdebatte"

Überwachung, Tracking, Datenschutz

Alarmismus, antiamerikanische Reflexe, Paranoia oder berechtigte Angst vor der Aushöhlung des Rechtsstaats und der Übermacht technisch hochgerüsteter Geheimdienste? Die Debatte zum Thema Überwachung und Datenschutz ist kompliziert. Netzdebatte vergleicht Positionen, erörtert Hintergründe und diskutiert Perspektiven. Weiter... 

Viktor Mayer-Schönberger bei den Bonner Gesprächen 2016

Viktor Mayer-Schönberger, der weltbekannte Wissenschaftler und Autor mehrerer Grundsatzwerke zu "Big Data" führte bei den Bonner Gesprächen mit seiner faszinierenden Vortragsweise in das herausfordernde Thema ein. Weiter... 

einfach Internet

einfach Internet: Online-Leitfäden in einfacher Sprache

Teilhabe mit Medien für alle. Die "Internet-Leitfäden in einfacher Sprache" sind für alle Menschen, die noch wenig Erfahrung mit dem Internet gemacht haben: Die ersten Schritte ins Netz, Facebook, YouTube, WhatsApp selbständig nutzen. Einfache Sprache soll dabei helfen, Informationen besser zu verstehen. Weiter... 

Dossier

Die Politik des Suchens

Beherrschen Suchmaschinen nicht nur Märkte, sondern auch unser Denken? Am Beispiel von Google untersucht das Dossier deren Bedeutung und innere Systematik. Es diskutiert angemessene Reaktionen in Gesellschaft, Gesetzgebung und Politik sowie von Verbraucherseite. Weiter... 

Schwerpunktthema "Die Netzdebatte"

Internet der Dinge

In ziemlich naher Zukunft werden die Dinge unseres Alltags miteinander kommunizieren und uns das Denken abnehmen. Unser Haus regelt dann selbstständig Wärme und Strom, unser Auto erkennt seinen Fahrer und lenkt uns autonom zur Arbeit. Wie das unser Leben gravierend verändern wird, zeigt der Schwerpunkt „Internet der Dinge“ auf Netzdebatte. Weiter... 

Mediathek

Evgeny Morozov: Big Data and You

Vortrag und Diskussion in englischer Sprache mit Evgeny Morozov in der neuen Staffel der Reihe Die Neue Weltbühne der Bundeszentrale für politische Bildung am 07.10.2013 in Berlin. Weiter... 

Schwerpunktthema "Die Netzdebatte"

Wer regiert das Netz?

Seit den Anfängen des Internets wird viel und gerne darüber diskutiert, wer im Netz das Sagen hat. Wer regelt den Zugang zum Netz? Wer bestimmt die Spielregeln? Im Schwerpunkt "Wer regiert das Netz" blickt Netzdebatte auf die aktuellen Entwicklungen und Debatten um die Netzinfrastruktur und Netzneutralität. Weiter... 

Schwerpunktthema "Die Netzdebatte"

Open & Big Data

Open und Big Data - zwei Begriffe, deren Bedeutung für die Gesellschaft momentan sehr unterschiedlich verhandelt wird. Während Open Data in der öffentlichen Wahrnehmung zumeist für Offenheit und Transparenz steht, verbindet man mit Big Data riesige, undurchsichtige Datenmengen, die von Geheimdiensten wie Unternehmen unter Ausschluss der Öffentlichkeit verarbeitet werden. Was steckt tatsächlich dahinter? Weiter... 

Schwerpunktthema "Die Netzdebatte"

Brauchen wir die Vorratsdatenspeicherung?

Die Vorratsdatenspeicherung steht in Deutschland wieder zur Debatte. Auch ein Alleingang, ohne Abstimmung mit Brüssel, scheint nicht undenkbar. Zeit, sich ernsthaft mit dem Thema auseinanderzusetzen. Diskutieren sie mit, hier bei uns auf netzdebatte.bpb.de! Weiter...