Meine Merkliste Geteilte Merkliste PDF oder EPUB erstellen

Was ist Big Data? | Big Data | bpb.de

Big Data Editorial "Ich habe doch nichts zu verbergen" Politikfeld Big Data: Hoffnungen, Vorhaben und viele offene Fragen Was ist Big Data? Zur Beschleunigung des menschlichen Erkenntnisprozesses Von Big zu Smart – zu Sustainable? Auf dem Weg zum Dr. Algorithmus? Potenziale von Big Data in der Medizin Verkannte Revolution: Big Data und die Macht des Marktes

Was ist Big Data? Zur Beschleunigung des menschlichen Erkenntnisprozesses

Viktor Mayer-Schönberger

/ 15 Minuten zu lesen

Big Data ist weniger eine neue Technologie denn eine Perspektive auf die Wirklichkeit. Richtig angewandt kann sie den menschlichen Erkenntnisprozess beschleunigen. Doch sind damit auch Schattenseiten verbunden.

Aus Suchanfragen im Internet auf die Verbreitung der Grippe schließen; Schäden an Bauteilen eines Flugzeugtriebwerks vorhersagen; die Inflationsrate nahezu in Echtzeit ermitteln; potenzielle Verbrecher fassen, noch bevor sie das Verbrechen begangen haben: Die Versprechen von Big Data sind so atemberaubend wie vielschichtig. Schon hat sich ein Heer von Dienstleistern darauf spezialisiert, uns die "Wohltaten" von Big Data zukommen zu lassen – oder uns kompetent davor zu schützen. Viel Geld wird mit diesen Ratschlägen verdient, aber was Big Data genau ist, bleibt weitgehend unklar.

Viele mögen den Begriff "Big Data" intuitiv gleichsetzen mit riesigen Datenmengen, die analysiert werden. Es ist zweifellos richtig, dass die absolute Menge an Daten in der Welt in den zurückliegenden Jahrzehnten dramatisch zugenommen hat. Die beste verfügbare Einschätzung geht davon aus, dass sich die gesamte Datenmenge in den zwei Jahrzehnten von 1987 bis 2007 verhundertfacht hat. Zum Vergleich: Die Historikerin Elisabeth Eisenstein schreibt, dass sich in den ersten fünf Jahrzehnten nach Erfindung des Buchdrucks mit beweglichen Lettern durch Johannes Gutenberg die Menge der Bücher in der Welt in etwa verdoppelte. Und die Zunahme an Daten lässt nicht nach; derzeit soll sich die Datenmenge in der Welt spätestens alle zwei Jahre jeweils verdoppeln. Eine verbreitete Vorstellung ist, dass die Zunahme der Quantität an Daten irgendwann zu einer neuen Qualität führt. Dass aber allein die Datenvermehrung Big Data als Phänomen, das unsere Wirtschaft und unsere Gesellschaft tief greifend verändern soll, ausreichend beschreibt, erscheint zweifelhaft. Der alleinige Fokus auf das absolute Mehr an Daten wird dem Phänomen nicht gerecht.

Um Big Data zu charakterisieren, wurden von vielen Medien häufig die drei "Vs" herangezogen: Diese stehen für die englischen Begriffe volume, velocity und variety. Auch dabei wird auf die absolute Menge abgestellt, aber dazu noch auf die Geschwindigkeit und die Vielfalt verwiesen. Einsichten schnell aus Daten gewinnen zu können, ist sicherlich von großem Vorteil. Was nützt etwa eine auf großen Datenmengen basierende Vorhersage, wenn die Auswertung so lange dauert, dass sie zu spät kommt? Auch dass die Datenvielfalt zunimmt und im Kontext von Big Data immer öfter unterschiedliche Daten verknüpft werden, steht außer Zweifel. Aber so sehr Geschwindigkeit und Datenvielfalt bei Big Data regelmäßig auftreten, so schwer ist vorstellbar, dass diese beiden Eigenschaften auch konstitutiv sind. Viel wahrscheinlicher sind die drei Vs nur Hinweise auf dahinter liegende, fundamentalere Eigenschaften.

Was diese grundlegenden Eigenschaften sind, erhellt sich vielleicht, wenn wir verstehen, dass Big Data uns neue Einsichten in die Wirklichkeit eröffnet. Big Data ist also weniger eine neue Technologie denn eine neue oder jedenfalls signifikant verbesserte Methode der Erkenntnisgewinnung. Mit Big Data verbindet sich die Hoffnung, dass wir die Welt besser verstehen – und abgeleitet von diesem Verständnis bessere Entscheidungen treffen. Als Extrapolation der Vergangenheit und der Gegenwart erwarten wir, bessere Vorhersagen über die Zukunft machen zu können. Wieso aber verbessert Big Data menschliche Erkenntnis?

Relatives Mehr an Daten

In Zukunft werden wir relativ zum Phänomen, das wir verstehen wollen, oder der Frage, die wir beantworten wollen, deutlich mehr Daten sammeln und auswerten. Es geht also nicht um die absolute Zahl an Daten, sondern um ihre relative Größe. Menschen haben seit jeher versucht, die Welt zu erklären, indem sie diese beobachteten. Das Sammeln und Auswerten von Daten ist also ganz ursprünglich mit menschlicher Erkenntnis verbunden. Aber diese Arbeit der Datenerfassung und -analyse war stets auch mit hohem Zeit- und Kostenaufwand verbunden. Als Folge entwickelten wir Methoden und Verfahren, Strukturen und Institutionen, die darauf ausgelegt waren, mit möglichst wenigen Daten auszukommen.

Das ist grundsätzlich sinnvoll, wenn wenige Daten zur Verfügung stehen. Aber es führte in der Vergangenheit auch dazu, dass wir schon aus einem oder wenigen Fällen auf das Ganze schlossen und uns schrecklich irrten. Erst seit nicht einmal einem Jahrhundert steht uns mit Zufallsstichproben ein probates Verfahren zur Verfügung, aus relativ wenigen Daten auf das Ganze zu schließen. Das hat große Fortschritte mit sich gebracht, von der Qualitätskontrolle in der industriellen Fertigung bis zu robusten Meinungsumfragen zu gesellschaftlich relevanten Themen. Aber Zufallsstichproben bleiben im Kern eine Krücke. Ihnen fehlt die Detaildichte, um das zugrunde liegende Phänomen umfassend abzubilden. Unsere aus den Stichproben gewonnene Erkenntnis bleibt damit zwangsläufig detailarm. In der Regel können wir aus den Stichproben nur jene Fragen beantworten, die uns schon von Anfang an bekannt waren. Die auf Stichproben basierende Erkenntnis ist also bestenfalls eine Bestätigung oder Widerlegung einer vorab formulierten Hypothese. Wird der Umgang mit Daten aber drastisch leichter, dann können wir in einer zunehmenden Zahl von Fällen nahezu alle Daten eines bestimmten Phänomens, das wir studieren wollen, sammeln und auswerten. Weil wir nahezu alle Daten haben, können wir auch nahezu beliebig Details analysieren. Vor allem aber können wir die Daten als Inspiration für neue Hypothesen einsetzen, die sich in Zukunft öfter ohne erneute Datensammlung evaluieren lassen.

Ein Beispiel mag dies verdeutlichen: Google leitet aus Anfragen, die in seine Suchmaschine eingegeben werden, die Verbreitung von Grippe ab. Die Idee dahinter ist, dass Menschen sich zumeist dann über die Grippe informieren, wenn sie selbst oder ihnen nahestehende Personen davon betroffen sind. Eine entsprechende Analyse von Suchanfragen und historischen Grippedaten über fünf Jahre fand in der Tat eine Korrelation. Dabei wurden 50 Millionen unterschiedliche Suchbegriffe und 450 Millionen Begriffskombinationen automatisiert evaluiert; es wurden, mit anderen Worten, fast eine halbe Milliarde konkreter Hypothesen generiert und anhand der Daten bewertet, um daraus nicht bloß eine, sondern die optimal passende Hypothese auszuwählen. Und weil Google neben den Suchanfragen und deren Datum auch noch speicherte, von wo die Anfrage kam, konnten am Ende auch geografisch differenzierte Aussagen über die wahrscheinliche Verbreitung der Grippe abgeleitet werden.

In einem viel diskutierten Beitrag argumentierte der damalige "Wired"-Chefredakteur Chris Anderson vor einigen Jahren, das automatisierte Entwickeln von Hypothesen mache menschliche Theoriebildung überflüssig. Schon bald revidierte er seine Meinung, denn so sehr Big Data in der parametrischen Generierung von Hypothesen den Erkenntnisprozess zu beschleunigen vermag, so wenig gelingen damit abstrakte Theorien. Das bleibt auch künftig den Menschen vorbehalten; der Mensch bleibt also weiterhin im Mittelpunkt der Erkenntnisschöpfung. Das hat aber auch zur Folge, dass die Ergebnisse jeder Big-Data-Analyse durchwoben sind von menschlichen Theorien – und damit auch von deren Schwächen und Unzulänglichkeiten. Auch durch die beste Big-Data-Analyse können wir uns also nicht aus den daraus resultierenden möglichen Verzerrungen befreien. In Summe lassen sich also mit Hilfe von Big Data nicht bloß bereits vorgefasste Hypothesen bestätigen, sondern automatisiert neue Hypothesen generieren und evaluieren. Dies beschleunigt den Erkenntnisprozess.

Von Quantität und Qualität

Stehen lediglich wenige Daten zur Verfügung, muss besonders darauf geachtet werden, dass die gesammelten Daten die Wirklichkeit genau widerspiegeln – denn jeder Messfehler kann das Ergebnis verfälschen. Besonders schlimm ist dies etwa, wenn alle diese Daten von einem einzigen verfälschenden Messinstrument stammen. Mit Big Data hingegen liegen große Datensammlungen vor, die sich technisch relativ einfach auch kombinieren lassen. Bei einem so viel Mehr an Daten fallen Messfehler bei einem oder einer Handvoll Datenpunkten deutlich weniger ins Gewicht. Und wenn die Daten aus unterschiedlichen Quellen stammen, ist auch die Wahrscheinlichkeit eines systematischen Fehlers geringer.

Gleichzeitig bedeutet ein Mehr an Daten aus sehr unterschiedlichen Quellen aber auch neue mögliche Problemfelder. So können unterschiedliche Datenbestände die Wirklichkeit mit unterschiedlichen Fehlerraten gemessen haben oder gar unterschiedliche Aspekte der Wirklichkeit abbilden – wodurch sie nicht unmittelbar vergleichbar sind. Würden wir sie trotzdem einer gemeinsamen Analyse unterziehen, hieße das, Äpfel mit Birnen zu vergleichen. Damit ist klar, dass weder eine kleine, mit hoher Genauigkeit gesammelte Datenmenge einer sehr großen, aus unterschiedlichen Quellen stammenden Datenmenge überlegen ist, noch umgekehrt. Stattdessen sehen wir uns im Kontext von Big Data bei der Auswahl der Daten viel häufiger einem Zielkonflikt gegenüber, bei dem es auf den jeweiligen Kontext ankommt, ob wir uns für das Eine oder Andere entscheiden. Bisher trat dieser Zielkonflikt selten auf, weil wir aufgrund der hohen Kosten des Sammelns und Auswertens von Daten in der Regel nur wenige davon sammelten. Daraus hat sich mit der Zeit der generelle Fokus auf die Qualität der Daten entwickelt.

Zur Verdeutlichung ein Beispiel: Ende der 1980er Jahre experimentierten Forscher bei IBM mit einem neuen Ansatz der automatisierten maschinellen Übersetzung von Texten einer Sprache in eine andere. Die Idee war, statistisch zu ermitteln, welches Wort einer Sprache in ein bestimmtes Wort einer anderen Sprache übersetzt wird. Dafür bedurfte es eines Trainingstextes, der den Forschern in Form der offiziellen Protokolle des kanadischen Parlaments in den zwei Amtssprachen Englisch und Französisch zur Verfügung stand. Das Ergebnis war verblüffend gut, konnte in der Folge aber kaum verbessert werden. Ein Jahrzehnt später nahm Google alles an mehrsprachigen Texten aus dem Internet, das sich finden ließ, unabhängig von der Qualität dieser Übersetzungen. Die um Größenordnungen größere Datenmenge lieferte trotz sehr unterschiedlicher – und in Summe durchschnittlich wohl geringerer – Qualität der Übersetzungen ein sehr viel besseres Ergebnis, als es IBM mit weniger, aber besseren Daten erzielt hatte.

Ende des Ursachen-Monopols

Die gängigen Big-Data-Analysen identifizieren statistische Korrelationen in den Datenbeständen, die auf Zusammenhänge hindeuten. Sie erklären damit im besten Fall, was passiert, nicht aber warum. Das ist für uns Menschen oftmals unbefriedigend, weil wir die Welt in der Regel als Verkettungen von Ursachen und Wirkungen verstehen.

Der Nobelpreisträger für Wirtschaftswissenschaften Daniel Kahneman hat eindrücklich nachgewiesen, dass schnelle Ursachenschlüsse von Menschen oftmals fehlerhaft sind. Sie mögen uns das Gefühl geben, die Welt zu verstehen, aber sie reflektieren die Wirklichkeit und ihre Ursachen nur unzureichend. Die echte Ursachensuche hingegen ist zumeist außergewöhnlich schwierig und aufwendig und gelingt vollständig gerade bei komplexen Zusammenhängen nur in ausgewählten Fällen. Diese Schwierigkeit der Ursachenforschung führte bisher dazu, dass wir trotz mitunter erheblichen Einsatzes an Ressourcen die Kausalitäten nur relativ weniger komplexer Phänomene ausreichend verstanden haben. Auch schleichen sich beträchtliche Fehler schon deshalb ein, weil sich die beteiligten Forscherinnen und Forscher mit der eigenen Ursachenhypothese identifizieren und nur diese erfolgreich beweisen wollen. Dieses Risiko lässt sich allenfalls durch aufwendige Methoden – etwa dem Doppelblindverfahren – mindern.

Die auf Korrelationen beruhende Big-Data-Analyse könnte hier Vorteile bieten – etwa, indem wir schon die daraus resultierende Antwort auf das "Was" mitunter als werthaltige Erkenntnis wahrnehmen und daraus pragmatische Konsequenzen ziehen. Zum Beispiel haben die Gesundheitsinformatikerin Carolyn McGregor und ihr Team an der Universität Toronto in den Daten der Vitalfunktionen von Frühgeborenen Muster erkannt, die eine wahrscheinliche zukünftige Infektion anzeigen, viele Stunden bevor erste Symptome auftreten. McGregor kennt damit zwar nicht die Ursache der Infektion, aber die auf Wahrscheinlichkeiten beruhende Erkenntnis reicht aus, um den betroffenen Frühchen entsprechende Medikamente zu verabreichen. Das mag in Einzelfällen gar nicht nötig gewesen sein, aber in der Mehrzahl der Fälle rettet es das Leben des Frühgeborenen und ist daher, gerade auch wegen der relativ geringen Nebenwirkungen, die pragmatisch richtige Konsequenz aus der Datenanalyse.

Im Gegenzug müssen wir freilich auf der Hut sein, nicht jeder statistischen Korrelation auch einen tieferen Zusammenhang zu unterstellen. Denn mittels Korrelationen werden auch bloß zufällige Übereinstimmungen erfasst, die keinen tieferen inneren Zusammenhang widerspiegeln.

Erkenntnisse über das Was der Wirklichkeit können darüber hinaus auch für die Ursachenforschung von bedeutendem Nutzen sein. Denn anstatt lediglich auf der Basis einer Intuition einen bestimmten Zusammenhang aufwendig zu erforschen, erlaubt eine auf Korrelationen basierende Big-Data-Analyse die Bewertung einer großen Vielzahl leicht unterschiedlicher Hypothesen. Die Erfolg versprechendsten Hypothesen können dann für die Ursachenforschung herangezogen werden. Mit anderen Worten: Big Data kann helfen, die Stecknadel der Erkenntnis im Heuhaufen der Daten für die Ursachenforschung zu finden.

Schon daraus wird klar, dass mit Big Data die Suche der Menschen nach Ursachen nicht abbricht. Aber die nahezu monopolartige Stellung der Ursachenforschung im Erkenntnisprozess weicht sich auf, indem öfter das Was vor dem Warum ermittelt werden wird. In manchen Fällen mag das schon reichen, jedenfalls fürs Erste. Und in vielen anderen Fällen wird die nachfolgende Suche nach dem Warum vom Verständnis über das Was deutlich profitieren. In Summe wird damit der menschliche Erkenntnisprozess verbessert.

Annäherung an die Wirklichkeit

2014 berichteten Wissenschaftsmagazine in aller Welt von einem Fehler in Googles Grippevorhersage: Vor allem im Dezember 2012 habe sich das Unternehmen in der Vorhersage der Wintergrippe in den USA massiv verschätzt, und viel zu viele Fälle seien prognostiziert worden. Was war passiert? Nach eingehender Fehleranalyse gestand Google ein, dass man das für die Grippevorhersage verwendete statistische Modell seit der Einführung im Jahr 2009 unverändert gelassen habe. Weil sich aber die Suchgewohnheiten der Menschen im Internet über die Jahre verändert hätten, sei die Vorhersage so deutlich daneben gegangen.

Google hätte das eigentlich wissen müssen. Denn viele andere Big-Data-Analysen seiner verschiedenen Dienste aktualisiert der Internetkonzern regelmäßig anhand neuer Daten. Eine aktualisierte Fassung der Vorhersage, basierend auf Daten bis 2011, ergab denn auch eine wesentlich genauere "Vorhersage" für Dezember 2012 und die folgenden Monate.

Dieser etwas peinliche Fehler von Google streicht eine weitere Besonderheit von Big Data heraus. Bisher versuchten wir, verallgemeinerungsfähige Erkenntnisse der Wirklichkeit zu gewinnen, die dem Anspruch genügen sollten, einfach und stets gültig zu sein. Dabei mussten wir aber oft die Wirklichkeit idealisieren. In den meisten Fällen reichte das auch aus. Indem wir nun aber antreten, die Wirklichkeit in all ihrer Detailreiche verstehen zu wollen, stoßen wir mit idealisierten Vorstellungen der Welt an Grenzen. Mit Big Data wird klar, dass wir mit idealisierten Vereinfachungen die Wirklichkeit nicht mehr in ihrer ganzen Vielfalt und Komplexität fassen können, sondern jedes Ergebnis einer Analyse nur als vorläufiges begreifen müssen.

So nehmen wir jeden neuen Datenpunkt dankbar an, in der Hoffnung, dass wir uns mit seiner Hilfe der Wirklichkeit ein kleines Stückchen weiter annähern. Und wir werden akzeptieren, dass uns abschließende Erkenntnis verborgen bleibt, nicht zuletzt, weil die Daten eben stets nur ein Abbild der Wirklichkeit und damit im Letzten unvollständig sind.

(Wirtschaftliches) Primat der Daten

Die Prämisse von Big Data ist, dass sich aus Daten Erkenntnisse über die Wirklichkeit gewinnen lassen. Konstitutiv für den Erkenntnisgewinn sind daher primär die Daten, nicht der Algorithmus. Auch das ist ein Unterschied zur "datenarmen" Vergangenheit. Denn bei wenigen Daten kommt dem Modell, dem Algorithmus, größeres Gewicht zu. Dieses muss die geringe Menge an Daten ausgleichen. Das hat Konsequenzen auch für die Verteilung informationeller Macht im Kontext von Big Data. In Zukunft werden weniger jene, die Daten bloß analysieren, Macht haben, als jene, die auch den Zugang zu Daten haben. Damit erhält auch das Unbehagen vieler Menschen gegenüber Organisationen und Unternehmen, die scheinbar immer größere Datenmengen sammeln und auswerten, ein sachliches Fundament.

Weil sich aus Daten Erkenntnisse schöpfen lassen, bestehen massive Anreize, immer mehr Aspekte unserer Wirklichkeit in Daten zu fassen, also – um einen Begriff zu prägen – die Wirklichkeit immer stärker zu "datafizieren". Immer kleinere, günstigere und genauere Sensoren helfen hier genauso wie eine immer noch zunehmende Rechenleistung der digitalen Werkzeuge, mit denen wir uns umgeben. In der Vergangenheit war nicht nur das Sammeln und Auswerten von Daten kostspielig, sondern auch das fortgesetzte Speichern der Daten. Aus diesem Grund wurde in der Regel nur so wenig wie nötig gesammelt, zudem wurden die Daten nach der Verwendung auch wieder gelöscht oder in Archiven vergessen. Diese Nutzung der Daten für ein bestimmtes Ziel bilden auch die bestehenden Datenschutznormen in der sogenannten Zweckbindung ab. Sinken die Kosten des Auswertens und Speicherns jedoch, dann ist es plötzlich sinnvoll, einmal gesammelte Daten vorrätig zu halten und zukünftig für neue Zwecke wiederzuverwenden. Das führt dazu, dass auch aus wirtschaftlicher Sicht massive Anreize bestehen, möglichst viele Daten scheinbar grundlos zu sammeln, zu speichern und so oft wie möglich einzusetzen. Denn dieses Datenrecycling erhöht die Effizienz der Datenwirtschaft.

Big Data ist ein mächtiges Werkzeug, die Wirklichkeit, in der wir leben, zu verstehen. Jene, die dieses Werkzeug effektiv einsetzen, ziehen daraus nachhaltige Vorteile. Dies bedeutet freilich auch Umverteilungen nicht nur informationeller Macht in unserer Gesellschaft – womit wir bei den Schattenseiten von Big Data angekommen sind.

Permanenz der Vergangenheit, vorhergesagte Zukunft

Seit den Enthüllungen von Edward Snowden über die Machenschaften der NSA wurde viel über die Gefahren von Big Data geschrieben. Dabei wird in der Regel als erstes die umfassende Überwachung und Datensammlung genannt. Aber das Bedrohungsszenario geht über die NSA hinaus.

Wenn einfache Verfügbarkeit und günstiges Speichern zum grenzenlosen Datensammeln anregen, dann besteht damit vor allem die Gefahr, dass uns die eigene Vergangenheit immer wieder aufs Neue einholt. Zum einen bemächtigt dies jene, die mehr über unser vergangenes Handeln wissen, als wir vielleicht selbst erinnern können. Würde uns dann regelmäßig vorgehalten, was wir in früheren Jahren gesagt oder getan haben, könnten wir versucht sein, uns selbst zu zensieren, in der Hoffnung, damit in Zukunft nicht Gefahr zu laufen, mit einer dann unangenehmen Vergangenheit konfrontiert zu werden. Schülerinnen und Studenten, Gewerkschafter und Aktivistinnen könnten sich so veranlasst sehen, zu schweigen, weil sie fürchten müssten, in Zukunft für ihr Handeln bestraft oder jedenfalls schlechter behandelt zu werden.

Das Festhalten an Vergangenem verhindert auch, so meinen Psychologen, dass wir in der Gegenwart leben und handeln. So wird in der Literatur der Fall einer Frau beschrieben, die nicht vergessen kann, und deren Erinnerung an jeden Tag der zurückliegenden Jahrzehnte sie in ihren Entscheidungen in der Gegenwart blockiert.

Im Kontext von Big Data lassen sich auch aus Analysen vergangenen oder gegenwärtigen Verhaltens Prognosen für die Zukunft erstellen. Das kann für die gesellschaftliche Planung durchaus von positiver Bedeutung sein, etwa wenn es darum geht, zukünftige Ströme des öffentlichen Verkehrs vorherzusagen. Es wird aber höchst problematisch, wenn wir beginnen, Menschen schon lediglich aufgrund eines durch eine Big-Data-Vorhersage prognostizierten zukünftigen Verhaltens zur Verantwortung zu ziehen. Das wäre dann so wie im Hollywood-Film "Minority Report" und würde unsere bisherigen Vorstellungen von Gerechtigkeit infrage stellen. Mehr noch: Wenn Strafe nicht mehr mit tatsächlichem, sondern schon mit bloß vorhergesagtem Verhalten verknüpft wird, dann ist das im Kern auch das Ende des gesellschaftlichen Respekts gegenüber dem freien Willen.

Dieses Schreckensszenario ist noch keine Realität, aber zahlreiche Versuche in aller Welt zeigen schon in diese Richtung. So wird etwa in dreißig US-Bundesstaaten für die Entscheidung, ob jemand auf Bewährung freikommt oder nicht, eine Big-Data-Vorhersage herangezogen, die prognostizieren soll, wie wahrscheinlich die Person künftig in einen Mord verwickelt sein wird. Und in vielen Städten der westlichen Welt wird die Entscheidung, welche Polizeistreife wann und wo patrouilliert, von einer Big-Data-Vorhersage des wahrscheinlich nächsten Verbrechens abhängig gemacht. Letzteres ist keine unmittelbare individuelle Strafe, aber für die Betroffenen in verbrechensstarken Straßen kann es durchaus so empfunden werden, wenn jeden Abend die Polizei an die Tür klopft, selbst wenn nur freundlich nachgefragt wird, ob alles in Ordnung ist.

Was wäre, wenn die Big-Data-Analyse vorhersagen könnte, ob jemand ein guter Autofahrer wird, noch bevor dieser jemand die Führerscheinprüfung ablegt hat? Würden wir dann prognostiziert schlechten Fahrern den Führerschein versagen, auch wenn sie die Prüfung bestehen? Und würden Versicherungen diesen Personen bei vorhergesagt erhöhtem Risiko immer noch eine Police anbieten? Zu welchen Konditionen?

Alle diese Fälle stellen uns als Gesellschaft im Kern vor die Frage, zwischen Sicherheit und Vorhersehbarkeit einerseits und Freiheit und Risiko andererseits zu wählen. Diese Fälle sind aber auch das Ergebnis eines Missbrauchs von Big-Data-Korrelationen für kausale Zwecke – die Zuteilung von individueller Verantwortung. Genau diese dafür notwendige Antwort auf das Warum kann die Analyse des Was aber nicht geben. Das trotzdem zu unternehmen, heißt nichts weniger, als sich der Diktatur der Daten auszuliefern und der Big-Data-Analyse mehr an Einsicht zuzuschreiben als ihr tatsächlich innewohnt.

Notwendigkeit eines Rechtsrahmens

Die permanente Vergangenheit und die vorhergesagte Zukunft sind – auf die einzelnen Menschen bezogen – die beiden großen Schattenseiten von Big Data. Hinzu kommen noch weitere, gesamtgesellschaftliche Problemfelder, die sich etwa aus der zunehmenden Konzentration der Datenbestände auf wenige Unternehmen und Organisationen (und die damit verbundene Verschiebung informationeller Macht) ergeben.

Daraus folgt die Notwendigkeit, den Einsatz von Big Data rechtlich verbindlichen Regeln und Schranken zu unterwerfen, gerade um die potenziellen individuellen und gesamtgesellschaftlichen negativen Folgen zu vermeiden. Das bedarf möglicherweise neuer Grundrechte, neuer Verantwortlichkeiten für jene, die Big Data einsetzen, aber auch neuer Institutionen, die die Regulierung und Kontrolle von Big Data übernehmen. Dazu fehlt freilich bis jetzt in der Politik noch das dafür notwendige Problemverständnis – und in der Öffentlichkeit eine breite Diskussion über Nutzen, Schattenseiten und mögliche Grenzen dieser mächtigen neuen Sicht auf die Wirklichkeit.

Fussnoten

Fußnoten

  1. Vgl. Martin Hilbert/Priscilla López, The World’s Technological Capacity to Store, Communicate, and Compute Information, in: Science, 332 (2011) 6025, S. 60–65.

  2. Vgl. Elizabeth L. Eisenstein, The Printing Revolution in Early Modern Europe, Cambridge 1993, S. 13f.

  3. Vgl. John Gantz/David Reinsel, Extracting Value from Chaos, 2011, Externer Link: http://www.emc.com/collateral/analyst-reports/idc-extracting-value-from-chaos-ar.pdf (24.2.2015).

  4. Vgl. Jeremy Ginsburg et al., Detecting Influenza Epidemics Using Search Engine Query Data, in: Nature, 457 (2009), S. 1012ff.

  5. Vgl. Andrea Freyer Dugas et al., Google Flu Trends: Correlation With Emergency Department Influenza Rates and Crowding Metrics, in: Clinical Infectious Diseases, 54 (2012) 4, S. 463–469.

  6. Vgl. Chris Anderson, The End of Theory, in: Wired, 16 (2008) 7, Externer Link: http://www.wired.com/science/discoveries/magazine/16-07/pb_theory (24.2.2015).

  7. Vgl. danah boyd/Kate Crawford, Six Provocations for Big Data, Research Paper, 21.9.2011, ssrn.com/abstract=1926431 (24.2.2015).

  8. Vgl. Daniel Kahneman, Schnelles Denken, langsames Denken, München 2012.

  9. Vgl. David Lazer/Ryan Kennedy/Gary King, The Parable of Google Flu: Traps in Big Data Analysis, in: Science, 343 (2014) 6176, S. 1203ff.

  10. Dazu umfassender: Viktor Mayer-Schönberger, Delete – Die Tugend des Vergessens in digitalen Zeiten, Berlin 2010.

  11. Vgl. Elizabeth S. Parker/Larry Cahill/James L. McGaugh, A Case of Unusual Autobiographical Remembering, in: Neurocase, 12 (2006), S. 35–49.

Lizenz

Dieser Text ist unter der Creative Commons Lizenz "CC BY-NC-ND 3.0 DE - Namensnennung - Nicht-kommerziell - Keine Bearbeitung 3.0 Deutschland" veröffentlicht. Autor/-in: Viktor Mayer-Schönberger für Aus Politik und Zeitgeschichte/bpb.de

Sie dürfen den Text unter Nennung der Lizenz CC BY-NC-ND 3.0 DE und des/der Autors/-in teilen.
Urheberrechtliche Angaben zu Bildern / Grafiken / Videos finden sich direkt bei den Abbildungen.
Sie wollen einen Inhalt von bpb.de nutzen?

Dr. iur., LL. M., M. Sc., geb. 1966; Professor am Internet Institute der Universität Oxford; Autor des Buches "Big Data" (2013, mit Kenneth Cukier); Oxford Internet Institute, 1 St Giles, OX1 3JS Oxford/Vereinigtes Königreich. E-Mail Link: vms@acm.org