Meine Merkliste Geteilte Merkliste

M 02.03 Data Mining - Etappen beim Sammeln und Verwerten von Daten

Digitalisierung - Meine Daten, meine Entscheidung! Didaktische Konzeption B1: Umgang mit Daten (Befragung) M 01.01 Impulsbild M 01.02 Datentagebuch M 01.03 Musterfragebogen M 01.04 Selbsttest M 01.05 Hypothesen bilden M 01.06 Auswertungshilfen M 01.07 Vergleichsdaten Info 01.01 Brainstorming und Umfragen im Unterricht Info 01.02 Datenauswertung mit GrafStat B2: Digitales Gold - Data Mining M 02.01 "Daten sind das neue Öl" M 02.02 Film Weg der Daten M 02.03 Etappen beim Data Mining M 02.04 Datenschutz & Datensparsamkeit M 02.05 Lückentext Datenschutz M 02.06 Lückentext Surfen & Browser M 02.07 Algorithmus M 02.08 Cookies M 02.09 Tracking M 02.10 VPN-Verbindung Info 02.01 Schaubild Etappen beim Data Mining Info 02.02 Steckbriefe und Infoflyer B3: Digitalisierte Welt M 03.01 Utopie (Podcast) M 03.02 Dystopie (Podcast) M 03.03 Quiz M 03.04 Dimension Bildung M 03.05 Dimension Medizin M 03.06 Dimension Staat & Verwaltung M 03.07 Dimension Unterhaltung, Konsum, Lifestyle M 03.08 Dimension Wirtschaft M 03.09 Dimension Information & Kommunikation M 03.10: Dimension Politik Info 03.01 Transkript "Utopie" Info 03.02 Transkript "Dystopie" Info 03.03 Digitale Mindmap Info 03.04 Dimension Bildung Info 03.05 Dimension Medizin Info 03.06 Dimension Staat & Verwaltung Info 03.07 Dimension Unterhaltung, Konsum, Lifestyle Info 03.08 Dimension Wirtschaft Info 03.09 Dimension Information & Kommunikation Info 03.10 Dimension Politik B4: Datenökonomie M 04.01 Zitate M 04.02 Ist-Zustand Datenökonomie M 04.03 Daten als privates Gut M 04.04 Daten als Allgemeingut M 04.05 Daten als Allmende M 04.06 Daten-Treuhandschaft M 04.07 Auswertungsmatrix Info 04.01 Auswertungsmatrix B5: Digital aktiv werden M 05.01 Digitalität und Gesundheit M 05.02 Digitalität und Information M 05.03 Digitalität und politische Willensbildung M 05.04 Wusstest du schon? (Gesundheit) M 05.05 Wusstest du schon? (Information) M 05.06 Wusstest Du schon? (Politische Willensbildung) M 05.07 Aktionsformen Glossar Redaktion

M 02.03 Data Mining - Etappen beim Sammeln und Verwerten von Daten

Team "Forschen mit GrafStat"

/ 4 Minuten zu lesen

1. Datenproduktion

Im Internet geben wir verschiedenste Daten von uns preis, sowohl freiwillig als auch unwissentlich. Dabei kann es sich um personenbezogene Daten sowie Bewegungsdaten, als auch um die IP-Adresse handeln. Die Datenabgabe geschieht bei allen möglichen Transaktionen, die wir im Internet vornehmen (beispielsweise Online-Banking, Internetrecherche, soziale Medien, Registrierungen). Irrelevant ist dabei, von welchem Medium die Daten übermittelt werden, dies kann sowohl am Laptop, am Handy, im Auto, über Smartwatches oder über Smart-Home-Systeme geschehen. Allein schon durch die Benutzung eines Browsers beim Surfen im Internet geben wir in der Regel schon viele Informationen über uns preis (z.B. IP-Adresse, genutzter Browser inkl. Angaben zur Version und installierten Erweiterungen, Informationen zum System wie Betriebssystem u.v.m).

2. Datensammlung

Die abgegebenen Informationen werden von unterschiedlichen Akteuren gesammelt. Handelt es sich bei den Daten um personenbezogene Daten, müssen die Anbieter zunächst eine Einwilligung zu deren Speicherung und Verarbeitung einholen. Erst wenn Nutzerinnen und Nutzer zugestimmt haben, dürfen Anbieter auch diese Daten sammeln. Sowohl Internetunternehmen (beispielsweise die bekannten GAFAM: Google, Amazon, Facebook, Apple, Microsoft), Adresshändler oder auch Datenbroker genannt (wie Acxiom, AZ Direct, Deutsche Post, Otto Group etc.) sammeln Informationen im Internet. Mit Hilfe von Tracking-Tools, technischen Methoden zur Nachverfolgung der Aktivitäten von Internetnutzerinnen und -nutzern, wird unter anderem gespeichert, welche Websites wir aufsuchen, worauf wir klicken, wie lange wir auf einer Seite bleiben oder welche Seiten wir vorher besucht haben.

Die Daten können über verschiedene Tracking-Methoden ermittelt werden:
- Durch das Setzen von Cookies werden kleine Dateien beim ersten Besuch einer Website über den Browser auf dem Computer abgelegt und diese können u.U. fortan Informationen über die Nutzerin bzw. den Nutzer sammeln.
- Durch Webpixels, winzige Grafiken, die von Werbeunternehmen auf einer Website platziert werden, werden ebenfalls persönliche Daten weitergeleitet.
- Device Fingerprinting ermöglicht es, Nutzerinnen und Nutzer anhand ihres gewählten Browsers und ihrer Browser-Einstellungen (Sprache, Version, Zeitzone, Erweiterungen, etc.) wiederzuerkennen.
- Durch Analyse-Tools, wie etwa Google Analytics oder Piwik, erhalten Websites Auskünfte über ihre Besucherinnen und Besucher.
- Auch „Gefällt mir“-Buttons oder andere öffentliche Interaktionen mit Bezug zu sozialen Netzwerken können als Trackingmöglichkeit genutzt werden.

3. Veredelung & Auswertung von Daten

Die einzelnen gesammelten Informationen werden anschließend verkettet, indem Algorithmen die unterschiedlichen Daten zueinander in Beziehung setzen. Ein sogenannter Adress-Provider ordnet hierbei einer Person Informationen nach einem definierten Adressschema zu. Infolge der Gruppierung und Verknüpfung von Daten durch den Adress-Provider, entsteht so ein prognostiziertes Persönlichkeitsprofil einer Person - häufig auch digitale Identität oder digitaler Fingerabdruck genannt -, mit all den ihr zugehörigen ermittelten Informationen. Verkettungsmöglichkeiten sind unter anderem die Untersuchung der Gleichheit von Namen, Pseudonymen, Adressen oder anderen Kennungen, ebenso können Bewegungs- oder Zeitdaten auf Ähnlichkeiten geprüft werden. Die Informationen werden zum jeweiligen Zweck eines Auftraggebers verkettet, je nachdem, welcher Akteur die Daten gesammelt hat bzw. an diesen interessiert ist. Anschließend typologisieren Algorithmen die verketteten Daten. Hierzu teilen sie die verknüpften Informationen spezifischen Gruppen zu, die aus digitalen Identitäten mit ähnlichen Eigenschaften bestehen. Durch Data-Mining-Systeme, statistische Methoden zur Erkennung von Trends und Querverbindungen von Daten, werden Individuen herausgefiltert, die mit der höchsten Wahrscheinlichkeit die Eigenschaften erfüllen, nach denen der Auftraggeber sucht. Je nachdem, welche Informationen benötigt werden, wird die Wahrscheinlichkeit analysiert, mit der eine digitale Identität beispielsweise ein Produkt kauft, eine Straftat begeht oder kreditwürdig ist. Hierbei ist zu beachten, dass die digitale Identität nur begrenzt Einschätzungen über den realen Nutzer oder die reale Nutzerin ermöglicht und die Auswertung somit von der Realität abweichen kann.

4. Nutzung & Verkauf von Daten

Nach der Auswertung und Aufbereitung der gesammelten Daten werden die Ergebnisse je nach Nutzungsinteresse eingesetzt. Entweder werden die veredelten Daten von Unternehmen oder Datenbrokern an andere Unternehmen verkauft oder Unternehmen nutzen die generierten Informationen zur Verbesserung der eigenen Dienstleistungen.

5. Einfluss auf die Nutzerinnen und Nutzer

Sobald wir in die Speicherung und Verarbeitung unserer personenbezogenen Daten eingewilligt haben, bekommen wir als Nutzerinnen und Nutzer von der Sammlung, Veredelung und dem Verkauf unserer Daten in der Regel nichts mit. Der Einfluss dieser Vorgänge macht sich meist erst nach deren Abschluss bemerkbar, sobald die aufbereiteten Daten zielgerichtet für einen bestimmten Zweck eingesetzt werden. Die Nutzung der Auswertungsergebnisse kann einen direkten Einfluss auf die Person haben, die zu Beginn ihre Daten im Internet preisgegeben hat, beispielsweise in Form von personalisierter oder politischer Werbung. Da die Zuordnung einzelner Merkmale zu einer digitalen Identität häufig auf statistischen Wahrscheinlichkeitsrechnungen beruht, können dabei auch Fehler auftreten. Informationen, die einem digitalen Profil zugewiesen wurden oder Einordnungen in Gruppen, können von den realen Merkmalen einer Person abweichen und somit Fehleinschätzungen generieren, die das reale Leben der Person beeinflussen. Beispielsweise könnte ihr Werbung angezeigt werden, die nicht den eigenen Interessen entspricht, ihre zu zahlenden Krankenkassenbeiträge erhöht werden, ein Kredit aufgrund von angenommener bzw. berechneter geringer Kreditwürdigkeit vorenthalten werden, unberechtigterweise eine Kontoeröffnung verweigert werden, ein Job verwehrt bleiben oder die Person könnte unberechtigterweise unter Verdacht von Sicherheitsbehörden stehen.

Arbeitsauftträge:

  1. Lies dir den Text genau durch. Markiere dabei Begriffe, die dir unklar sind.

  2. Kläre die Bedeutung der von dir markierten sowie der im Text kursiv gedruckten Begriffe. Du kannst dabei das Interner Link: Glossar zum Projekt oder andere verlässliche Quellen benutzen.

  3. Verschaffe dir einen Überblick über den Ablauf in den einzelnen Etappen bei der Sammlung und Verwertung der Daten (Was passiert wann, wie, durch wen?) und fertige ein Schaubild an, welches diese sinnvoll stichwortartig veranschaulicht.

Quelle: Eigener Text (Team Forschen mit GrafStat)

Team "Forschen mit GrafStat" Westfälische Wilhelms-Universität Münster Leitung: Prof. Dr. Andrea Szukala