BUNDESTAGSWAHL 2021 Mehr erfahren
Ein Besucher blickt auf das Rechenzentrum des CERN.

11.4.2011 | Von:
Bernhard Rieder

Demokratisierung der Suche?

Von der Kritik zum gesellschaftlich orientierten Design

Universalsuchen

Der Bereich des IR hat sich im Laufe des 20. Jahrhunderts herausgebildet, und zwar als Antwort auf die Probleme, die im Zuge der beschleunigten Informationsproduktion in allen Bereichen der westlichen Gesellschaft entstanden sind. War die erste Hälfte des 20. Jahrhunderts von Bibliotheks-Innovatoren wie Paul Otlet und immer feiner verzweigten Klassifikationssystemen geprägt, so eröffnete die Entstehung von automatischen Sortiergeräten und Universalrechnern neue Richtungen im Denken über Information. Die Arbeit von Pionieren wie Hans-Peter Luhn und anderen führte zu Gerard Saltons Monumentalwerk Automatic Information Organization and Retrieval, das 1968 erschien und Computer-Algorithmen als logische Lösung für die Probleme der Informationsgewinnung dauerhaft definierte. Doch die IR entwickelte sich zu einer Zeit, als Information meist noch in gut strukturierter Form in inhaltsbezogenen Datenbanken gespeichert war. Viele der begrifflichen Unklarheiten des Web haben mit der Tatsache zu tun, dass die Daten im Web weder strukturell noch thematisch konsistent sind.

Das Web kann als Adressenraum für den Zugang zu Dokumenten verstanden werden. Im Prinzip ist jede Informationseinheit über einen Uniform Resource Locator (URL) abrufbar.(16) Zumindest die Oberfläche des Web(17) ist aus rein technischer Perspektive ein homogener Raum von Informationsressourcen, die in Form von HTML-Dokumenten gespeichert sind. Die Web-Suche – und damit meine ich die allgemeine Suche, bei der zuerst AltaVista und dann Google Search die Hauptrolle spielten – ist ein technisches Artefakt, welches das Web als einförmigen Adressenraum betrachtet und keine über abstrakte Kategorien wie Dateiformat, Datum oder Sprache hinausgehenden Unterscheidungen zwischen verschiedenen Informationsarten vornimmt. Suchmaschinen wenden bei ihrer Erschließung einer breiten Palette von Ressourcen das Prinzip "eine Größe für alle" an und überlassen es den Nutzern, den genaueren Kontext in Form von weiteren Suchbegriffen zu definieren, wenn etwa zwischen einem Buch als Kaufangebot und einer Buchzusammenfassung unterschieden werden soll. Diese Universalität stellt eine der größten Schwierigkeiten bei dem Versuch dar, die Websuche in nicht-technischen Begriffen zu verstehen. Das Web als rein topologische Struktur (als Netz von Dokumenten und Links), rein syntaktische Struktur (Dokumente, die Markup-Sprache enthalten), oder rein statistische Struktur (Worthäufigkeit) unterscheidet sich radikal von der menschlichen Gewohnheit, Informationen nach Gegenständen, Aktivitätsbereichen, Kontext usw. zu ordnen. Es wird intuitiv davon ausgegangen, dass eine Restaurantadresse, der neueste Hollywood-Tratsch, der Preis eines Laptops und ein Blog-Posting über Gewichtsabnahme nicht dieselbe Art von Information enthalten, dass sie zu verschiedenen Existenzbereichen gehören. Es sind sich wahrscheinlich auch alle darin einig, dass jede dieser Informationen mit unterschiedlichen Tätigkeiten verbunden ist, die spezifische Entscheidungen implizieren. Etwa wo man zu Abend essen will, oder wen man wählen soll. Wir können uns vermutlich im Großen und Ganzen auch über die Wichtigkeit bzw. Trivialität jeder dieser Informationen einigen. Diese (informellen) Differenzierungsebenen gehören zu dem, was Clifford Geertz als Kultur, als "Bedeutungsnetz", bezeichnet hat: Eine Ordnung, die auf Bedeutung beruht, nicht auf Statistik oder Graphentheorie.(18) Ich will nicht bestreiten, dass diese Methoden bestimmte semantische Dimensionen erfassen, und auch nicht behaupten, dass die Erforschung semantischer Technologien ein verlorenes Unterfangen sei. Die Tatsache bleibt jedoch bestehen, dass die derzeitigen Universalsuchmaschinen das Web als eine undifferenzierte Einheit behandeln und für das Ranking von Informationen, die einer Vielzahl verschiedener Dimensionen angehören, dieselben Techniken einsetzen. Ihr relativer Agnostizismus gegenüber der Bedeutung ist ihre spezifische Objektivität – die immer noch eine bestimmte kulturelle Logik und normative Orientierung ausdrückt.

Beliebtheit und Komfort

Nach einigen Vorprojekten veröffentlichte Eugene Garfield 1963 die erste Ausgabe des Scientific Citation Index (SCI), einen vollständigen Index von 613 wissenschaftlichen Zeitschriften des Jahrgangs 1961, der eine geordnete Liste von über 1,4 Millionen Zitaten enthält. Seither hat es der SCI Wissenschaftlern ermöglicht, nach relevanten Beiträgen zu suchen, indem sie "Assoziationssträngen" folgten – ein Begriff, der von Vannevar Bush geprägt und der durch die wissenschaftliche Praxis des Zitierens etabliert wurde. Indem man jede beliebige Publikation als Ausgangspunkt wählt, lassen sich alle Beiträge lokalisieren, die sie zitieren. Und Techniken wie die Analyse von Ko-Zitaten (zwei Artikel, die die gleiche Quelle zitieren, könnten thematisch verbunden sein) machen den SCI zu einem hochwirksamen Werkzeug der Informationsgewinnung.(19)

Der SCI ist hier aus mehreren Gründen von Interesse. Erstens nahm er eine bedeutenden Entwicklung in der Geschichte des Web vorweg, nämlich die Abkehr von handverlesenen und Klassifikations-basierten Verzeichnissen wie Yahoo und die Wende zu vollständig automatisierten Suchmethoden, wie sie zuerst von AltaVista und dann von Google verwendet wurden. Die Argumente waren in beiden Fällen die gleichen: Die verfügbare Information sei zu umfangreich, um von menschlichen Redakteuren bearbeitet zu werden, die manuelle Klassifizierung zu langsam und zu teuer, kontrollierte Vokabulare zu unflexibel, zu schwerfällig, und letztlich auch subjektiv. Zweitens stellte der SCI einen wirklichen Paradigmenwechsel von einer inhaltlich orientierten Organisation hin zu einer topologischen, auf Graphentheorie aufbauenden Analyse dar. Die Web-Suchmaschinen durchliefen eine ähnliche Veränderung: Das Ranking von AltaVista beruhte noch weitgehend auf Dokumenteneigenschaften, also auf der Häufigkeit eines Suchbegriffes, seiner Position innerhalb des Dokuments, der Präsenz in der URL, usw. Nach Page et al. ist es "nahe liegend, die gängigen Zitationsanalysetechniken auf die Hypertext-Struktur des Web anzuwenden".(20) Auch AltaVista zählte die Links, die auf ein Dokument verwiesen, gab diesen aber keine beherrschende Rolle. Der Erfolg von Google Search beruht dagegen großteils auf einer explizit Link-topologischen Methode, bei der jedes Zitat eine bestimmte, von der "Wichtigkeit" der Senderseite abhängige Gewichtung bekommt (PageRank), die ihrerseits von einer rekursiven Berechnung des ganzen Graphen abhängt. Ein dritter Aspekt des SCI ist, dass sein impact factor (eine vom SCI ausgehende Zitatezählung von Beiträgen, einzelnen Wissenschaftlern, oder Institutionen), der zum vorherrschenden Messinstrument für wissenschaftliche Produktivität geworden ist, seit langem Gegenstand einer Kritik ist, die jetzt auch gegen die Reihung von Suchergebnissen vorgebracht wird. Forscher haben dabei argumentiert, dass Qualität nicht das gleiche wie Bekanntheit ist, und dass ein auf Zitaten basierendes Ranking die Innovation hemmen würde, in dem es ein Star-System einführt und die Vielfalt reduziert.(21)

Die Gleichsetzung von Bedeutung mit Beliebtheit ist in der Tat der Kern der Kritik an der Linkanalyse als vorherrschende Methode der Ergebnisreihung – die Verzerrung von Suchmaschinen wird meist in diesem Sinn verstanden.(22) Anstatt eine bestimmte Meinung, politische Partei oder Firma zu bevorzugen, ist die in der Linkanalyse enthaltene Weltanschauung viel abstrakter. Sie delegiert gewissermaßen das Ranking an das Web selbst, da ja die Links, die den PageRank bestimmen, und andere topologische Maßnahmen nicht von der Suchmaschine selbst gesetzt werden, sondern von den Menschen, die Webseiten, Blogs und anderen Content erstellen. Es ist nicht überraschend, dass die Rhetorik von Google sich demokratisch gibt und Links mit "Stimmen" gleichsetzt.(23) Die Suchmaschine funktioniert so als bloße Stimmenzählmaschine, wobei die Firma gerne stolz bemerkte, dass "keine Beteiligung von Menschen" diesen Prozess beeinflusste, weshalb "die Nutzer Google als Quelle objektiver Information vertrauen".(24) Das Ranking ist dennoch eine Imitation der Urteile menschlicher Akteure, und je mehr sich die Sicht der Maschine der Wahrnehmung der Nutzer angleicht, desto höher ist die "Qualität" der Ergebnisse. Suchmaschinenbetreiber beschäftigen daher Teams von menschlichen Bewertern, die die Veränderungen der Algorithmen testen und darüber entscheiden, ob diese nützlich sind oder nicht.(25) Aus einer Studie von Pan et al. geht hervor, dass die meisten Nutzer bereit sind, diesem Prozess großes Vertrauen entgegen zu bringen.(26)

Im Allgemeinen wird die machtbasierte Linkstruktur des Web, wo eine kleine Anzahl von Zentren viele kaum verlinkte Seiten dominiert (vgl. Hindman et al. 2003), durch die Linkanalyse zu einem wichtigen Faktor. Das dahinter stehende Prinzip wurde als "kumulativer Vorteil", preferential attachment, oder "Matthäus-Effekt" bezeichnet; die Konsequenz besteht dabei einfach darin, dass gut gereihte Seiten eine höhere Sichtbarkeit aufweisen und daher mehr verlinkt werden, wodurch die Rankings noch besser werden. Anders gesagt: Die Reichen werden reicher. Beliebtheit als ein Maß für Qualität zu nutzen, ist natürlich eine normative Entscheidung. In Kombination mit der Tatsache, dass Suchmaschinenoptimierung (search engine optimization, SEO), Link-Kampagnen und klassisches Marketing es ökonomisch potenten Akteuren erlauben, das Spiel zu ihren Gunsten zu manipulieren, ist die "Logik des Zugriffs" letztlich sowohl für die Zentralisierungs-(27) als auch für die Kommerzialisierungs-Tendenzen verantwortlich.(28) Doch es gibt noch einen zweiten zentralen Wert, der das Design der derzeitigen Suchmaschinen bestimmt.

Der Erfolg von Google Search geht zum Teile auf sein einfaches, übersichtliches Interface zurück. Außer über die Sprache haben die Nutzer kaum Möglichkeiten, den Suchprozess zu beeinflussen, und die Ranking-Parameter sind vollkommen abgeriegelt. Nach den Empfehlungen eines Nutzer-orientierten Designs – eine Design-Philosophie, die weitgehend auf der kognitiven Psychologie beruht – ist es das Ziel, den Suchprozess so einfach und angenehm wie möglich zu gestalten. Dass sich die Forschung dies auch weiterhin zum Ziel setzt, wurde kürzlich von Marissa Mayer, Vizepräsidentin für Suchprodukte und User-Erfahrung bei Google Inc., deutlich gemacht. Ihre Definition einer "idealen Suchmaschine" lautet wie folgt:
    [Die Suchmaschine] ist unser bester Freund und vermittelt uns Zugang zu allen Fakten der Welt und zum fotografischen Gedächtnis von allem, was wir gesehen und kennen gelernt haben. Die Suchmaschine kann Antworten liefern, die auf unsere Vorlieben, unser bestehendes Wissen, und die beste verfügbare Information zugeschnitten sind.(29)
Das Ziel der Personalisierung ist, die Suche durch die Nutzung der individuellen Suchgeschichte und Sitzungsprofile zur Präzisierung der Anfragen noch komfortabler zu machen. Wenn ein Nutzer eine Stunde lang Online-Shops besucht hat, dann wird eine Suche nach einem Buchtitel automatisch Online-Buchläden gegenüber internationalen oder wissenschaftlichen Dokumenten bevorzugen. Die Sucherfahrung wird schneller und einfacher.

Sowohl die Beliebtheit als auch der Komfort beruhen auf dem Nutzer-orientierten Designprinzip, dessen Ziel es ist, "die kognitive Anstrengung und den Zeitaufwand für die Suchenden zu reduzieren".(30) Trotz der demokratischen Rhetorik werden Design-Entscheidungen aufgrund eines wahrgenommenen Nutzens für individuelle Endverbraucher getroffen. Überlegungen auf gesellschaftlicher Ebene spielen selten eine Rolle. Wenn Suchmaschinen jedoch wirklich wirksame Gatekeeper und damit zentrale gesellschaftliche Einrichtungen sind, dann ist die Frage legitim, wie ein gesellschaftlich orientierter Zugang, der über die Werte von Beliebtheit und Komfort hinausgeht, aussehen könnte.


Dossier

Open Data

Open Data steht für die Idee, Daten öffentlich frei verfügbar und nutzbar zu machen. Welches Potential verbirgt sich hinter den Daten, die Behörden und Ministerien, Parlamente, Gerichte und andere Teile der öffentlichen Verwaltung produzieren? Das Dossier klärt über die Möglichkeiten offener Daten für eine nachhaltige demokratische Entwicklung auf und zeigt, wie Datenjournalisten mit diesen Datensätzen umgehen.

Mehr lesen

Dialog

Die Netzdebatte

Netzdebatte ist das Debattenportal der Bundeszentrale für politische Bildung. Das Weblog greift Themen auf, die die Gesellschaft bewegen. Netzdebatte erklärt Hintergründe, bildet Positionen ab und bietet einen Ort zum Diskutieren.

Mehr lesen

spielbar.de

spielbar.de informiert über Computerspiele und erstellt pädagogische Beurteilungen. Pädagogen, Eltern und Gamer sind eingeladen, ihre eigenen Beurteilungen, Meinungen und Kommentare zu veröffentlichen.

Mehr lesen auf spielbar.de