>>> Alles zur Bundestagswahl 2017 <<<
Auf einem Notebook ist die Startseite der deutschen Wikipedia vor einem Bücherregal zu sehen
1 | 2 Pfeil rechts

Wer (oder was) beherrscht Wikipedia?

Zur Bedeutung von Bots


10.10.2012
Vor allem in der starken Wachstumsphase der Wikipedia wurden Bots als einfache Computerprogramme entwickelt, um die immer größer werdende Zahl täglicher Routine-Aufgaben zu bewältigen. Heute aber sind Bots längst mehr als nur "Kräfteverstärker".

Screenshot des Quelltextes eines Pywikipediabots (Ausschnitt)Screenshot des Quelltextes eines Pywikipediabots (Ausschnitt) (© Public Domain)

Bots – kurz für das englische robots ("Roboter")- sind Computerprogramme, die weitgehend selbstständig, sich stets wiederholende Aufgaben abarbeiten. So wurden beispielsweise die ersten funktionsmächtigeren Bots in Suchmaschinen eingesetzt, um das Internet ohne menschliche Hilfe zu durchkämmen. Sie folgten Hyperlinks mit dem Ziel, das Web zu erfassen und zu katalogisieren.

Heute begleitet man das Thema Bots mit gemischten Gefühlen, denn sie dienen auch Hackern und Spammern dazu, nichtsahnende fremde Computer mit Viren zu verseuchen, die dort wiederum ganz andere Bots installieren. Unbemerkt von den Besitzern verrichten sie ihr Werk im Hintergrund; verschicken Spam-Mails, fangen persönliche Daten ab, überlasten Web-Server oder infizieren andere Computer. In der Wikipedia jedoch – dem selbst erklärten "freien Online-Lexikon", an dem jeder mitwirken könne1– hat sich eine neue Klasse von Bots herausgebildet, die den Vorteil der Automation für weit sinnvollere Zwecke nutzt. Die Bots in der Wikipedia helfen in nahezu allen Bereichen der Enzyklopädie: Sie erstellen neue Artikel und bearbeiten vorhandene, setzen Standards und Regeln, spähen nach Spam und Vandalismus und vieles mehr. Da Bots programmiert sind, um den Richtlinien und Grundsätzen für das Verfassen von Artikeln Geltung zu verschaffen, beeinflussen sie das Lexikonprojekt maßgeblich. Hier wirken schließlich Hunderttausende Freiwillige aus aller Welt durch Millionen von Artikeln und Bearbeitungen mit, sodass Bots ein gewisses Maß an Einheitlichkeit in Form und Inhalt gewährleisten – also beispielsweise dann, wenn man sich einig ist, Quellenangaben alphabetisch anzuordnen. Bots haben ferner Lenkungsfunktionen – sie greifen z.B. bei Edit-Wars (wörtlich: Bearbeitungskriegen) und anderen redaktionellen Konflikten kontrollierend ein, werden aber auch eingesetzt, um einseitige, umstrittene Änderungen pauschal in der gesamten Enzyklopädie vorzunehmen, wie die Umwandlung der amerikanischen in die britische Schreibweise. Angesichts des verbreiteten Einsatzes von Bots für so zahlreiche unterschiedliche Aufgaben in der Wikipedia bildeten und bilden sie und ihre Entwickler eine zentrale Größe des Projekts und der Wikipedia-Gemeinschaft.

Die ersten Bots: Automatisierung von Routineaufgaben



In der Wikipedia nutzt man Bots für vielfältige lexikonspezifische und organisatorische Aufgaben. Seit den Anfängen haben Komplexität und Umfang dieser Spezialprogramme zugenommen. Die ersten Bots wurden lange vor Gründung der Wikimedia Foundation entwickelt, also bereits als die Enzyklopädie noch ein relativ kleines und unbekanntes Projekt mit weniger als tausend ehrenamtlichen Mitarbeitern war, die an rund 25 bis fünfzig Artikeln täglich schrieben. Schon damals hatten die Wikipedianer ein frei zugängliches Online-Lexikon von Weltformat im Sinn, das es selbst mit der Encyclopedia Britannica aufnehmen können sollte. Also gab es viel zu tun. Folglich sollten die ersten Bots Routineaufgaben automatisieren, die zwar auch vom Menschen erledigt werden können, sich wegen der Monotonie aber eher für Computerprogramme eignen.

Einer der prominentesten digitalen Helfer, der immer noch im Einsatz ist, war RamBot, programmiert im Herbst 2002 von dem Wiki-Autoren und späteren Administratoren Ram-Man. Er hatte erkannt, dass die Zensusdaten der Behörden für Artikel zu fast allen Städten und Gemeinden in den Vereinigten Staaten in sehr benutzerfreundlichem Datenformat öffentlich zugänglich waren. Es gab zwar bereits Artikel über zahlreiche Großstädte (und die Heimatstädte der Autoren), doch fehlten noch viele andere. Mit den verfügbaren strukturierten Zensusdaten lieferte RamBot die Einzelheiten für das Grundgerüst von Artikeln über sämtliche behördlich erfassten US-Kommunen. Ein kurzer Blick auf den Abschnitt über die Einwohnerentwicklung in den englischsprachigen Städte-Artikeln lässt das Vermächtnis dieses Bots noch fast ein Jahrzehnt später erkennen – die meisten werden nach wie vor im von RamBot verwendeten Format erstellt (der automatisch den Platzhalter "X" mit den entsprechenden Informationen versieht):

Nach dem Zensus von 2000 hat die Stadt X Einwohner, X Haushalte und X Familien. Die Bevölkerungsdichte liegt bei X/km² (X/mi²). Bei einer mittleren Dichte von X/km² (X/mi²) gibt es X Wohnungen. Ethnische Zusammensetzung: X% Weiße, X% Afroamerikaner, X% Indigene, X% Asiaten, X% Auswanderer von Pazifik-Inseln, X% anderer ethnischer Herkunft und X% gemischter ethnischer Herkunft. X% der Bevölkerung sind Hispanoamerikaner unterschiedlicher Herkunft.

Innerhalb von neun Tagen hatte Rambot mehr als 30.000 Artikel angelegt oder geändert – das waren mehr Bearbeitungen als die aller anderen Mitarbeiter zusammengenommen. Andere Bots dieser ersten Generation arbeiteten ähnlich repetitiv, etwa beim Import von Texten aus der gemeinfreien 1911 Encyclopedia Britannica http://www.1911encyclopedia.org, aus dem Glossar Telekommunikation des US Federal Standard 1037C, aus dem Easton’s Bible Dictionary von 1897 und aus anderen Nachschlagewerken, zu Themen, für die es noch keinen Artikel in der Wikipedia gab. Zwar wurden die Artikel seitdem gründlich überarbeitet, dennoch bildeten sie die Grundlage für viele frühe Enzyklopädie-Einträge (umgeschrieben wurden vor allem die höchst strittigen, vom Presbyterianertum der damaligen Zeit geprägten Artikel aus dem Easton's Bible Dictionary). Schließlich gab es noch Korrektur-Bots, die Fehler in der Formatierung, der Kategorisierung oder in der Schreibung berichtigten. Hierher gehören Fälle, bei denen z.B. eine bestimmte britische oder amerikanische Schreibweise nicht konsensfähig war oder die Angabe "vor Christus" bzw. "vor christlicher Zeitrechnung" strittig blieb. Diese erste Bot-Generation automatisierte also die stetigen eintönigen Aufgaben, mit denen Wikipedianer tagtäglich zu tun hatten; nahezu alle Bots fügten Inhalt hinzu oder korrigierten ohne böse Absicht begangene Fehler.

Bots werden in der Mediawikisoftware als Nutzer behandelt: ihre Bearbeitungen sind dementsprechend in der Artikel-Versionsgeschichte erkennbar. Obwohl der Standard (und später die Regel) lautete, Bearbeitungen durch Bots nur unter einem neuen Nutzerkonto mit klar erkennbarem "Bot" im Benutzernamen ausführen zu lassen, arbeiteten manche Bot-Entwickler unter ihrem Haupt-Benutzerkonto. Denn die Zahl der Bot-Bearbeitungen ließ die Listen der jüngsten Bearbeitungen anschwellen, was zahlreiche der ersten Wikipedianer frustrierte – und dazu führte, dass sie Bots aus diesen Listen wieder herausfilterten.

Die gelegentlichen Kontroversen über Bot-Anwender, die einseitig und ohne vorherige Konsensbildung Aufgaben ausführten, blieben nicht ohne Folgen: Für die Genehmigung von Bots wurden Regeln aufgestellt; 2006 bildete sich aus Administratoren und erfahrenen Bot-Entwicklern die "Bot Approval Group", ein Zusammenschluss um solche Auseinandersetzungen zu vermeiden.

Wie lässt sich das exponentielle Wachstum bewältigen?



Durch die rasant wachsende Beliebtheit hatte sich Wikipedia als Gemeinschaftsprojekt für Wissensangebote bald grundlegend verändert und Bots wurden für die Power-User schnell zum anerkannten Arbeitstool. Die 2003 gegründete Wikimedia Foundation hatte zwar den Betrieb der Server und der technischen Infrastruktur übernommen, aber Entwicklung, Einsatz und Genehmigung von Bots blieben fast ausnahmslos in der Hand der Projektgemeinschaft. Dies hat sich bis heute kaum geändert, da es nicht zu den Aufgaben der Wikimedia Foundation gehört, die Inhalte der Artikel zu regulieren, außer in besonders kritischen Fällen. Zur Unterstützung der Bot-Entwicklung brachten einige der produktivsten Bot-Entwickler 2005 ein Python-basiertes Bot-Framework heraus. Ebenfalls 2005 spendete die Firma Sun der Wikimedia Deutschland e.V. einen Server. Dieser "Toolserver" sollte es den Entwicklern ermöglichen, in einem besonderen Bereich Bots, Scripte und andere externe Tools in allen Sprachfassungen der Wikipedia zu nutzen. Mit den neuen Ressourcen bildete sich eine wachsende Gruppe von Bot-Entwicklern heraus, die auch Anfragen für sinnvolle Bots von anderen Wikipedianern annahmen, denen die technischen Kenntnisse fehlten. In der Folge wurden die Bots und ihre Anwendungsbereiche zunehmend spezieller – das zeigt die Arbeit des Mehrzweck-Bots "Tawkerbot" (entwickelt von Tawker, einem der damals produktivsten Wikipedia-Bot-Entwickler): Tawkerbot bereinigt Templates (Artikelvorlagen), markiert inaktive Diskussionsseiten, aktualisiert durch Verschieben von Seiten bedingte Weiterleitungen, vereinigt Kategorien und erfüllt für eine Reihe von Artikeln einer bestimmten Kategorie "Suchen-und-Ersetzen"-Aufgaben.

Neben diesen Lösungen für routinemäßige Arbeiten entwickelte der Bot-Entwickler Tawker noch ein Instrument für eine ganz andere Art der "Bereinigung": Es sollte Vandalismus (Artikelverunstaltungen) rückgängig machen. So hatte eine Reihe von Nutzern in der ganzen Enzyklopädie unsinnige Verweise auf "Squidward" eingefügt, die Figur der US-amerikanischen Zeichentrickserie "SpongeBob Schwammkopf"2. Bald darauf schlossen sich Tawker weitere Administratoren und Bot-Entwickler an. Sie bauten die beschriebene Funktion zu einem proaktiven System aus, das Bearbeitungen von Wikipedia-Inhalten nahezu in Echtzeit kontrolliert und schädliche Bearbeitungen so rasch wie möglich rückgängig macht. Angesichts seiner Bedeutung und der zu bewältigenden Arbeit wurde der Bot "geklont" und auf fünf unterschiedlichen Systemen (jedes mit einem anderen Operator unter anderem Nutzerkonto) in einem Verbund installiert. Die Bots revidierten 2006 monatlich rund 40.000 Bearbeitungen (etwa 1% aller Bearbeitungen im gesamten Wikipedia-Projekt). Im Oktober desselben Jahres wurde der Teil des Bots, der für die Vandalismusbekämpfung eingesetzt wird, auf dem neuen Toolserver installiert – er allein macht nun schädliche Bearbeitungen unter dem Nutzernamen "AntiVandalBot" rückgängig.

Etwa zur selben Zeit wurde eine weitere Klasse von Bots entwickelt, die ausdrücklich normative Aufgaben hatte. Dies war grundlegend neu und anders als die früher typischen Bot-Funktionen wie die massenhafte Bereinigung von Inhalten. OrphanBot beispielsweise diente dazu, Bilder zu ermitteln (und später zu entfernen), die ohne Urheberrechtserklärung hochgeladen und als problematisch für die Wikipedia-Politik der "freien Lizenz" galten. Bis September 2006 hatte OrphanBot mehr als 70.000 Nachrichten an Wikipedia-Autoren verschickt, die Bilder ohne Urheberrechtserklärung hochgeladen hatten, und rund 50.000 Bilder aus Wikipedia-Artikeln gelöscht. Ende 2006 dann trat HagermanBot auf den Plan (später in SineBot umbenannt). Es handelt sich dabei um den ersten Bot, der eine reine Verhaltensnorm -also keinen enzyklopädischen Standard - durchsetzen sollte. HagermanBot bewacht die Diskussionsseiten: Bemerkt ein Autor hier etwas zu einem Artikel, soll er eigentlich bei jedem Bearbeitungskommentar Signatur und Zeitstempel manuell hinzuzufügen. Wenn er dies "vergisst", trägt nun Hagermanbot beides automatisch nach. Zudem versendet er Nachrichten, um an die entsprechenden Praktiken und Vorschriften zu erinnern. Der Anfang 2007 entwickelte COIBot ermittelt und meldet Interessenskonflikte, die durch Ähnlichkeiten zwischen dem Benutzernamen eines Bearbeiters und dem von ihm bearbeiteten Artikel auffallen können. Zum Beispiel: Ein Benutzer mit dem Namen "BigMegaCorpPR" bearbeitet den Artikel "BigMegaCorp" oder fügt diesen Text irgendwo ein – das meldet COIBot sofort. Um eine andere Regel kümmert sich 3RRBot - der Ende 2008 entwickelte Bot sucht nach Verstößen gegen die "3-Revert-Regel", die in der englischsprachigen Wikipedia besagt, dass ein Benutzer bei inhaltlichen Konflikten nicht mehr als dreimal innerhalb von 24 Stunden eine Änderung rückgängig machen darf. Solche Verstöße werden mit einer zeitlichen Benutzersperre geahndet.

Halbautomatisierte Bots und Tools



Ebenfalls 2006 und 2007 erschienen spezielle Tools, die, anders als Bots, ein gewisses Mindestmaß an manuellen Eingriffen erforderten. Sie übernehmen Routine-Aufgaben, die mithilfe eines Algorithmus funktionieren, über die aus verschiedenen Gründen aber nur ein Mensch entscheiden kann. So ließ die Bot Approval Group beispielsweise nach einer Reihe von Kontroversen um die automatische Rechtschreibkorrektur (auch britischer bzw. amerikanischer Schreibweisen) keine Bots mehr zu, die dies völlig eigenständig erledigten. Ein anderes Beispiel ist das das Javascript-Tool Lupin, das bei Bearbeitungen mit möglichen Orthografiefehlern eine Reihe von automatisch generierten Vorschlägen präsentiert. Mit wenigen Klicks und sekundenschnell kann man dann die betreffende Bearbeitung überprüfen und den Fehler korrigieren. Vorausgesetzt natürlich man kennt den Kontext und kann gewährleisten, dass die Fehlermeldung nicht durch Fachterminologie, veraltete Zitate o.ä. bedingt ist. Dieses Modell, dem menschlichen Benutzer Vorschläge für Bearbeitungen direkt zu präsentieren, übernahmen noch zahlreiche andere Tools, die in der extremen Wachstumsphase der Wikipedia entwickelt wurden.

So steht das Programm "Huggle" seit 2008 für zwei verschiedene, aber miteinander verbundene Veränderungen im Zusammenwirken von Mensch und Bot. Zunächst verlagerte Huggle das Bearbeiten vom Web-Browser auf eine völlig eigenständige Offline-Anwendung. In direkter Verbindung mit dem Wikipedia-Datenbestand und verschiedenen Bots bietet Huggle dem Benutzer eine Liste mit Bearbeitungen, die von einigen Anti-Spam- und Anti-Vandalismus-Programmen als "verdächtig" erkannt wurden. Es wird eine "Vorher-" und eine "Nachher-Version" des Artikels präsentiert, die Ergänzungen und Löschungen erkennen lassen. Binnen Sekunden nach einer Bearbeitung kann der Huggle-Anwender auf einen Knopf klicken und nicht nur die betreffende Bearbeitung rückgängig machen, sondern auch eine vorformulierte Warnung an den Wikipedia-Sünder schicken oder ihn sogar einem Administrator melden, um ihn sperren zu lassen. Inzwischen ist Huggle eines der am meisten genutzten Werkzeuge zur Prüfung und zum Revidieren von Bearbeitungen.



Creative Commons License Dieser Text ist unter der Creative Commons Lizenz veröffentlicht. by-nc-nd/3.0/
Der Name des Autors/Rechteinhabers soll wie folgt genannt werden: by-nc-nd/3.0/
Autor: Stuart Geiger für bpb.de
Urheberrechtliche Angaben zu Bildern / Grafiken / Videos finden sich direkt bei den Abbildungen.

 
Ein Wordle aus dem Einführungstext des Dossiers.Dossier

Open Data

Open Data steht für die Idee, Daten öffentlich frei verfügbar und nutzbar zu machen. Welches Potential verbirgt sich hinter den Daten, die Behörden und Ministerien, Parlamente, Gerichte und andere Teile der öffentlichen Verwaltung produzieren? Das Dossier klärt über die Möglichkeiten offener Daten für eine nachhaltige demokratische Entwicklung auf und zeigt, wie Datenjournalisten mit diesen Datensätzen umgehen. Weiter... 

Ein Besucher blickt auf die Computerfarm des Kernforschungszentrums CERN bei Genf.Dossier

Die Politik des Suchens

Beherrschen Suchmaschinen nicht nur Märkte, sondern auch unser Denken? Am Beispiel von Google untersucht das Dossier deren Bedeutung und innere Systematik. Es diskutiert angemessene Reaktionen in Gesellschaft, Gesetzgebung und Politik sowie von Verbraucherseite. Weiter... 

Alles auf Grün - Bild einer Ampel, auf der 'Go' zu lesen ist.Dossier

Open Source

Open Source-Software ist das Paradox der Wissensgesellschaft: Programmierer verschenken ihr wertvollstes Gut – und begründen eine soziale Bewegung, die weltweit das Wissen befreien will. Weiter...