Pixabay

Unkategorisiert

8. November 2017

Wächter des Weltwissens – wie Automaten Wikipedia beschützen

Die Onlineenzyklopädie Wikipedia ist nicht nur eine unersetzbare Plattform für freies Wissen im Internet. Gleichzeitig ist sie auch ein Vorzeigebeispiel dafür, wie Menschen und Algorithmen Hand in Hand arbeiten. Zahlreiche Bots erleichtern den freiwilligen Autoren die Arbeit und machen Vandalen das Leben schwer.

Es ist Mitte Oktober, früher Nachmittag in den USA – viele Schüler sind gerade nach Hause gekommen. Hochbetrieb für einen der fleißigsten Wikipedia-Autoren: ClueBot NG übernimmt die Eingangskontrolle. Ein unbekannter Nutzer trägt den Geburtstag seiner 17-jährigen Freundin in den Artikel über Weltereignisse am 27. April ein. ClueBot NG löscht den Eintrag wieder und schickt dem Nutzer eine Warnung. Ein anderer Autor mit dem Pseudonym „Cct04“ postet lautstarke Beschwerden. „ICH WEIß NICHT, WAS DAS BEDEUTEN SOLL!“, schreibt er mitten in einen Artikel über ein Regierungsprogramm zur Förderung von bezahlbarem Wohnraum. ClueBot NG löscht auch diesen lautstarken Einwurf, belässt es diesmal jedoch nicht bei einer Warnung. Da es bereits der dritte Vandalismus dieses Autoren ist, meldet er den Nutzer als potenziellen Vandalen. Ein Administrator wird Cct04 kurz darauf sperren.

Unermüdlich gegen Vandalen

ClueBot NG ist kein menschlicher Autor, sondern ein Programm, das auf den Servern der Wikimedia Foundation läuft, ein sogenannter Bot. In der Wikipedia ist schon lange Wirklichkeit, was heute weltweit diskutiert wird: Automaten entscheiden weitgehend autonom über die Aktivitäten von Menschen. Wer darf was in der Mitmach-Enzyklopädie schreiben, wer nicht? Was gehört in eine Enzyklopädie und was nicht? ClueBot NG ist einer von 350 zugelassenen Bots in der englischsprachigen Wikipedia. Jede zehnte Änderung von bislang 528 Millionen Änderungen auf der Plattform wurde von einem Bot vorgenommen. Hinzu kommen noch zahlreiche halbautomatische Werkzeuge, die es menschlichen Editoren einfach machen, mit wenigen Klicks über eine Vielzahl von Beiträgen zu entscheiden. Ohne algorithmische Entscheidungsfindung sähe die Wikipedia heute anders aus.

ClueBot NG ist dabei einer der fleißigsten Bots. Bis zu zwölf Mal pro Minute wird das Programm an diesem Nachmittag tätig, um Vandalismen zu bekämpfen, Trolle zu verwarnen, gelangweilte Schüler abzuhalten.

Spam-Filter für das Weltwissen

Ohne die pausenlose Arbeit des Hilfsprogramms ClueBot NG müssten menschliche Autoren die unerwünschten Beiträge per Hand aus der Onlineenzyklopädie entfernen. Als Vandalismus gelten alle böswilligen Artikeländerungen, die nicht darauf abzielen, einen ernsthaften Beitrag zur Wikipedia zu leisten. Das reicht von Artikellöschungen über Beschimpfungen bis hin zu ausgefeilten Manipulationskampagnen, die zum Beispiel den Aktienkurs eines Unternehmens beeinflussen sollen. Oft genug finden Autoren in einem Artikel plötzlich ein Penisfoto mit einer obszönen Botschaft. Nicht als Vandalismus gelten hingegen gut gemeinte, aber schlecht umgesetzte Beiträge oder Auseinandersetzungen mit dem Inhalt eines Artikels – es sei denn, der Autor ignoriert nach erfolgter Ansprache bewusst die festgesetzten Regeln.

Dabei können Bots nur in den offensichtlichsten Fällen eingreifen. Da die Programme den Kontext eines Artikels nicht verstehen und den Inhalt eines eingefügten Links nicht überprüfen können, sind ihre Möglichkeiten der Vandalismusbekämpfung eingeschränkt. Ob eine eingefügte Information tatsächlich richtig ist, müssen weiterhin Menschen bewerten.

Dennoch sind die Bots kaum verzichtbar. Eine Studie von R. Stuart Geiger und Aaron Halfaker zeigte: Wenn ClueBot NG ausfällt, werden die offensichtlichen Vandalismen zwar auch gelöscht – es dauert aber doppelt so lange und verbraucht viel menschliche Arbeitszeit, die Wikipedianer lieber in das Schreiben von Artikeln investieren.

Auch Algorithmen können irren

Gesteuert wird ClueBot NG von einem künstlichen neuronalen Netzwerk. Dessen selbstlernende Algorithmen arbeiten ähnlich wie ein Spamfilter in einem E-Mail-Programm. ClueBot NG wird dabei laufend mit neuen Daten gefüttert, welche Änderungen menschliche Wikipedia-Autoren als Vandalismus einstufen und welche als Artikelbestandteil akzeptiert werden. Das neuronale Netzwerk sucht daraufhin Gemeinsamkeiten in den jeweiligen Texten und generiert daraus Filterregeln. Für jeden neuen Eintrag in der Wikipedia berechnet das Programm anhand dieser Regeln einen Wert, der angibt, wie sehr eine Artikeländerung den berechneten Mustern von Vandalismus entspricht. Hinzu kommen zusätzliche Parameter, wie die bisherige Arbeit eines Nutzers. Überschreitet der Wert eine gewisse Schwelle, wird der Bot tätig.

Dabei ist das Programm nicht unfehlbar. Gleich nachdem Cct04 gesperrt ist, löscht ClueBot NG auch den Eintrag einer neuen Nutzerin namens Ariana. Die hatte ergänzt, dass die Schauspielerin Ellie Kemper die Sprechrolle in der Kinderserie „Sofia die Erste“ übernommen hatte. Das war zwar korrekt – doch das kann ClueBot NG nicht wissen.

Für das Programm gilt nur, dass hier ein neuer Nutzer eine Änderung vorgenommen hat, die so ähnlich aussieht wie ein Vandalismus: Er ist kurz, enthält viele Namen und ist nicht „wikifiziert“ – sprich: entspricht nicht den Konventionen für Wikipedia-Texte. Zwar hinterlässt der Bot auf der Benutzerseite immer eine ausgiebige technische Erklärung mit einem Link, um eine Falschlöschung zu melden. Doch Ariana antwortet nicht und versucht auch in den folgenden Tagen nicht mehr beizutragen. Wikipedia hat wohl eine neue Autorin verloren.

Die Wikipedia ist zahlreichen Vandalismus-Angriffen ausgesetzt. Es ist nicht immer einfach die wohlmeinenden, aber ungeübten Nutzer von denen zu unterscheiden, die gezielt Regeln ignorieren oder gar Falschinformationen verbreiten wollen.

Stützpfeiler des offenen Internets

„Im Jahr 2003 war die Community der englischen Wikipedia noch der Meinung, dass man besser ohne Bots auskommen könne. Heute gehören sie jedoch zum Arbeitsalltag in der Wikipedia“, sagt Professorin Claudia Müller-Birn, die an der Freien Universität Berlin zu Human-Computer Collaboration forscht und mehrere Studien zu Algorithmen in der Wikipedia durchgeführt hat.

Seit den anarchischen Anfängen der Wikipedia im Jahr 2001 hat sich die Aufgabe, eine zuverlässige Enzyklopädie zu schaffen, immer komplizierter gestaltet. Zum einen ist die Artikelanzahl immer weiter gestiegen: Die englische Wikipedia enthält im Oktober 2017 5,5 Millionen Artikel, die deutsche 2,1 Millionen. Routinearbeiten wie die Korrektur falsch gesetzter Links oder die Sortierung von aktuellen Listen sind von Hand daher kaum noch zu bewältigen. Gleichzeitig hat auch die Komplexität zugenommen. So ist es nicht einfach, eine korrekte Literaturangabe in einen Artikel einzubauen, selbst das Erstellen von Infokästen erfordert sogar eine gründliche Einarbeitung in die Wikipedia-Formalien.

Mit der Größe hat auch die Bedeutung von Wikipedia zugenommen. So bindet Google regelmäßig Wikipedia-Inhalte in seine Suchergebnislisten ein. Eine Falschinformation, zum Beispiel eine verfrühte Todesmeldung, kann sich deshalb mitunter in Minuten verbreiten, sofern sie nicht sofort wieder aus dem Artikelbestand getilgt wird. Die hohe Reputation von Wikipedia steht hier im Konflikt mit ihrer Offenheit.

Kein weiteres soziales Netzwerk

Zudem muss die Wikipedia-Community mit ihren Arbeitskräften sparsam umgehen. Waren in der englischen Wikipedia im Jahr 2007 noch über 50.000 Wikipedia-Autoren aktiv, sind es heute noch zirka 30.000. Einrichtungen wie Bots sollen nicht nur die Arbeitslast der Autoren vermindern, sondern sie auch vor frustrierenden Erfahrungen bewahren. Wer Stunden investiert hat, um Informationen über seine Heimatstadt oder eine fremde Galaxie zu recherchieren und enzyklopädisch aufzubereiten, sieht es in der Regel ungern, wenn die Informationen mit „Unsinn“ überschrieben werden.

In den Anfangsjahren der Wikipedia sah es so aus, als sei menschliche Arbeitskraft quasi unbegrenzt verfügbar. Doch während die Wikipedia immer weiter wächst, stagniert die Zahl der Mitarbeiter.

Kernpunkt dabei ist, dass Wikipedia keine weitere soziale Plattform sein will. Das Projekt will sich nicht darauf verlassen, dass die Leser selbst schon entscheiden, welchen Informationen sie trauen können. Falschinformationen verschwinden auch nicht aus dem Blickfeld, wie es in einer Timeline geschieht. Stattdessen sind die Wikipedianer stets darum bemüht, einen Konsens um die Wahrheit zu erzielen.

Wikipedia definiert sich selbst nicht etwa als fertige Enzyklopädie, sondern als „Projekt zur Erstellung einer Enzyklopädie“ – eine Fertigstellung des Projekts ist nicht vorgesehen. Um ein nicht enden wollendes Projekt auf Dauer zu bestücken, braucht man auch unermüdliche Arbeitskräfte. ClueBot NG ist einer davon.

Wikipedianer haben gelernt, die sozialen Effekte von Algorithmen positiv zu gestalten – zum Beispiel durch Zulassungsverfahren und eigene Robotergesetze. Mehr dazu in Teil 2 unserer Serie. Über neue Beiträge in diesem Blog können Sie sich per RSS-Feed oder per E-Mail-Newsletter benachrichtigen lassen.

(1133)

Beitrag teilen

Schlagworte

Kommentar schreiben

Antworten abbrechen

Weitere Beiträge dieses/dieser Autor:in

Unkategorisiert

Photo by Wes Hicks on Unsplash

Der Mensch als Bremsklotz?

Die Technik des selbstfahrenden Autos schreitet rapide voran. Doch die größte Herausforderung ist der Mensch. Die Branchenmesse CES zeigte im […]

Autor:in

Torsten Kleinz

4. März 2019

Unkategorisiert

Bild von Free-Photos auf Pixabay

Der lange Weg zum autonomen Auto

Die Technik der selbstfahrenden Autos schreitet rapide voran. Die Entwicklung ist nicht nur eine technische, sondern auch eine ethische Herausforderung. […]

Autor:in

Torsten Kleinz

1. März 2019

Unkategorisiert

Pixabay

Wenn das Finanzamt Big Data entdeckt

Im Zeitalter von “Big Data” und selbstlernenden Algorithmen scheinen Finanzbehörden einen Vorteil zu haben. Problem: Sie müssen erst Herr riesiger […]

Autor:in

Torsten Kleinz

29. März 2018

Abonnieren Sie unseren Newsletter

Bleiben Sie auf dem Laufenden! Tragen Sie Ihre E-Mail Adresse ein und klicken Sie auf abonnieren.

„Erlesenes“ ist ein zweiwöchentlicher Newsletter von reframe[Tech] und bietet eine kuratierte Auswahl an wissenschaftlichen Studien, journalistischen Artikeln und Debattenbeiträgen sowie Fundstücken mit Augenzwinkern aus sozialen Medien zum Themenkomplex Algorithmen und KI. Abonnieren Sie hier unseren monatlichen Projektnewsletter. Gerne informieren wir Sie per E-Mail über aktuelle Projektaktivitäten und Neuigkeiten im Blog „reframe[Tech].

Unsere Themen

Wächter des Weltwissens – wie Automaten Wikipedia beschützen

Unermüdlich gegen Vandalen

Spam-Filter für das Weltwissen

Auch Algorithmen können irren

Stützpfeiler des offenen Internets

Kein weiteres soziales Netzwerk

Beitrag teilen

Schlagworte

Kommentar schreiben

Antworten abbrechen

Weitere Beiträge dieses/dieser Autor:in

Der Mensch als Bremsklotz?

Der lange Weg zum autonomen Auto

Wenn das Finanzamt Big Data entdeckt

Abonnieren Sie unseren Newsletter

Unser Team

Social Media