London

Wie wir dem Computer beim Lesen helfen

Gut zu wissen, dass der Mensch dem Computer (noch?) überlegen ist.
Gut zu wissen, dass der Mensch dem Computer (noch?) überlegen ist. Foto: RZ

Wer im Internet unterwegs ist, ist der Erfindung von Luis von Ahn schon begegnet: Seine „Captchas“ – verfremdete Abbilder von Buchstaben und Zahlen – schützen Seiten im World Wide Web vor dem unerwünschten Zugriff durch illegale Programme. Jetzt verfeinert der Forscher seine Idee: Menschen sollen für Computer unleserliche alte Texte entziffern.

Lesezeit: 3 Minuten
Anzeige

Von unserem Londoner Korrespondenten Alexei Makartsev

London – Wer im Internet unterwegs ist, ist der Erfindung von Luis von Ahn schon begegnet: Seine „Captchas“ – verfremdete Abbilder von Buchstaben und Zahlen, die nur Menschen entziffern können – schützen Seiten im World Wide Web vor dem unerwünschten Zugriff durch illegale Computerprogramme. Jetzt verfeinert der Forscher seine Idee: Bei dieser Gelegenheit können Menschen ja gleich auch noch für Computer unleserliche alte Texte entziffern.

Captcha
Foto: RZ

Der Professor ist 31 Jahre alt, er trägt eine Brille, sein Lächeln verrät einen Anflug von Überlegenheit wie bei jenen intelligenten jungen Computerfreaks, die gleichzeitig in einer realen und in einer virtuellen Welt leben können. Luis von Ahn zeigt auf dem Podium der Royal Society in London – so heißt die britische Akademie der Wissenschaften – verschnörkelte, unscharfe Zeichen, die für jeden Computer ein Buch mit sieben Siegeln sind.

750 Millionen machen mit

Jedoch nicht für die Menschen. „Unser Gehirn ist eine Rechnereinheit. Die Menschheit ist der komplexeste Superprozessor der Welt“, doziert der Experte. Von Ahn hat es geschafft, 750 Millionen Erdbewohner – ein Zehntel der Weltbevölkerung – in einem Projekt zusammenarbeiten zu lassen, das die Digitalisierung unseres Kulturerbes schnell vorantreibt.

„Wir hatten ein parasitäres Verhältnis zu den Maschinen. Jetzt aber verändern wir in einer Symbiose mit den Computern die Welt“, sagt der renommierte Forscher der Carnegie Mellon University, den eine Fachzeitschrift kürzlich immerhin zu den „50 klügsten Köpfen der Wissenschaft“ gezählt hat.

Am Anfang seines Vortrags hatte er alle zum Lachen gebracht. Auf dem Bildschirm flimmerte eines jener Online-Formulare, die man ausfüllen muss, um Zugang zu einem E-Mail-Dienst zu bekommen. Eine Reihe von ausgefransten Zeichen: v3R2z. Ein Mensch-oder-Roboter-Test. „Haben Sie sich schon mal über diese Prozedur geärgert?”, fragt der Amerikaner die Teilnehmer des Symposiums “Internet-Wissenschaft„, und als viele im Saal nicken, fügt er strahlend hinzu: “Das Ding heißt Captcha, und ich habe es erfunden.„

Das “Ding„ schützt seit 2000 die Netz-Reisenden vor elektronischen Spam-Spinnen, die E-Mail-Adressen auskundschaften, und vor “Bots„, die auf Veranstalter-Portalen Konten anlegen, um zu Spekulationszwecken viele Tickets zu kaufen. 200 Millionen Captchas werden weltweit jeden Tag eingegeben. “Als ich diese Zahl hörte, war ich schockiert„, erzählt von Ahn. Wenn man pro Captcha-Authentifizierung zehn Sekunden Zeit brauche, dann “verschwendeten„ die Menschen täglich 500 000 Stunden, fast so viel, wie ein Leben dauere, erklärt der Professor. “Dabei vollbringen unsere Gehirne eine Super-Leistung, zu der die besten Rechner nicht fähig sind.„ Wie könnte man diese kollektive Denkleistung nutzen, um Probleme zu lösen, fragte sich von Ahn einmal. Und so wurde 2007 Recaptcha geboren.

Es geht um das gedruckte Wort, das zum virtuellen Leben in der Internet-Dimension erwacht, um zu jeder Zeit Milliarden Menschen weltweit zur Verfügung zu stehen. Das “WWW„-Zeitalter verdankt die Demokratisierung des Wissens der voranschreitenden Digitalisierung von Büchern und Archiven, die eine Erfindung des Professor von Ahn wesentlich beschleunigt hat. Bücher müssen eingescannt werden, wobei die sogenannten OCR-Programme Bilder in Worte umwandeln.

Fehlerquote minimieren

“Bei älteren Exemplaren mit undeutlicher Schrift liefern die Computer leider eine Fehlerquote von 30 Prozent„, erklärt von Ahn. Hier hilft seine Technologie, die 2009 von Google gekauft wurde. Statt willkürlicher Zeichenfolgen zeigt Recaptcha mehreren Benutzern beim Anmelden eines jener Worte, bei denen irgendwo auf der Welt ein OCR-Programm versagt hat. Ein zweites, dem System bekanntes Wort zum Eintippen dient als Kontrollaufgabe. Ist sie bestanden, weiß der Computer, dass die Menschen auch das erste Wort korrekt eingegeben haben, das an die Quelle zurückgeschickt wird.

“100 000 Internetseiten nutzen heute Recaptcha, damit erfasst das System täglich bis zu 80 Millionen Worte„, sagt von Ahn. Das Ergebnis seien zwei Millionen zusätzlich digitalisierter Bücher pro Jahr. Die “New York Times„ will bis 2011 mithilfe von Recaptcha ihr 150-jähriges Print-Archiv digitalisiert und zugänglich gemacht haben. Von Ahn ist damit nicht zufrieden: Der Professor träumt davon, das Wissen im Netz für jedermann zugänglich zu machen, indem er sämtliche Netzinhalte in die wichtigsten Sprachen der Welt übersetzt.

Eine Million Freiwillige für ein Projekt

Der erste Test soll die englische Wikipedia sein, die heute 3,4 Millionen Artikel enthält. “Mit einer Million Freiwilligen bräuchte ich nur 80 Stunden, um alle diese Texte ins Spanische zu übertragen„, rechnet der Experte vor. Wie aber bringt man so viele Menschen dazu, unentgeltlich an einem Projekt zusammenzuarbeiten? Von Ahn hat eine kostenlose Software entwickelt, die den Benutzern ermöglichen wird, Fremdsprachen “so effizient wie nie zuvor„ zu lernen, während sie gleichzeitig Sätze aus Internet-Quellen übersetzen. Die Plattform “Duolingo" befindet sich derzeit in der Testphase.