CAPTCHAs: Wie du unbemerkt ganze Bücher digitalisiert hast

Laura Andracchio
1. Apr.
2 Min. Lesezeit

Im November habe ich darüber geschrieben, dass du mit CAPTCHAs im Prinzip die KI von Google trainierst – indem du Hydranten, Ampeln oder Zebrastreifen anklickst. Falls du den Post verpasst hast:

https://www.wordshavevalue.ch/post/captchas-der-heimliche-job-den-du-nie-wolltest

Was ich damals nicht erwähnt habe: Das Ganze ist keine neue Idee. Es ist nur die modernere Version davon. Eigentlich machst du diesen Job schon viel länger 😅 Früher hast du nämlich nicht auf Bilder geklickt, sondern Wörter entziffert. Zwei Stück. Beide kaum lesbar, verzerrt, irgendwo zwischen «könnte stimmen», «keine Chance» und «da fuck??».

Na? Erinnerst du dich? Achtung, Screenshot from hell incoming:

Wie CAPTCHAs im Hintergrund wirklich funktionieren

Was dabei im Hintergrund passiert ist, wird erst spannend, wenn man sich anschaut, wie das System gebaut war: Eines dieser Wörter war bereits bekannt und diente als Kontrollvariable, um dich als Mensch zu verifizieren. Das zweite Wort kam aus eingescannten Büchern – genauer gesagt aus OCR-Pipelines (Optical Character Recognition), an genau den Stellen, an denen die Texterkennung keine ausreichende Confidence hatte.

Sobald du das erste Wort korrekt eingegeben hast, wurde deine zweite Eingabe als valider Datenpunkt gewertet. Dieses unbekannte Wort wurde dann an weitere Nutzer ausgespielt – immer und immer wieder – bis mehrere unabhängige Eingaben übereinstimmten.

Und zack: Ground Truth. Also genau die Referenz, die Maschinen vorher gefehlt hat.

Das ist im Kern nichts anderes als ein verteiltes Konsenssystem zur Datenvalidierung – nur eben mit Menschen statt Maschinen. Heisst konkret: Du hast geholfen, Trainings- und Referenzdaten zu erzeugen, die anschliessend in Systeme wie Google Books geflossen sind – orchestriert über reCAPTCHA.

CAPTCHAs als unsichtbares Human-Compute-System

Das lief nicht in kleinem Rahmen. Zu Spitzenzeiten:

rund 200 Millionen CAPTCHAs pro Tag
Ø ~10 Sekunden pro Challenge
über 150’000 Stunden menschliche „Rechenleistung“ – täglich
≈ 55 Millionen Stunden pro Jahr
entspricht zigtausend Vollzeitstellen

Wenn man es technisch sauber formuliert, war das ein global verteiltes Human-Compute-System mit integrierter Qualitätskontrolle – nur ohne Interface, das dir gesagt hätte, dass du gerade arbeitest. In der Forschung nennt man das Human Computation: Aufgaben werden gezielt an Menschen ausgelagert, weil Maschinen daran scheitern oder zu teuer wären. reCAPTCHA war eines der ersten Systeme, das das in dieser Grössenordnung operationalisiert hat.

In der Forschung hat das sogar einen Namen: Human Computation – also Probleme an Menschen auszulagern, die Maschinen (noch) nicht lösen können. Nur dass du nie wusstest, dass du gerade Teil davon bist.

Wenn man das mit heute vergleicht, ist das Prinzip exakt gleich geblieben. Nur die Oberfläche hat sich verändert. Statt Wörter zu entziffern, klickst du jetzt Bilder an und hilfst damit, visuelle Modelle zu trainieren – zum Beispiel für autonomes Fahren.

Der Unterschied ist nicht, was du tust, sondern nur, wie es sich anfühlt. Damals hast du Bücher digitalisiert. Heute trainierst du KI.

Und in beiden Fällen dachtest du eigentlich nur, du willst dich schnell irgendwo einloggen 🤓

Wie CAPTCHAs im Hintergrund wirklich funktionieren

CAPTCHAs als unsichtbares Human-Compute-System

1 Kommentar