August 2019
Piraten der Linguistik
Bei einer Veranstaltung zum Thema Künstliche Intelligenz spricht ein Computerlinguist über das Erzeugen von Text. Nach dem Vortrag fragt eine Zuhörerin, mit welchen Ausgangstexten solche Systeme trainiert werden. “Mit dem, was halt so alles im Netz verfügbar ist”, sagt der Redner, “also zum Beispiel rechtefreie Bücher.” Es kommt zu einer kurzen Diskussion darüber, ob das nicht dazu führt, dass die generierten Texte eine veraltete Version der deutschen Sprache zementieren. Schließlich werden Bücher erst 70 Jahre nach dem Tod des Autors oder der Autorin gemeinfrei. Es kann also sein, dass ein Text zu diesem Zeitpunkt schon über hundert Jahre alt ist.
Später am Abend, während des geselligen Teils der Veranstaltung, fragt jemand den Linguisten, ob das schon die ganze Antwort war. “Seid ihr nicht versucht, Library Genesis zu scrapen?” Library Genesis ist eine umfangreiche russische Schattenbibliothek, die viel Gegenwartsliteratur enthält.
“Natürlich machen wir das”, lacht er. “Alle machen das.”
(Alina Smithee)












