Software Languagetool Findet 1 Million Text

27.01.2014

Pressemitteilung: Software LanguageTool findet 1 Million Textfehler in der Wikipedia

In der deutschsprachigen Wikipedia findet die Software LanguageTool eine Million Tippfehler, Grammatikfehler und stilistische Zweifelsfälle. Das ist das Ergebnis eines Versuchs, bei dem mit der Open-Source-Software LanguageTool (www.languagetool.org) Teile der deutschsprachigen Wikipedia geprüft wurden. Die Ergebnisse wurden von dem erfahrenen Lektor Julian von Heyl (www.korrekturen.de) verifiziert.

Zu den typischen Fehlern gehören unter anderem Probleme mit der Groß-/Kleinschreibung („auf deutsch“ statt „auf Deutsch“), englische Anführungszeichen in deutschem Text und Grammatikfehler („den größten Wahlerfolge“ statt „den größten Wahlerfolg“).

LanguageTool deckte hierbei auch Wikipedia-spezifische Probleme auf: So sind Ausdrücke wie „seit kurzem“ für eine Enzyklopädie zu unspezifisch und sollten durch eine genaue Zeitangabe ersetzt werden.

Julian von Heyl ist von der Effektivität der Software und der Qualität der Ergebnisse positiv überrascht: „Der Versuch hat uns gezeigt, dass Korrektursoftware eine äußerst gute Treffsicherheit und Leistungsstärke entwickeln kann. Ihr Einsatz ist zum Beispiel dort sinnvoll, wo regelmäßig große Mengen nutzergenerierter Content anfallen.“

Um die Wikipedianer bei der Suche nach Textfehlern zu unterstützen, stellt das LanguageTool-Projekt viele gefundene Fehler auf seiner Website zur Verfügung und hat außerdem ein Werkzeug entwickelt, mit dem alle Neueinträge und Änderungen der Wikipedia automatisch überprüft werden können (http://community.languagetool.org/feedMatches/list?lang=de).

Die Wikipedia-Prüfung und die neuen Werkzeuge werden auch auf der diesjährigen FOSDEM-Konferenz vorgestellt. Die FOSDEM ist eine Konferenz für Open-Source-Softwareentwickler, die am 1. und 2. Februar 2014 in Brüssel stattfindet. Der LanguageTool-Entwickler Daniel Naber hält dort die Eröffnungsrede.

Da die deutschsprachige Wikipedia 1,6 Millionen Artikel umfasst, ist eine vollständige Textprüfung mit manueller Kontrolle kaum möglich. Das LanguageTool-Team und korrekturen.de haben sich deshalb für eine repräsentative Stichprobe entschieden und 1000 zufällig ausgewählte Artikel mit LanguageTool geprüft. Von den gefundenen potenziellen Fehlern wurden 300 manuell von Julian von Heyl geprüft. Die so ermittelte Anzahl der wirklichen Fehler, hochgerechnet auf alle 1,6 Millionen Wikipedia-Artikel, beträgt 1.068.000. Im Durchschnitt kommen auf drei Wikipedia-Artikel zwei Fehler, die automatisch gefunden werden können.

LanguageTool findet Fehler, indem es den Text nach bestimmten Fehlermustern durchsucht. In deutschen Texten erkennt die Software mehr als 1700 Fehlermuster.

Über LanguageTool: LanguageTool (http://languagetool.org) ist eine Open-Source-Software zur Prüfung von Texten auf Stil- und Grammatikfehler. Ein Team von zehn Freiwilligen kümmert sich um die Weiterentwicklung. LanguageTool kann kostenlos auf http://languagetool.org ausprobiert und heruntergeladen werden.
Kontakt: Daniel Naber, gro.lootegaugnal|reban.leinad#gro.lootegaugnal|reban.leinad, Telefon 0331 9799079

Über korrekturen.de: korrekturen.de (http://www.korrekturen.de) ist ein Portal mit Informationen rund um die Orthografie der deutschen Sprache, welches Listen zur neuen Rechtschreibung und zu häufigen Fehlern sowie ein gut frequentiertes Forum bietet. Gründer und Betreiber Julian von Heyl arbeitet seit über 20 Jahren als Lektor und Korrektor. Er ist Mitverfasser des Duden-Bands „Stolpersteine der Rechtschreibung“.
Kontakt: Julian von Heyl, ed.nerutkerrok|hvj#ed.nerutkerrok|hvj, Telefon 02234 4307327

Unless otherwise stated, the content of this page is licensed under Creative Commons Attribution-ShareAlike 3.0 License