LASA, C 129 Stendal, Nr. 17, Bl. 176V.
Artikel
Künstliche Intelligenz entziffert historische Handschriften – die Software Transkribus
Jenseits des Internets existiert ein umfassender Wissensschatz, der selbst in Büchern bislang weitgehend fehlt. Geheim ist er zumeist nicht, vielmehr sogar häufig in Einrichtungen wie dem Landesarchiv Sachsen-Anhalt öffentlich zugänglich.
Doch um ihn zu nutzen und längst vergessene Informationen aus mehr als 1.000 Jahren wieder in die Gegenwart zurückzuholen, benötigt es eine spezielle Fähigkeit: das Lesen historischer Handschriften. War deren Transkription lange Zeit allein Menschen möglich, setzt sich etwa die Software Transkribus zum Ziel, eine technische Lösung zu bieten.1
Finanziell unterstützt durch die Europäische Union, entstand Transkribus seit 2013 im Rahmen mehrerer Projekte. 2020 wechselte die Organisationsform unter der Bezeichnung READ Co:op SCE zu einer europäischen Genossenschaft. Dieser gehörten im September 2025 mehr als 200 Einrichtungen und Privatpersonen in mehr als 30 Ländern an. Das gemeinschaftliche Ziel ist es, die besten digitalen Werkzeuge zur Entschlüsselung der schriftlichen Vergangenheit bereitzustellen. Mehr als 200.000 registrierte Benutzende verwendeten die Software bereits.
In technologischer Hinsicht bedient sich Transkribus Künstlicher Intelligenz. Ausgangspunkt für den Einsatz sind digitale Abbilder von Schriftdokumenten, beispielsweise Scans. Sobald diese in der Software vorliegen, lassen sich alle weiteren Schritte bis hin zur automatischen Handschriftenerkennung und einer möglichen Weiterverarbeitung komfortabel in einer App durchführen.
Um die Texterkennung zu starten, ist ein geeignetes Textmodell auszuwählen. Dieses vergleicht Zeile für Zeile mit ihm bekannten Mustern und ermittelt daraus die wahrscheinlichste Zeichenfolge. Weitere Klicks bieten daneben ergänzende Funktionen. Einerseits ist dies die Smart Search, durch die Transkribus über die buchstabengetreue Transkription hinaus mögliche Alternativen des Worts erkennt und für eine verbesserte Durchsuchbarkeit im Hintergrund speichert. Andererseits lassen sich Sprachmodelle in die automatische Texterkennung einbeziehen, wodurch die Qualität der Ergebnisse gesteigert werden kann.
Sobald die automatische Texterkennung ihre Arbeit begonnen hat, widmet sie sich zunächst dem Layout, also der Anordnung von Text- und weiteren Elementen in der Vorlage. Dementsprechend ermittelt und kennzeichnet sie automatisiert Textbereiche und -linien. Bei anspruchsvolleren Layouts empfiehlt es sich, diesen Schritt gesondert durchzuführen und manuell zu prüfen (Abb. 1).
LASA, C 129 Stendal, Nr. 17.
Abb. 1: Titelblatt eines Protokollbuchs des Königlichen Land- und Stadtgerichts Stendal aus dem 19. Jahrhundert, das dem Landesarchiv als Testgegenstand für Transkribus diente.
Nach Abschluss der automatischen Texterkennung bestehen vielfältige Möglichkeiten zur Weiterverarbeitung. So lassen sich etwa Fehler korrigieren, Metadaten wie Orts- und Personennamen kennzeichnen oder Online-Veröffentlichungen ganz ohne Programmierkenntnisse erzeugen.
Bereits im Jahr 2022 beschäftigte sich in einem Pilotprojekt auch das Landesarchiv Sachsen-Anhalt mit den Chancen und Risiken des Einsatzes automatischer Handschriftenerkennung am Beispiel von Transkribus. Zwar bestätigte eine Testanwendung das vielversprechende Potential von Transkribus, doch zeigte sich zugleich eine erhöhte Fehleranfälligkeit bei sehr individuellen Schriften sowie uneinheitlichen Layouts. Kontinuierliche Verbesserungen der Textmodelle verbunden mit dem allgemeinen technologischen Fortschritt, so zumindest steht zu vermuten, dürften dieses Problem jedoch perspektivisch verringern (Abb. 2/3).
LASA, C 129 Stendal, Nr. 17, Bl. 107R, 108V.
Abb. 2: Blick in ein Protokollbuch des Königlichen Land- und Stadtgerichts Stendal aus dem 19. Jahrhundert, das dem Landesarchiv als Testgegenstand für Transkribus diente.
LASA, C 129 Stendal, Nr. 17, Bl. 176V.
Abb. 3: Automatische Zeilenerkennung von Transkribus.
Fraglich hingegen bleibt, wie sich eine hohe Qualität der Transkriptionen insbesondere bei großen Textumfängen verlässlich sicherstellen lässt. Menschliche Paläographiekenntnisse dürften dabei auch künftig nicht hinfällig werden. Ohnehin steht angesichts einer Stellungnahme des Deutschen Ethikrats vom 20. März 2023 und im Zeitalter der Fake News zu diskutieren, unter welchen Voraussetzungen der Einsatz von Künstlicher Intelligenz auch bei Transkriptionen als ethisch angemessen zu bewerten ist. Dabei gilt es zugleich, die wirtschaftlichen Folgen und die Auswirkungen auf die Umwelt zu berücksichtigen – schließlich erzeugt nicht allein das Herstellen und dauerhafte Bereitstellen von Digitalisaten laufende Kosten und Energieverbräuche, sondern insbesondere der Einsatz Künstlicher Intelligenz.
Einen Eindruck von der Leistungsfähigkeit der Software vermittelt beispielsweise ein Transkribus-Projekt des Stadtarchivs Bautzen. Sämtliche handschriftlichen Ratsprotokolle aus dem Zeitraum zwischen 1623 und 1832 transkribierte die Software, mittlerweile lassen sich diese Quellen unter Berücksichtigung einer Fehlertoleranz vollständig digital durchsuchen.
Die eigene Anwendung von Transkribus erleichtern benutzerfreundliche Hilfsangebote, so etwa in Form von Texten, Videos und Veranstaltungen. Zudem lassen sich die Funktionen der Software in einem monatlich begrenzten Umfang kostenfrei testen.
Transkription
Entsprechend dem lateinischen Wortursprung eine schriftliche Übertragung. In der Geschichtswissenschaft wird darunter das buchstabengetreue Übertragen eines Textes in heutige Schriftzeichen verstanden.
Application bzw. App
Computerprogramm, das Anwenderinnen und Anwender für die Lösung von Problemen verwenden können. Bekannt sind Apps vor allem aus der Verwendung auf mobilen Geräten wie Smartphones, doch bezeichnen diese als Web-Apps beispielsweise auch Programme, die wie Transkribus über das Internet genutzt werden können.
Textmodell
Mittels künstlicher Intelligenz umgesetzter schematischer Rechenvorgang (Algorithmus), der es ermöglicht, die wahrscheinlichste Zeichenfolge aus Textzeilen zu ermitteln. Transkribus bietet neben dem Trainieren eigener Textmodelle eine Auswahl öffentlich zugänglicher Textmodelle, die von anderen Benutzenden und dem Transkribus-Team zur Verfügung gestellt werden. Ein allgemeingültiges Textmodell, das für sämtliche Handschriften qualitativ hochwertige Transkriptionen bietet, existiert nicht.
Paläographie
Aus dem Altgriechischen stammende Bezeichnung für die Lehre alter Schriften. Als Teil der Historischen Grundwissenschaften gehört die Paläographie nach Ahasver von Brandt zu den Werkzeugen von Historikerinnen und Historikern.
Marcel Giffey, M.Ed.
Studium der Fächer Geschichte und Deutsch, Mitarbeit an verschiedenen Forschungsprojekten, Veröffentlichungen v. a. zur Lokal- und Regionalgeschichte, Referendariat am Landesarchiv Sachsen-Anhalt, dort seit 2023 als wissenschaftlicher Archivar in der Abteilung Magdeburg tätig. ⇆ poststelle-LASA@sachsen-anhalt.de.
-
1)
Vgl. auch Marcel Giffey: Künstliche Intelligenz entziffert historischen Handschriften. In: Archive in Sachsen-Anhalt (2023). S. 42-45.
