A Web-Based Tool for the Annotation of Scribe Data in Medieval Documents

poster / demo / art installation
Authorship
  1. 1. Martin Hanusch

    Fulda University of Applied Sciences

  2. 2. Marc Birringer

    Fulda University of Applied Sciences

  3. 3. Jan-Torsten Milde

    Fulda University of Applied Sciences

Work text
This plain text was ingested for the purpose of full-text search, not to preserve original formatting or readability. For the most complete copy, refer to the original conference program.


Einleitung
Innerhalb des letzten Jahres wurde das System Signum zur interaktiven, webbasierten Annotation von mittelalterlichen Handschriften der Bibliotheka Fuldensis entwickelt. Die zentrale Zielsetzung ist die Erfassung relevanter Eigenschaften einzelner Buchstaben, bzw. von Buchstabenkomplexen innerhalb eines Dokuments. Die so erfassten Eigenschaften werden als gewichtete Feature-Vektoren betrachtet und sind der Input in einen Klassifikationsalgorithmus. Hier wird eine Zuordnung vom Feature-Vektor zu einem möglichen Schreiber berechnet, welche dann, so der theoretische Ansatz, dokumentübergreifend eine Schreiberidentifikation ermöglicht.
Durch die schrittweise Weiterentwicklung der Webtechnologie ist es jetzt möglich, den Annotationeditor vollständig als leistungsfähige Webanwendung umzusetzten, und zwar ohne Qualitätsverlust in der Interaktion und Usability.
Das System baut auf langjährigen Vorarbeiten auf (siehe etwa (Author3 et. al, 2002), (Author3 et. Al, 2006), (Author3 et. al, 2006), (Author3 et. Al, 2012), (Author3, 2014)). Gleichzeitig ist das System Signum zentraler Bestandteil der Abschlussarbeit von Author1 (Author1, 2018) und wurde im November 2018 aufgrund des besonderen Beitrages zur Umsetzung wissenschaftlicher Forschungsergebnisse mit einem landesweiten Förderpreis ausgezeichnet.

Biblotheka Fuldensis
Das Institut Bibliotheca Fuldensis widmet sich der Erforschung der alten und bedeutenden mittelalterlichen Bibliothek des Klosters Fulda, die im dreißigjährigen Krieg verschleppt, zerstreut und zu großen Teilen zerstört wurde. Seit Beginn der 80er Jahre des 20. Jahrhunderts wurde dafür eine umfangreiche Dokumentation zu den erhaltenen Handschriften und Handschriftenfragmenten angelegt, welchei nzwischen auch als Digitalisate vorliegen. (siehe auch
)

Abbildung 1: Die Vorstudie erfasst relevante Beispieldaten und definiert ein erstes Klassifikationsmodell

Vorstudie zur Schreiberidentifikation
In einer konzeptionellen Vorstudie wurden zunächst die relevanten paläographischen Eigenschaften von besonders distinktiven Buchstaben identifiziert (siehe Abbildung 1). Hierbei handelt es sich um ein kleinschrittige Elizitierung von Expertenwissen. Dieser Prozess ist sehr aufwändig, weil eine erheblicher Anteil des Wissens als Erfahrungswissen vorliegt und in vielfältiger Weise von weiteren Wissensebenen überlagert ist.
Das Ergebnis der Vorstudie war ein komplexes Excel-Sheet mit dem es möglich war, Feature-Vektoren für 5 Schreiber zu definieren und diese bei 20 Testdokumenten mit einer nicht zufälligen Wahrscheinlichkeit zu identifizieren.
Basierend auf den erfassten Daten der Testdokumente können Gesamtwahrscheinlichkeiten berechnet werden. Überschreiten diese einen vordefinierten Schwellwert, wird eine Korrelationzwischen Dokument und Schreiberhand postuliert. Allerdings sind die Schreiber in der Regel anonym. Eine eindeutige persönliche Identifikation ist also in den meisten Fällen nicht möglich.

Konzeption des webbasierten Systems
Ausgehend von der Annahme, dass weltweit nur eine geringe Anzahl von Paläographen, bzw. paläographisch interessierten Laien zur Verfügung stehen, wurde das zu entwickelnde System als webbasierte Anwendung konzipiert. Der Annotationsprozess soll stark geleitet werden. Der Anwender durchläuft einen immer gleichen strukturierten Ablauf:

Anmeldeprozess
Dokumentauswahl
Geleiteter Auszeichnungsprozess
Speicherung
Auswertung der Annotation
Benutzerbezogenes Feedback

Das System muss also zwei wesentliche Funktionen erfüllen:

Einfache Bedienbarkeit
Gute Unterstützung des Annotierenden in Form von kontextsenesitiver Hilfestellung (u.a. in Formvon kurzen deutsch- und englischsprachigen Vidoes).

Die Anwendung soll daher als community process verstanden werden, der leicht verständlich und einfach zu bedienen ist (siehe Abbildung 2).

Abbildung 2: Der Annotationsprozess ist vergleichsweise einfach: relevante Eigenschaften im Digitalisat werden durch eine Rechtecktauswahl markiert und die erkannten Eigenschaften im Dialogfeld ausgewählt.

Dokumentauswahl
Die Dokumentenauswahl erfolgt über eine Auswahlliste. Hier sind die bearbeitbaren Dokumente aufgeführt. Aktuell ist es notwendig, die Dokumente als Kopie auf dem Systemserver zu speichern. Als Format sind derzeit Bilddateien in allen vom Browser anzeigbaren Formaten zulässig. Technisch ist es problemlos möglich die Bilddaten auch von Fremdservern zu laden. Allerdings müssen in diesem Fall mögliche rechtliche Regelungen beachtet werden.

Anmeldeprozess
Der Anmeldeprozess soll niederschwellig, aber sicher sein. Die Anwender melden sich mit ihrer email Adresse an und wählen einen Benutzernamen und ein Passwort.

Hilfesystem
Eine wichtige Komponente der Anwendung ist das umgesetzte Hilfesystem. Um dem interessierten Laien Unterstützung zu bieten, wurden eine Reihe von erläuternden Hilfeseiten entwickelt. Die Erläuterungen basieren auf vergleichenden Beispielen und zeigen die wesentlichen zu identifizierenden Eigenschaften der unterschiedlichen Buchstaben. Zusätzlich wurde mehrsprachige Einführungsvideos produziert, die alle relevanten Teilschritte erläutern.

Speicherung
Alle Annotation werden in einer relationen Datenbank abgelegt. Hier liegen eine Reihe von Tabellen vor, die eine eindeutige Verknüpfung zwischen Anwender, Dokument, Annotation und Zeit erlauben. Damit ist sichergestellt, dass die Annotation versioniert rekonstruiert werden kann. Außerdem erlaubt das System eine einfache Anonymisierung der Daten. Schließlich können die Daten problemlos als XML-annotierter Datensatz exportiert werden und das System stellt eine REST Schnittstelle zur externen Nutzung der Daten zur Verfügung.

Ergebnisse
Das hier vorgestellte System Signum erlaubt die einfache web-basierte Annotation von (mittelalterlichen) Handschriften. Das System wird getestet an den Handschriften der Bibliotheka Fuldensis. Grundlage der Implementierung ist eine einjährige Vorstudie, in der ein wahrscheinlichkeitsbasierter Klassifikationsalgorithmus zur Identifikation der Schreiberhand auf Basis von Buchstabeneigenschaften entwickelt wurde. Die so erhobenen Corpusdaten soll in der Folge dazu dienen, den Klassifikationsalgorithmus schrittweise zu verbessern.

If this content appears in violation of your intellectual property rights, or you see errors or omissions, please reach out to Scott B. Weingart to discuss removing or amending the materials.