Albert-Ludwigs-Universität Freiburg (University of Freiburg)
Gedichte mit metrischen Annotationen zu versehen
ist eine sehr zeitaufwändige Angelegenheit. Für
das Projekt „Freiburger Anthologie - Lyrik und Lied“
habe ich Hunderte von Gedichten manuell metrisiert.1
Aus dieser Arbeit heraus ist die Idee erwachsen, eine
automatisierte Technik zu entwickeln, schriftlich
niedergelegte deutschsprachige Gedichte automatisch
metrisieren zu lassen und sie in ein TEI P5-kompatibles
XML umzuwandeln.2
Nach gut einem Jahr Arbeit kann ich nun ein sehr
passa-bles Ergebnis präsentieren. Deutschsprachige
Gedichte lassen sich zu einem sehr hohen Prozentsatz
automatisch metrisch bestimmen. Je nach der Anzahl
an Fremdwörtern, die ein Gedicht aufweist, schwankt
die Qualität zwischen 90% und 100%. Ein Text ohne
Fremdwörter wird durchweg zu einem Prozentsatz von
99% bis 100% richtig erkannt.3
Um dieses Ergebnis zu erreichen, wird der Text zunächst
automatisch in seinen metrisch relevanten Strukturen
erkannt. Dazu gehört die Erkennung der einzelnen
Strophen, der Verse, der Wörter und der Silben. Für
die Silbensegmentierung haben wir ein eigenes System
entwickelt. Bis dieses ausgereift ist, verwenden wir
in der Entwicklungsumgebung noch eine sehr gut
funktionie-rende, aber noch unveröffentlichte Beta-
Version einer orthographisch basierten Silbentrennung
aus dem Projekt „Segmenti“.4
Nach der Strukturerkennung des Textes werden
sogenannte „prosodische Vorhersagen“ der jeweiligen
im Text vorkommenden Wörter erstellt. Dabei greifen
wir auf eine Vielzahl an definierten Regeln zurück. Das
ges-amte Regel-Set umfasst derzeit 35 Regeln, einige
davon sind Eigenentwicklungen, andere wurden aus
den Erkenntnissen unterschiedlichster germanistischer
Disziplinen übernommen oder abgeleitet. Das Regel-
Set reicht vom „deutschen Initialakzent“ über „offene
Tonsilben“ und die „Penultimaregel“ (die allesamt
für die gesamte deutsche Sprache gelten) bis hin zu
gedichttypischen Erscheinungsformen wie z.B. die
Betonung von einsilbigen Wörtern am Versende.
Grundlegend unterscheiden wir zwischen „prosodischen Vorhersagen“, die für eine Betonung einer Silbe
sprechen – und Vorhersagen, die eine unbetonte Silbe
wahrscheinlich machen.
Alle diese Regeln werden automatisiert angewendet und
für jede Silbe gesammelt. Das Ergebnis sieht dann wie
folgt aus. Ein „x“ steht für die erste Silbe eines Wortes,
die nach dem Regeln des germanischen Initialakzentes
(auch foot form trochaic rule) für eine Betonung der Silbe
spricht. Ein oder mehrere „+“ für die Wahrscheinlichkeit,
dass es sich bei der Silbe um eine betonte Silbe handelt.
Ein „-“ steht für den Verdacht, dass es sich bei der Silbe
um eine unbetonte Silbe handelt. Eine „0“ für eine Silbe,
für die keine Verdachtsmomente vorliegen. Für jede
Silbe wird die Kette der Regeln gespeichert.
Fried | lich be | kämp | fen
Nacht sich und Tag.
Wie das zu dämp | fen,
Wie das zu lö | sen ver | mag!5
Fried =x000000+0000000000000000000000
0++000000000 =x+++
lich =0000000000000000000000000-00000-
0000000000 =--
be =x000000000000000000000000000000000000
00000 =x
kämp =0+00000+00+0000000++0000000000000000
000000 =+++++
fen =00000000000000000000000000-
000000000000000 =-
Im Anschluss daran wird eine Euphonie-Berechnung
durchgeführt, die von der Idee geleitet wird, dass mit
hoher Wahrscheinlichkeit innerhalb eines Verses keine
zwei betonten Silben nebeneinander liegen (Ausnahmen
des Hebungspralls hier außen vor gelassen) – und keine
drei unbetonten Silben aufeinander folgen dürfen.
So wird z.B. das „x“ auf der Silbe „be“ unbetont, da
die benachbarte Silbe „kämp“ durch ihre massiven
Betonungshärte die benachbarte Silbe überschreibt. Die
Euphonie-Berechnung erfolgt ebenfalls vollautomatisch
und ist in einem Algorithmus festgehalten (+ steht für
eine Silbe, die den Verdacht einer Betonung erhält, - für
eine Silbe, die den Verdacht einer Unbetonung erhält). Nach der Euphonie-Berechnung sieht das entsprechende
Schema dann wie folgt aus: Im anschließenden Analogieverfahren wird statistisch
berechnet, wie die noch nicht bestimmten Silben betont
sein könnten. Dabei wird z.B. geprüft, ob eine feste
Anzahl von betonten Silben für jeden Vers vorliegt, die
auch für die anderen Verse angenommen werden kann,
ob über die zuvor erkannte Reimstruktur am Ende des
Verses unbestimmte Silben bestimmt werden können
(da zwei sich reimende Verse im Bereich des Reims
eine identische Betonungsstruktur aufweisen müssen).
Die wichtigeste Analogie-Regel ist jedoch darüber
definiert, dass noch nicht erkannte Silben mit hoher
Wahrscheinlichkeit die gleiche Betonung aufweisen wie
Silben anderer Verse auf der selben Position mit gleicher
Silbenzahl. Am Ende der Analogie-Berechnung werden
die Zeichen + und - (die bislang prosodische Betonung
angezeigt haben) in metrische Zeichen (in der Bedeutung
von Hebungen und Senkungen) umgewandelt. Im besten
Fall liegt dann das komplette metrische Schema der
Strophe vor: Das Ergebnis wird nun mit einer umfangreichen
Datenbank verglichen, in der aufgrund der Standardwerke
zur metrischen Bestimmung deutscher Strophenformen
an die 4500 unterschiedliche Strophenformen
versammelt wurden.6
In etlichen Fällen lässt sich über alle Strophen hinweg
eine gleichbleibende Struktur erkennen, die jedoch an
einzelnen Stellen unterbrochen scheint. In seltenen Fällen
liegt an solchen Stellen eine metrische Fehlinterpretation des Programms zu Grunde, viel häufiger jedoch ist der
Fall, dass der Autor des Textes die allgemeinsprachlich
gültige Prosodie eines Wortes in ein Reibungsverhältnis
zur metrischen Struktur setzt, wie z. B. in dem Wort
„nachlässiger“ im Gedicht „Die Beiden“ von Hugo von
Hofmannsthal. Im Prinzip lassen sich solche Stellen
automatisiert erkennen und „schwebende Betonungen“,
„Emphase“ und prosodisch neutrale oder schwache
Stellen in einem Gedicht nachweisen.
Die vorgestellte Technik ist derzeit noch nicht endgültig
programmiert. Derzeit kann der „metricalizer“7 mit einem
sehr kleinen Regel-Set von zwei Regeln nur „regelmäßig“
metrisierte Gedichte erkennen.8 Das gesamte Regel-Set
liegt derzeit nur in Form von Macros vor, die als Kette in
der Textverarbeitung „Word Perfect“ ausgelöst werden
können. Bis auf die Silbensegmentierung und die
Analogieberechnung ist das System – obwohl nur in einer
Textverarbeitungssoftware – bereits voll automatisiert.
Aus den erzeugten Ergebnissen lässt sich eine TEI P5-
konforme Struktur des Textes erzeugen, in der bis auf
die einzelne Silbe hinab die metrische Struktur annotiert
werden kann.
Mit der aufgezeigten Technik ist es möglich, Gedichte
der letzten vier Jahrhunderte metrisch zu erkennen. Da
wir nicht auf Wörterbücher zurückgreifen, in denen die Betonungswerte der einzelnen Wörter vordefiniert wird,
ist es zudem möglich, auch Texte zu analysieren, die
nicht der heute gültigen Standard-Orthographie folgen.
Für die Sprach- und Literaturwissenschaft bietet der
Ansatz eine Reihe von interessanten Möglichkeiten, die
von der automatisierten Metrisierung ganzer Korpora
über die Text-to-
Speech-Forschung reichen, woraus
sich entsprechende Forschungs- und Unterrichtsansätze
konstruieren lassen. Im Prinzip ist die angewendete
Technik nämlich nicht nur in der Lage, Gedichte zu
metrisieren, sondern ganz allgemein prosodische
Vorhersagen für jeden gedruckten Text zu erstellen.
Das Fernziel der Unternehmung ist es jedoch, die
automatische metrische Bestimmung von Gedichten
mit der automatisierten Textgenerierung zu verknüpfen,
um den Rechner eines Tages in die Lage zu versetzen,
metrisch vollendete Gedichte selbständig zu produzieren.
Auf der Tagung werde ich kurz die nationalen und
internationalen Vorgängerprojekte benennen, auf die wir
uns beziehen können, die logische Seite des Projektes
vorstellen (vor allem die Regeln der prosodischen
Vorhersage) und auf die theoretischen Möglichkeiten
und Schwachstellen (Fremdworterkennung, Ketten von
einsilbigen Wörtern) eingehen und anhand eines Adhoc-
Beispiels aus dem Publikum den Beweis für die
Funktionalität des Systems erbringen. 1www.lyrik-und-lied.de; www.freiburger-anthologie.de
2Ähnliche Projekte für das Deutsche sind „YASP“
<http://wiki.cl.uni-heidelberg.de/YetAnotherSyntheticPoem>
und das Projekt „ErMaStat“: Dimpel, Friedrich
Michael: Computergestützte textstatistische Untersuchungen
an mittelhochdeutschen Texten. 2004.
3Was „richtig“ in diesem Zusammenhang bedeutet, ist
hier nachzulesen (Fußnote 41): <http://computerphilologie.
tu-darmstadt.de/jg07/bobgehl.html#FN41>
4Enwickelt von Regine Müller: http://www.cross-plus-a.
com/segmenti.htm
5Friedrich Hebbel: Abendlied . zitiert nach <http://
www.lyrik-und-lied.de/ll.pl?kat=typ.show.
poem&ds=2580&id=4082>
6Schlawe, Fritz: Die deutschen Strophenformen. Systematisch-
chronologisches Register zur deutschen Lyrik
1600-1950. 1972. / Frank, Horst Joachim: Handbuch der
deutschen Strophenformen. Tübingen/Basel. 1993.
7Eine Testversion des Programms ist nun online unter:
<http://www.poetron-zone.de/metricalizer/generator.
php>.
8,,Regelmäßige“ Gedichte sind nach unserem Verständnis
Gedichte, die aus einer strophenweise in sich regelmäßigen
Abfolge von betonten und unbetonten Silben
bestehen, die mit dem gleichen Muster pro Vers
beginnen müssen, aber unterschiedliche Endpunkte des
Musters zulassen. Ein Muster ist die kleinste sich wiederholende
Struktur von betonten und unbetonten Silben
innerhalb eines Verses (im Prinzip identisch mit einem
Versfuß).
9Eine detaillierte Beschreibung des Projektes findet sich
nun online unter: <http://computerphilologie.tu-darmstadt.
de/jg07/bobgehl.html>. Der gesamte Regelsatz ist
noch nicht für eine Außendarstellung vorbereitet.
If this content appears in violation of your intellectual property rights, or you see errors or omissions, please reach out to Scott B. Weingart to discuss removing or amending the materials.
Complete
Hosted at University of Maryland, College Park
College Park, Maryland, United States
June 20, 2009 - June 25, 2009
176 works by 303 authors indexed
Conference website: http://web.archive.org/web/20130307234434/http://mith.umd.edu/dh09/
Series: ADHO (4)
Organizers: ADHO