Korpushermeneutik - Ansatz und Werkzeug zur Analyse großer Textkorpora

Jan Oliver Rüdiger

Authorship

1. Jan Oliver Rüdiger

Universität Kassel

Work text

This plain text was ingested for the purpose of full-text search, not to preserve original formatting or readability. For the most complete copy, refer to the original conference program.

Der Vortrag fußt auf drei Säulen: Theorie, Forschungspraxis und Hochschullehre. Sie werden im Vortrag einzeln ausgeführt, dann kombiniert.

Theorie:
Korpuslinguistik mit Hermeneutik zu
verbinden, ist keine grundsätzlich neue Idee. Die bisherigen Vorschläge (z. B. Haß
2007; Teubert 2006) führen aber in ihrer Konsequenz zu einer einseitig gelagerten
Korpuslinguistik, die entweder corpus-driven oder corpus-based orientiert ist.
Bei Haß (2007) werden wichtige Grundüberlegungen der
Korpus-Hermeneutik diskutiert. Im Abschnitt Haß (2007: 248-258) erfolgt eine Beispielanalyse, deren Methoden fast ausschließlich dem
corpus-driven Spektrum zuzuordnen sind. Ermittelte statistische Werte werden zwar interpretiert, jedoch führt dies nicht zu weiteren Forschungskonsequenzen. Gerade aber in der zyklischen Interpretation liegt die Stärke der Korpushermeneutik.

Bei Teubert (2006) ist der Blick auf den Sichtbereich des
corpus-based Methodenapperats beschränkt. Korpusmaterial dient in dieser Arbeit als eine Art Steinbruch, in dem man nach Belegen schürft.
Text-Mining ist zwar ein Aspekt der Korpushermeneutik – es darf aber nie das alleinige Merkmal sein.

Daher plädiere ich für grundlegend
neue und praktikable Korpushermeneutik, die sowohl klassische als auch computergestützte Analyseverfahren vereint. Einen zentralen Punkt nimmt dabei die (Weiter-)Entwicklung des bestehenden Wissens ein. Annahmen, Beobachtungen und Ergebnisse werden zu Wissensmodellen korreliert und durch einen zyklisch organisierten Analyseprozess falsifiziert. Zum jetzigen Zeitpunkt ergeben sich drei grundlegende Forderungen an eine Analyse, wenn Sie unter dem Begriff
Korpushermeneutik firmieren soll:

Die Analyse muss mehrere, abwechselnde und aufeinander aufbauende Zyklen durchlaufen.
Diese Idee lehnt sich an der bereits von Felder (2016: 124) aufgestellten Beobachtung an: „
Für die praktische Textanalyse sind beide Herangehensweisen erkenntnisstiftend – insbesondere ein stetiger Wechsel zwischen der relativ induktiven (corpus driven) und der eher deduktiven (corpus-based oder corpus-assisted) Vorgehensweise ist vielversprechend.“

Die Entwicklung von Wissen geschieht durch Falsifikation - wie sie u. a. durch Popper (2005) und Albert (1969) gefordert wird. Daher sind Fragen, Thesen und Methoden so zu wählen, dass Vorwissen geprüft und hinterfragt wird.

Der Analyseprozess ist transparent zu gestalten - transparent in Durchführung und Fehlerbetrachtung – Die Handlungsmöglichkeiten sind aufzuzeigen. Jeder Durchführungszyklus geschieht unter der Prämisse der Falsifikation. Jede Methode ist ebenso kritisch zu hinterfragen wie die daraus resultierenden Ergebnisse. Durch einen Zyklus werden neue Handlungsmöglichkeiten offengelegt, die es zu überprüfen gilt. Daher muss transparent gemacht werden, welche Ansätze mit welchen Mitteln verfolgt werden und welche Fragen am Schluss offenbleiben.

Forschungspraxis: Gerade in den letzten fünf bis zehn Jahren
ist die Möglichkeit stark gewachsen, große (linguistische) Datenmengen zu erheben
und auszuwerten. Text-/Sprachdaten können fast ohne Limitierung für die Forschung
erhoben werden. Die darauf aufbauenden Datenmodelle erreichen eine immer höhere
Komplexität. Daher bedarf es neuer Methoden, diese zu strukturieren und teilweise
auch zu reduzieren (z. B. durch Algorithmen oder Visualisierungen), damit sie
(er-)fassbar für den Anwender werden. Ein Problem bei der Umsetzung der
korpushermeneutischen Theorie ist die bisher existierende Softwarelandschaft der
Computer-/Korpuslinguistik. Viele Programme sind notwendig, um aus einem einfachen
Rohtext ein visuelles Ergebnis zu erzeugen. Die Programme sind teilweise
untereinander inkompatibel 1 - oder sie folgen ausschließlich einem der beiden Paradigmen 2. Im Vortrag wird ein von mir entwickeltes Programm vorgestellt, das diese
Arbeit übernimmt und korpushermeneutische Analysen ermöglicht. Der CorpusExplorer ist kostenfrei verfügbar und übernimmt alle nötigen
Arbeitsprozesse – angefangenen bei der Textaufbereitung, Trennung von Text und
Metadaten, Annotation 3, bis hin zur Auswertung und Visualisierung (über 30 unterschiedliche
Auswertungsmodule). Alles mit einem Tool, mit nur wenigen Mausklicks und vereint
unter einer intuitiven Benutzeroberfläche. Der CorpusExplorer erlaubt sowohl
corpus-driven als auch corpus-based Analysen und durch die zyklische Verschränkung
der Werkzeuge die angestrebte korpushermeneutische Analyse. Im Vortrag wird auf
konkrete Praxisbeispiele eingegangen und gezeigt, wie sich eine korpushermeneutische
Analyse entwickelt. Ein exklusiver Vortragspunkt wird sein, dass neben dem Programm
das CorpusExplorer-Framework erstmalig vorgestellt wird. Mit diesem werden zwei
Dinge möglich. Zum einen kann der CorpusExplorer mit eigenen Funktionen erweitert
werden (z. B. schreiben / anbinden neuer Tagger / Dateiformate, entwickeln eigener
Analysemodule, uvm.). Zum anderen kann man den CorpusExplorer in eigene Programme
integrieren. Ein Teil des Quellcodes (Import- / Export-Funktion), sowie Quellcode
von An-Projekten wurde bereits veröffentlicht. Der Quellcode des Frameworks wird
nach Abschluss des Promotionsprojekts freigegeben.

Hochschullehre: Eines der komplexesten Probleme, vor dem Dozenten und Institute stehen, die Korpuslinguistik in der Lehre praktizieren möchten und nicht oder nur bedingt auf Kompetenzen im Bereich Informatik bzw. Computerlinguistik zurückgreifen können, ist der immense
Toolchain, der für einen erfolgreichen Seminarbetrieb erforderlich ist. Der
CorpusExplorer bietet hier eine praktikable Lösung für alle, die schnelle Ergebnisse erzielen möchten. Selbst Studenten in den ersten Semestern können so in die Forschung hineinschnuppern und ihre eigenen Forschungsfragen selbstständig erkunden. Dabei stehen Forschung, empirisches Arbeiten und Auswertung/Ergebnisvisualisierung im Vordergrund, nicht aber das verwendete Programm. Der Vortrag wird Einblicke in den Seminaralltag mit dem CorpusExplorer sowie Anregungen geben, die mit den Hörern diskutiert werden können.

Bildanhang (Screenshots CorpusExplorer v2.0):

Annotationsansicht

Links: Korpora & Dokumente
Mitte: Annotiertes Dokument mit gewählten Hervorhebungen
Rechts: Gewählte Hervorhebungen (Annotationen)
Unten: Verfügbare Module des CorpusExplorers

KorpusverteilungZu sehen ist ein Kreuzvergleich von Dokumentmetadaten. Eingenommene Fläche und Farbe (warm > kalt) sind bedeutungstragend

Begriffspaare / Oppositionswörter kontrastieren
Beispiel: Frau vs. Mann aus einem Zeitungskorpus (Frauenquote vs. Quotenfrau 2010-2014) via LexisNexis
Grün: Kollokatoren tendenziell Syrien
Schwarz: Gemeinsame Kollokatoren
Rot: Kollokatoren tendenziell Isreal

N-Gramm-Graph
Verknüpfung von N-Grammen auf Basis von POS-Tags
Graph: Grün: N-Gramm-Kopf, Blau: N-Gramm-Zwischenteil, Rot: N-Gramm-Ende

Kookkurrenzgraph (Ausschnitt)
Das Beispiel zeigt einen per Rekursion ermittelten Teilausschnitt, der auf die Phrase:
„Beobachter / ins / Land / lassen“ rekurriert.

z. B. kann die Ausgabe des einen Programms nicht vollumfänglich von einem anderen eingelesen werden.
Gemeint sind hier die Paradigmen corpus-driven oder corpus-based.
Aktuell verfügbar: TreeTagger, TnT, Stanford-Tagger oder gar Keine Annotation.

Bibliographie

Alberrt, Hans (1969): Traktat über
kritische Vernunft. Tübingen: J.C.B. Mohr (Paul Siebeck).

Bubenhofer, Noah (2009): Sprachgebrauchsmuster. Korpuslinguistik als Methode der Diskurs-
und Kulturanalyse. Berlin: de Gruyter.

Dang-Anh, Mark / Rüdiger, Jan Oliver (2015): “From
Frequency to Sequence: How Quantitative Methods can Inform Qualitative
Analysis of Digital Media Discourse”, in: 10plus1 1:
57–73.

Gardt, Andreas (2007): “Linguistisches Interpretieren:
Konstruktivistische Theorie und realistische Praxis”, in: Hermanns, Fritz /
Holly, Werner (eds.): Linguistische Hermeneutik.
Theorie und Praxis des Verstehens und Interpretierens. Tübingen: Niemeyer
263–280.

Haß, Ulrike (2007): “Korpus-Hermeneutik: zur
hermeneutischen Methodik in der lexikalischen Semantik”, in: Hermanns, Fritz
/ Holly, Werner (eds.): Linguistische Hermeneutik.
Theorie und Praxis des Verstehens und Interpretierens. Tübingen: Niemyer
241–261.

Popper, Karl R. (2005): Gesammelte
Werke. 3: Logik der Forschung Tübingen: Mohr Siebeck.

Runkler, Thomas (2010): Data
Mining. Methoden und Algorithmen intelligenter Datenanalyse.
Wiesbaden: Vieweg+Teubner.

Teubert, Wolfgang (2006): “Korpuslinguistik,
Hermeneutik und die soziale Konstruktion der Wirklichkeit”, in: Linguistik Online 28, 3: 41–60 http://www.linguistik-online.de/28_06/teubert.html [letzter
Zugriff 09. Februar 2016].

Full text license: CC BY 4.0

If this content appears in violation of your intellectual property rights, or you see errors or omissions, please reach out to Scott B. Weingart to discuss removing or amending the materials.

Conference Info

In review

DHd - 2016

"Modellierung - Vernetzung – Visualisierung: Die Digital Humanities als fächerübergreifendes Forschungsparadigma"

Hosted at Universität Leipzig (Leipzig University)

Leipzig, Germany

March 7, 2016 - March 11, 2016

160 works by 433 authors indexed

Conference website: http://dhd2016.de/

Contributors: Patrick Helling, Harald Lordick, R. Borges, & Scott Weingart.

Series: DHd (3)

Organizers: DHd

Korpushermeneutik - Ansatz und Werkzeug zur Analyse großer Textkorpora

1. Jan Oliver Rüdiger

DHd - 2016

"Modellierung - Vernetzung – Visualisierung: Die Digital Humanities als fächerübergreifendes Forschungsparadigma"