Ressourcenbeitrag

Ressourcenbeitrag: Tagset Interpretationstexte analysieren

Author:

Abstract

Keywords: Annotation, Digitale Annotation, Markup, Textanalyse, Close Reading

How to Cite: Descher, S. (2024) “Ressourcenbeitrag: Tagset Interpretationstexte analysieren”, forTEXT. 1(4). doi: https://doi.org/10.48694/fortext.3758

Erstveröffentlichung: 27.07.2020 auf fortext.net

1. Kurzbeschreibung

Das Tagset „Interpretationstexte analysieren“ dient der Annotation literaturwissenschaftlicher Interpretationstexte. Es stellt Kategorien zur Analyse wichtiger Strukturmerkmale und anderer Eigenschaften von Interpretationen bereit (z. B. zur Markierung zentraler Thesen, von Formen des Umgangs mit Forschungsliteratur usw.). Darüber hinaus kann es auch für die Annotation von wissenschaftlichen Texten im Allgemeinen verwendet werden und lässt sich je nach Bedarf leicht ergänzen bzw. anpassen. Das Tagset erhalten Sie auf Zenodo (forTEXT 2020).

2. Anwendungsbeispiel

Das Tagset ist vor allem für Projekte geeignet, die sich mit der Erforschung der konkreten literaturwissenschaftlichen Praxis befassen. Ein typisches Einsatzfeld dürfte die manuelle Annotation (Jacke 2024) mittelgroßer Textkorpora (vgl. Korpus) darstellen, um Häufigkeitsanalysen oder diachrone und synchrone Vergleiche zwischen wissenschaftlichen Interpretationstexten bzw. Forschungstexten im Allgemeinen zu ermöglichen. Konkrete Fragen wären z. B., wie häufig und an welcher Stelle sich Verfasser*innen von Interpretationstexten auf andere Forschungsbeiträge beziehen, wie oft sie ein Forschungsdesiderat markieren oder wie häufig sie ihre Beurteilungskriterien für Interpretationen explizit machen. Ein konkretes Projekt könnte z. B. untersuchen, ob sich Argumentationspraktiken und strukturelle Merkmale von Interpretationen in zwei Untersuchungskorpora voneinander unterscheiden – z. B. ob die Anzahl der durchschnittlich zitierten Forschungsbeiträge in einem Korpus, das Interpretationen zu Texten männlicher Autoren enthält, signifikant von der durchschnittlichen Anzahl zitierter Forschungsbeiträge in einem Korpus abweicht, das Interpretationen zu Texten von Autorinnen enthält. Denkbar ist auch ein Einsatz in der universitären Lehre, etwa um einen reflektierten und problembewussten Umgang mit Forschungsliteratur einzuüben. So wird die Annotation der Hauptthese(n) eines Interpretationstexts bei verschiedenen Annotator*innen immer wieder einmal zu unterschiedlichen Resultaten führen. Solche Unterschiede in den Annotationsergebnissen können dazu einladen, über implizite Vorannahmen nachzudenken, die sowohl das Lesen als auch das Verfassen von Forschungstexten leiten – in diesem Fall implizite Vorannahmen darüber, was eine Hauptthese eigentlich ist und woran man sie erkennt.

3. Literaturwissenschaftlicher Kontext

In der Literaturwissenschaft werden Sie sich nicht nur mit literarischen Texten, sondern immer wieder auch mit Forschungsliteratur beschäftigen, insbesondere mit Textinterpretationen. Das Verfassen und Lesen von Interpretationen gehört geradezu zur literaturwissenschaftlichen Alltagspraxis. Diese Alltagspraxis wird seit einigen Jahren im Zuge der sogenannten ‚Praxeologie’ verstärkt erforscht (Albrecht u. a. 2015). Praxeologische Forschungsprojekte zielen darauf ab, die konkreten Praktiken der Literaturwissenschaft zu beschreiben und zu untersuchen – das also, was Literaturwissenschaftler*innen tun, wenn sie Literaturwissenschaft betreiben, und wie sie es tun. Das Tagset Interpretationstexte analysieren ist dem Forschungsfeld der literaturwissenschaftlichen Praxeologie zuzuordnen. Es ging aus einem Projekt an der Universität Göttingen hervor, das sich der Erforschung der literaturwissenschaftlichen Interpretationspraxis widmet (https://www.argulit.uni-goettingen.de). Darin wird der Frage nachgegangen, auf welche verschiedenen Weisen Interpret*innen ihre Interpretationshypothesen plausibilisieren. Ältere Studien zur Interpretationspraxis (Grewendorf 1975; von Savigny 1976) konzentrierten sich vorrangig auf die rein argumentative Dimension von literaturwissenschaftlichen Interpretationen. Im Zentrum standen also Fragen wie „Was ist die These?“, „Was sind die Argumente?“. Im Unterschied zu diesen Studien geht das aktuelle Projekt davon aus, dass zur Plausibilisierung von Hypothesen auch viele ‚weichere’ Faktoren beitragen, die über die rein argumentative Dimension hinausgehen. Relevant ist z. B. auch, wie Interpret*innen ihre Beiträge aufbauen, an welcher Stelle sie ihre zentralen Thesen positionieren, ob sie diese Thesen explizit als solche hervorheben oder nicht, ob sie ihre Ergebnisse zusammenfassen, ob und wie sie sich mit anderer Forschungsliteratur auseinandersetzen, ob sie ihre Maßstäbe für gelungene Interpretationen explizit machen usw. Das hier vorgestellte Tagset dient der Erfassung von Texteigenschaften dieser Art. Die Anwendung einiger Tags basiert auf den Ergebnissen von argumentationstheoretischen, linguistischen u. a. Forschungen, auf die an den entsprechenden Stellen verwiesen wird. Da im Folgenden nur kurze Beschreibungen und grundlegende Hinweise zur Verwendung der Tags gegeben werden können, seien Annotator*innen zur Vertiefung auf diese Arbeiten verwiesen.

4. Tagset

Sie können das Tagset Interpretationstexte analysieren auf Zenodo als XML-Datei herunterladen (forTEXT 2020), um es dann in geeignete Tools (beispielsweise CATMA (Schumacher 2024)) zu importieren und es dort zu verwenden. Abbildung 1 zeigt die im Tagset enthaltenen Tags in ihrer hierarchischen Struktur sowie die Properties und Values.

Abb. 1: Tagset Interpretationstexte analysieren

5. Richtlinien zur Anwendung

Die folgenden Richtlinien enthalten nur spezifische Anwendungshinweise für die Tags, die sich auf der untersten Hierarchieebene befinden (also beispielsweise den Tag „Forschungsüberblick“). Hierarchisch höherliegende Kategorien (z. B. „Umgang mit Forschung“) dienen vor allem der Systematisierung.

5.1. Hauptthese

5.2. Argumentationssignale

Argumentationssignale: Bei Interpretationstexten handelt es sich wie bei allen wissenschaftlichen Texten in der Regel um argumentative Texte: Typischerweise werden darin Argumente für oder gegen bestimmte Thesen bzw. Konklusionen formuliert (Descher und Petraschka 2019, 37–48). Es gehört jedoch zu den charakteristischen Phänomenen der Argumentationspraxis, dass man Argumente nur selten an ihrer sprachlichen Oberflächenstruktur erkennen kann (van Eemeren und Grootendorst 2004, 95–122). In einigen Fällen allerdings gibt es auch explizite Argumentationssignale, d. h. sprachliche Hinweise darauf, dass an einer bestimmten Stelle argumentiert werden soll, dass es sich bei einer bestimmten Behauptung um ein Argument oder um eine Konklusion handelt usw. (Knott und Dale 1993; Stab und Gurevych 2014). Die Tags in der Kategorie „Argumentationssignale“ dienen der Annotation solcher Indikatoren.

5.3. Gliederung und Aufbau

Gliederung und Aufbau: Diese Kategorie umfasst Tags, mit denen allgemeine Strukturmerkmale von Interpretationstexten annotiert werden können. Darunter fallen Passagen, in denen ein Überblick über den Aufbau des Texts gegeben wird, zentrale Gedankengänge zusammengefasst oder die Hauptthese(n) abschließend erneut aufgegriffen werden.

5.4. Geltungsmodifikation

5.5. Qualitätskriterien für Interpretationen

5.6. Umgang mit Forschung

Umgang mit Forschung: Diese Kategorie umfasst Tags, mit denen Bezüge auf Forschungsliteratur annotiert werden können.

Externe und weiterführende Links

Glossar

Annotation

Annotation beschreibt die manuelle oder automatische Hinzufügung von Zusatzinformationen zu einem Text. Die manuelle Annotation wird händisch durchgeführt, während die (teil-)automatisierte Annotation durch Machine-Learning-Verfahren durchgeführt wird. Ein klassisches Beispiel ist das automatisierte PoS-Tagging (Part-of-Speech-Tagging), welches oftmals als Grundlage (Preprocessing) für weitere Analysen wie Named Entity Recognition (NER) nötig ist. Annotationen können zudem deskriptiv oder analytisch sein.

Browser

Mit Browser ist in der Regel ein Webbrowser gemeint, also ein Computerprogramm, mit dem das Anschauen, Navigieren auf, und Interagieren mit Webseiten möglich wird. Am häufigsten genutzt werden dafür Chrome, Firefox, Safari oder der Internet Explorer.

HTML

HTML steht für Hypertext Markup Language und ist eine textbasierte Auszeichnungssprache zur Strukturierung elektronischer Dokumente. HTML-Dokumente werden von Webbrowsern dargestellt und geben die Struktur und Online-Darstellung eines Textes vor. HTML-Dateien können außerdem zusätzliche Metainformationen enthalten, die auf einer Webseite selbst nicht ersichtlich sind.

Korpus

Ein Textkorpus ist eine Sammlung von Texten. Korpora (Plural für „das Korpus“) sind typischerweise nach Textsorte, Epoche, Sprache oder Autor*in zusammengestellt.

Lemmatisieren

Die Lemmatisierung von Textdaten gehört zu den wichtigen Preprocessing-Schritten in der Textverarbeitung. Dabei werden alle Wörter (Token) eines Textes auf ihre Grundform zurückgeführt. So werden beispielsweise Flexionsformen wie „schneller“ und „schnelle“ dem Lemma „schnell“ zugeordnet.

Machine Learning

Machine Learning, bzw. maschinelles Lernen im Deutschen, ist ein Teilbereich der künstlichen Intelligenz. Auf Grundlage möglichst vieler (Text-)Daten erkennt und erlernt ein Computer die häufig sehr komplexen Muster und Gesetzmäßigkeiten bestimmter Phänomene. Daraufhin können die aus den Daten gewonnen Erkenntnisse verallgemeinert werden und für neue Problemlösungen oder für die Analyse von bisher unbekannten Daten verwendet werden.

Markup (Textauszeichung)

Die Textauszeichnung (eng. Markup) fällt in den Bereich der Daten- bzw. Textverarbeitung, genauer in das Gebiet der Textformatierung, welche durch Auszeichnungssprachen wie XML implementiert wird. Dabei geht es um die Beschreibung, wie einzelne Elemente eines Textes beispielsweise auf Webseiten grafisch dargestellt werden sollen.

Markup Language

Markup Language bezeichnet eine maschinenlesbare Auszeichnungssprache, wie z.B. HTML, zur Formatierung und Gliederung von Texten und anderen Daten. So werden beispielsweise auch Annotationen durch ihre Digitalisierung oder ihre digitale Erstellung zu Markup, indem sie den Inhalt eines Dokumentes strukturieren.

Metadaten

Metadaten oder Metainformationen sind strukturierte Daten, die andere Daten beschreiben. Dabei kann zwischen administrativen (z. B. Zugriffsrechte, Lizenzierung), deskriptiven (z. B. Textsorte), strukturellen (z. B. Absätze oder Kapitel eines Textes) und technischen (z. B. digitale Auflösung, Material) Metadaten unterschieden werden. Auch Annotationen bzw. Markup sind Metadaten, da sie Daten/Informationen sind, die den eigentlichen Textdaten hinzugefügt werden und Informationen über die Merkmale der beschriebenen Daten liefern.

Named Entities

Eine Named Entity (NE) ist eine Entität, oft ein Eigenname, die meist in Form einer Nominalphrase zu identifizieren ist. Named Entities können beispielsweise Personen wie „Nils Holgerson“, Organisationen wie „WHO“ oder Orte wie „New York“ sein. Named Entities können durch das Verfahren der Named Entity Recognition (NER) automatisiert ermittelt werden.

POS

PoS steht für Part of Speech , oder „Wortart“ auf Deutsch. Das PoS- Tagging beschreibt die (automatische) Erfassung und Kennzeichnung von Wortarten in einem Text und ist of ein wichtiger Preprocessing-Schritt, beispielsweise für die Analyse von Named Entities.

Preprocessing

Für viele digitale Methoden müssen die zu analysierenden Texte vorab „bereinigt“ oder „vorbereitet“ werden. Für statistische Zwecke werden Texte bspw. häufig in gleich große Segmente unterteilt (chunking), Großbuchstaben werden in Kleinbuchstaben verwandelt oder Wörter werden lemmatisiert.

Tagset

Ein Tagset definiert die Taxonomie, anhand derer Annotationen in einem Projekt erstellt werden. Ein Tagset beinhaltet immer mehrere Tags und ggf. auch Subtags. Ähnlich der Type/Token -Differenz in der Linguistik sind Tags deskriptive Kategorien, wohingegen Annotationen die einzelnen Vorkommnisse dieser Kategorien im Text sind.

TEI

Die Text Encoding Initiative (TEI) ist ein Konsortium, das gemeinsam einen Standard für die Darstellung von Texten in digitaler Form entwickelt. Die TEI bietet beispielsweise Standards zur Kodierung von gedruckten Werken und zur Auszeichnung von sprachlichen Informationen in maschinenlesbaren Texten (siehe auch XML und Markup).

Type/Token

Das Begriffspaar „Type/Token“ wird grundsätzlich zur Unterscheidung von einzelnen Vorkommnissen (Token) und Typen (Types) von Wörtern oder Äußerungen in Texten genutzt. Ein Token ist also ein konkretes Exemplar eines bestimmten Typs, während ein Typ eine im Prinzip unbegrenzte Menge von Exemplaren (Token) umfasst. Es gibt allerdings etwas divergierende Definitionen zur Type-Token-Unterscheidung. Eine präzise Definition ist daher immer erstrebenswert. Der Satz „Ein Bär ist ein Bär.“ beinhaltet beispielsweise fünf Worttoken („Ein“, „Bär“, „ist“, „ein“, „Bär“) und drei Types, nämlich: „ein“, „Bär“, „ist“. Allerdings könnten auch vier Types, „Ein“, „ein“, „Bär“ und „ist“, als solche identifiziert werden, wenn Großbuchstaben beachtet werden.

XML

XML steht für Extensible Markup Language und ist eine Form von Markup Language, die sowohl computer- als auch menschenlesbar und hochgradig anpassbar ist. Dabei werden Textdateien hierarchisch strukturiert dargestellt und Zusatzinformationen i. d. R. in einer anderen Farbe als der eigentliche (schwarz gedruckte) Text dargestellt. Eine standardisierte Form von XML ist das TEI-XML.

Bibliographie

Albrecht, Andrea, Lutz Danneberg, Olaf Krämer und Carlos Spoerhase, Hrsg. 2015. Theorien, Methoden und Praktiken des Interpretierens. Berlin, Boston: de Gruyter.

Conterno, Chiara. 2014. Die andere Tradition Psalm-Gedichte im 20. Jahrhundert. Göttingen: V & R unipress.

Descher, Stefan, Jan Borkowski, Felicitas Ferder und Philipp David Heine. 2017. Probleme der Interpretation von Literatur. Ein Überblick. In: Literatur interpretieren: Interdisziplinäre Beiträge zur Theorie und Praxis, hg. von Jan Borkowski, Stefan Descher, Felicitas Ferder, und Philipp David Heine, 11–70. Münster: mentis.

Descher, Stefan und Thomas Petraschka. 2019. Argumentieren in der Literaturwissenschaft. Eine Einführung. Ditzingen: Reclam Verlag.

Ertel, Anna und Tilman Köppe. 2017. Meta-Fantastik – Ulrike Draesners Erzählung Rosakäfer. In: Funktionen der Fantastik. Neue Formen des Weltbezugs von Literatur und Film nach 1945, hg. von Sonja Klimek, Tobias Lambrecht, und Tom Kindt, 191–208. Heidelberg: Universitätsverlag Winter.

forTEXT. 2020. Tagset Interpretationstexte analysieren. Zenodo, 27. Juli. doi: 10.5281/zenodo.10519632, https://doi.org/10.5281/zenodo.10519632.

Frey, Christiane. 2003. Spiegelfechtereien mit dem Leser. Trügerische Ökonomien der Schrift in Kleists Michael Kohlhaas. In: Beiträge zur Kleist-Forschung, hg. von Lothar Jordan, 17:296–317. Stiftung Kleist-Museum.

Grewendorf, Günter. 1975. Argumentation und Interpretation. Wissenschaftstheoretische Untersuchungen am Beispiel germanistischer Lyrikinterpretationen. Kronberg (Ts): Scriptor Verlag.

Guarda, Sylvain. 2015. Kafkas Akademiebericht: Die auflösende ‚Ruhe‘ als lebendige Varieténummer. Seminar: A Journal of Germanic Studies 51, Nr. 3: 225–241.

Jacke, Janina. 2024. Methodenbeitrag: Manuelle Annotation. forTEXT Heft 1, Nr. 4. Manuelle Annotation (7. August). doi: 10.48694/fortext.3748, https://fortext.net/routinen/methoden/manuelle-annotation.

Knott, Alistair und Robert Dale. 1993. Using Linguistic Phenomena to Motivate a Set of Rhetorical Relations. Discourse Processes 18, Nr. 1: 1–40. doi: 10.1080/01638539409544883,.

Kocher, Ursula. 2017. Krankheit aus der Distanz. Alfred Döblins frühe Erzählungen als narrative Notate krankhafter Existenzen. DIEGESIS. Interdisziplinäres E-Journal für Erzählforschung / Interdisciplinary E-Journal for Narrative Research 6, Nr. 2: 91–106. http://elpub.bib.uni-wuppertal.de/servlets/DerivateServlet/Derivate-7288/dej17060206.pdf (zugegriffen: 1. Juli 2020).

Kuhn, Anna Katharina. 1981. Der Dialog bei Frank Wedekind. Untersuchungen zum Szenengespräch der Dramen bis 1900. Heidelberg: Winter.

Mochales Palau, Raquel und Marie-Francine Moens. 2009. Argumentation Mining: The Detection, Classification and Structure of Arguments in Text. In: Proceedings of the 12th International Conference on Artificial Intelligence and Law, 98–109. doi: 10.1145/1568234.1568246,.

Reinhardt, Hartmut. 1989. Apologie der Tragödie. Studien zur Dramatik Friedrich Hebbels. Tübingen: Max Niemeyer Verlag.

Schubarth, Caroline. 2011. Der Ausschluss aus der Gemeinschaft. Gewalt und Ethik in Kleists Michael Kohlhaas. In: Kleist. Relektüren, hg. von Branka Schaller-Fornoff, 45–62. Dresden: Thelem.

Schumacher, Mareike. 2024. Toolbeitrag: CATMA. forTEXT Heft 1, Nr. 4. Manuelle Annotation (7. August). doi: 10.48694/fortext.3761, https://fortext.net/tools/tools/catma.

Sengle, Friedrich. 1949. Wieland. Mit 23 montierten Bildern und Beilagen. Stuttgart: Metzler.

Sng, Zachary. 2007. Das Fehlläuten der Nachtglocke. Zu Kafkas Erzählung Ein Landarzt. In: Kafkas Institutionen, hg. von Arne Höcker und Oliver Simons, 213–233. Bielefeld: transcript Verlag.

Stab, Christian und Iryna Gurevych. 2014. Identifying Argumentative Discourse Structures in Persuasive Essays. In: Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 46–56. doi: 0.3115/v1/D14-1006,.

Toulmin, Stephen. 2003. The Uses of Argument. Updated Edition. Cambridge: Cambridge University Press.

van Eemeren, Frans H. und Rob Grootendorst. 2004. A Systematic Theory of Argumentation. The Pragma-Dialectical Approach. Cambridge (u.a.): Cambridge University Press.

von Jagow, Bettina. 2003. Ästhetik des Mythischen. Poetologien des Erinnerns im Werk von Ingeborg Bachmann. Köln (u.a.): Böhlau Verlag.

von Savigny, Eike. 1976. Argumentation in der Literaturwissenschaft. Wissenschaftstheoretische Untersuchungen zu Lyrikinterpretationen. München: Beck.