Toolbeitrag

Toolbeitrag: Poemage

Author:

Abstract

Keywords: Gedichtanalyse, Lyrik, Visualisierung, Close Reading, Raum

How to Cite: Horstmann, J. (2024) “Toolbeitrag: Poemage”, forTEXT. 1(5). doi: https://doi.org/10.48694/fortext.3778

Erstveröffentlichung: 23.09.2019 auf fortext.net

Der Workflow von Poemage: TXT-Datei eines englischen Gedichts dem „Poems“-Ordner hinzufügen, im dreiteiligen Poemage-Interface auswählen und die verschiedenen Kategorien der Klangstrukturen visuell explorieren; zur Dokumentation ausgewählter Ansichten erstellen Sie Screenshots

1. Für welche Fragestellungen kann Poemage eingesetzt werden?

Mit Poemage lassen sich klangliche Strukturen von englischsprachigen Gedichten mit visueller Unterstützung untersuchen. Anders als der Rhytmicalizer, der die Audiodateien der Gedichte von Lyrikline (Horstmann 2024) untersucht, funktioniert die phonetische Analyse bei Poemage auf Basis textsprachlicher Informationen und kann damit auf jedes Gedicht angewendet werden – bislang jedoch nur in englischer Sprache. Durch die visuelle Exploration klanglicher Strukturen können Fragen nach phonetischen Mustern und Zusammenhängen z. B. von Rhythmen, Assonanzen und Alliterationen etc. in Gedichten im Zuge eines Close Readings (vgl. Close Reading) entdeckt und untersucht werden. Poemage unterstützt visuell Prozesse der Exploration und Hypothesenbildung und ist nicht darauf ausgelegt, Visualisierungen zu produzieren, die das festgeschriebene Ergebnis eines Forschungsprozesses darstellen.

2. Welche Funktionalitäten bietet Poemage und wie zuverlässig ist das Tool?

Funktionen (Auswahl):

Zuverlässigkeit: Poemage ist ein einfach zu installierendes Programm, das lokal auf Ihrem Rechner läuft (eine webbasierte Anwendung soll demnächst erscheinen). Das Hinzufügen von Gedichten im TXT-Format ist simpel und funktioniert einwandfrei. Die drei Views des Interfaces beziehen sich funktional aufeinander, d. h. eine Aktion bspw. im Set View verändert die Anzeigen in den beiden anderen Panels und auch das Hovern etwa im Poem View (bei aktivierter hover word-Funktion) verändert die Anzeigen im ersten und dritten Panel. Das Tool basiert auf einem bereits dem Tool RhymeDesign (McCurdy, Srikumar und Meyer 2015) zugrunde liegenden System zur automatischen Erkennung (vgl. Text Mining) klanglicher Strukturen jenseits konventionalisierter Endreime.

3. Ist Poemage für DH-Einsteiger*innen geeignet?

Checkliste ✓ / teilweise / –
Methodische Nähe zur traditionellen Literaturwissenschaft teilweise
Grafische Benutzeroberfläche
Intuitive Bedienbarkeit
Leichter Einstieg
Handbuch vorhanden
Handbuch aktuell
Tutorials vorhanden teilweise
Erklärung von Fachbegriffen
Gibt es eine gute Nutzerbetreuung?

Methodisch geht Poemage auf die Regeln der freien Versanalyse zurück, erweitert diese jedoch nicht unerheblich durch automatische Funktionen und die Herstellung von Überblicksdarstellungen auf Knopfdruck. Das GUI von Poemage wurde in einer Kooperation von Lyrikexpert*innen und Designer*innen entwickelt und ist damit nicht nur sehr übersichtlich gestaltet und intuitiv bedienbar, sondern orientiert sich an den Wünschen von Literaturwissenschaftler*innen. Ein kurzes und prägnant formuliertes README (das beim Download als Datei enthalten ist) enthält Tipps zur etwaigen Fehlerbehebung, Anleitungen zum Dateiupload und Beschreibungen der einzelnen Panels und Funktionsbereiche des Interfaces. Ein auf der Webseite von Poemage eingebettetes Video eines Vortrags kann als Einstieg und Tutorialersatz angesehen werden. Die einzelnen, oft nicht intuitiv verständlichen Fachbegriffe, insbesondere im Set View, werden im Interface allerdings nicht erläutert. Eine Beschreibung der einzelnen Funktionen mit Beispielen findet sich jedoch in McCurdy u. a. (2016, 443).

4. Wie etabliert ist Poemage in den (Literatur-)Wissenschaften?

Poemage wird bislang vor allem innerhalb der Visualisierungs-Community besprochen (s. weiterführende Literatur unten), sodass der Eindruck entstehen könnte, es sei vor allem hinsichtlich der zum Einsatz kommenden Visualisierungsstrategien interessant. Der literaturwissenschaftliche Mehrwert ist bislang zumindest in Publikationsform nicht nachgewiesen. Ein Grund dafür könnte sein, dass mit dem Tool vor allem Prozesse der Exploration und Hypothesenbildung unterstützt werden. Eine literaturwissenschaftlich orientierte Reflexion des Systems wäre wünschenswert, steht derzeit aber noch aus.

5. Unterstützt Poemage kollaboratives Arbeiten?

Nein, die Desktopapplikation ist für die Einzelarbeit ausgerichtet.

6. Sind meine Daten bei Poemage sicher?

Ja. Es müssen keine personenbezogenen Daten angegeben werden. Nach Download des Tools kann man es direkt öffnen und anwenden. Ebenso müssen Sie Ihre Texte nur dem toolinternen Ordner „Poems“ hinzufügen, um sie in Poemage nutzen zu können. Ein Upload findet demnach nicht statt, sodass Sie auch urheberrechtlich geschützte Daten bearbeiten können.

Externe und weiterführende Links

Glossar

Annotation

Annotation beschreibt die manuelle oder automatische Hinzufügung von Zusatzinformationen zu einem Text. Die manuelle Annotation wird händisch durchgeführt, während die (teil-)automatisierte Annotation durch Machine-Learning-Verfahren durchgeführt wird. Ein klassisches Beispiel ist das automatisierte PoS-Tagging (Part-of-Speech-Tagging), welches oftmals als Grundlage (Preprocessing) für weitere Analysen wie Named Entity Recognition (NER) nötig ist. Annotationen können zudem deskriptiv oder analytisch sein.

Browser

Mit Browser ist in der Regel ein Webbrowser gemeint, also ein Computerprogramm, mit dem das Anschauen, Navigieren auf, und Interagieren mit Webseiten möglich wird. Am häufigsten genutzt werden dafür Chrome, Firefox, Safari oder der Internet Explorer.

Close Reading

Close Reading bezeichnet die sorgfältige Lektüre und Interpretation eines einzelnen oder weniger Texte. Close Reading ist in der digitalen Literaturwissenschaft außerdem mit der manuellen Annotation textueller Phänomene verbunden (vgl. auch Distant Reading als Gegenbegriff).

Commandline

Die Commandline (engl. command line interface (CLI)), auch Kommandozeile, Konsole, Terminal oder Eingabeaufforderung genannt, ist die direkteste Methode zur Interaktion eines Menschen mit einem Computer. Programme ohne eine grafische Benutzeroberfläche (GUI) werden i. d. R. durch Texteingabe in die Commandline gesteuert. Um die Commandline zu öffnen, klicken Sie auf Ihrem Mac „cmd“ + „space“, geben „Terminal“ ein und doppelklicken auf das Suchergebnis. Bei Windows klicken Sie die Windowstaste + „R“, geben „cmd.exe“ ein und klicken Enter.

CSV

CSV ist die englische Abkürzung für Comma Separated Values. Es handelt sich um ein Dateiformat zur einheitlichen Darstellung und Speicherung von einfach strukturierten Daten mit dem Kürzel .csv , sodass diese problemlos zwischen IT-Systemen ausgetauscht werden können. Dabei sind alle Daten zeilenweise angeordnet. Alle Zeilen wiederum sind in einzelne Datenfelder aufgeteilt, welche durch Trennzeichen wie Semikola oder Kommata getrennt werden können. In Programmen wie Excel können solche Textdateien als Tabelle angezeigt werden.

Data Mining

Data Mining gehört zum Fachbereich Information Retrieval und bezieht sich auf die systematische Anwendung computergestützter Methoden, die darauf abzielt, in vorhandenen Datenbeständen Muster, Trends oder Zusammenhänge zu erkennen. Textbasierte Formen des Data Minings sind u. a. Text Mining, Web Mining und Opinion Mining.

Distant Reading

Distant Reading ist ein Ansatz aus den digitalen Literaturwissenschaften, bei dem computationelle Verfahren auf häufig große Mengen an Textdaten angewandt werden, ohne dass die Texte selber gelesen werden. Meist stehen hier quantitative Analysen im Vordergrund, es lassen sich jedoch auch qualitative Metadaten quantitativ vergleichen. Als Gegenbegriff zu Close Reading wurde der Begriff insbesondere von Franco Moretti (2000) geprägt.

GUI

GUI steht für Graphical User Interface und bezeichnet eine grafische Benutzeroberfläche. Ein GUI ermöglicht es, Tools mithilfe von grafischen Schaltflächen zu bedienen, um somit beispielsweise den Umgang mit der Commandline zu umgehen.

HTML

HTML steht für Hypertext Markup Language und ist eine textbasierte Auszeichnungssprache zur Strukturierung elektronischer Dokumente. HTML-Dokumente werden von Webbrowsern dargestellt und geben die Struktur und Online-Darstellung eines Textes vor. HTML-Dateien können außerdem zusätzliche Metainformationen enthalten, die auf einer Webseite selbst nicht ersichtlich sind.

Information Retrieval

Die Teildisziplin der Informatik, das Information Retrieval, beschäftigt sich mit der computergestützten Suche und Erschließung komplexer Informationen in meist unstrukturierten Datensammlungen.

Lemmatisieren

Die Lemmatisierung von Textdaten gehört zu den wichtigen Preprocessing-Schritten in der Textverarbeitung. Dabei werden alle Wörter (Token) eines Textes auf ihre Grundform zurückgeführt. So werden beispielsweise Flexionsformen wie „schneller“ und „schnelle“ dem Lemma „schnell“ zugeordnet.

Machine Learning

Machine Learning, bzw. maschinelles Lernen im Deutschen, ist ein Teilbereich der künstlichen Intelligenz. Auf Grundlage möglichst vieler (Text-)Daten erkennt und erlernt ein Computer die häufig sehr komplexen Muster und Gesetzmäßigkeiten bestimmter Phänomene. Daraufhin können die aus den Daten gewonnen Erkenntnisse verallgemeinert werden und für neue Problemlösungen oder für die Analyse von bisher unbekannten Daten verwendet werden.

Markup Language

Markup Language bezeichnet eine maschinenlesbare Auszeichnungssprache, wie z. B. HTML, zur Formatierung und Gliederung von Texten und anderen Daten. So werden beispielsweise auch Annotationen durch ihre Digitalisierung oder ihre digitale Erstellung zu Markup, indem sie den Inhalt eines Dokumentes strukturieren.

Metadaten

Metadaten oder Metainformationen sind strukturierte Daten, die andere Daten beschreiben. Dabei kann zwischen administrativen (z. B. Zugriffsrechte, Lizenzierung), deskriptiven (z. B. Textsorte), strukturellen (z. B. Absätze oder Kapitel eines Textes) und technischen (z. B. digitale Auflösung, Material) Metadaten unterschieden werden. Auch Annotationen bzw. Markup sind Metadaten, da sie Daten/Informationen sind, die den eigentlichen Textdaten hinzugefügt werden und Informationen über die Merkmale der beschriebenen Daten liefern.

N-Gramm

Unter N-Gramm versteht man in der Linguistik eine Sequenz von N aufeinanderfolgenden Fragmenten/Einheiten in einem Text. So gibt es beispielsweise Bigramme, Trigramme etc. Diese Fragmente können Buchstaben oder Phoneme sein. Der Satz „Marie erforscht Literatur digital“ kann zum Beispiel folgendermaßen in Bigramme, drei wortbasierte N-gramme mit je zwei Wörtern, aufgeteilt werden: „Marie erforscht“, „erforscht Literatur“ und „Literatur digital“.

Named Entities

Eine Named Entity (NE) ist eine Entität, oft ein Eigenname, die meist in Form einer Nominalphrase zu identifizieren ist. Named Entities können beispielsweise Personen wie „Nils Holgerson“, Organisationen wie „WHO“ oder Orte wie „New York“ sein. Named Entities können durch das Verfahren der Named Entity Recognition (NER) automatisiert ermittelt werden.

Opinion Mininig

Unter Opinion Mining, oder Sentiment Analysis, versteht man die Analyse von Stimmungen oder Haltungen gegenüber einem Thema, durch die Analyse natürlicher Sprache. Das Opinion Mining gehört zu den Verfahren des Text Minings.

POS

PoS steht für Part of Speech , oder „Wortart“ auf Deutsch. Das PoS- Tagging beschreibt die (automatische) Erfassung und Kennzeichnung von Wortarten in einem Text und ist of ein wichtiger Preprocessing-Schritt, beispielsweise für die Analyse von Named Entities.

Preprocessing

Für viele digitale Methoden müssen die zu analysierenden Texte vorab „bereinigt“ oder „vorbereitet“ werden. Für statistische Zwecke werden Texte bspw. häufig in gleich große Segmente unterteilt (chunking), Großbuchstaben werden in Kleinbuchstaben verwandelt oder Wörter werden lemmatisiert.

Reintext-Version

Die Reintext-Version ist die Version eines digitalen Textes oder einer Tabelle, in der keinerlei Formatierungen (Kursivierung, Metadatenauszeichnung etc.) enthalten sind. Reintext-Formate sind beispielsweise TXT, RTF und CSV.

Text Mining

Das Text Mining ist eine textbasierte Form des Data Minings. Prozesse & Methoden, computergestützt und automatisch Informationen bzw. Wissen aus unstrukturierten Textdaten zu extrahieren, werden als Text Mining zusammengefasst.

Type/Token

Das Begriffspaar „Type/Token“ wird grundsätzlich zur Unterscheidung von einzelnen Vorkommnissen (Token) und Typen (Types) von Wörtern oder Äußerungen in Texten genutzt. Ein Token ist also ein konkretes Exemplar eines bestimmten Typs, während ein Typ eine im Prinzip unbegrenzte Menge von Exemplaren (Token) umfasst. Es gibt allerdings etwas divergierende Definitionen zur Type-Token-Unterscheidung. Eine präzise Definition ist daher immer erstrebenswert. Der Satz „Ein Bär ist ein Bär.“ beinhaltet beispielsweise fünf Worttoken („Ein“, „Bär“, „ist“, „ein“, „Bär“) und drei Types, nämlich: „ein“, „Bär“, „ist“. Allerdings könnten auch vier Types, „Ein“, „ein“, „Bär“ und „ist“, als solche identifiziert werden, wenn Großbuchstaben beachtet werden.

Web Mining

Unter Web Mining versteht man die Anwendung von Techniken des Data Mining zur Extraktion von Informationen aus dem World Wide Web. Das Web Mining ist ein Teilbereich des Data Minings und zählt zu einem der wichtigsten Anwendungsgebiete für das Text Mining.

Webanwendung

Eine webbasierte Anwendung ist ein Anwendungsprogramm, welches eine Webseite als Schnittstelle oder Front-End verwendet. Im Gegensatz zu klassischen Desktopanwendungen werden diese nicht lokal auf dem Rechner der Nutzer*innen installiert, sondern können von jedem Computer über einen Webbrowser „online“ genutzt werden. Webanwendungen erfordern daher kein spezielles Betriebssystem.

Bibliographie

Coles, Katharine. 2014. Slippage, Spillage, Pillage, Bliss: Close Reading, Uncertainty, and Machines. Western Humanities Review 68: 57–83. http://www.sci.utah.edu/~nmccurdy/Poemage/images/20150224154447411.pdf (zugegriffen: 18. September 2019).

Horstmann, Jan. 2024. Ressourcenbeitrag: Lyrikline. Hg. von Evelyn Gius. forTEXT Heft 1, Nr. 2. Korpusbildung (12. Juni). doi: 10.48694/fortext.3814, https://fortext.net/ressourcen/textsammlungen/lyrikline.

Lein, Julie. 2014. Sounding the Surfaces: Computers, Context, and Poetic Consequence. Western Humanities Review 68, Nr. 3: 84–109. http://www.sci.utah.edu/~nmccurdy/Poemage/images/20150224154622013.pdf (zugegriffen: 18. September 2019).

Lein, Julie, Nina McCurdy und Amanda Hurtado. 2018. Deep in Poetry: Visualizing Texts’ Sonic Depths in 3D. Leonardo: International Journal of Contemporary Visual Artists 51, Nr. 1: 80–82. doi: 10.1162/LEON_a_01415,.

McCurdy, Nina, Julie Lein, Katharine Coles und Miriah Meyer. 2016. Poemage: Visualizing the Sonic Topology of a Poem. IEEE Transactions on Visualization and Computer Graphics 22, Nr. 1: 439–448. doi: 10.1109/TVCG.2015.2467811,.

McCurdy, Nina, Vivek Srikumar und Miriah Meyer. 2015. Rhymedesign: A Tool for Analyzing Sonic Devices in Poetry. In: Proceedings of the Fourth Workshop on Computational Linguistics for Literature, 12–22. Denver, Colorado, USA: Association for Computational Linguistics. doi: 10.3115/v1/W15-0702, https://www.aclweb.org/anthology/W15-0702.pdf (zugegriffen: 18. September 2019).