CATMA, CLÉA & heureCLÉA
CATMA (Computer Aided Textual Markup and Analysis) ist eine intuitiv bedienbare Software für Text-MarkUp und Textanalyse. CATMA wird in einer Vielzahl von internationalen Projekten sowie in Lehrveranstaltungen eingesetzt; seine Verwendung verlangt keinerlei Vorkenntnisse und ermöglicht es damit auch Nicht-Fachleuten, standardkonforme (TEI/XML) und mit anderen Forschern austauschbare, nachhaltig nutzbare Textannotationen zu erarbeiten. Im CATMA-Projekt wurde diese frei erhältliche Software zunächst als Desktop-Applikation für PC und Mac OS entwickelt; mittlerweile ist CATMA eine reine Webapplikation und damit plattformunabhängig nutzbar.
Die Programmarchitektur von CATMA als einer integrierten Annotations- und Analysesoftware wurde 2008 von Malte Meister konzipiert. Unser Ziel war damals eigentlich die Portierung der seit den 1980er Jahren verwendeten DOS-Softwaresuite TACT (Textual Analysis Computing Tools), die John Bradley in Modula 2 programmiert hatte, in eine Windows-Umgebung. Es zeigte sich aber schnell, dass eine komplette Re-Implementierung notwendig war; sie wurde für den sog. ‘Analyzer’ von Malte in C++ und von Marco Petris für den ‘Tagger’ in JAVA umgesetzt, um so zwei verschiedene Ansätze miteinander vergleichen zu können. Ab der zweiten Version übernahm Marco dann die Gesamtentwicklung in JAVA, die erstmals mit dem Release von CATMA 3.0 umgesetzt wurde.
In dem anschließenden, zwei Mal mit einem Google Digital Humanities Award geförderten Projekt CLÉA haben wir sodann die erste komplett Browser-basierte Version CATMA 4.0 entwickelt, mit der direkt auf digitale Textsammlungen im Internet zugegriffen und kollaboratives Markup erstellt und ausgetauscht werden konnte.
In dem Anschlussprojekt heureCLÉA, das 2013-2016 vom BMBF gefördert wurde, haben wir mit dem Team des Heidelberger Informatikers Prof. Michael Gertz zusammengearbeitet. Kernidee dieses Gemeinschaftsprojektes war es, Texte mit erzähltechnischen Annotationen (sog. ‘narratologisches Markup’), die mit CATMA bearbeitet worden waren, als Trainingsmaterial für einen Machine Learning-Algorithmus zu verwenden. Dieser Algorithmus sollte dabei so trainiert werden, dass man mit ihm bestimmte erzähltechnische Phänomene in Texten automatisch identifizieren und so dem CATMA-Nutzer eine relevante Vorauswahl entsprechender Annotationen zur Auswahl anbieten kann – also eine heuristische “Such- und Finde”-Funktion, mit der die Arbeit des Annotators unterstützt wird. Der Prototyp eines solchen Algorithmus wurde dann erstmals 2017 in die Version CATMA 5.0 integriert.
Einen für die Weiterentwicklung von CATMA besonders wichtigen Impuls lieferte das Forschungsvorhaben “3DH”, das 2016-2019 in enger Kooperation mit Prof. Geoffrey Rockwell (University of Alberta) und Prof. Johanna Drucker (UCLA) durchgeführt wurde. Bei der ‘dritten Dimension’ denkt man bei Visualisierungen für gewöhnlich an den räumlichen Effekt, der komplexe Daten anschaulicher macht. Uns hingegen ging es um eine andere, zunehmend ignorierte dritte Dimension, die allen Datenvisualiserungen notwendig eingeschrieben ist: nämlich die der Selektivität, die bei der Auswahl und Akzentuierung bestimmter Datentypen und Datenreihen durch Visualisierungsalgorithmen technisch unumgänglich ist. Visualisierungen sind nie ‘objektiv’ – sie sind interessegeleitete Repräsentationen von Daten, die sich ihrerseits bei kritischer Betrachtung oft als nur relativ aussagefähige Meßwerte erweisen. Und so gesehen sind Daten-Visualisierungen vergleichbar mit Text-Annotationen – beides sind Interpretationskonstrukte. Was wäre nun, wenn man sowohl die ‘Gemachtheit’, ja mitunter gar die Subjektivität von Textannotationen wie die von Visualisierungen bei der Konzipierung und Verwendung der entsprechenden Softwaretools durchgehend transparent machen und halten könnte?
Für CATMA bedeutete dies, die Norm des sog. ‘inter annotator agreement’ als notwendiger Voraussetzung bei der Erstellung von Textannotationen endgültig aufzugeben – also statt der methodischen Leitidee der einen, für alle Annotatoren als verpflichtend geltenden ‘richtigen’ Annotation, die dann entsprechend von der Software als einzige in die entsprechende Datenbank aufgenommen wird, die Leitidee der Annotationsvielfalt und der Auswahl zu rücken. Tongue in cheek war damit der Slogan von der “undogmatischen Annotation” mit CATMA geboren. Und da wir ohnehin gerade dabei waren, das Interface unserer Webapplikation für die nächste Version komplett zu überarbeiten, schlug Johanna Drucker vor, unseren konzeptionell ‘undogmatischen’ Ansatz doch bitte auch im neuen CATMA-Logo zum Ausdruck zu bringen – und verpasste dem CATMA-Schriftzug auf der Stelle zwei Katzenohren auf dem ‘C’ und einen Schwanz am Ende: “Cats are as un-dog-matic as it can get, right?”
Dieser konzeptionelle Fokus wurde technologisch umgesetzt mit CATMA 6.0 (Release 2019). Mit dieser Version gab es nicht nur ein komplett neues graphisches Interface, sondern erstmals eine Projektmanagement-Funktion in Kombination mit einer GitLab-basierten Versionierungstechnologie.
Mit meinem Eintritt in den Ruhestand Anfang 2020 hat Prof. Evelyn Gius von der Technischen Universität Darmstadt die Projektleitung übernommen. CATMA hat damit nach zwölf Jahren eine neue institutionelle Heimat und doch zugleich eine neue Projektleiterin bekommen, die das “Kätzchen” als ehemalige Mitarbeiterin in meinem CATMA-Team bereits von Anfang an begleitet hat: besser geht’s nicht! Wie wichtig und positiv diese Amtsübergabe an Evelyn für CATMA gewesen ist, demonstriert die letzte, neueste Version CATMA 7.0, die Evelyn und ihr Team seit Ende Mai 2023 im Web zur Verfügung stellen – mit erheblich gesteigerter Performanz bei der kollaborativen Arbeit mit komplexen Text- und Annotationskorpora. Miau!
Weitere Informationen
zu CATMA, CLÉA und heureCLÉA
entnehmen Sie bitte der Projektwebsite.
CATMA & CLÉA Projektmitarbeiter 2008-2019 (grazie mille an mein Super-Team!):
Marco Petris, Dipl.Comp.Sc.; Janina Jacke, MA; Dr. Evelyn Gius