+49 351 463 32454
monika.luedtke@tu-dresden.de

1.356.113 Chatmessages

Community gewordene Invektivität

Ich bin sehr viele Jahre in einer der ältesten Gaming-Communities Deutschlands aktiv gewesen — dem “altehrwürdigen” Man!ac-Forum, welches heute (neben einer modernen Variante) immer noch auf der Frametechnologie basiert und so seine Anfänge in den späten 90er Jahren deutlich erkennen lässt. Technikaffine User wie die Man!acs nutzten auch schon immer parallel die Kommunikation via Chat und waren so bei allen Entwicklungen dabei (#IRC, ICQ, später auch SKYPE sowie noch etwas später WhatsApp usw.). Kennzeichen der Community war und ist, dass man nicht nur über Videospiele, sondern auch über Offtopic-Themen lang und breit diskutierte und diese Diskussionen nicht nur im Forum, sondern auch in Chats über diverse Messenger führte.

M!-Chats — eine Auswahl

Im Februar 2014 unternahmen einige User und ich den Versuch, die WhatsApp-Gruppen des Forums wiederzubeleben und eine Community mit sich sympathischen Usern aufzubauen, die nun auch zeitgemäßer und schneller miteinander diskutieren können sollten. Das war vor allem nötig, um sich unkompliziert zum Online-Gaming zu verabreden, während Live-Events (z.B. während die Pressekonferenzen der Electronic Entertainment Expo oder den ESC) zu kommentieren oder mitunter auch private Themen auszutauschen. Mit dem weltweiten Zusammenbruch von WhatsApp im Februar 2014 sahen wir uns nach einer Alternative um und entdeckten den relativ frischen Messenger Telegram für uns, der im Vergleich zu WhatsApp durch eine wesentlich bessere Funktionalität glänzte. So war die einmalige Chance gegeben, die Community mit einem Schlag umzuziehen und fortan WhatsApp für private (und berufliche) Kommunikation, Telegram für die Kommunikation unter Man!acs zu nutzen. Das ist nun mittlerweile über vier Jahre her und aus den Anfängen mit drei, vier privaten Gruppen ist mit im Moment über 70 Mitgliedern eine Community gewachsen, die die Kommunikationsgewohn- und -gepflogenheiten aus dem Man!ac an anderer Stelle erweitern und fortführen.

Chat-Export nach HTML

Ich weiß nicht, wie oft ich in dieser Zeit dachte, dass es doch für die linguistische Forschung großartig wäre, wenn man die Chatprotokolle exportieren könnte — hier bot WhatsApp zumindest eine rudimentäre Funktion an, die u.a. auch das Projekt “What’s Up, Deutschland?” (Projektwebsite ist nicht mehr aktiv) zu nutzen wusste.

Das änderte sich vor wenigen Tagen mit einem Schlag. Das neue Update von Telegram erlaubt den Export von (privaten!) Chats sowohl in HTML als auch JSON. Eingebettet sind geteilte Medien, Sprach- und Videonachrichten usw. Damit geht Telegram wieder einmal einen deutlichen Schritt nach vorn — einen ähnlichen Service bietet kein anderer Messenger. In den letzten Tagen habe ich mich mit diesen Daten ein wenig auseinandergesetzt. Ich wusste zwar, dass die Community äußerst aktiv ist, aber der tatsächliche Umfang der Chats hat mich dann doch sehr überrascht. Insgesamt konnte ich 1.356.113 Chatnachrichten exportieren und zusätzliche Daten im Umfang von 9,3 Gigabyte (vor allem geteilte Medien).

Chat-Export ins maschinenlesbare JSON-Format

Das ist wohl eines der größten zusammenhängenden (und noch weiter wachsenden) und homogenen Korpora einer Community, die sich zur Diskussion unterschiedlicher Themen in separaten Chatgruppen organisiert. Zu meiner großen Überraschung überzeugt der Export in HTML durch eine beeindruckende Qualität — der Chatverlauf wird faktisch komplett nachgebaut: Nachrichten sind aufeinander bezogen, Antworten markiert, Links sind funktionstüchtig, die für Telegram typischen Sticker sind eingebettet und auf Wunsch auch alle jemals geteilten Medien (z.B. PDFs). Der Export nach JSON setzt dem Ganzen noch die Krone auf. HTML ist zwar auch maschinenlesbar, JSON aber das prädestinierte Format z.B. auch für das Editieren in OXYGEN. Im Moment werden die Daten geprüft und für den Export in die Sketchengine vorbereitet, die wir seit Mai 2018 nutzen können. Auf den ersten Blick sieht es so aus, dass die Annotationsumgebung tadellos funktioniert und sehr gute Ergebnisse liefert.

KWIC-Ausgabe der Belegstellen für das Trigramm “ADV ADV ADV”

Anders als mit anderen Korpustools werden bspw. nicht nur Wortarten, sondern auch grammatische Kategorien (Person, Numerus, Genus, Kasus usw.) mit hoher (noch anzugebender) Genauigkeit erfasst. Ob und wie genau das gesamte Korpus analysiert werden kann, ist aber im Moment noch nicht geklärt. Die weitere Nutzung ist vorerst nicht durch die Öffentlichkeit und interessierte Wissenschaftler_innen freigegeben. Das hängt neben der Datenvalidierung auch und vor allem damit zusammen, dass die User der Chatgruppen ihr Einverständnis dafür geben müssen, dass die Daten für die wissenschaftliche Analyse anonymisiert genutzt werden dürfen.

Schreibe einen Kommentar