Wissenschaftliches Netzwerk" Empirische Erforschung internetbasierter Kommunikation"
Final Report Abstract
Im wissenschaftlichen Netzwerk „Empirische Erforschung internetbasierter Kommunikation“ haben fünfzehn Wissenschaftlerinnen und Wissenschaftler aus germanistischer Linguistik, Computerlinguistik, Informatik und Psychologie 2010–2014 offene Fragen im Bereich der theoretischen und methodischen Grundlagen bei der datengestützten Analyse des Sprachgebrauchs in Genres internetbasierter Kommunikation (IBK) bearbeitet. Dazu zählen die Kommunikation in Chats, Online-Foren, sozialen Netzwerken (Facebook, Wikipedia, Twitter), Weblogs, Instant-Messaging-Anwendungen sowie in multimodalen Kommunikationsumgebungen (Skype, MMORPGs, „virtuelle Welten“). Unter Einbeziehung variationslinguistischer, korpuslinguistischer, soziolinguistischer, kommunikationswissenschaftlicher sowie sprach- und texttechnologischer Perspektiven und Methoden wurden dabei Lösungsansätze für Problemstellungen erarbeitet, die sich gegenwärtig beim Aufbau, bei der Annotation und bei der computergestützten Analyse von Korpora internetbasierter Kommunikation stellen. Schwerpunkte der Arbeit lagen u. a. auf der linguistischen Beschreibung sprachlicher und kommunikativer Phänomene in IBK-Daten, auf Verfahren für die Erhebung und linguistische Annotation von IBK-Korpora sowie auf der Adaption von texttechnologischen Standards im Bereich der „Digital Humanities“ für die Repräsentation der sprachlichen und strukturellen Besonderheiten von IBK-Genres. Generell zeigte sich, dass beim Aufbau von IBK-Korpora eine Reihe von Besonderheiten zu berücksichtigen sind, die sich beim Aufbau von Text- und Gesprächskorpora nicht oder nicht in vergleichbarer Weise stellen und die aus den medialen und sprachlichen Besonderheiten internetbasierter Kommunikation resultieren. Konzepte und Verfahren, die sich für Text- und Gesprächskorpora bewährt haben, können daher nicht ohne Anpassung für den Aufbau von IBK-Korpora übernommen werden. Zu den Herausforderungen bei der Anpassung sprachtechnologischer Verfahren konnten im Netzwerk detaillierte Problemaufrisse und erste Lösungsansätze erarbeitet sowie Perspektiven formuliert werden, die in künftige Entwicklungsarbeiten an der Schnittstelle von Linguistik und Sprachtechnologie einfließen. Für die Annotation von IBK-Genres wurde ein Schema auf Basis der Formate der Text Encoding Initiative (TEI) entwickelt, das den Ausgangspunkt einer Standardisierungsinitiative unter Beteiligung verschiedener europäischer Korpusprojekte bildet. Die Schwerpunktthemen des Netzwerks wurden in insgesamt sieben Arbeitstagungen gemeinsam mit eingeladenen Expertinnen und Experten aus unterschiedlichen Disziplinen sowie einem breiten Kreis von Kolleginnen und Kollegen bearbeitet. Ausgangspunkt und Ziel der gemeinsamen Arbeit bildeten dabei jeweils Forschungsfragen in individuellen Forschungsprojekten der Beteiligten: An Datensets und Forschungsdesigns aus den Projekten wurden methodische Problemstellungen bei der empirischen Analyse internetbasierter Kommunikation thematisiert und exemplifiziert; die im Netzwerk diskutierten Lösungsansätze wurden anschließend wiederum in den Projekten erprobt und in Publikationen dokumentiert. Die Ergebnisse aus der Netzwerkarbeit wurden auf nationalen und internationalen Konferenzen vorgestellt und sind weiterhin in eine Reihe von Qualifikationsarbeiten (Dissertationen, Bachelorarbeiten) eingeflossen. Ergänzend zu den Arbeitstagungen wurden einzelne Themenkomplexe auch in weiteren wissenschaftlichen Workshops behandelt, die im Rahmen einschlägiger Fachtagungen oder als eigenständige Veranstaltungen organisiert wurden, um Fragestellungen und Ergebnisse aus der Netzwerkarbeit mit einer breiteren Fachöffentlichkeit zu diskutieren: Eine AG „Modellierung nichtstandardisierter Schriftlichkeit / Modeling Non-Standardized Writing“ bei der 35. Jahrestagung der Deutschen Gesellschaft für Sprachwissenschaft (DGfS) brachte Kolleginnen und Kollegen zusammen, die sich bezogen auf unterschiedliche Textgenres, Varietäten und Kommunikationsbereiche sowie unter linguistischer und computerlinguistischer Perspektive mit Fragen der korpusgestützten Modellierung sprachlicher Phänomene befassen, die von den Standards redigierter (Gegenwarts-)Schriftlichkeit abweichen. Ein Workshop im Rahmen der Internationalen Konferenz der Gesellschaft für Sprachtechnologie und Computerlinguistik (GSCL) behandelte an der Schnittstelle von Korpuslinguistik, Computerlinguistik und Informatik Fragen der automatischen Verarbeitung und Annotation von IBK-Daten. Ein internationaler Workshop an der TU Dortmund brachte Korpusprojekte zur internetbasierten Kommunikation in unterschiedlichen Sprachen (Deutsch, Englisch, Französisch, Italienisch, Niederländisch, Spanisch) zusammen und leistete eine Bestandsaufnahme von offenen Fragen und gegenwärtigen „best practices“ beim Aufbau von IBK-Korpora. Neben Ergebnissen, die in Forschungsprojekte eingeflossen und in den Publikationen der Netzwerkbeteiligten dokumentiert sind, hat das Netzwerk verschiedene einschlägige Initiativen auf den Weg gebracht, die über den Förderzeitraum hinaus die Entwicklung von Methoden und Standards für die korpusgestützte Erforschung internetbasierter Kommunikation weiter voranbringen werden: (i) ein Netzwerk europäischer Korpusprojekte, in dem Lösungsansätze für korpuslinguistische Fragen in Bezug auf IBK-Genres ausgetauscht und diskutiert werden; (ii) eine Special Interest Group im Rahmen der Text Encoding Initiative (TEI), in der ausgehend von Ergebnissen aus dem Netzwerk auf internationaler Ebene ein TEI-Standard für die Repräsentation von IBK-Korpora erabeitet wird; (iii) ein Projekt zur Vorbereitung einer Shared Task zur automatischen linguistischen Annotation internetbasierter Kommunikation, die in 2015 die Anpassung von Verfahren der automatischen Wortartenannotation (Part-of-Speech-Tagging) an die Besonderheiten deutschsprachiger IBK-Daten vorantreiben soll; (iv) einen GSCL-Arbeitskreis „Social Media / Internetbasierte Kommunikation“, in dem die Schwerpunktthemen des Netzwerks mit computerlinguistischem, sprach- und texttechnologischem Bezug verstetigt und in Form regelmäßiger Workshops weiter bearbeitet werden.
Publications
- (2011): Hypertextuelle Kommunikate. In: Sandro M. Moraldo (Hrsg.): Neue Sprachund Kommunikationsformen im WorldWideWeb. Bd. 2. Medialität, Hypertext, digitale Literatur, Rom: Aracne, 57−79
Jakobs, Eva-Maria
- (2012): A TEI Schema for the Representation of Computer-Mediated Communication. In: Journal of the Text Encoding Initiative 3
Beißwenger, Michael; Ermakova, Maria; Geyken, Alexander; Lemnitzer, Lothar; Storrer, Angelika
(See online at https://doi.org/10.4000/jtei.476) - (2013): Networked multilingualism: Some language practices on Facebook and their implications. International Journal of Bilingualism
Androutsopoulos, Jannis
(See online at https://doi.org/10.1177/1367006913489198) - (2013): NoSta-D: A Corpus of German Non-Standard Varieties. In: Zampieri, Marcos & Diwersy, Sascha (Hrsg.): Non-Standard Data Sources in Corpus-Based Research. Herzogenrath. Maastricht: Shaker Verlag, 69−76
Dipper, Stefanie; Lüdeling, Anke & Reznicek, Marc
- (2013): Scalable construction of high-quality web corpora. In: Journal for Language Technology and Computational Linguistics 28 (2), 23−60
Biemann, Chris; Bildhauer, Felix; Evert, Stefan; Goldhahn, Dirk; Quasthoff, Uwe; Schäfer, Roland; Simon, Johannes; Swiezinski, Leonard; Zesch, Torsten
- (2013): Sprache-in-Interaktion: Analysemethoden und Untersuchungsfelder. Berlin: de Gruyter (Linguistik – Impulse & Tendenzen 49)
Imo, Wolfgang