KiDKo: Haupt- und Ergänzungskorpus

 

Das KiDKo ist ein multimodales, digitales Korpus spontansprachlicher Gesprächsdaten aus informellen, mündlichen Peer-Group-Situationen in multi- und monoethnischen Sprechergemeinschaften.
Das Korpus wurde von 2008-2015 im Teilprojekt B6 (Leitung: Heike Wiese) des Sonderforschungsbereichs 632 "Informationsstruktur" an der Universität Potsdam erstellt.

Zitierhinweise

Heike Wiese, Ines Rehbein, Sören Schalowski, Ulrike Freywald & Katharina Mayr (2010ff): KiDKo - Ein Korpus spontaner Unterhaltungen unter Jugendlichen im multiethnischen und monoethnischen urbanen Raum

Datenerhebung

Spontansprachliche Daten jugendlicher Sprecher/innen aus Eigenaufnahmen: informelle, weitgehend auf Deutsch geführte Gespräche im Freundeskreis. 

Sprecher/innen

Schüler/innen der 9. Klasse, zum Erhebungszeitpunkt 14 - 17 Jahre alt; Erstkontakt über zwei Schulen, mit 84,4% (Berlin-Kreuzberg) bzw. 4,8% (Berlin-Hellersdorf) Schüler/inne/n "nicht-deutscher Herkunftssprache" (d.h. die Eltern haben auf einem Fragebogen der Schulverwaltung angegeben, dass die Sprache, die in der Familie vorwiegend gesprochen wird, nicht Deutsch ist) (s. auch Wiese et al. 2012). 

Detaillierte Informationen zu den Ankersprecher/inne/n findet man hier.

Zahlen zu den Anteilen der einzelnen Sprecher/innen am Korpus sind hier als Tabelle verfügbar.

Umfang

Hauptkorpus:~ 228.000 Token;
 17 Sprecher/innen (10 männlich, 7 weiblich)
Ergänzungskorpus:~ 105.000 Token; 
 6 Sprecher/innen (5 männlich, 1 weiblich)

Aufbereitung der Daten

(s. auch Rehbein, Schalowski & Wiese 2014)

Die Korpusdaten in KiDKo liegen in transkribierter sowie orthografisch normalisierter Form vor (z.T. als kommentierte Übersetzungen aus dem Türkischen). Die Transkripte sind mit den Audiodateien verknüpft und wurden anonymisiert und nach Wortarten annotiert (PoS-Tagging) (Rehbein & Schalowski 2013). Eine weitere Annotationsebene stellt Informationen zu syntaktischen Chunks und zu topologischen Feldern bereit.

Die Transkription der Sprachdaten folgt einer adaptierten Version des Gesprächsanalytischen Transkriptionssystems (GAT) nach Selting et al. (1998) und wurde im Transkriptionssystem EXMARaLDA (Extensible Markup Language for Discourse Annotation) (Schmidt & Wörner 2005) vorgenommen.

Jedem Transkript sind Metainformationen zu soziodemographischen Merkmalen und dem sprachlichen Hintergrund der Sprecher/innen zugeordnet (für alle Ankersprecher/innen: Geschlecht, Wohngebiet, Familiensprache).

Zugang zum Korpus:

Das Korpus ist online über ANNIS zugänglich. ANNIS ist eine Open-Source-Plattform, die browser-basierte Suchanfragen von linguistisch annotierten Korpora ermöglicht.

Um Zugang zum Korpus zu bekommen, füllen Sie bitte die Lizenz aus. Die Zugangsdaten werden Ihnen dann per E-Mail zugeschickt.

Aus rechtlichen Gründen können wir die Audiodaten leider nicht online zugänglich machen. Wir haben jedoch einen lokalen Arbeitsplatz an der Universität Potsdam eingerichtet, auf dem vor Ort mit den Daten gearbeitet werden kann. Bei Interesse kontaktieren Sie uns bitte und vereinbaren einen Termin (heike.wiese at uni-potsdam.de).

Das Korpus ist zum Durchlesen als PDF verfügbar. Aufgrund der Datenmenge ist das Teilkorpus KiDKo/Mu in fünf Dateien aufgeteilt: KiDKo/Mu_1 KiDKo/Mu_2 KiDKo/Mu_3 KiDKo/Mu_4 KiDKo/Mu_5 KiDKo/Mo

Informationen zur Arbeit mit KiDKo und ANNIS

Eine allgemeine Übersicht und erste Einführung mit Beispielen für Suchanfragen finden Sie hier .

Informationen zur Transkription und Normalisierung der Daten

STTS-Richtlinien (Stuttgart-Tübingen Tagset)

Übersicht über das STTS-POS-Inventar

Erweitertes POS-Tagset in KiDKo

Quickstart - Kurzeinführung in ANNIS und KiDKo

ANNIS User Guide

Literatur

Rehbein, I., Schalowski, S., and Wiese, H. (2014). The KiezDeutsch Korpus (KiDKo) Release 1.0.
In Proceedings of the 9th International Conference on Language Resources and Evaluation (LREC),
May 24-31, 2014. Reykjavik, Iceland.

Rehbein, I., and Schalowski, S. (2013). STTS goes Kiez ‐ Experiments on Annotating and Tagging Urban Youth Language. Journal for Language Technology and Computational Linguistics 28: 199-227 (Themenheft "Das STTS-Tagset für Wortartentagging - Stand und Perspektiven").

Selting, Margret; Auer, Peter; Barden, Birgit, Bergmann, Jörg; Couper-Kuhlen, Elizabeth; Günthner, Susanne; Meier, Christoph; Quasthoff, Uta; Schlobinski, Peter; Uhmann, Susanne (1998). Gesprächsanalytisches Transkriptionssystem (GAT). Linguistische Berichte 173: 91-122.

Wiese, Heike; Freywald, Ulrike; Schalowski, Sören, & Mayr, Katharina (2012). Das KiezDeutsch- Korpus. Spontansprachliche Daten Jugendlicher aus urbanen Wohngebieten. Deutsche Sprache 40:97-123.

Zeldes, A., Ritz, J., Lüdeling, A., and Chiarcos, C. (2009). Annis: A search tool for multi-layer annotated corpora.In Proceedings of Corpus Linguistics, July 20-23, 2009. Liverpool, UK.