Textbasis

Gefördert von der Deutschen Forschungsgemeinschaft hat das Projekt DWDS von 2000 bis 2003 eine große Textbasis erstellt. Hierbei entstand das Kerncorpus, das erste zeitlich und nach Textsorten ausgewogene Textcorpus der deutschen Sprache des 20. Jahrhunderts. Seitdem wurden eine Reihe weiterer Corpora in das DWDS-Abfrageplattform eingebunden.

Alle Corpora (ausgenommen das DWDS-Ergänzungscorpus) sind lemmatisiert, mit Wortartinformationen versehen und mit einer linguistischen Suchmaschine abfragbar.

Das Ergebnis der Corpuserstellung sind folgende Corpora:

1. Allgemeine Corpora

1.1 DWDS-Kerncorpus

DWDS-Kerncorpus: zeitlich und nach Textsorten ausgewogenes Corpus des gesamten 20. Jahrhunderts.
Umfang: 100 Millionen Textwörter (tokens) in 79.830 Dokumenten.
Textgrundlage: Zur Bibliographischen Datenbank der Corpus-Texte.
Nutzungsvereinbarungen mit bislang 18 Verlagen.
annotiert gemäß XML/TEI.

... weitere Informationen

1.2 "Juilland-D"-Corpus

"Juilland-D"-Corpus: zeitlich und nach Textsorten ausgewogenes Corpus aus der Zeit von 1920-1939 nach den Vorgaben von Juilland.
Umfang: 500.000 Textwörter (tokens) in 392 Dokumenten.

... weitere Informationen

2. Spezialcorpora

2.1 Corpus Gesprochene Sprache

Corpus Gesprochene Sprache: Das Corpus Gesprochene Sprache umfasst Transkripte aus dem gesamten 20. Jahrhundert.
Umfang: 2,5 Millionen Textwörter (tokens) in 1500 Dokumenten.
Transkripte gesprochener Sprache aus dem Zeitraum 1900-2001.

... weitere Informationen

2.2 DDR-Corpus

DDR-Corpus: umfasst 1150 Texte aus der Zeit von 1949 bis 1990, die in der DDR erschienen sind, bzw. von DDR-Schriftstellern geschrieben und in der Bundesrepublik veröffentlicht wurden.
Umfang: 9 Millionen Textwörter (tokens) in 1150 Dokumenten.
Das DDR-Corpus wird in Zusammenarbeit mit der Humboldt-Universität zu Berlin weiter ausgebaut.

2.3 Corpus Jüdischer Periodika

Jüdische Periodika - entstand durch eine Kooperation mit dem Projekt Compactmemory.
Umfang: 50000 Seiten - 26.247.390 Textwörter.
Textgrundlage: 8 komplette Zeitschriften aus der Zeit von 1887 bis 1938, die seitengenau mit den Bildquellen verküpft sind.
Das Corpus wird in Zusammenarbeit mit dem Projekt Compactmemory weiter ausgebaut.

2.4 Corpus Anonymisierung von Eigennamen

Demonstrationscorpus zur Anonymisierung von Eigennamen.
Mit der Technik der Anonymisierung sollen urheberrechtlich geschützte Texte für sprachwissenschaftliche Forschung zugänglich gemacht werden: einerseits sind in dem Demonstrationscorpus Eigennamen nicht recherchierbar, damit wird die Konkurrenz zu kommerziellen Angeboten vermieden; andererseits sind die Ergebniskontexte vollständig, d.h. Eigennamen werden bei der Trefferanzeige angezeigt.

3. Zeitungscorpora

3.1 ZEIT-Corpus

ZEIT-Corpus: Das ZEIT-Corpus umfasst alle ZEIT-Ausgaben von 1996-2007, darüber hinaus 22 Ausgaben zwischen 1946 und 1988.
Umfang: 106 Millionen Textwörter (tokens) in mehr als 200.000 Artikeln.
Das ZEIT-Corpus wird täglich aktualisiert.

3.2 Corpus Berliner Zeitung

Corpus Berliner Zeitung: umfasst alle online erschienenen Artikel der Berliner Zeitung zwischen 3.1.1994 und 31.12.2005.
Umfang: 252 Millionen Textwörter (tokens) in 869.000 Artikeln.

3.3 Tagesspiegel-Corpus

Corpus Berliner Tagesspiegel: enthält alle online erschienenen Artikel zwischen 1996 und Juni 2005.
Umfang: 170 Millionen Textwörter (tokens) in 350.000 Artikeln.
Textgrundlage: alle online erschienenen Artikel des Berliner Tagesspiegels zwischen 1996 und Juni 2005.

3.4 Corpus der Potsdamer Neuesten Nachrichten

Corpus Potsdamer Neuesten Nachrichten: enthält alle online erschienenen Artikel zwischen 2003 und Juni 2005.
Umfang: ca. 15 Millionen Textwörtern (42.000 Artikel).
Textgrundlage: alle online erschienenen Artikel der Potsdamer Neuesten Nachrichten zwischen 2003 und Juni 2005.

3.5 DWDS-Ergänzungscorpus

Umfang: ca. 1 Milliarde laufender Textwörter zwischen 1990 und 2000.
opportunistisch (im wesentlichen neuere Zeitungstexte).
aus urheberrechtlichen Gründen nur intern verfügbar.