АННОТАЦИЯ ИЗДАТЕЛЯ:
1. Überblick
Ziel des an der Berlin-Brandenburgischen Akademie der Wissenschaften beheimateten Vorhabens ist die Schaffung eines „Digitalen Lexikalischen Systems" - einer umfassenden, jedem Benutzer über das Internet zugänglichen Datenbank, die Auskunft über den deutschen Wortschatz in Vergangenheit und Gegenwart gibt. Dazu wird eine Benutzeroberfläche geschaffen, die zum einen als „lexikographischer Arbeitsplatz" für die wissenschaftliche Analyse des deutschen Wortschatzes fungiert, zum anderen aber jedem Interessierten viele Suchmöglichkeiten eröffnet.
2. Ziele
Das Vorhaben hat zwei Hauptziele, die eng miteinander zusammenhängen:
Es soll das verfügbare lexikalische Wissen, wie es in den bisherigen großen Wörterbüchern seinen Niederschlag gefunden hat, zusammenführen und auf den neuesten Stand bringen.
Es soll ein Digitales Lexikalisches System entwickeln, das
Belege für die möglichen Verwendungen eines Wortes - aus gut erschlossenen Korpora - und eine wissenschaftlich verlässliche Beschreibung der verschiedenen Eigenschaften dieses Wortes miteinander verbindet,
sich jederzeit flexibel erweitern und korrigieren lässt, und
für viele - wissenschaftliche wie nichtwissenschaftliche - Zwecke nutzbar ist.
3. Grundlage
Wichtigster Ausgangspunkt sind die an der Berlin-Brandenburgischen Akademie der Wissenschaften (bzw. ihren Vorgängereinrichtungen) erarbeiteten Wörterbücher und Korpora.
Wörterbücher
Deutsches Wörterbuch (DWB1,DWB2). Das DWB1, von 1854 - 1960 in 32 Bänden veröffentlicht, umfasst etwa 330 000 Stichwörter. Eine digitale Version wurde am Trierer Kompetenzzentrum erstellt. Die Neubearbeitung der Buchstaben A-F, vor fast fünfzig Jahren gemeinsam von der Göttinger und der Berliner Akademie begonnen, soll im Jahre 2012 abgeschlossen sein.
Wörterbuch der deutschen Gegenwartssprache (WDG).
Etymologisches Wörterbuch des Deutschen (EtymWB). Das EtymWB wurde an der Akademie der Wissenschaften der DDR von einer Arbeitsgruppe unter Leitung von Wolfgang Pfeifer erstellt und 1989 in drei Bänden veröffentlicht. Im Jahre 1993 erschien eine Neubearbeitung, deren Digitalisierung abgeschlossen ist.
Textkorpora
Das ursprüngliche Textkorpus des DWDS wurde mit Unterstützung der Deutschen Forschungsgemeinschaft in den Jahren 2000-2003 erstellt; seither wird es kontinuierlich ausgebaut. Es setzt sich aus zwei großen Bestandteilen zusammen: dem kleineren, nach Textsorten ausgewogenen, öffentlich recherchierbaren Kernkorpus sowie dem im Wesentlichen aus neueren Zeitungsquellen gespeisten nur in Teilen öffentlich verfügbaren Ergänzungskorpus - Details zu den Referenzkorpora finden Sie hier, zu den Zeitungskorpora hier und zu den Spezialkorpora hier.
4. Computerlinguistische Erschließung und Anreicherung der Korpora
Alle Korpora sind gemäß den Standards der „Text Encoding Initiative" kodiert (xml/TEI-P5). Dies betrifft sowohl die Metadaten als auch das strukturelle Markup der Texte. Außerdem wurde die Kodierung auf Zeichenebene nach UTF-8 konvertiert.
Darüber hinaus wurden die Texte mit gängigen Methoden der Computerlinguistik linguistisch vorannotiert. Dies betrifft die Zerlegung der Texte in Sätze, der Sätze in Wörter(Tokens) sowie die morphologische Analyse der Tokens bzw. deren Zuordnung zu einer Wortart. Dadurch ist es beispielsweise möglich, die Vorkommen von modern - als Adjektiv oder Verb - und von aber - als Konjunktion oder Adverb - auseinanderzuhalten. Die Arbeiten zur linguistischen Erschließung der Texte haben darüber hinaus zur Entwicklung einer linguistischen Suchmaschine (DWDS/Dialing Concordancer, kurz: DDC) geführt, die mittlerweile frei verfügbar ist und auch über das DWDS hinaus im wissenschaftlichen (C4-Korpus) und kommerziellen Kontext (ZEIT Online) Verbreitung gefunden hat.
5. Webpräsenz
Seit Mitte 2004 sind die Wörterbücher und Korpora über diese Website verfügbar. Sie werden derzeit von 25.000 registrierten Benutzern aus ca. 150 Ländern verwendet. Die Website selber wird im Durchschnitt 150.000 Mal pro Tag aufgerufen (gemessen in „page impressions").
6. Laufende Arbeiten an den Wörterbüchern
Das DWDS-Wörterbuch: Als Ausgangsbasis des zukünftigen elektronischen Wörterbuchsystems wurde das zwischen 1962 und 1977 an der Akademie der Wissenschaften erarbeitete sechsbändige Wörterbuch der deutschen Gegenwartssprache (WDG) digitalisiert, strukturiert und als Wissensbasis aufbereitet. Die Unterteilung der Wörterbuchartikel in Informationsblöcke erhöht die Flexibilität bei der Anzeige bzw. dem Ausblenden einzelner Informationen. Die Übersichtlichkeit der Lesefreundlichkeit der Texte konnte so gegenüber der Printversion deutlich verbessert werden. Außerdem wurden aus der außerordentlich komplexen Struktur des ursprünglichen Wörterverzeichnisses alle Stichwörter extrahiert und sind nun separat abfragbar. Der Reichtum an lexikographischen Informationen, der sich im ursprünglichen Wörterbuch befindet, wird zudem durch zwei wichtige Angaben ergänzt: Ausspracheinformationen und Informationen zur Orthografie.
Über die Arbeiten am DWDS-Wörterbuch hinaus werden die digitalen Versionen der beiden anderen oben genannten Wörterbücher aufbereitet und in die DWDS-Website integriert. Die Arbeiten am Etymologischen Wörterbuch des Deutschen sind abgeschlossen, dieses Werk ist nunmehr in die DWDS-Website integriert.