Problematik und Fragestellung

Fragestellung: Eignet sich eine Implementierung eines Parsers mit neuronalen Netzen für das Mittelhochdeutsche als historische Sprache?

Ausgangslage: Für eine syntaktische Annotation des Mittelhochdeutschen Wörterbuchs ist ein syntaktischer Parser notwendig. Bisher existiert aber nur ein regelbasierter Parser für das Mittelhochdeutsche (QuantQualParser), der bei einer historischen Sprache mit unregelmäßigen syntaktischen Strukturen schnell an seine Grenzen stößt. Eine Methodik mit neuronalen Netzen und buchstabenbasierten bidirektionalen LSTMs wird dagegen im Bereich des Natural Language Processing immer häufiger genutzt. Auch für historische Sprachen hat sich diese Methodik bereits bei dem RNNTagger (Schmid 2019)

Das Mittelhochdeutsche Wörterbuch

Das Mittelhochdeutsche Wörterbuch ist ein seit 1994 DFG-gefördertes Projekt, ab 2000 durch die Akademie der Wissenschaften und der Literatur Mainz, sowie der Akademie der Wissenschaften zu Göttingen finanziertes Wörterbuch, welches das Ziel hat, den gesamten Wortschatz des Mittelhochdeutschen aus den Jahren 1050 bis 1350 über ein Belegarchiv und Lemmalisten verfügbar zu machen.

Mittelhochdeutsches Wörterbuch

Bearbeitete Texte:

  • Nibelungenlied
  • Klassische mittelhochdeutsche Epik und Lyrik (Heinrich von Veldeke, Hartmann von Aue, Wolfram von Eschenbach, Gottfried von Straßburg, Walther von der Vogelweide u.a.)
  • Urkunden, Rechtsbücher, Chroniken und Sachtexte
  • Werke der deutschsprachigen Mystik (Meister Eckhart, Heinrich Seuse, Johannes Tauler)

Problematik

Das syntaktische Parsing des Textarchivs wäre vor allem für die noch andauernde Arbeit der Erfassung des Wörterbuchs wichtig, da am Anfang der Bearbeitung eines Lexems typischerweise eine Korpusrecherche im Textarchiv des Mittelhochdeutschen Wörterbuchs durchgeführt wird. So können Partner eines Lexems oder die belegten syntaktischen Konstruktionen nachgeschlagen werden.

Ziel:

  • Entwicklung eines syntaktischen Parsers der Texte des Textarchivs des Mittelhochdeutschen Wörterbuchs
  • Methodik: Neuronale Netze mit buchstabenbasierten bidirektionalen LSTMs