Eurostars-Projekt "Biographe"
Biographische Informationsextraktion zur Personensuche im Internet
TP: Grammatikimplementierung und lexikalische Analyse
- Projektlaufzeit: Januar 2010 bis August 2012
- Projektleitung: Prof. Dr. Franz Guenthner
- Förderprogramm: EUROSTARS
- Forschungsinitiative: EUREKA
- Projektträger: EUREKA/Cost-Büro im DLR für das Bundesministerium für Bildung und Forschung
- Rolle der LMU: Partner
- Höhe der Förderung: 127.350 EUR
- Ansprechpartner an der LMU: Dr. Michaela Geierhos
Gesamtziel des Vorhabens
Das wesentliche Ziel des Projekts BIOGRAPHE ist die Erstellung von sprachspezifischen Modulen im Bereich der Informationsextraktion. Unter Informationsextraktion versteht man die automatisierte Analyse von Dokumenten im Hinblick auf das Entdecken und Normalisieren von semantisch interessanten Entitäten und deren Eigenschaften. Die Ergebnisse von Informationsextraktionsprodzeduren sind für diverse Anwendungen im Informationsmanagement von besonderer Bedeutung: Hierzu gehören z.B. Suchmaschinen, Klassifikationssysteme, Datenbankerstellung usw.
Wissenschaftliche und technische Arbeitsziele des Vorhabens
Das Hauptgewicht der Arbeiten im Projekt BIOGRAPHE liegt auf sehr detaillierten und umfangreichen linguistischen Grammatiken im Bereich der Beschreibung von Personen und deren Beziehungen zu anderen relevanten Entitäten (z.B. Organisationen, Orte) in Texten.
Neben den öffentlichen und privaten Eigenschaften von Personen (Geburtsdatum, Nationalität usw.) sollen vor allem alle biographisch relevanten Attribute aus Texten extrahiert werden können. Dazu gehören in erster Linie beruflicher Werdegang, Anstellungsverhältnisse, Rollen in Firmen und ähnliche Eigenschaften. Da alle diese Attribute in unzählbar verschiedenen Formen ausgedrückt werden können, müssen sehr umfangreiche Lexika und sehr detaillierte grammatische Beschreibungen erstellt werden. Dies geschieht hauptsächlich bei der systematischen Evaluierung von Korpora. Je umfangreicher diese sind, desto adäquater werden die erstellten Grammatiken sein.