Information Extraction - Seminar

Summary

Bei der Informationsextraktion (IE) geht es um die automatische Extraktion von Information aus Volltexten. Die Anwendungen erstrecken sich von der Unterstützung von Internet-Suchmaschinen bis hin zum automatischen Aufbau von Fachdatenbanken. Die Methoden reichen von der Analyse natürlicher Sprache über automatische Termerkennung bis zu automatischen Lernverfahren, wobei symbolische, statistische und hybride Methoden zum Einsatz kommen. Komplexe Informationsstrukturen können mit sogenannten Templates (Informationsmustern) repräsentiert werden. In der Veranstaltung werden verschiedene Anwendungen und Methoden für diverse Anwendungsdomänen betrachtet.

Inhalte:

Das Seminar behandelt Ansätze, Verfahren und Werkzeuge der Informationsextraktion und legt einen besonderen Fokus auf die Erkennung von Eigennamen und von domänen- bzw. fachspezifischer Information. Auch sollen Fragestellungen der Evaluation derartiger Verfahren diskutiert werden.

Lernziele:

Die Teilnehmer sollen lernen, wie sie Ressourcen für IE Systeme bewerten können. Außerdem sollen sie befähigt werden, dass sie bei der Entwicklung, beim Einsatz und bei der Bewertung von IE-Systemen mitwirken können.

Here is a link to the Lecture

Instructor

Alexander Fraser

Email Address: SubstituteMyLastName@cis.uni-muenchen.de

CIS, LMU Munich

DFG Project: Models of Morphosyntax for Statistical Machine Translation


Thanks to Gerhard Rolletschek for help in preparing the course.

Schedule

Thursdays, 10 to 12 (c.t.), ROOM CHANGE: 151

...
October 17th Information on Participants, Ungraded/Anonymous Quiz
October 24th Presentation of Referatsthemen slides
October 31st Ubung: civil rights timeline (regular expressions) assignment 1
November 7th Cancelled
November 14th Ubung: civil rights timeline (questions, Unix tools) civil_rights_solution.pl
python (just handles complicated lines with multiple dates for now)
further notes including on sort and grep
html input
November 21st Cancelled
November 28th Room/Time moved to 165, December 4th, 16:00 to 18:00


Referatsthemen (name: topic)


Date Topic Materials Hausarbeit Received
04.12 (VL) Symonenko: History of IE (Message Understanding Conferences, MUC) slides yes
04.12 (VL) Scholz: Focused Web Crawling slides yes
04.12 (VL) Siilivask: Rule-Based Named Entity Recognition of Regular Sets in Europarl DE/EN slides yes
05.12 Ari: Citation Parsing slides yes
11.12 (VL) Seifer/Vukobrad: Wrappers slides yes/yes
12.12 Schätz: Fine-grained Open Classes of Named Entities slides yes
12.12 Arends/Kaiser: Language Identification slides yes/yes
19.12 Rausch: Learning Rules for Named Entity Recognition slides yes
19.12 Hamberger: Crowd-sourcing with Amazon Mechanical Turk slides yes
19.12 Wulandari: Lightly Supervised Named Entity Recognition slides yes
08.01 (VL) Huttenloher: Hidden Markov Models for NER slides yes
08.01 (VL) Martin: Wikification, Annotating Text with Wikipedia Links slides yes
08.01 (VL) Badalova: GATE Rule-based Named Entity Recognition in Europarl EN slides yes
09.01 Meyer: Structured Perceptron for NER slides yes
09.01 Zengea: Distant Supervision for Named Entity Recognition slides yes
09.01 Elsässer: Named Entity Recognition in Twitter
15.01 (VL) Krkic/Still: Geographic Information Extraction slides yes/yes
16.01 Uvarov: Domain Adaptation
16.01 Schlegel: Biological Named Entity Recognition slides yes
16.01 Buchner: Extracting Sentiment
22.01 (VL) Länger/Schweter: Stanford Named Entity Recognition in Europarl DE/EN slides yes/yes
23.01 Kalasouskaya: Transliteration Mining slides yes
23.01 Hahn/Klotzeck: Stanford Coreference in Europarl EN slides yes/yes
30.01 Davletgareeva: Bilingual Terminology Mining slides yes
30.01 Lipay: Projecting Annotations to Another Language Via Aligned Corpora
30.01 Shevchuk: Applying opencalais.com to Europarl slides yes