Information Extraction

Information Extraction - Seminar

Summary

Bei der Informationsextraktion (IE) geht es um die automatische Extraktion von Information aus Volltexten. Die Anwendungen erstrecken sich von der Unterstützung von Internet-Suchmaschinen bis hin zum automatischen Aufbau von Fachdatenbanken. Die Methoden reichen von der Analyse natürlicher Sprache über automatische Termerkennung bis zu automatischen Lernverfahren, wobei symbolische, statistische und hybride Methoden zum Einsatz kommen. Komplexe Informationsstrukturen können mit sogenannten Templates (Informationsmustern) repräsentiert werden. In der Veranstaltung werden verschiedene Anwendungen und Methoden für diverse Anwendungsdomänen betrachtet.

Inhalte:

Das Seminar behandelt Ansätze, Verfahren und Werkzeuge der Informationsextraktion und legt einen besonderen Fokus auf die Erkennung von Eigennamen und von domänen- bzw. fachspezifischer Information. Auch sollen Fragestellungen der Evaluation derartiger Verfahren diskutiert werden.

Lernziele:

Die Teilnehmer sollen lernen, wie sie Ressourcen für IE Systeme bewerten können. Außerdem sollen sie befähigt werden, dass sie bei der Entwicklung, beim Einsatz und bei der Bewertung von IE-Systemen mitwirken können.

Here is a link to the Lecture

Instructor

Alexander Fraser

Email Address: SubstituteMyLastName@cis.uni-muenchen.de

CIS, LMU Munich

DFG Project: Models of Morphosyntax for Statistical Machine Translation

Thanks to Gerhard Rolletschek for help in preparing the course.

Schedule

Thursdays, 10 to 12 (c.t.), ROOM CHANGE: 151

...

October 17th Information on Participants, Ungraded/Anonymous Quiz

October 24th Presentation of Referatsthemen slides

October 31st Ubung: civil rights timeline (regular expressions) assignment 1

November 7th Cancelled

November 14th Ubung: civil rights timeline (questions, Unix tools) civil_rights_solution.pl
python (just handles complicated lines with multiple dates for now)
further notes including on sort and grep
html input

November 21st Cancelled

November 28th Room/Time moved to 165, December 4th, 16:00 to 18:00

Referatsthemen (name: topic)

Date Topic Materials Hausarbeit Received

04.12 (VL) Symonenko: History of IE (Message Understanding Conferences, MUC) slides yes

04.12 (VL) Scholz: Focused Web Crawling slides yes

04.12 (VL) Siilivask: Rule-Based Named Entity Recognition of Regular Sets in Europarl DE/EN slides yes

05.12 Ari: Citation Parsing slides yes

11.12 (VL) Seifer/Vukobrad: Wrappers slides yes/yes

12.12 Schätz: Fine-grained Open Classes of Named Entities slides yes

12.12 Arends/Kaiser: Language Identification slides yes/yes

19.12 Rausch: Learning Rules for Named Entity Recognition slides yes

19.12 Hamberger: Crowd-sourcing with Amazon Mechanical Turk slides yes

19.12 Wulandari: Lightly Supervised Named Entity Recognition slides yes

08.01 (VL) Huttenloher: Hidden Markov Models for NER slides yes

08.01 (VL) Martin: Wikification, Annotating Text with Wikipedia Links slides yes

08.01 (VL) Badalova: GATE Rule-based Named Entity Recognition in Europarl EN slides yes

09.01 Meyer: Structured Perceptron for NER slides yes

09.01 Zengea: Distant Supervision for Named Entity Recognition slides yes

09.01 ~~Elsässer: Named Entity Recognition in Twitter~~

15.01 (VL) Krkic/Still: Geographic Information Extraction slides yes/yes

16.01 Uvarov: Domain Adaptation

16.01 Schlegel: Biological Named Entity Recognition slides yes

16.01 ~~Buchner: Extracting Sentiment~~

22.01 (VL) Länger/Schweter: Stanford Named Entity Recognition in Europarl DE/EN slides yes/yes

23.01 Kalasouskaya: Transliteration Mining slides yes

23.01 Hahn/Klotzeck: Stanford Coreference in Europarl EN slides yes/yes

30.01 Davletgareeva: Bilingual Terminology Mining slides yes

30.01 Lipay: Projecting Annotations to Another Language Via Aligned Corpora

30.01 Shevchuk: Applying opencalais.com to Europarl slides yes

October 17th	Information on Participants, Ungraded/Anonymous Quiz
October 24th	Presentation of Referatsthemen	slides
October 31st	Ubung: civil rights timeline (regular expressions)	assignment 1
November 7th	Cancelled
November 14th	Ubung: civil rights timeline (questions, Unix tools)	civil_rights_solution.pl python (just handles complicated lines with multiple dates for now) further notes including on sort and grep html input
November 21st	Cancelled
November 28th	Room/Time moved to 165, December 4th, 16:00 to 18:00

Date	Topic	Materials	Hausarbeit Received
04.12 (VL)	Symonenko: History of IE (Message Understanding Conferences, MUC)	slides	yes
04.12 (VL)	Scholz: Focused Web Crawling	slides	yes
04.12 (VL)	Siilivask: Rule-Based Named Entity Recognition of Regular Sets in Europarl DE/EN	slides	yes
05.12	Ari: Citation Parsing	slides	yes
11.12 (VL)	Seifer/Vukobrad: Wrappers	slides	yes/yes
12.12	Schätz: Fine-grained Open Classes of Named Entities	slides	yes
12.12	Arends/Kaiser: Language Identification	slides	yes/yes
19.12	Rausch: Learning Rules for Named Entity Recognition	slides	yes
19.12	Hamberger: Crowd-sourcing with Amazon Mechanical Turk	slides	yes
19.12	Wulandari: Lightly Supervised Named Entity Recognition	slides	yes
08.01 (VL)	Huttenloher: Hidden Markov Models for NER	slides	yes
08.01 (VL)	Martin: Wikification, Annotating Text with Wikipedia Links	slides	yes
08.01 (VL)	Badalova: GATE Rule-based Named Entity Recognition in Europarl EN	slides	yes
09.01	Meyer: Structured Perceptron for NER	slides	yes
09.01	Zengea: Distant Supervision for Named Entity Recognition	slides	yes
09.01	~~Elsässer: Named Entity Recognition in Twitter~~
15.01 (VL)	Krkic/Still: Geographic Information Extraction	slides	yes/yes
16.01	Uvarov: Domain Adaptation
16.01	Schlegel: Biological Named Entity Recognition	slides	yes
16.01	~~Buchner: Extracting Sentiment~~
22.01 (VL)	Länger/Schweter: Stanford Named Entity Recognition in Europarl DE/EN	slides	yes/yes
23.01	Kalasouskaya: Transliteration Mining	slides	yes
23.01	Hahn/Klotzeck: Stanford Coreference in Europarl EN	slides	yes/yes
30.01	Davletgareeva: Bilingual Terminology Mining	slides	yes
30.01	Lipay: Projecting Annotations to Another Language Via Aligned Corpora
30.01	Shevchuk: Applying opencalais.com to Europarl	slides	yes