Information Extraction - Seminar

Summary

Bei der Informationsextraktion (IE) geht es um die automatische Extraktion von Information aus Volltexten. Die Anwendungen erstrecken sich von der Unterstützung von Internet-Suchmaschinen bis hin zum automatischen Aufbau von Fachdatenbanken. Die Methoden reichen von der Analyse natürlicher Sprache über automatische Termerkennung bis zu automatischen Lernverfahren, wobei symbolische, statistische und hybride Methoden zum Einsatz kommen. Komplexe Informationsstrukturen können mit sogenannten Templates (Informationsmustern) repräsentiert werden. In der Veranstaltung werden verschiedene Anwendungen und Methoden für diverse Anwendungsdomänen betrachtet.

Inhalte:

Das Seminar behandelt Ansätze, Verfahren und Werkzeuge der Informationsextraktion und legt einen besonderen Fokus auf die Erkennung von Eigennamen und von domänen- bzw. fachspezifischer Information. Auch sollen Fragestellungen der Evaluation derartiger Verfahren diskutiert werden.

Lernziele:

Die Teilnehmer sollen lernen, wie sie Ressourcen für IE Systeme bewerten können. Außerdem sollen sie befähigt werden, dass sie bei der Entwicklung, beim Einsatz und bei der Bewertung von IE-Systemen mitwirken können.

Here is a link to the Lecture

Instructor

Alexander Fraser

Email Address: SubstituteMyLastName@cis.uni-muenchen.de

CIS, LMU Munich

DFG Project: Models of Morphosyntax for Statistical Machine Translation


Schedule

There are *two separate seminars*. You EITHER go on Wednesdays, OR you go on Thursdays, NOT BOTH!

Wed: 12:00 c.t., Room U127

Thurs: 10:00 c.t., Room 057


IMPORTANT NOTICE: Seminars on Jan 21st and 22nd in *Gobi Computerlabor* (Vorlesung is in the usual room)

If this web page does not seem to be up to date, use the refresh button in your browser.
October 9th and October 15th Information on Participants, Ungraded/Anonymous Quiz
October 22nd/23rd Referatsthemen will be presented, with registration for topics October 23rd at 19:00 by email slides
October 29th/30th African-American Civil Rights Exercise files
November 26th/27th Machine Learning Exercise assignment CMU Seminars dataset tar file(UPDATED AGAIN) run_binary_train_test.sh(UPDATED) unigram_bigram_pattern.txt(NOW WITH COMMENTS) wapiti
Jan 21st/22nd Machine Learning - sequence tagging with CRFs (see above, you will need the files we used before and also to be able to run run_seq_train_test.sh as detailed in the second part of the assignment)



WESNESDAY Referatsthemen (name: topic)


Date Topic Materials Hausarbeit Received
Nov 5 Sauermann: History of IE: ACE slides yes
Nov 5 Dreer: Focused Web Crawling slides yes
Nov 12 Tamada: Wrappers slides yes
Nov 12 Uvarov: Fine-Grained Classes for NER slides yes
Nov 19 Conforti: Rule-Based Parsing of Resumes slides yes
Nov 19 Muroya: Crowd-Sourcing for NER with AMT slides yes
Dec 3 Berlanda: Lightly Supervised NER slides yes
Dec 3 Hermann: NER Historical Texts slides yes
Dec 10 Neuburg: Rule-based vs. Statistical IE slides yes
Dec 10 Weber: Stanford NER slides yes
Dec 17 Hochleitner: Crossword Puzzles slides yes
Jan 7 Huber: Cross-Lingual Sentiment Analysis slides yes
Jan 7 Sekhleyan: Bio slides yes
Jan 14 Sedinkina: Interactive Question Answering slides yes




THURSDAY Referatsthemen (name: topic)


Date Topic Materials Hausarbeit Received
Nov 6 Lipay: History of IE: ACE slides yes
Nov 6 Teplynska: Focused Web Crawling slides yes
Nov 13 Bregu: Wrappers slides yes
Nov 13 Handelshauser: Fine-Grained Classes for NER slides yes
Nov 20 Bies: Rule-Based Parsing of Resumes slides yes
Nov 20 Gontar: Crowd-Sourcing for NER with AMT slides yes
Dec 4 Baatarkhuu: Lightly Supervised NER slides yes
Dec 4 Palchik: Rule-based vs. Statistical IE slides yes
Dec 11 Wurst: IE in the Enterprise slides yes
Dec 11 Franzelin: Stanford NER slides yes
Dec 18 Capsamun: Domain Adaptation slides yes
Dec 18 Saller: Twitter slides yes
Jan 8 Pötzl: Bio slides yes
Jan 8 Hirzel: IE Disasters Social Media slides yes
Jan 15 Zambito: Stanford CoRef for Open Subtitles slides yes