Information Extraction

Information Extraction - Lecture

Summary

Bei der Informationsextraktion (IE) geht es um die automatische Extraktion von Information aus Volltexten. Die Anwendungen erstrecken sich von der Unterstützung von Internet-Suchmaschinen bis hin zum automatischen Aufbau von Fachdatenbanken. Die Methoden reichen von der Analyse natürlicher Sprache über automatische Termerkennung bis zu automatischen Lernverfahren, wobei symbolische, statistische und hybride Methoden zum Einsatz kommen. Komplexe Informationsstrukturen können mit sogenannten Templates (Informationsmustern) repräsentiert werden. In der Veranstaltung werden verschiedene Anwendungen und Methoden für diverse Anwendungsdomänen betrachtet.

Inhalte:

In der Vorlesung wird zunächst der Begriff der Informationsextraktion in Abgrenzung zum Information Retrieval definiert. Dazu gehört auch, die Teilgebiete und Aufgaben der Informationsextraktion (IE) vorzustellen. Dabei wird konkret auf die einzelnen Probleme der IE eingegangen, bevor Ansätze und Verfahren zur Lösung dieser behandelt werden. Die Veranstaltungsteilnehmer werden lernen, wie die Architektur eines generischen IE-Systems aussieht, welche Komponenten es enthält, und auf welchen Ressourcen es aufbaut.

Lernziele:

Ziel ist es, die Probleme bei der automatischen Informationsextraktion aus Dokumenten zu verstehen und die notwendigen Komponenten und Ressourcen kennenzulernen.

Here is a link to the Seminar

Instructor

Alexander Fraser

Email Address: SubstituteMyLastName@cis.uni-muenchen.de

CIS, LMU Munich

DFG Project: Models of Morphosyntax for Statistical Machine Translation

Thanks to Gerhard Rolletschek for help in preparing the course.

Schedule

Room 165, Wednesdays, 16 to 18 (c.t.)

Date Topic Reading (DO BEFORE THE MEETING!) lecture slides

October 16th Introduction to Information Extraction slides

October 23rd History, Related Fields Read Sarawagi: Introduction (pages 1 to 21) slides (filename fixed)

October 30th Introduction to evaluation, Rule-based NER Read Sarawagi: Rule-based NER slides (updated)

November 6th More on learning rules for NER, evaluation, annotation Sarawagi: Statistical NER (you are not responsible for mathematical details) slides

November 13th IR vs. IE and introduction to classification-based NER No Reading slides

November 20th Cancelled

November 27th Cancelled

December 4th See the seminar page

December 11th Decision Trees (45 Minute Lecture) and one Referat (see the seminar page) No Reading slides (UPDATED: FULL 90 MINUTE SLIDE SET)

December 18th Relation Extraction (and before that, more on decision trees) Sarawagi: Relationship Extraction (Chapter 4) slides

January 8th See the seminar page

January 15th Open IE and Ontological IE No Reading slides

January 21st in 151 at 18:00 Review for Klausur (special time/date/location!)

January 22nd Extracting Multilingual Information No Reading slides

January 29th KLAUSUR: special location! Klausur: Geschw. Scholl Platz 1(a) - Zimmer A 119

April 2nd, 15:00 c.t.: NACHHOLKLAUSUR. Bitte anmelden in LSF Oettingenstr 67, Zimmer 057 (CHANGED, NEW!)

Literature:

Sunita Sarawagi. Information Extraction. Foundations and Trends in Databases, 1(3):261–377, 2008. Table of Contents

Date	Topic	Reading (DO BEFORE THE MEETING!)	lecture slides
October 16th	Introduction to Information Extraction		slides
October 23rd	History, Related Fields	Read Sarawagi: Introduction (pages 1 to 21)	slides (filename fixed)
October 30th	Introduction to evaluation, Rule-based NER	Read Sarawagi: Rule-based NER	slides (updated)
November 6th	More on learning rules for NER, evaluation, annotation	Sarawagi: Statistical NER (you are not responsible for mathematical details)	slides
November 13th	IR vs. IE and introduction to classification-based NER	No Reading	slides
November 20th	Cancelled
November 27th	Cancelled
December 4th	See the seminar page
December 11th	Decision Trees (45 Minute Lecture) and one Referat (see the seminar page)	No Reading	slides (UPDATED: FULL 90 MINUTE SLIDE SET)
December 18th	Relation Extraction (and before that, more on decision trees)	Sarawagi: Relationship Extraction (Chapter 4)	slides
January 8th	See the seminar page
January 15th	Open IE and Ontological IE	No Reading	slides
January 21st in 151 at 18:00	Review for Klausur (special time/date/location!)
January 22nd	Extracting Multilingual Information	No Reading	slides
January 29th KLAUSUR: special location!	Klausur: Geschw. Scholl Platz 1(a) - Zimmer A 119
April 2nd, 15:00 c.t.: NACHHOLKLAUSUR. Bitte anmelden in LSF	Oettingenstr 67, Zimmer 057 (CHANGED, NEW!)