Bei der Informationsextraktion (IE) geht es um die automatische Extraktion von Information aus Volltexten. Die Anwendungen erstrecken sich von der Unterstützung von Internet-Suchmaschinen bis hin zum automatischen Aufbau von Fachdatenbanken. Die Methoden reichen von der Analyse natürlicher Sprache über automatische Termerkennung bis zu automatischen Lernverfahren, wobei symbolische, statistische und hybride Methoden zum Einsatz kommen. Komplexe Informationsstrukturen können mit sogenannten Templates (Informationsmustern) repräsentiert werden. In der Veranstaltung werden verschiedene Anwendungen und Methoden für diverse Anwendungsdomänen betrachtet.
Inhalte:
In der Vorlesung wird zunächst der Begriff der Informationsextraktion in Abgrenzung zum Information Retrieval definiert. Dazu gehört auch, die Teilgebiete und Aufgaben der Informationsextraktion (IE) vorzustellen. Dabei wird konkret auf die einzelnen Probleme der IE eingegangen, bevor Ansätze und Verfahren zur Lösung dieser behandelt werden. Die Veranstaltungsteilnehmer werden lernen, wie die Architektur eines generischen IE-Systems aussieht, welche Komponenten es enthält, und auf welchen Ressourcen es aufbaut.
Lernziele:
Ziel ist es, die Probleme bei der automatischen Informationsextraktion aus Dokumenten zu verstehen und die notwendigen Komponenten und Ressourcen kennenzulernen.
Here is a link to the Seminar
Email Address: SubstituteMyLastName@cis.uni-muenchen.de
Tutor: Fabian Dreer
Email Address: SubstituteFabiansLastName@cip.ifi.lmu.de
Room B001, Wednesdays, 16 to 18 (c.t.)
Date | Topic | Reading (DO BEFORE THE MEETING!) | lecture slides |
October 14th | Introduction to Information Extraction | pptx pdf | |
October 21st | History/Related Fields, Sources, Regular Classes | Read Sarawagi: Introduction (pages 1 to 21) | pptx pdf |
October 28th | Introduction to Evaluation, Rule-based NER | Read Sarawagi: Rule-based | pptx pdf |
November 4th | More evaluation, IE Tasks, Annotation | pptx pdf | |
November 11th | IR vs. IE and introduction to classification-based NER | Read Sarawagi: Classification (Chapter 3) | pptx pdf |
November 11th/18th | Decision Trees | pptx pdf | |
November 18th/25th | Linear Models | pptx pdf | |
December 2nd | Relation Extraction | pptx pdf | |
December 9th | Event Extraction (and review of the Übung) | pptx pdf | |
December 16th | Ontological and Open IE | Read Sarawagi: Relationship Extraction | pptx pdf |
December 23rd | Sentiment Analysis | pptx pdf | |
January 13th | Machine Learning (Maximum Entropy) | pptx pdf | |
January 20th | Review | ||
January 27th | Klausur | ||
April 7th, 10:00am c.t. | Nachholklausur in C105 (CIS Besprechungsraum) |
Literature:
Sunita Sarawagi. Information Extraction. Foundations and Trends in Databases, 1(3):261–377, 2008. Table of Contents