Bei der Informationsextraktion (IE) geht es um die automatische Extraktion von Information aus Volltexten. Die Anwendungen erstrecken sich von der Unterstützung von Internet-Suchmaschinen bis hin zum automatischen Aufbau von Fachdatenbanken. Die Methoden reichen von der Analyse natürlicher Sprache über automatische Termerkennung bis zu automatischen Lernverfahren, wobei symbolische, statistische und hybride Methoden zum Einsatz kommen. Komplexe Informationsstrukturen können mit sogenannten Templates (Informationsmustern) repräsentiert werden. In der Veranstaltung werden verschiedene Anwendungen und Methoden für diverse Anwendungsdomänen betrachtet.
Inhalte:
In der Vorlesung wird zunächst der Begriff der Informationsextraktion in Abgrenzung zum Information Retrieval definiert. Dazu gehört auch, die Teilgebiete und Aufgaben der Informationsextraktion (IE) vorzustellen. Dabei wird konkret auf die einzelnen Probleme der IE eingegangen, bevor Ansätze und Verfahren zur Lösung dieser behandelt werden. Die Veranstaltungsteilnehmer werden lernen, wie die Architektur eines generischen IE-Systems aussieht, welche Komponenten es enthält, und auf welchen Ressourcen es aufbaut.
Lernziele:
Ziel ist es, die Probleme bei der automatischen Informationsextraktion aus Dokumenten zu verstehen und die notwendigen Komponenten und Ressourcen kennenzulernen.
Here is a link to the Seminar
Email Address: Put My Last Name Here @cis.uni-muenchen.de
Wednesdays, 16 to 18 (c.t.), Oettingenstr. 67 / BU 101
If this web page does not seem to be up to date, use the refresh button in your browser.
Date | Topic | Reading (BEFORE THE NEXT MEETING!) | Lecture slides | Video |
October 18th | Introduction to Information Extraction | Read Sarawagi: Introduction (pages 1 to 21) | pptx pdf | ws20 mp4 |
October 25th | History/Related Fields, Sources, Regular Classes | Read Sarawagi: Rule-based (Chapter 2) | pptx pdf | ws20 mp4 |
November 8th | Introduction to Evaluation, Rule-based NER | pptx pdf | ws20 mp4 | |
November 15th | More evaluation, IE Tasks, Annotation, Intro Classification-based NER | Read Sarawagi: Statistical Methods (Chapter 3) | pptx pdf | ws20 mp4 |
November 22nd | Decision Trees | pptx pdf | ws20 mp4 | |
November 29th | Linear Models | Read Sarawagi: Statistical Methods (Chapter 3), this time with the math | pptx pdf | ws20 mp4 |
December 13th | Neural Networks and Word Embeddings | ws20 mp4 | ||
December 20th | Cancelled | |||
January 10th | Neural Networks for NER, Viktor Hangya | ws20 mp4 | ||
January 17th | Relation Extraction | Read Sarawagi: Relationship Extraction | ws20 mp4 | |
Additional Slides, optional (Klausur, Bachelorarbeit, Event Extraction). Warning: klausur and BA dates are from WS 2022-2023 (Klausur is on 14.02) | ||||
January 24th | Open IE | ws20 mp4 | ||
January 31st | Review | ws20 mp4 | ||
February 7th | No Class (exam moved to Feb 14th by student request) | |||
February 14th | Exam (16:00 c.t., BU 101, as usual). Bring blank paper and your ID! The exam is *closed* book. |
Literature:
Sunita Sarawagi. Information Extraction. Foundations and Trends in Databases, 1(3):261–377, 2008. Table of Contents