PDF2Story
PDF-Seitenanalyse für eReader Ausgaben
- Projektleitung: Prof. Dr. Franz Guenthner, Dr. Christian Bauer
- Förderprogramm: Informations- und Kommunikationstechnik
- Projektträger: VDI/VDE-IT für das Bayerische Staatsministerium für Wirtschaft, Infrastruktur, Verkehr und Technologie (StMWIVT)
- Rolle der LMU: Partner
- Ansprechpartner an der LMU: Dr. Christian Bauer
Gesamtziel des Vorhabens
Erstellung einer Softwarestruktur zur Extraktion aller für die Befüllung einer eReader- Zeitungs- / Magazin- / Leseproduktausgabe benötigten Daten aus PDF-Dateien.
Wissenschaftliche und technische Arbeitsziele des Vorhabens
PDF-Seiten enthalten das Seitenlayout und textliche sowie grafische Inhalte.
Die Identifizierung von Artikeln erfordert eine Erkennung aller auf einer Seite vorhandenen Blöcke, deren Klassifikation als Text, Bild/Grafik oder Tabelle, deren Gruppierung zu einzelnen Artikeln und der Feststellung der korrekten Blockreihenfolge innerhalb jedes Artikels.
Die Extraktion lesbarer Texte pro Block wird normalerweise aus dem PDF-Textinhalt gewonnen.
Zur Segmentierung / Blockerkennung einer PDF-Seite sind primär grafische Verfahren einsetzbar, die durch logische Inhaltsanalysen ergänzt werden. Die Erkennung von Artikelelementen wie Überschriften etc., die Sequenzierung von Blöcken und die Identifizierung von Artikeln erfordert Font-und Positionsanalysen unter Beachtung von Verlags- und seitenspezifischen Layoutregeln. Sie muss zusätzlich durch linguistische Verfahren unterstützt werden, um den semantischen Zusammenhang der Elemente sicherzustellen und damit die Zuordnungssicherheit zu erhöhen. Dies umfasst u.A.
- Ausfiltern nicht-textueller Blöcke.
- Textaufbereitung: In diesem Schritt wird der Text eines Blockes möglichst weitgehend hergestellt, d.h. Abkürzungen, Worttrennungen am Zeilenende, elliptische Koordinationen („Haus- und Gartenarbeit“) werden aufgelöst.
- Textklassifikation und Entitäten-Erkennung: Um inhaltliche Verwandtschaft zwischen Blöcken zu erkennen, werden die dort abgelegten Texte in eine fein granulierte Taxonomie von Nachrichtenkategorien mit mehreren tausend Klassen einsortiert und Entitäten wie Personen, Orte und Firmen erkannt.
- Statistische Sprachmodelle zur Stilerkennung: Sprachliche Charakteristika von Autoren und Artikelarten können durch statistische Sprachverarbeitungsmethoden erfasst werden, um das spätere Zusammenfügen der Blöcke zu erleichtern.