CIS
Centrum für Informations-
und Sprachverarbeitung

Aktuelles

Jetzt gibt es ein Wiki zum Kurs...



Angewandte Programmierung mit C++

WS2012 , Dr. M. Hadersbeck

Hauptseminar (Schein bei herausragender Programmierarbeit)


Vorlesung : Mo 16-18, Oettingenstr. Rechnerraum

Inhalt und Ziel der Veranstaltung
In dieser Veranstaltung sollen Module, Tools oder Programme für konkrete Anwendungen der Computerlinguistik selbständig programmiert werden.
Im Literaturteil wird zuerst der nötige theoretische Hintergrund erarbeitet, den die Teilnehmer in Vortägen präsentieren. Im Programmierteil sollen die Teilnehmer konkrete Module, Tools oder Programme selbständig weiterentwickeln oder neu erstellen und in die konkrete Computerlinguistische Anwendung integrieren.

In diesem Semester wird der am CIS entwickelte Satzendeerkenner EOS überarbeitet und auf den neuesten Stand gebracht:
Beim Satzendeerkenner EOS handelt es sich um einen stochastischen, d.h. wahrscheinlichkeitsbasierten Satzendeerkenner. Er ist in der Programmiersprache C++ geschrieben.
Im ersten Teil Programmierteils des Seminars wir die Arbeitsweise des Satzendeerkenners EOS studiert. Anschließend wird der Satzendeerkenner EOS auf den neuesten wissenschaftlichen Standard gebracht, um ihn als C++ Programm effizient in einer 64-Bit Umgebung einsetzen zu können.

Voraussetzungen:
Gute Programmierkenntnisse in C++ (Bachelormodul: Höhere Programmierung, (WP2))


Prüfungsleistung:
Von den Teilnehmern wird ein Seminarvortrag und eine erfolgreiche aktive Teilnahme an den Implementierungen der Programmieraufgaben erwartet. Mitarbeit am Satzendeerkenner-Programm, (Hauptseminarschein kann bei herausragender Leistung erworben werden)

Hier gehts zum Wiki: (hier klicken)

Aufgaben:

Aufgabe1:    (Besprechungstermin: 22.10. 14:00) finden Sie (hier klicken)

Tutoren:

Abgabeformular für die Übungen (hier klicken)

Literaturliste

Es gibt zahlreiche Artikel über Satzendeerkennung:
Eine sehr gute Diplomarbeit ist die von Diplomarbeit von Volker Severt:'Robuste Strategien zur Detektion von Satzgrenzen'
siehe : http://wdok.cs.uni-magdeburg.de/publikationen/dokumente/diplom_severt.pdf
http://www.sfs.uni-tuebingen.de/~lothar/TT06/Slides/slidesSentSeg.pdf 


http://www.linguistics.ruhr-uni-bochum.de/~strunk/Satzgrenzenerkennung.pdf

Ghassan Mourad (1999) La segmentation de textes par l'étude de la ponctuation

Ghassan Mourad La segmentation de textes par exploration contextuelle automatique,
présentation du module SegATex Ghassan.Mourad@paris4.sorbonne.fr"

Greg Grefenstette and Past Tapanainen. "What is a word, what is a sentence?
Problems of tokenization." Proceedings of COMPLEX 1994, Budapest, Hungary
PP: 7-10 Scaled log likelihood ratios for the detection of abbreviations
in text corpora Mit Strunk, J. (2002). In: Tseng, S.-C. (Ed.): Proceedings
of COLING 2002. Taipeh. 1228-1232.

Tibor Kiss and Jan Strunk Multilingual Least-Effort Sentence Boundary Disambiguation

Andrei Mikheev. "Text Segmentation." In R. Mitkov (ed.) Oxford Handbook of Computational Linguistics,
OUP, 2003.

Andrei Mikheev Tagging Sentence Boundaries (2000)

Andrei Mikheev Periods, Capitalized Words, etc (1999),
http://citeseer.ist.psu.edu/mikheev99periods.html

Palmer, David D. YR: 2000 CT: Tokenisation and Sentence Segmentation,
IA: Dale et al. (eds.) IT: Handbook of natural language processing
CF: DaleEtAl2000HandbookNLP PP: 11-35 LO: IB CL

David D. Palmer and Marti A. Hearst: Adaptive Multilingual Sentence Boundary Disambiguation Palmer,

David D : SATZ - An Adaptive Sentence Segmentation System
http://techreports.lib.berkeley.edu/accessPages/CSD-94-846.html

J. Reynar and A. Ratnaparkhi, A Maximum Entropy Approach to Identifying Sentence Boundaries

Briscoe, T. YR: 1994 PT: Parsing (with) punctuation NT: Technical report,
Rank Xerox Research Centre, Grenoble, France
Briscoe, T. YR: 1996 PT: The syntax and semantics of punctuation and
its use in interpretation CF: Punctuation in Computational Linguistics.
SIGPARSE 1996, post conference workshop of ACL96 PP: 1-8

Jones, B. YR: 1997: What's the point? A (computational) theory of punctuation
NT: Ph.D. thesis, Centre for Cognitive Science, University of Edinburgh

Levinson, J.P. YR: 1985: Punctuation and the orthographic sentence:
a linguistic analysis NT: Ph.D. thesis, City University of New York

Meyer, Ch. F YR: 1986 AT: Punctuation practice in the Brown corpus ICAME Newsletter PP: 80-95

Meyer, Ch. F YR: 1987 HT: A linguistic study of American punctuation VL: Peter Lang LC: New York

Nunberg, G. YR: 1990 AU: Say, B.; Akman, V. YR: 1996 PT: Information-based aspects of punctuation CF: Punctuation in Computational Linguistics. SIGPARSE
1996, post conference workshop of ACL96 PP: 49-56

Say, B.; Akman, V. CT: An information-based treatment of punctuation in Discourse Representation
Theory IA: Martín Vide, Carlos (ed.) IT: Mathematical and computational
analysis of natural languages IN: Selected papers from the 2nd International
Conference on Mathematical Linguistics, Tarragona (ICML '96), 2 - 4
May 1996 LC: Amsterdam VL: John Benjamins PP: 359-373 YR: 1998

Gisela Thome: Kriterien für die automatische Erkennung von Satzsegmentgrenzen im Englischen.
Saarbrücken: Universität 1980 (= Dokumentation K4, Sonderforschungsbereich 100).

Gisela Thome: PHRASEG. Ein Verfahren zur Satzsegmentierung. Saarbrücken: Universität 1981
(= Dokumentation K5. Sonderforschungsbereich 100) (zus. mit K.-D. Schmitz).

Support:

Support (Passwortgeschützt):

Musterlösungen: