Sommersemester 2025 am Centrum für Informations- und Sprachverarbeitung
Dozent: Stefan Langer
Zu Beginn des Kurses steht eine Einführung in die Suchmaschinentechnologie, Frage-Antwort- und Chat-Systemen. Zunächst werden termbasierte Ansätze und linguistische Komponenten in termbasierten Systemen vorgestellt. Dann wird auf neuere Entwicklungen im Bereich neuronale Suche eingegangen und auch das Potential der neuesten großen Sprachmodelle wie etwa GPT-4 ausgelotet. In weiteren Sitzungen wird durch den Dozenten und die Studierenden die neuere Forschung im Bereich Retrieval Augmented Generation und Agentensysteme vorgestellt und es werden die von den Studierenden implementierten Systeme werden demonstriert.
Parallel sollen die Teilnehmerinnen und Teilnehmer dieses Kurses in Gruppen- oder Einzelarbeit auf Basis einer OpenSource-Suchmaschine oder eines Frameworks wie Langchain oder Haystack eine Retrieval-Augmented Genaration-Demo implementieren.
Voraussetzungen sind Grundkenntnisse in Computerlinguistik und Deep Learning, sowie Fertigkeiten in mindestens einer Programmiersprache (Python, Java, C(++/#) oder andere).
Seminarübersicht - Semesterplan
Voraussetzung für die Scheinvergabe sind:
Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008. Webseite
Yi Luan, Jacob Eisenstein, Kristina Toutanova, Michael Collins. 2021. Sparse, Dense, and Attentional Representations for Text Retrieval arxiv.org
Francisco De Sousa Webber, Semantic Folding Theory And its Application in Semantic Fingerprinting. White Paper. CoRR (Computing Research Repository). 2015. https://arxiv.org/abs/1511.08855
Patrick Lewis et al, Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. 2020. https://arxiv.org/abs/2005.11401
Yunfan Gao et al: Retrieval-Augmented Generation for Large Language Models: A Survey. 2023. https://arxiv.org/abs/2312.10997
TREC (Test Retrieval Conference)
ACM SIGIR (Special Interest Group on Information Retrieval)
ECIR (European Conference on Information Retrieval)