# Datenaufbau der Wittgenstein Edition Bergen (WAB-Edition) ## XML Einführung: Eine sehr gute und ausführliche Einführung in XML von Jannis Vamvas lässt sich [hier](https://gitlab.cis.uni-muenchen.de/wast/wast-kurs-uebungen/blob/master/xml_tutorial/README.md) finden! ## TEI (Text Encoding Initiative) ### Kurze Einführung in TEI-P5 Die Text Encoding Initiative (TEI) ist eines der wichtigsten Projekte im Bereich Digital Humanities. Dieses Projekt hat sich in der gleichnamigen Organisation herauskristallisiert, die im Jahr 1987 gegründet wurde [16]. Das Ziel von TEI ist es, Richtlinien für die Erzeugung und Verarbeitung von Texten, Manuskripten, Nachlässen, etc. festzulegen, die in einem digitalen Format von Wissenschaftlern bzw. Forschern im Bereich der Geisteswissenschaft erzeugt werden. Die aktuellste Version ist die sogenannte TEI P5. Sie basiert auf XML [16] und hat eine enorme Bedeutung für die Kodierung und den Austausch von XML-Dateien: ``` ... What advantage is there in learning XML or TEI to do the same job? There are many answers, [...]. The first is that TEI XML focuses on the meaning of text, rather than its appearance. The second is that TEI XML is independent of any particular software environment. The third is that TEI XML was designed by and for the scholarly research community, which is also responsible for its ongoing development.“ [2] ``` Die Universität Bergen, zu der das Wittgenstein Archiv (WAB) gehört, ist ein Kernmitglied der Text Encoding Initiative. Dementsprechend erfolgt die Transformation der „Wittgenstein Source Bergen Nachlass Edition“ (BNE) im XML Format entsprechend der TEI Richtlinien. In den XML-Dateien, die speziell für das CIS erzeugt wurden (genannt CISWAB), findet man auch noch andere TEI-Elemente, die für diese CIS-Dateien angepasst werden. Im Folgenden werden die TEI-XML-Elemente [14] vorgestellt, die relevant für diese Bachelorarbeit sind und bei den hier verwendeten normalisierten Dateien [7] am häufigsten vorkommen. ## Namens- und Direktorykonventionen beim Wittgenstein Nachlass: Der Wittgenstein Nachlass ist eine Sammlung von teils unveröffentlichten Materialien, die vom Philosophen Ludwig Wittgenstein im Zeitraum 1906-1951 verfasst wurden. Er besteht aus 20.000 Seiten und teilt sich in zwei Gruppen: die Manuskripte (Ms) und die Typoskripte (Ts). Wie Prof. Dr. Hans Walter Gabler erklärt, befinden sich die originalen Dokumente des Wittgenstein-Nachlasses in „Archiven und in Privatbesitz verstreut über Europa und Kanada. Ihren Hauptbestand verwahrt die Trinity College Library in Cambridge, England“ [3, S. 159]. Das WAB hat diese Manuskripte und Typoskripte ins XML Format transkribiert und in Teilen als Open-Access-Daten auf seiner Webseite `http://wab.uib.no/transform/wab.php?modus=opsjoner` in der im Bergen Normalized Edition (BNE) Format zur Verfügung gestellt. Das CIS arbeitet seit dem Jahr 2012 zusammen mit dem WAB an der digitalen Präsentation der Nachlassseiten im Wittgenstein Advanced Search Tools - Projekt (WAST). In diesem Projekt wurde sehr erfolgreich die FinderApp „WiTTFind“ für die semantische Suche durch den Nachlass programmiert, die den europäischen Preis „European Union - OPEN Humanities AWARD“ im Jahr 2014 gewann. Zu diesem Projekt hat der Direktor des WAB Prof. Dr. Alois Pichler mit 5.000 Transkriptionsseiten im XML-Format beigetragen, die im Jahre 2017 um weitere 15.000 Seiten erweitert wurden. In enger Zusammenarbeit mit dem Leiter des Projekts am CIS Dr. Maximilian Hadersbeck haben die Editoren aus Bergen mehrere XSLT-Dateien erzeugt, um die XML-Manuskripte und -Typoskripte immer mehr dem Bedarf der Entwickler der FinderApp anzunähern. Der Wittgenstein Nachlass besteht hauptsächlich aus: - Typoskripte: Dateien, die mit *Ts* beginnen - Manuskripe: Dateien, die mit *Ms* beginnen Aus den XML Dateien werden mit Hilfe von XSLT-Scripten die folgenden drei unterschiedlichen Dateitypen, mit denen WiTTFind unmittelbar arbeitet erzeugt: - orig (Open Access Daten aus Bergen, OpenAccess Annotation) - diplo (Alle Änderungen im Dokument sollen sichtbar sein) - norm (Normalisierte Version: "the authors last will") - text (teilweise von XML-gesäuberte Versionen) ### Dateitypen: orig, diplo, norm, text #### orig OA.xml: Diese Variante der .xml Datei stellt die am Wittgenstein Archiv Bergen erstellten open-Access Transkription dar. Sie enthält zusätzlich Annotationen von Editoren, z.B. wurden Vorschläge zur Rechtschreibkorrektur hinzugefügt. ** Beispiel aus der OA Annotierung: das Tag `` ** Wittgenstein hat also an dieser Stelle eine Korrektur vorgenommen. Beispiel: *Ms-114_OA.xml* ``` „Eine herrenlose Wohnung”, „herrenlose Zahn - S s chmerzen ``` #### diplo: DIPL.xml: Diese Version der Texte ist die aus dem OA.xml File über xslt erstellte .html Transkription der diplomatische Transkription. Die Annotationen beschreiben die meisten Änderungen in den Dokumenten Wittgensteins. In dieser Version wird versucht möglichst alle Details des Nachlasses mit XML genau zu beschreiben. - Beispiel: *Ms-114_OA_DIPLO.xml* ``` „Eine herrenlose Wohnung”, „herrenlose Schmerzen Zahn- Schmerzen ”. ``` #### diplo: DIPL.html Diese Version der Texte ist die aus dem OA.xml File über xslt erstellte .html Transkription der diplomatischen Form. Diese .html Version entspricht der IDP - Version in Bergen: siehe: http://wab.uib.no/transform/wab.php?modus=opsjoner #### norm: NORM.xml: Diese Variante ist unsere wichtigste Variante der Transkriptionen aus Bergen. Mit dieser wird in Wittfind gearbeitet. Die Annotationen beschreiben eine gut lesbare Version aus der Sicht der Experten und Editoren und ist vergleichbar mit des „author's last will“. Diese Variante könnte so in einem Buch gedruckt werden. - Beispiel *Ms-114_OA_NORM.xml* ``` „Eine herrenlose Wohnung”, „herrenlose Zahn- schmerzen ”. ``` #### norm: LINEAR.html Diese Version der Texte ist die aus dem OA.xml File über xslt erstellte .html Transkription der normalisierten Transkription. Diese .html Version entspricht der IDP - Version in Bergen: siehe: http://wab.uib.no/transform/wab.php?modus=opsjoner Aus dieser Datei werden vom WiTTFind die Transkriptionen extrahiert und im Trefferfenster dargestellt. - Beispiel *Ms-101_OA_LINEAR.html* ```
Ms-101_1r.1 (date: 19140809) (published in work: GT)
   
 
9.8.14.
Vorgestern bei der Assentierung genommen worden & dem 2ten Festungsartillerie-Regiment in Krakau zugeteilt. ``` ### Eindeutige Identifikation jedes Dokuments: Das Siglum Jedes Dokument und jede Bemerkung von Wittgenstein ist über ein eindeutiges Siglum identifiziert, das innerhalb des XML Tags `` bei den Bemerkungen und dem XML Tag `` bei den Sätzen eingefügt ist: - OA_XML hier nur Siglen bei `` `` - NORM hier Siglen bei `` und `` ` ` `` `` Link zu den Daten im gitlab [Hier](https://gitlab.cis.uni-muenchen.de/wast/witt-data/tree/master/ciswab/wab2cis/opensource_nachlass) kann man sich mal die ein oder andere Datei anschauen. ### Aufbau des Datenrepository: `witt-data` - Organisationsname und Hinweis auf opensource Charakter Hier werden 3 Buchstaben verwendet: CIS und WAB * z.B. `wab` Wittgenstein Archive Bergen ```text witt-data/ciswab/wab2cis/opensource_nachlass ``` - Directories für die Dokumente Abkürzung für Dokumenttyp (2 Buchstaben) * z.B. `Ts` Typoskript * z.B. `Ms` Manuskript - Nummerierung * z.B. `101` Dokument 101 - Kennzeichen für OpenAccess * `OA` OpenAccess - Directory für bestimmte Datenformate * orig * diplo * norm * text #### Beispiel Ms-101_OA ```text `cd witt-data/ciswab/wab2cis/opensource_nachlass/Ms-101_OA` Ms-101_OA >ls diplo norm orig text ``` #### Starten die Computerlinguistischen Tools: Am CIS werden Transformationen automatisiert durchgeführt und in diesen Verzeichnissen weitere Dateien erstellt: genauere Informationen im Kapitel: **Deployment Editionsdaten für die WAST-Tools**