# Datenaufbau der Wittgenstein Edition Bergen (WAB-Edition)

## XML Einführung: 

Eine sehr gute und ausführliche Einführung in XML von Jannis Vamvas lässt sich [hier](https://gitlab.cis.uni-muenchen.de/wast/wast-kurs-uebungen/blob/master/xml_tutorial/README.md) finden!

## TEI (Text Encoding Initiative)


### Kurze Einführung in TEI-P5
Die Text Encoding Initiative (TEI) ist eines der wichtigsten Projekte im Bereich Digital
Humanities. Dieses Projekt hat sich in der gleichnamigen Organisation
herauskristallisiert, die im Jahr 1987 gegründet wurde [16]. Das Ziel von TEI ist es,
Richtlinien für die Erzeugung und Verarbeitung von Texten, Manuskripten, Nachlässen,
etc. festzulegen, die in einem digitalen Format von Wissenschaftlern bzw. Forschern im
Bereich der Geisteswissenschaft erzeugt werden. Die aktuellste Version ist die
sogenannte TEI P5. Sie basiert auf XML [16] und hat eine enorme Bedeutung für die
Kodierung und den Austausch von XML-Dateien:

```
... What advantage is there in learning XML or TEI to do the same job?
There are many answers, [...]. The first is that TEI XML focuses on the meaning of text, rather than its appearance. The second is that TEI XML is independent of any particular software environment. The third is that TEI XML was designed by and for the scholarly research community, which is also responsible for its ongoing development.“ [2] 
```

Die Universität Bergen, zu der das Wittgenstein Archiv (WAB) gehört, ist ein Kernmitglied der Text Encoding
Initiative. Dementsprechend erfolgt die Transformation der „Wittgenstein Source
Bergen Nachlass Edition“ (BNE) im XML Format entsprechend der TEI Richtlinien. In
den XML-Dateien, die speziell für das CIS erzeugt wurden (genannt CISWAB), findet
man auch noch andere TEI-Elemente, die für diese CIS-Dateien angepasst werden.
Im Folgenden werden die TEI-XML-Elemente [14] vorgestellt, die relevant für diese
Bachelorarbeit sind und bei den hier verwendeten normalisierten Dateien [7] am
häufigsten vorkommen.


## Namens- und Direktorykonventionen beim Wittgenstein Nachlass:

Der Wittgenstein Nachlass ist eine Sammlung von teils unveröffentlichten Materialien,
die vom Philosophen Ludwig Wittgenstein im Zeitraum 1906-1951 verfasst wurden. Er
besteht aus 20.000 Seiten und teilt sich in zwei Gruppen: die Manuskripte (Ms) und die
Typoskripte (Ts).

Wie Prof. Dr. Hans Walter Gabler erklärt, befinden sich die originalen Dokumente des
Wittgenstein-Nachlasses in „Archiven und in Privatbesitz verstreut über Europa und
Kanada. Ihren Hauptbestand verwahrt die Trinity College Library in Cambridge,
England“ [3, S. 159].

Das WAB hat diese Manuskripte und Typoskripte ins XML Format transkribiert und in
Teilen als Open-Access-Daten auf seiner Webseite `http://wab.uib.no/transform/wab.php?modus=opsjoner` in der im Bergen Normalized Edition (BNE) Format zur Verfügung gestellt.
Das CIS arbeitet seit dem Jahr 2012 zusammen mit dem WAB an der digitalen Präsentation der Nachlassseiten im Wittgenstein Advanced Search Tools - Projekt (WAST). In diesem Projekt wurde sehr erfolgreich die FinderApp „WiTTFind“ für die semantische Suche durch den Nachlass
programmiert, die den europäischen Preis „European Union - OPEN Humanities AWARD“ im
Jahr 2014 gewann. Zu diesem Projekt hat der Direktor des WAB Prof. Dr. Alois Pichler
mit 5.000 Transkriptionsseiten im XML-Format beigetragen, die im Jahre 2017 um weitere 15.000 Seiten erweitert wurden.

In enger Zusammenarbeit mit dem Leiter des Projekts am CIS Dr. Maximilian Hadersbeck haben die Editoren aus Bergen mehrere XSLT-Dateien erzeugt, um die XML-Manuskripte und -Typoskripte immer mehr dem Bedarf der Entwickler der FinderApp anzunähern.

Der Wittgenstein Nachlass besteht hauptsächlich aus: 
- Typoskripte: Dateien, die mit *Ts* beginnen
- Manuskripe: Dateien, die mit *Ms* beginnen


Aus den XML Dateien werden mit Hilfe von XSLT-Scripten die folgenden drei unterschiedlichen Dateitypen, mit denen WiTTFind unmittelbar arbeitet erzeugt:
- orig (Open Access Daten aus Bergen, OpenAccess  Annotation)
- diplo (Alle Änderungen im Dokument sollen sichtbar sein)
- norm (Normalisierte Version: "the authors last will")
- text (teilweise von XML-gesäuberte Versionen)

### Dateitypen: orig, diplo, norm, text

#### orig   OA.xml: 
Diese Variante der .xml Datei stellt die am Wittgenstein Archiv Bergen erstellten open-Access Transkription dar. Sie enthält zusätzlich Annotationen von Editoren, z.B. wurden Vorschläge zur Rechtschreibkorrektur hinzugefügt.

** Beispiel aus der OA Annotierung: das Tag `<corr>` **
Wittgenstein hat also an dieser Stelle eine Korrektur vorgenommen. 
Beispiel:  *Ms-114_OA.xml*

```
<s type="es" part="N">
  <seg type="q" part="N">„Eine herrenlose Wohnung”</seg>,
    <seg type="q" part="N">„herrenlose<lb/>
      <choice type="em">
		<orig type="em1">
          <add rend="i" status="unremarkable">
		  Zahn
	      </add>
		  <add rend="el" status="unremarkable">-
		  </add>
		    <corr type="trsn">
			  <orig type="trsn1">S</orig>
			  <reg type="trsn2">s</reg>
			</corr>
			chmerzen
		</orig>
 	</seg>
</s>
```
#### diplo: DIPL.xml:
Diese Version der Texte ist die aus dem OA.xml File über xslt erstellte .html Transkription der diplomatische Transkription. 
Die Annotationen beschreiben die meisten Änderungen in den Dokumenten Wittgensteins. In dieser Version wird versucht
möglichst alle Details des Nachlasses mit XML genau zu beschreiben. 

- Beispiel: *Ms-114_OA_DIPLO.xml*

``` 
<s n="Ms-114,23r[2]et23v[1]_6" ana="facs:Ms-114_23r abnr:48 satznr:397">
	„Eine herrenlose Wohnung”, „herrenlose<lb/>
	<seg type="stripped">
		<choice type="dsl">
			<seg n="dsl_alt1">Schmerzen</seg>
			<seg n="dsl_alt2">Zahn<seg type="notation">-
				Schmerzen
			</seg>
		</choice>
	</seg>”.
</s>
```

#### diplo: DIPL.html 
Diese Version der Texte ist die aus dem OA.xml File über xslt erstellte .html Transkription der diplomatischen Form. Diese .html Version entspricht der IDP - Version in Bergen: 

siehe: http://wab.uib.no/transform/wab.php?modus=opsjoner


#### norm: NORM.xml:
Diese Variante ist unsere wichtigste Variante der Transkriptionen aus Bergen. Mit dieser wird in Wittfind gearbeitet. Die Annotationen beschreiben eine gut lesbare Version aus der Sicht der Experten und Editoren und ist vergleichbar mit des „author's last will“. Diese Variante könnte so in einem Buch gedruckt werden.

- Beispiel *Ms-114_OA_NORM.xml*

```
<s n="Ms-114,23r[2]et23v[1]_6" ana="facs:Ms-114_23r abnr:48 satznr:397">
	„Eine herrenlose Wohnung”, „herrenlose<lb/>
	<seg type="stripped">
		<seg type="stripped">
			Zahn<seg type="notation">-</seg>
		schmerzen
		</seg>
	</seg>”.
</s>
```
#### norm: LINEAR.html
Diese Version der Texte ist die aus dem OA.xml File über xslt erstellte .html Transkription der normalisierten Transkription. Diese .html Version entspricht der IDP - Version in Bergen: 

siehe: http://wab.uib.no/transform/wab.php?modus=opsjoner

Aus dieser Datei werden vom WiTTFind die Transkriptionen extrahiert und im Trefferfenster dargestellt.


- Beispiel *Ms-101_OA_LINEAR.html*

```
         <!--ab n="Ms-101_1r.1" ana="abnr:3"-->
         <table border="0" cellpadding="0" cellspacing="0" class="mainAB" width="880px">
            <tr>
               <td colspan="8">
                  <div width="100%" style="background-color:gray;">Ms-101_1r.1&nbsp;(date: 19140809)&nbsp;(published in work: GT)</div>
               </td>
            </tr>
            <tr>
               <td width="75px" valign="top">&nbsp;</td>
               <td width="20px" valign="top" text-align="right" style="font-size: 30%"><span style="color:#808000;">&nbsp;</span></td>
               <td class="sm-left" width="20px" valign="top" text-align="center"><span style="font-size: 50%; font-family: Arial Unicode MS;">
                     <div style="text-align: center;">​</div></span></td>
               <td class="sn-left" width="20px" valign="top" text-align="center"></td>
               <td width="5px">&nbsp;</td>
               <td style=" text-align: left;" valign="top" width="700px">
                  <div class="ab-style" style="margin-bottom: 10px;width: 700px;">
                     <div class="text-override" style="">
                        
                        
                        <div align="right" style="margin-right: 50px;">9.8.14.</div>
                        
                        <!--s n="Ms-101_1r.1" ana="facs:Ms-101,1r abnr:3 satznr:3"-->Vorgestern bei der Assentierung  genommen worden &amp; dem
                        2<SUP>ten</SUP> <span style="color:#FF0000;">Festungsartillerie-Regiment</span> in
                        Krakau zugeteilt.
                        <!--/s-->  
		
```


### Eindeutige Identifikation jedes Dokuments: Das Siglum 
Jedes Dokument und jede Bemerkung von Wittgenstein ist über ein eindeutiges Siglum identifiziert, das innerhalb des XML Tags `<ab>` bei den Bemerkungen und dem XML Tag `<s>` bei den Sätzen eingefügt ist:

- OA_XML

hier nur Siglen bei `<ab>`
`<ab xml:id="Ts-213_VIIIr.8" n="Ts-213,VIIIr[8]" xml:lang="de" ana="field:PhilosophyOfLanguage_date:19330319?-19330415?" \emph="blbef_0 blaft_0">`

- NORM 

hier Siglen bei `<ab>` und `<s>`
`<ab n="Ts-213,37r[3]" ana="abnr:336"> `

`<s n="Ts-213,37r[3]_1" ana="facs:Ts-213,37r abnr:336 satznr:918">`  

`<s n="Ms-114,23r[2]et23v[1]_6" ana="facs:Ms-114_23r abnr:48 satznr:397">` 
            

Link zu den Daten im gitlab
[Hier](https://gitlab.cis.uni-muenchen.de/wast/witt-data/tree/master/ciswab/wab2cis/opensource_nachlass) kann man sich mal die ein oder andere Datei anschauen. 


### Aufbau des Datenrepository: `witt-data`

- Organisationsname und Hinweis auf opensource Charakter
Hier werden 3 Buchstaben verwendet: CIS und WAB 
* z.B. `wab` Wittgenstein Archive Bergen

```text
witt-data/ciswab/wab2cis/opensource_nachlass
```

- Directories für die Dokumente
Abkürzung für Dokumenttyp (2 Buchstaben) 
* z.B. `Ts` Typoskript
* z.B. `Ms` Manuskript

- Nummerierung
* z.B. `101` Dokument 101

- Kennzeichen für OpenAccess
* `OA` OpenAccess

- Directory für bestimmte Datenformate 
* orig
* diplo
* norm
* text

#### Beispiel Ms-101_OA
```text
`cd witt-data/ciswab/wab2cis/opensource_nachlass/Ms-101_OA`
Ms-101_OA >ls
diplo  norm  orig  text
```


#### Starten die Computerlinguistischen Tools:
Am CIS werden Transformationen automatisiert durchgeführt und in diesen Verzeichnissen weitere Dateien erstellt:
genauere Informationen im Kapitel: **Deployment Editionsdaten für die WAST-Tools**