Hauptseite

Aus Transkribus Wiki
Wechseln zu: Navigation, Suche


Transkribus ist als eine umfassende Plattform zur Erkennung und Transkription historischer Dokumente konzipiert und besteht aus drei wesentlichen Modulen:

Transkribus hat sich zum Ziel gesetzt, alle jene zu unterstützten, die mit der Transkription historischer, gedruckter oder handschriftlicher Dokumente befasst sind.

Vornehmlich denken wir dabei an GeisteswissenschaftlerInnen, Institutionen wie Archive und Bibliotheken und auch an interessierte Laien wie FamilienforscherInnen und OrtschronistInnen. Unser Angebot richtet sich auch an InformatikerInnen auf der Suche nach herausfordernden Aufgabenstellungen.

Transkribus stellt eine Reihe von Werkzeugen für die automatisierte Erfassung von Dokumenten zur Verfügung, darunter eine computergestützte Handschriftenerkennung (HTR), Bilderkennung (Layout Analysis) und Strukturerkennung (Document Understanding).

Die Plattform ist für alle Benutzer frei zugänglich und wird von der Universität Innsbruck bzw. der Gruppe "Digitalisierung und Elektronische Archivierung (DEA)" betrieben. Die Europäische Union unterstützt den Betrieb der Plattform durch Mittel des Forschungsprogramms 7 (FP7 Project tranScriptorium) sowie des Horizon 2020 Programms.


Transkribus - Grundkonzepte

Transkribus ist ein freies Programm: Nachdem Sie sich registriert haben, können Sie das Programm herunterladen, entpacken, starten und beliebig verwenden. Transkribus ist allerdings kein Open Source Projekt. Interessierte Personen oder Institutione sind dennoch herzlich eingeladen, sich mit uns in Verbindung zu setzen, wenn Sie zur Verbesserung des Programms beitragen möchten.

Transkribus bietet einen "geschützten" Bereich: Die von Ihnen hochgeladenen Dokumente stehen nur Ihnen zur Verfügung, bzw. von Ihnen autorisierten Personen, die ebenfalls in Transkribus registriert sein müssen. Allerdings ist Transkribus auch so konzipiert, dass Teamarbeit erleichtert und gefördert wird.

Keine Transkription ohne vorhergehende Segmentierung: Damit eine HTR (Handschriftenerkennung) stattfinden kann, müssen die Dokumente vorher in Textblöcke (Text Regions) und Grundlinien (Baselines) bzw. Zeilen (Line Regions) unterteilt werden. Dieser Prozess funktioniert automatisch. Auch die manuelle Transkription kann nur gestartet werden, wenn eine derartige Segmentierung vorhanden ist.

Transkribus muss trainiert werden: Die HTR muss zuerst trainiert werden, um im Anschluss automatische Transkriptionen generieren zu können.

Transkribus integriert Dienste, die nicht am lokalen Computer laufen: Die Erkennung handschriftlicher Dokumente ist ein sehr rechenaufwändiger Prozess. Deshalb läuft die Software auf sehr leistungsstarken Maschinen der Universität Innsbruck. Mit dem Expertenprogramm kann die Verarbeitung gestartet und kontrolliert werden.

Transkribus benötigt Futter: Je mehr Dokumente in der Plattform verarbeitet werden, desto mehr Trainingsdaten liegen für das Programm vor. Nur dadurch kann mittel- und langfristig das große Ziel erreicht werden, dass alle gängigen Schriften mit zufriedenstellender Genauigkeit erkannt werden können.

Transkribus ist mehr als eine Software zur automatisierten Erkennung: Die Plattform ist so konzipiert, dass auch noch andere Nutzungsformen vorgesehen sind. Dazu gehört insbesondere die Möglichkeit mit Transkribus auch Digitale Editionen historischer Dokumente erstellen zu können.

Transkribus liest auch gedruckte Dokumente: Auch gedruckte Schriften können von der HTR erlernt und erkannt werden.

Transkribus ist Teil eines virtuellen Cloudsystems: Die hochgeladenen Dokumente werden auf einem zentralen Server der Universität Innsbruck gespeichert. Auch Transkribus selbst läuft auf diesem Server, weil das Programm hohe Rechenleistungen verlangt, die lokale Computer nicht leisten können. Zudem kann nur durch eine zentrale Abwicklung der Operationen, das Programm stetig weiter trainiert und verbessert werden.


Installation

Unterstützte Betriebssysteme

  • Transkribus wurde in JAVA geschrieben. Das Programm funktioniert daher sowohl in Windows, IOS (Apple, Mac) und Linux.
  • Transkribus benötigt mindestens JAVA 8. Dies dürfte aber bei den meisten Computern bereits automatisch der Fall sein.

Entpacken der ZIP-Datei

  • Im Downloadordner ihres Computers finden Sie am Ende des Downloadvorganges eine ZIP-Datei.
  • Entpacken Sie zuerst die gesamte ZIP-Datei, bevor Sie auf eine der Ausführungsdateien klicken.

Starten Sie Das Programm mit Hilfe einer Programmdatei: .exe, .command, .sh

  • Starten Sie Transkribus von Ihrer Benutzeroberfläche aus mit einem Doppelklick. Wählen Sie dazu folgende Datei:
    • Windows: Transkribus.bat or use Transkribus.exe
    • Mac OS - Apple: Transkribus.command
    • Linux: Transkribus.sh

Hinweise zur Installation bei Windows

  • Wenn Sie an diesem Computer keine "Administratorrechte" besitzen, wird bei der Installation ein Warnhinweis erscheinen, z. B. "Ihr Computer ist durch Windows geschützt", oder Ähnliches.
  • Bestätigen Sie nicht, sondern klicken Sie auf "zusätzliche Informationen". Nun können Sie bestätigen, dass es sich um vertrauenswürdige und ungefährliche Dateien handelt und dass Sie Transkribus auf Ihrem Computer installieren möchten.

Hinweise zur Installation auf einem Mac

  • Möglicherweise lässt sich das Programm nicht gleich starten, weil sie vom System als unbekannte bzw. nicht vertrauenswürdige Systemdatei identifiziert wurde.
  • Klicken Sie in diesem Fall einmal rechts auf die Programmdatei und wählen Sie "Öffnen".
  • Hinweis: Rechtsklick auf einem Mac-Touchpad ist ein Klick mit zwei Fingern gleichzeitig

Starten von Transkribus über die Befehlszeile

  • Das Transkribus-Programm befindet sich in der zentralen "jar-Datei" (transkribus-<version>.jar)
  • Schreiben Sie daher in die Befehlszeile: java -jar Transkribus-<version>.jar
  • HINWEIS: Zum Starten des Programms muss JAVA 7 bereits im gesamten System installiert sein. Alternativ können Sie auch eine JRE-datei in den Programmordner hineinkopieren.
  • HINWEIS: Bei Mac oder Linux lassen sich die Skripts höchstwahrscheinlich nur über die Befehlszeile starten (alle Versionen vor 0.6.8)
    • Mac console basics
    • Wechseln Sie nun in den Programmordner mittels "cd"-Befehlen (change directory)
    • chmod +x Transkribus.command (oder bei Linux: chmod +x Transkribus.sh); erfolgreich getestet unter OpenSUSE 42.2
  • Weiters finden Sie noch einige andere Dateien im heruntergeladenen Transkribus-Packet:
    • config.properties = dient der Veränderung des Erscheinungsbildes und der Benutzeroberfläche.
    • virtualKeyboards.xml = dient der Festlegung virtueller Tastaturelemente.
    • logback.xml = dient der Veränderung der Protokolldateien (nur für erfahrene BenutzerInnen geeignet!)
  • Im Unterordner 'libs' befinden sich alle notwendigen Verzeichnisse für folgende Betriebssysteme:
    • Windows 32/64 bit
    • Linux 32/64 bit
    • OSX 64 bit

Einstellen eines Proxy Servers

  • Sobald das Programm gestartet ist, klicken Sie auf den Home Menü Knopf in der linken oberen Ecke und wählen Sie "Proxy settings...". Im folgenden Dialog können Sie den Proxy Host, Port, Benutzernamen (optional) und das Passwort (optional) einstellen. Dies ist die empfohlene Methode einen Proxy Server mit Transkribus zu verwenden.
  • Alternativ kann auch das Startskript (z.B. Transkribus.bat für Windows, Transkribus.sh für Linux) angepasst werden, so dass es die Proxy Einstellungen enthält. Hierfür den enthaltenen Aufruf wie folgt ändern:
   java -Dhttps.proxyHost=<proxyserver>
        -Dhttps.proxyPort=<proxyPort>
        -Dhttps.proxyUser=<user name for proxy>   
        -Dhttps.proxyPassword=<password for proxy>
        -jar Transkribus-0.7.0.jar

Dieser Vorgang muss allerdings bei jeder Aktualisierung von Transkribus wiederholt werden.

Problembehandlung

Ich kann mich nur über die Internetseite auf den Server zugreifen, nicht aber über Transkribus

  • Dieses Problem tritt bei einigen Versionen von JAVA 7 auf (z. B. JAVA 7u25). Überprüfen Sie Ihre aktuell installierte JAVA-Version, indem Sie in "java-version" in Ihre Befehlszeile schreiben, und aktualisieren Sie gegebenenfalls JAVA auf ihrem Computer.

Das Einloggen wird von der Firewall blockiert

  • Manche Internetprovider oder Informatikabteilungen (v. a. von Universitäten) blockieren den SSL port 443 und/oder unbekannte Programmdateien durch die Firewall. Sollte das der Fall sein, setzen Sie sich bitte mit den dafür zuständiges Stellen in Verbindung.

Norton Antivirus identifiziert die ZIP-Datei als potenzielle Gefahr und verhindert das Auspacken

  • Das ist lediglich ein falscher Alarm, der immer dann auftritt, wenn Norton auf unbekannte Software trifft (WS. Reputation.1). Mit dieser Anleitung können Sie die ZIP-Datei aus der Quarantäne holen und bearbeiten. [1]

Update: Programmversionen wie 0.6.5 oder ältere können nicht aktualisiert werden (eine sehr lange Fehlermeldung)

  • Klicken Sie auf "Home" (oben in der linken Ecke), dann "Install a specific version". Wählen Sie nun die neueste Version aus "Releases" und setzen Sie ein Häkchen bei "Download complete package". Dann klicken Sie auf "update" oder "replace". Auf diese Weise wird das vollständige Paket heruntergeladen und das Update sollte funktionieren.

Falsche bzw. veraltete JAVA-Version bei MAC (Nach dem Öffnen der command-Datei meldet Transkribus, dass eine falsche bzw. veraltete JAVA-Version (1.6.0.65) anstatt 1.7 installiert sei)

  • In den allermeisten Fällen ist sowieso bereits die aktuellste Version von JAVA RE (1.8.0.66) installiert.
  • Allerdings verwendet die Befehlszeile, mit der die "Transkribus.command"-Datei aktiviert wird, automatisch immer JAVA 1.6.0.65. Überprüfen Sie die Defaultversion (die bei Ihnen voreingestellte Version), indem Sie den Terminal öffnen und "java-version" eingeben.
  • Um das Problem zu lösen, können Sie hier die aktuellste jdk-Version von Java als ein .tar.gz package herunterladen:
   http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
  • Entpacken Sie die Datei anschließend im Transkribusordner.
  • Die Transkribus.command-Datei wird dann automatisch nach neuen JAVA-Versionen in den Unterordnern suchen.
  • Alternativ können Sie mittels Befehlszeile JAVA 8 zu ihrer voreingestellten Defaultversion machen, indem Sie dieser Anleitung folgen:
   http://myshittycode.com/2014/03/17/mac-os-x-setting-default-java-version/


Transkribus startet nicht bei (Fedora) Linux - Es erscheint die Fehlermeldung "MOZILLA_FIVE_HOME not set" (= MOZILLA_FIVE_HOME ist nicht eignerichtet/installiert)

  • Vermutlich ist das Package "libwebkitgtk" nicht installiert. Bei Fedora können Sie es mit dem Befehl "dnf" über die Befehlszeile installieren (bei älteren Fedora-Versionen "yum" eingeben, statt "dnf")
   sudo dnf install webkitgtk 

Anleitungen zu den Transkribus Funktionen

Transkribus-Online (Internetseite)

Auf der Homepage von Transkribus können Sie

  • sich einen Überblick verschaffen und grundlegende Informationen zum Programm finden
  • sich auf der Transkribus-Plattform registrieren
  • Ihre Benutzerdaten ändern bzw. Ihr Profil bearbeiten sowie Ihr Passwort ändern
  • das Transkribus Expert-Programm herunterladen.


Bei Transkribus registrieren

Um das Programm nutzen zu können, müssen Sie sich auf der Transkribus-Homepage registrieren (http://transkribus.eu/).

  • Bei der Erstanmeldung werden Ihr Name und Ihre Mailadresse verlangt, zudem müssen Sie unseren Nutzungsbedingungen zustimmen. Dabei wird auch Ihre IP-Adresse abgebfragt und gespeichert.
  • Gemäß österreichischem Datenschutzgesetz werden ihre Daten geschützt und nur zur Verbesserung unserer Dienstleistungen bzw. zur Unterstützung von Forschungen in Informatik und Geisteswissenschaften verwendet.
  • Wenn Sie Ihren Transkribus-Zugang löschen möchten, schreiben Sie bitte an email@transkribus.eu.


Transkribus Expert-Programm herunterladen

  • Nachdem Sie sich bei Transkribus registriert haben, sind Sie berechtigt, das Programm herunterzuladen. Es läuft mit allen gängigen Betriebssystemen (Windows, Mac (Apple), Linux).
  • Entpacken Sie zuerst das Zip-file, um das Programm starten zu können.
    • Hier erhalten Sie alle für die Installation notwendigen Informationen.

Transkribus Cloud-Dienste

Die Transkribus-Cloud läuft über das System des Zentralen Informatikdienstes (ZID) der Universität Innsbruck. Dazu gehören virtuelle Server mit dem Kernprogramm und den verschiedenen Zusatzanwendungen, eine Datenbank, Server zur Zwischenlagerung von Daten bzw. für Sicherungskopien, sowie ein Hochleistungsrechner.


Bild-Dateien bzw. Scans

  • Sie können in Transkribus natürlich mit lokal gespeicherten Daten bzw. offline arbeiten. Um alle Möglichkeiten des Programmes optimal nutzen zu können, müssen sich die zu bearbeitenden Dokumente bereits in Cloud befinden. Daher ist es durchaus sinnvoll, die Dateien auf den Server zu laden.
  • Die hochgeladenen Dateien werden dann im FileImageStore der Universität Innsbruck gespeichert und bearbeitet.
    • Folgende Formate können hochgeladen werden: JPG, PNG, TIFF, JP2.(Hinweis: GIF und RAW (Bilder von Digitalkameras) werden von Transkribus nicht unterstützt!)
    • Die Bilddateien werden in der Originalauflösung gespeichert. Für die Bearbeitung wird jedoch automatisch jeweils eine komprimierte Version und eine Miniaturansicht (Thumbnail) generiert
    • Die Dateien werden zwar für die Verarbeitung umbenannt, der ursprüngliche Dateiname wird jedoch in den Metadaten gespeichert.
    • Die Dateien erhalten einen einhatlichen Dateienpfad (file address).


PAGE Files

Wir verwenden das Dateienformat "PAGE XML" als Masterformat. Es wurde von der University of Salford entwickelt.


REST Interfaces

Die meisten Transkribus-Funktionen werden mittels RESTful interface. Interessierte können das gesamte REST Interface nutzen.


Danksagung

Diese Arbeit wird durch die Europäische Kommission im Rahmen der Projekte tranScriptorium (2013-2015) sowie READ (2015-2019) unterstützt.


Ganz besonderer Dank gilt auch den vielen NutzerInnen, die mit ihren Feedbacks per Email oder Fehlerreport zur stetigen Weiterentwicklung von Transkribus beitragen. Auch wenn es oft nicht möglich ist, alle Vorschläge und Hinweise sofort umzusetzen, versuchen wir dennoch, sie Schritt für Schritt zu realisieren!