Benutzeranleitung

Aus Transkribus Wiki
Wechseln zu: Navigation, Suche
Transkribus Expertenoberfläche

Das ist das Benutzerhandbuch für die graphische Benutzeroberfläche von Transkribus.



Transkribus ist ein Expertentool mit weitreichenden Funktionen. Die umfangreichen Möglichkeiten benötigen ein entsprechendes Hintergrundwissen, das dieses Benutzerhandbuch bringen soll. Nach dem Kennenlernen der wichtigsten Konzepte steht einem erfolgreichen Einsatz der Plattform nichts mehr im Weg. Die ganzen Vorteile können wahrscheinlich erst nach gründlicher Einarbeitung genutzt werden.

Wichtiger Hinweis: Die hochgeladenen Dokumente sind nur für den jeweiligen Besitzer sichtbar. Daneben kann der Besitzer aber auch andere Personen zu seiner Collection (= Sammlung) einladen. Diese können dann die Dokumente in dieser Collection ebenfalls sehen und editieren, für alle anderen ist sie aber unsichtbar. Da die Dokumente nicht öffentlich sind, können auch Dokumente mit Copyright bearbeitet werden. Siehe dazu EU Directive on Copyright - Copyright Ausnahmen für die private Verwendung sowie für die Nutzung in Forschung und Bildung.

Benutzeroberfläche

Hauptbestandteile

Transkribus besteht aus 5 unterschiedlichen Elementen:

  • Menüleiste am oberen Rand
  • Tabs auf der linken Seite - die vorhandenen Unterfenster bieten hauptsächlich Informationen und Einstellungsmöglichkeiten und dienen der Navigation zwischen den einzelnen Seiten und Versionen.
  • Tabs auf der rechten Seite - stellen verschiedenste Werkzeuge zur Verfügung.
  • Der Bildbereich (engl. Canvas) inkl. der dazugehörigen Menüleiste - zeigt das Bild der aktuellen Seite und die segmentierten Textblöcke, Linien, Wörter usw.
  • Der Textbereich (engl. Editor) inkl. der dazugehörenden Menüleiste - ermöglicht das Transkribieren, Korrigieren, Editieren usw. und ist unmittelbar mit dem Bildbereich verknüpft.

Größe und Position der einzelnen Elemente können verändert werden

Indem die Grenzen der einzelnen Elemente mit der Maus (es erscheint ein Doppelpfeil-Symbol) verändert werden, können einzelne Bereiche vergrößert bzw. verkleinert werden. So entsteht eine persönliche, für die jeweilige Aufgabe angepasste Darstellung.

Die Schaltflächen Docked, Undocked und Invisible in der obersten Menüleiste ermöglichen ebenfalls die Anpassung von Transkribus an die Benutzervorlieben und Anforderungen. Zu empfehlen ist diese Möglichkeit für längere gleichbleibende Tätigkeiten oder für das Arbeiten mit 2 oder 3 Bildschirmen.

Die oberste Menüleiste

Die Menueleiste oben
  • Das Hauptmenü (links oben) (main menu): Enthält eine Sammlung verschiedener Befehle, wovon die meisten an anderer Stelle erläutert werden. Hier werden nur diejenigen Befehle erklärt, die ausschließlich in diesem Menü zu finden sind.
    • Update-Suche (Check for update): Sie können nach Updates suchen und diese direkt installieren.
    • Installation einer bestimmten Programmversion (Install a specific version): Sie können aber auch nach einer eine älteren/bestimmten Version suchen. Die Versionen, die auf -snapshot enden sind sehr experimentell und dazu gedacht, neue Funktionen zu testen.
    • Anzeigeeinstellungen verändern (Change viewing settings): Hier können sie Anzeigeeinstellungen nach Ihren Vorlieben verändern, etwa Linienstärken und Farben im Bildbereich. Denn unterschiedliche Arbeitsschritte können auch unterschiedliche Einstellungen erfordern.
  • An-/Abmeldung (Login/Logout): Anmelden am Transkribus-Cloudserver. Die Sitzung wird nach einer bestimmten Zeit der Inaktivität automatisch beendet und eine erneute Anmeldung ist erforderlich.
  • Verbindung der einzelnen Arbeitsfelder (Docking states): Verschiedene definierte Docking states für die Menüleiste links, die Menüleiste rechts und das transcription widget (Texteditor) unten
    • Docked bedeutet, dass das entsprechende Element an der jeweiligen Stelle fixiert ist (voreingestellt).
    • Mit Undocked kann das Element an eine andere Position verschoben werden - völlig losgelöst von der restlichen Oberfläche. Fenster können damit beispielsweise anders angeordnet oder auf einem zweiten Bildschirm angezeigt werden.
    • Bei Invisible verschwindet das entsprechende Element und die restlichen Elemente der Oberfläche haben dementsprechend mehr Platz. Dies kann sinnvoll sein, da nicht für jede Aufgabe alle Arbeitsbereiche gleichermaßen benötigt werden.
  • Lokalen Ordner öffnen (Open local folder): einen lokalen (auf Ihrem Gerät gespeicherten) Ordner öffnen, der Bilddateien enthält
  • Dokument schließen (Close document): schließt das aktuelle Dokument
  • Seite speichern (Save page): Speichert eine aktuelle Version der Transkription. Sämtliche Versionen einer Seite können über die Versionen Registerkarte geladen werden.
  • Dokument erneut laden (Reload document): Lädt das Dokument erneut in allen Ansichten.
  • Dokument exportieren (Export document): Exportieren Sie das aktuelle Dokument. Für eine detaillierte Beschreibung der Export-Optionen und anderer Einstellungen siehe Export Dokumente.
  • Seitennavigation (Page navigation): Die Pfeiltasten ermöglichen das Wechseln zur nächsten, vorigen, ersten und letzten Seite des Dokuments.
  • Seite aktualisieren (Reload page): Aktualisiert die Seitenansicht und Metadaten wo nötig.
  • Transkription öffnen (Open transcript source): Zeigt die Transkription in einem XML-Betrachter mit Volltextsuche an.
  • Verschiedene Segmentierungsarten anzeigen
    • Druckraum (Printspace) anzeigen: F1
    • Textregionen (Textregions) anzeigen: F2
    • Zeilen (Lines) anzeigen: F3
    • Grundlinien (Baselines): F4
    • Wörter (Words) anzeigen: F5
  • Fehler melden (Bug report): Eine Nachricht an die Entwickler senden, entweder um einen Fehler zu melden oder einen Wunsch zu einer neuen Programmfunktion zu äußern.

Der Bildbereich (Canvas)

Der Bildbereich und die zugehörige Menüleiste

Anfangs wird im Bildbereich nichts angezeigt. Erst wenn Sie ein lokales Dokument oder (nach dem Einloggen) eine Sammlung und ein Dokument in dieser Sammlung öffnen, wird die erste Seite des geladenen Dokuments angezeigt.

Die farbigen Bereiche, die Sie auf dem Bild sehen, bilden die Strukturelemente ab, die auf der Seite vorhanden sind. Sie sind natürlich nur dann zu sehen, wenn eine Segmentierung bereits stattgefunden hat. Die Darstellung dieser Elemente kann im Hauptmenü angepasst werden. Im Bildbereich können unterschiedliche Segmentierungsarten (mithilfe von Schaltflächen und Tastaturbefehlen) ein- und ausgeblendet werden:

  • Satzspiegel (printspace) anzeigen: F1
  • Textbereiche (text regions) anzeigen: F2
  • Zeilen (lines) anzeigen: F3
  • Grundlinien (baselines) anzeigen: F4
  • Wörter (words) anzeigen: F5

Alle sichtbaren Strukturelemente sind auswählbar und es besteht eine Verbindung zwischen Bildbereich, Texteditor und der Struktur-Registerkarte. Dies bedeutet, dass unabhängig von dem Bereich, von wo aus ein Strukturelement ausgewählt wird, dieses Element auch in den anderen verbundenen Bereichen von Transkribus ausgewählt ist. Dies ermöglicht eine übersichtliche Darstellung von Bild, Text und Hierarchie - natürlich nur, wenn alle Teile vorhanden sind. Dies ist aus unserer Sicht ein großer Vorteil im Vergleich zu einigen anderen Transkriptionswerkzeugen, wo Bild und Text nicht miteinander verbunden sind und damit der Bearbeiter diese Zuordnung selber vornehmen muss.

Alle Funktionen zum Bild und zu Strukturelementen befinden sich in der:

Bildbereich-Menüleiste (Canvas Menu Bar)

Beschreibung der Schaltflächen von links nach rechts inkl. dem angezeigten mouseover-Text:

  • Auswahlwerkzeug (Selection mode): Der übliche Modus zum Arbeiten im Bildbereich. Damit lassen sich Strukturbereiche auswählen, um sie zu bearbeiten.
  • Zoom selection mode: Wenn ausgewählt, kann mit der linken Maustaste ein Rahmen aufgezogen werden, in den gezoomt wird.
  • Lupe (Loupe mode): Der Mauszeiger wird zur Lupe.
  • Zoom in: Bild vergrößern
  • Zoom out: Bild verkleinern
    • Anmerkung: zum Vergrößern/Verkleinern kann auch das Mausrad verwendet werden.
  • An Seite anpassen (Fit to page)
    • An Seite anpassen (fit to page): passt die Seite in den Bildbereich ein (Tip: ein Klick mit dem Mausrad hat dieselbe Wirkung)
    • Originalgröße (Original Size): die Seite wird in Originalgröße dargestellt
    • Breite anpassen (Fit to width): Bild der Breite nach in den Bildbereich einpassen
    • Höhe anpassen (Fit to height): Bild der Höhe nach in den Bildbereich einpassen
  • Drehen (Rotate): Nach links/rechts drehen
  • Bild bewegen (Translate image): Bild nach links/rechts/oben/unten bewegen
    • Anmerkung: Einfacher ist es, durch anhaltendes Drücken der linken oder rechten Maustaste das Bild oder das ausgewählte Element in die gewünschte Position zu bewegen.
  • Ausgewähltes Element fokussieren (Focus selected object): Das ausgewählte Element wird vergrößert
    • Anmerkung: Ein Doppelklick auf das Element hat dieselbe Auswirkung
  • Bearbeitung der Strukturelemente aktivieren (Enable shape editing): Wenn ausgewählt, können die Strukturelemente (Textregionen, Zeilen...) auf der Seite mit den folgenden Werkzeugen bearbeitet werden (alle diese Bearbeitungsvorgänge können mit dem Rückgängig-Button (Undo) am Ende der Menüleiste rückgängig gemacht werden):
    • Satzspiegel hinzufügen (Add a printspace): einen Satzspiegel hinzufügen. Ein solcher ist für eine Transkription nicht notwendig, kann jedoch hilfreich sein, wenn gedruckte Bücher transkribiert werden und daraus eine Druckversion erstellt werden soll.
    • Textregion hinzufügen (Add a text region): eine Textregion hinzufügen. Textregionen sind für die weitere Segmentierung und Verarbeitung notwendig.
      • Anmerkung: Die Ränder von Textregionen sollten nahe am Text sein, müssen aber nicht perfekt den Textumriss nachempfinden. In den meisten Fällen wird ein einfaches Rechteck ausreichen.
    • Zeile hinzufügen (Add a line): eine Zeilenregion hinzufügen. Zeilen sind für die weitere Verarbeitung ebenfalls notwendig.
    • Grundlinie hinzufügen (Add a baseline): eine Grundlinie zu einer bestehenden Zeile hinzufügen. Wenn noch keine Zeile existiert, wird sie auf Basis der Grundlinie automatisch erstellt. Grundlinien sind für die weitere Verarbeitung essentiell, da das HTR-Prgramm sie als Bezugspunkt verwendet.
    • Wort hinzufügen (Add a word): ein Wort einer bestehenden Zeilenregion hinzufügen. Wörter müssen nicht unbedingt einzeln ausgezeichnet werde, die Transkription kann wahlweise für einzelne Wörter oder für ganze Zeilen (#Wort-/Zeilenbasiert) durchgeführt werden.

Die folgenden Bearbeitungswerkzeuge müssen auf bestehende Elemente angewendet werden, die zuvor entweder im Bildbereich oder im Strukturbaum (Registerkarte Struktur, links vom Canvas) ausgewählt werden:

    • Element löschen (Remove a shape): entfernt alle ausgewählten Elemente
    • Polygon verändern durch Hinzufügen eines Punktes (Add point to selected polygon): Damit kann der Umriss (eines Bildes, Buchstabens, Wortes etc.) besser nachgezeichnet werden.
    • Polygon verändern durch Löschen eines Punktes (Remove point from selected polygon): Damit kann ein Punkt eines händisch nachgezeichneten polygonalen Feldes gelöscht werden (siehe oben).
    • markierten Umriss horizontal teilen(Splits a shape into subshapes horizontally): Damit kann ein Umriss (mit einer senkrechten Linie!) in zwei nebeneinander liegende Teile geteilt werden, etwa wenn eine Textregion in Wirklichkeit zwei Spalten enthält.
    • Markierten Umriss vertikal teilen (Splits a shape into subshapes vertically): Damit kann eine falsche Segmentierung korrigiert werden. Beispielsweise kann so eine große Textregion in einzelne Absätze bzw. Sinnabschnitte aufgeteilt werden, oder eine Zeile in zwei.
    • Markierten Umriss durch eine benutzerdefinierte Linie teilen (Splits a shape into subshapes by a user defined line): Die Trennlinie ist frei setzbar und erlaubt daher höhere Flexibilität.
    • Ausgewählte Umrisse verbinden (Merge selected shapes): Mindestens zwei ausgewählte Umrisse werden miteinander verbunden.
    • Ausgewählten polygonalen Umriss vereinfachen (Simplifying selected polygon): Das ausgewählte Polygon erhält mithilfe eines Algorithmus einen stark vereinfachten Umriss mit deutlich weniger Ecken. Der Parameter hängt mit dem Grad der Vereinfachung zusammen: Je höher der Wert, desto mehr Punkte des Polygons werden gelöscht.

Der Texteditor

Der Texteditor und die dazugehörige Menüleiste

Der Texteditor ist stark mit dem Bildbereich verbunden. Genauer gesagt ist der Volltext - automatisch erkannt oder transkribiert - mit dem Bild auf Zeilen- oder Wortniveau verbunden. Wird eine Zeile ausgewählt und ist so auch im Bildbereich markiert, passiert das Gleiche auch im Texteditor. Transkribus ermöglicht auf diese Weise das schnelle und komfortable Transkribieren und Korrigieren eines Textes. Alle Werkzeuge für diese Aufgabe befinden sich in der Menüleiste des Texteditors:

Menüleiste des Texteditors

  • wort- oder zeilenabhängige Darstellung (Line based/Word based): Es gibt prinzipiell zwei Möglichkeiten, um mit einem Text bzw. Dokument zu arbeiten. Während für die HTR-Erkennung eine Zeilenunterteilung ausreichend ist, benötigt die OCR-Erkennung (gedruckte Texte) eine Wortunterteilung. Denn im Moment kann die HTR-Erkennung weder Einzelwörter erkennen, noch werden Segmente aus einzelnen Wörtern für das Trainig des HTR-Programms benötigt. Wir empfehlen Ihnen, mit einer Basislinie (also line-basiert) zu arbeiten. In Einzelfällen kann auch die Arbeit an segmentierten Wörtern sinnvoll sein.
  • Region: Wechseln Sie zwischen den Textregionen vor und zurück oder springen Sie direkt zu jener Textregion, wo Sie Ihren Text eingeben.
  • Schriftart (Change font): Hier können Sie die Schriftart bzw. -größe Ihres Textes verändern. Die Veränderungen betreffen nur die Anzeige und werden bei einem Exportieren des Textes nicht berücksichtigt.
  • Zeilenmarkierung (Toggle line bullet visibility): So können Sie die Zeilennummerierung anzeigen oder verbergen. Sind die Aufzählungszeichen grün, wurde bereits eine HTR durchgeführt und der Vorschlagseditor kann benutzt werden!
  • Absatzmarken: So können Sie mit Absatzmarken wie in den gängigen Textverarbeitungsprogrammen arbeiten.
  • Textausrichtung (Alignment): Links- bzw. Rechtsausrichtung des Textes oder Blocksatz.
  • Sichtbare Linie darüber oder darunter (Visible line above and beneath): Wenn ausgewählt,liegt dir gerade bearbeitete Zeile/Linie im Editor nicht direkt auf einer anderen Linie.
  • Schriftarten bzw. Formatierungen anzeigen (Show styles): Diese Einstellungen werden nur im Editor umgesetzt.
    • Schriftformate (Font type styles): Schrift mit Kapitälchen (serif), dicktengleiche Schrift (Konstantschrift) (monospace), Sperrsatz (letter spaced.).
    • Textformate (Text style): normal, kursiv (italic), fett (bold) oder fett & kursiv (bold & italic).
    • andere Formatierungen (other): unterstrichen (underlined), durchgestrichen (strikethrough), usw.
    • Etikettierungen (Tags): Verschiedene Markierungskategorien können mit unterschiedlichen Farben dargestellt werden.
  • Text löschen (Delete text): Dies kann auf verschiedenen Ebenen passieren.
    • Text innerhalb einer markierten Texregion löschen (Delete text of current region).
    • Text innerhalb einer markierten Zeile löschen (Delete text of current line).
    • Text innerhalb eines markierten Wortes löschen (Delete text of current word).
  • Aktivieren der Autovervollständigung (Enable autocomplete): Vorsicht, diese Funktion befindet sich noch in einem sehr frühen, experimentellen Status. Bei Mobiltelefonen wird es jedoch bereits erfolgreich angewandt, indem beim Schreiben Vorschläge zur Worterkennung geliefert werden. Im Moment beschränkt sich das Wörterbuch, aus dem die Vorschläge entnommen werden, auf die jeweilige Seite, es soll aber in Zukunft zu einem umfassenden gesamtsprachlichen Wörterbuch weiterentwickelt werden.
  • langer Bindestrich (Long dash): Einfügen eines langen Bindestrichs ('Geviertstrich').
  • (hakenförmiger) Bedingter Trennstrich (Angled dash): Fügt einen sog. Bedingten Trennstrich ein(normalerweise unter den Sonderzeichen zu finden) Inserts an angled dash (not sign). Damit sollte stets das Ende einer Zeile bzw. ein Zeilenumbruch markiert werden.
  • Rückwärts (Undo): So machen Sie Ihre letzte Aktion rückgängig (Tastenkombination: ctrl + z).
  • Vorwärts (Redo)): So stellen Sie ihre letzte Aktion wieder her (ctrl + y).
  • HTR-Vorschläge (HTR suggestions): Hier können Sie wählen, ob Sie die Vorschläge der HTR-Transkription zur Autovervollständigung sehen möchten oder nicht. Diese Möglichkeit steht allerdings nur dann zur Verfügung, wenn an diesem Dokument bereits eine HTR-Texterkennung durchgeführt worden ist. Wenn am Zeilenanfang grüne Punkte aufscheinen, stehen HTR-Daten für diese Seite zur Verfügung und können verwenet werden.
    • Das Programm zur Autovervollständigung der Transkription erscheint in der Form einer Tabelle: Jede Spalte enthält die Vorschläge zu dem jeweiligen ganz oben stehenden Wort. Wenn Sie auf ein bestimmtes Wort in der Tabelle klicken, wird das entsprechende Wort im Texteditor damit ersetzt.
  • CATTI aktivieren (CATTI): So aktivieren Sie die Autovervollständigung mit CATTI. Dies funktioniert jedoch nur, wenn bereits eine HTR-Erkennung durchgeführt wurde und somit sog. "Wordgraphen" vorhanden sind.
    • Diese Funktion bietet eine interaktive Transkription mithilfe von Vorschlägen zur Autovervollständigung, die auf dem sog. "wordgraph" basieren (einer komplexen Methode, die Ergebnisse eines HTR-Prozesses zu speichern). Sobald ein Wort eingegeben wird, schlägt das Programm die wahrscheinlichste Möglichkeit zur Vervollständigung der restlichen Zeile vor. Indem Sie "Strg + n" eingeben, springen sie zum nächsten Vorschlag des Programmes. Diese Funktion ermöglicht eine deutlich schnellere Textkorrektur. HINWEIS: Für optimale Ergebnisse sollten die Funktionen CATTI" und "HTR-Suggestions" zusammen eingesetzt werden.
  • Neu laden (Reload): So laden Sie den Wordgraph-Editor neu.

Die einzelnen Tabs

Transkribus bietet insgesamt neun Tabs (Kartei- bzw. Registerkärtchen) mit unterschiedlichen Werkzegen an, um ein Dokument zu bearbeiten:

Auf der linken Seite:

  • Dokumente (Documents): Hier können Sie Dokumente auswählen und öffnen, hochladen, löschen bzw. mit anderen BenutzerInnen teilen, sowie innerhalb der Sammlungen (collections) und Dokumente suchen.
  • Struktur (Structure): Ein Strukturbaum zeigt die Unterteilung der aktuellen Seite in Textblöcke, Zeilen und Einzelwörter mit den jeweiligen Inhalten.
  • Änderungen (Jobs): Hier werden alle Veränderungen angezeigt, die an diesem Dokument oder dieser Sammlung vorgenommen worden sind.
  • Versionen (Versions): Zeigt alle bisher existierenden Versionen des Bearbeitungs- bzw. Transkriptionsprozesses an.
  • Einzelseiten (Pages): Hier werden die einzelnen Seiten eines Dokuments in Miniaturansicht dargestellt.

Auf der rechten Seite:

  • Metadaten (Metadata): Hier können Angaben zur Struktur eines Textes bzw. einer Seite gemacht werden.
  • Werkzeuge (Tools): bietet Hilfsmittel zum automatischen Bearbeiten einzelner Seiten an.
  • Virtuelle Tastatur (Virtual Keyboard): Hier finden Sie für ihre Transkription verschiedene Sonderzeichen und sprachspezifische (z. B. griechische) Buchstaben.
  • Markieren (Tagging): Hier können Sie in ihrer Transkription Markierungen vornehmen, z. B. Abkürzungen, Namen, Orte, Jahreszahlen etc. eigens als solche Kennzeichnen (Dies birgt große Vorstelle für eine spätere Recherche).

Tab "Documents"

Der Collection Manager im Documente-Tab

Innerhalb dieses Tabs können Sie:

  • allgemeine Informationen zum jeweiligen Dokument anzeigen;
  • Metadaten (z. B. Titel, Datum, Sprache)* des jeweiligen Dokuments bearbeiten (siehe unten);
  • (verwendete/zu verwendende) Transkriptionsrichtlinen ("Editorial Declaration") hinzufügen:
  • eine Collection auswählen, mit der Sie arbeiten möchten;
  • ein Dokument auswählen, mit dem Sie arbeiten möchten;
  • den collection manager benutzen(Werkzeug zur Verwaltung der einzelnen Dokumente und Sammlungen sowie zur Überwachung der Aktivitäten);
  • neue Dokumente hochladen - entweder einzeln (langsam) oder über FTP (schnell);
  • nach Collections und Dokumenten suchen.
Metadaten
  • Geladenes Dokument (Loaded doc): Zeigt den Titel und die eindeutige ID des Dokuments innerhalb des Transkribus-Cloud an.
  • Aktuelle Sammlung (Current collection): Zeigt die ID und den Namen der Sammlung an, aus der das Dokument geöffnet wird.
  • Aktuelle Datei (Current file): Zeigt den ursprünglichen Dateinamen an.

Anmerkung: Alle diese Informationen können auch in der Titelleiste gefunden werden

  • Dokument-Metadaten (Document metadata): Hier können BenutzerInnen einige grundlegende Hintergrundinformationen zum Dokument hinzuzufügen: Titel, Autor, Uploaddatum, Genre, Sprache(n), Schrifttyp, Bearbeitungsdatum und Beschreibung (etwa Beschreibung der bereits getätigten Arbeitsschritte etc.).
  • Transkriptionsregeln (Editorial Declaration): Um eine digitale Edition anfertigen zu können, die wissenschaftlichen Anforderungen genügt, müssen gewisse Transkriptionsrichtlinen eingehalten und offen kommuniziert werden. Hier finden Sie eine umfassende und transparente Beschreibung, wie bestimmte Buchstaben, Satz- und Sonderzeichen, Umlaute usw. zu transkribieren sind, bzw. wie in gewissen Situationen zu verfahren ist. Da zudem mehrere Menschen an diesem Projekt mitarbeiten werden, ist eine einheitliche Vorgehensweise besonders wichtig, um unnötige Anpassungsarbeiten im Nachhinein zu vermeiden.

Um die BenutzerInnen dabei bestmöglich zu unterstützen, haben wir dafür eine spezielle Funktion eingeführt. Weitere Informationen zu den Transkriptionsrichtlinen finden Sie unter Editorial Declaration. Diese Seite wird anhand künftiger Probleme und Fragen, die Sie an uns richten, ständig weiterentwickelt und ausgebaut.

Dokumente auf dem Server (Server documents)

Auch wenn es grundsätzlich möglich ist, lokal (auf dem eigenen Rechner) mit Transkribus zu arbeiten, erfordern die meisten Funktionen ein Ablegen der Dokumente auf dem Server (in der "Transkribus-Cloud"). Die nun folgenden Punkte betreffen also nur Dokumente, die sich auf den Transkribus-Servern befinden:

Sammlungen (Collections)
  • Sammlungen neu laden (Reaload): z.B. nach dem Hochladen von Dokumenten in eine neu angelegte Sammlung.
  • Den Sammlungs-Manager (Collection Manager) aufrufen:
Sammlungs-Manager (Collection Manager)
Der Collection-Manager: Übersicht

In der Übersicht links werden alle Sammlungen angezeigt, die für die jeweiligen Benutzer freigegeben sind. In dieser Liste der Sammlungen werden ID, Titel, enthaltene Dokumente, Seitenzahl, Berechtigungen etc. angezeigt. Der Sammlungsmanager wird verwendet, um einer Sammlung Dokumente hinzuzufügen (linke Seite) und die Zugriffs- bzw. Zugangsrechte bestimmter Benutzer zu verwalten (rechte Seite). Er wird über die Schaltfläche Manage collections (oberhalb des Drop-down Menüs mit der Liste der Sammlungen) gestartet. Es öffnet sich ein neues Fenster, in dem Sammlungen in folgender Weise verwaltet werden können:

  • Erstellen von neuen Sammlungen/Löschen leerer Sammlungen;
  • Benutzerverwaltung: Hinzufügen / Entfernen von Benutzern der ausgewählten Sammlung. Im Bereich Find users können Benutzer mit Hilfe von mehreren Suchfeldern (Vorname, Nachname oder E-Mail-Adresse) gefunden werden. Zusätzlich kann die Rolle eines bereits hinzugefügten Benutzers geändert werden. Momentan gibt es folgende Rollen mit entsprechenden Berechtigungen:
    • Eigentümer (Owner): Hat alle Rechte für die Sammlung. Kann Dokumente hinzufügen, Benutzern den Zugang erlauben oder verweigern und die Benutzerrollen verändern.
    • Bearbeiter (Editor): Kann freigegebene Dokumente transkribieren und andere Transkriptoren den Zugriff erlauben.
    • Transkriptor (Transcriber): Kann freigegebene Dokumente transkribieren (und natürlich auch taggen, kommentieren etc.)
  • Dokumentenmanagement (unten links):
    • Dokumente der ausgewählten Sammlung können entfernt oder hinzugefügt werden.
    • Im Dokumentenmanager werden alle hochgeladenen Dokumenten eines einzelnen Benutzers angezeigt, zudem können Sie auch einer Sammlung hinzugefügt werden.
      • Anmerkung: Ein Dokument kann auch zu mehreren Sammlungen gehören.
Hochladen von Dokumenten (Ingest or upload documents)

Wenn Sie bei Documents auf das Ordnersymbol mit dem grünen Zeichen klicken, öffnet sich ein neues Fenster, wo Sie folgende Aktionen durchführen können:

  • Ein Dokument in die ausgewählte Kollektion hochladen: Wählen Sie ein Verzeichnis mit Bildern aus, das Sie auf den Server hochladen möchten.
    • ACHTUNG: Diese Methode ist langsam und nur für einige wenige Seiten zu empfehlen.
  • Dokumente vom FTP-Speicher übernehmen: Dies ist ein zweistufiger Upload-Vorgang. Er erfordert einen FTP-Client, ist jedoch schnell und zuverlässig. Zudem können Sie auch große Mengen von Dokumenten auf bequeme Weise auf einmal hochgeladen werden.
    • FTP-Server: Verwenden Sie die folgende Serveradresse für den FTP-Upload: ftp://transkribus.eu/.
    • Normalerweise wird zum FTP-Upload "Filezilla" verwendet. Alternativ kann der FTP-Uploadordner auch im Windows-Explorer (nicht Internet-Explorer!) geöffnet werden. Kopieren Sie hierfür die Serveradresse in die Adresszeile. Zur Verbindung mit dem FTP-Server benötigen Sie Ihren Transkribus Benutzernamen und Ihr Passwort.
    • Kopieren Sie die Dateien von Ihrer Festplatte oder einem Netzwerkspeicher in Ihren privaten Transkribus-FTP-Ordner.
    • Wenn Sie im Transkribus-Client auf Ingest documents from FTP storage klicken finden Sie eine Liste der auf dem FTP-Server abgelegten Dokumente. Nun können Sie ein beliebiges Dokument ausgewählen und in eine vorhandene oder neu erstellte Sammlung aufnehmen.

Hinweis: Sie können nur ganze Verzeichnisse/Ordner hochgeladen, jedoch nicht einzelne Bilddateien. Sie haben jedoch die Möglichkeit, einzelne Bilddateien zu ersetzen, wenn Sie ein fehlerhaftes Bild in einem hochgeladenen Dokument entdecken. Außerdem können einzelne Seiten gelöscht werden.

Tab "Structure"

Struktur-Tab

Der Struktur-Tab, erlaubt es den BenutzerInnen, schnell durch eine bereits segmentierte Seite zu navigieren. Die Struktur einer jeden Seite unterliegt folgender Hierarchie:

  • Satzspiegel (print space)
  • Textregionen (text regions)
    • Zeilen (lines)
      • Grundlinien (Baselines)
      • Wörter (words). Kleinster Strukturtyp in dieser Hierarchie.
  • Trennzeichen-Regionen

Jede Textregion besteht aus einer bestimmten Anzahl an Zeilen. Jede Zeile hat eine Grundlinie und kann mehrere Wörter als untergeordnete Elemente haben. Für jede dieser Strukturkategorieren werden zusätzliche Informationen angezeigt, so z.B. der jeweilige Text, der in dem entsprechenden Bereich/Element enthalten ist (falls bereits transkribiert oder automatisch erkannt), weiters die Koordinaten der Umrisslinie (als Punktliste), die ID und die Lesereihenfolge.

Mit Hilfe der Struktur-Werkzeugleiste können Sie:

  • den Strukturbaum aus- und einklappen,
  • allen Elementen eindeutige IDs basierend auf der aktuellen Sortierung zuweisen
  • die Elemente aufgrund ihrer Koordinatenposition automatisch ordnen.

Die Lesereihenfolge kann entweder durch das Hin- und Herschieben der einzelnen Elemente mit der Maus oder durch das Eintippen einer neuen Nummer in die betreffenden Spalte der Tabelle geändert werden. Aufgrund der Vielseitigkeit handschriftlichen (und auch gedruckter) Dokumente ist die Kontrolle der Lesereihenfolge sehr wichtig. HINWEIS: Die Lesereihenfolge wird immer für das ausgewählte Element berechnet.

Zusätzlich gibt es noch die Schaltfläche Löschen (ein rotes Kreuz), die Struktur und Inhalt der gesamten Seite löscht (Diese Funktion sollte mit Vorsicht verwendet werden!). Sollte die Struktur der aktuellen Seite aus Versehen gelöscht werden, kann sie wiederhergestellt werden. Klicken Sie dazu entweder in der Bildbereich-Werkzeugleiste entweder auf "zurück" oder speichern Sie die Änderungen nicht, wenn Sie die Seite verlassen bzw. wenn die Meldung "Änderungen speichern" auftaucht.

Tab "Jobs"

Job Tab

Unter der Registerkarte "Jobs" erhalten Sie einen Überblick über alle Aktivitäten am aktuellen Dokument aber auch an allen anderen Dokumenten, auf die der Benutzer Zugriff hat. Eine Tabelle liefert Einzelheiten zu den einzelnen Vorgängen:

  • Typ (Type): Art des Vorgangs = WAS?
    • Dokument erstellt (Create document): Ein Dokument wurde in die Transkribus-Cloud hochgeladen.
    • OCR: Ein OCR-Auftrag wurde mit dem ABBYY-Finereader durchgeführt.
    • HTR: Ein HTR-Auftrag wurde durchgeführt.
  • Status (State): Der Status des Auftrags = WIE WEIT?
    • Warten (Waiting): Der Auftrag befindet in der Warteschleife, da der Server im Moment ausgelastet ist.
    • Läuft (Running): Der Auftrag auf dem Server wird durchgeführt.
    • Abgeschlossen (Finished): Der Auftrag wurde ordnungsgemäß durchgeführt.
    • Abgebrochen (Cancelled): Der Auftrag wurde vom Benutzer vorzeitig abgebrochen.
    • Fehlgeschlagen (Failed): Der Auftrag konnte vom Server nicht durchgeführt werden.
  • Erstellungsdatum (Creation date): Zeigt an, wann der Auftrag vom Benutzer erstellt wurde = WANN?
  • Doc-ID: Die Identifikationsnummer des Dokuments = WO?
  • User-Id: Die Identifikationsnummer des Benutzers, der den Auftrag gestartet hat. = WER?

Anmerkung: Hier werden die Aktivitäten alljener Benutzer angezeigt, die innerhalb einer Sammlung Rechte mit Ihnen teilen.

  • Seite (Page): Die Seitenzahl resp. die Bildnummer im Dokument. "-1" steht für das gesamte Dokument.
  • Beschreibung (Description): Eine ausführlichere Statusbeschreibung
  • ID: Ein Identifikationscode für den Auftrag als Ganzes.

Tab "Versions"

Versionen-Tab

Diese Funktion steht nur für auf dem Server gespeicherte Dokumente zur Verfügung. Bei lokal gespeicherten Dokumenten wird jeweils nur die aktuelle Version gespeichert. Transkribus speichert mehrere Versionen eines Dokuments auf dem Server. Jede Version entspricht einer kompletten PAGE XML-Datei, die alle Informationen zu Segmentierung und Transkription enthält. Unter dem Tab "Versionen" erhalten Sie eine Liste aller Versionen, die während des Arbeitsablaufs vom aktuell geöffneten Dokument erstellt wurden. Jedes Mal wenn der Benutzer (oder ein vom Benutzer gestarteter Arbeitsvorgang) eine Seite speichert, wird eine neue Version erzeugt.

Diese Überblicksfunktion über alle erstellten Versionen des Dokuments bietet folgende Vorteile:

  • Sie haben jederzeit den Überblick über alle Änderungen, die Sie selbst oder andere Benutzer, die auf das Dokument zugreifen dürfen, durchgeführt haben.
  • Sie können zu einer früheren Version zurückkehren, wenn sie von vorne beginnen oder einige Bearbeitungsschritte ungeschehen machen möchten.
  • Es gehen keine Arbeitsschritte verloren, im Gegensatz zu einer singulären Speicherung, wo die ältere Version durch eine neue überschrieben und damit gelöscht wird.
  • Sie können Experimente durchführen und verschiedene Versionen eines Dokuments/einer Transkription miteinander vergleichen.

Tab "Pages"

Unter dem Seiten-Tab finden Sie eine einfache Übersicht aller in dem Dokument enhtaltenen Seiten in Form von Miniaturansichten. Sie ermöglicht einen schnellen und unkomplizierten Zugriff auf einzelne Seiten (Doppelklick auf die gewünschte Seite) und zeigt auch den jeweiligen Original-Dateinamen an.

Tab "Metadata"

Metadaten-Tab

Dieser und die folgenden Tabs befinden sich nun auf der rechten Seite des zentralen Moduls.

Hier können Sie allgemeine Daten zum Fortgang des Transkriptionsprozesses, strukturelle Metainformationen über die Seite und die segmentierten Elemente sowie Formatierungsangaben eingesehen und bearbeitet werden.

  • Status bearbeiten (Edit Status): Hier können Sie den jeweiligen Bearbeitungsstatus der Datei einsehen bzw. bearbeiten.
    • Ein Dokument/eine Seite kann als "Neu", "In Bearbeitung", "Beendet" oder "Abgeschlossen" deklariert und gespeichert werden. Alle Benutzer, die an dieser Seite/an diesem Dokument weiterarbeiten bzw. den ihnen zugeteilten Arbeitsschritt durchgeführt haben, sollten den Status jeweils aktualisieren. Sobald der letzte Arbeitsschritt durchgeführt wurde, kann die endgültige Version der Seite/des Dokumentes mit einem "Done" als erledigt markiert werden. So können Arbeitsabläufe innerhalb eines Teams besser koordiniert und Überschneidungen vermieden werden.
  • Seitentyp (Page type): Hier können Sie einsehen bzw. angeben, was für eine Rolle/Aufgabe die betreffende Seite im Originaldokument einnimmt.
    • Folgende Funktionskategorieren stehen im Moment zur Verfügung: vorderer/hinterer Buchdeckel, Titelblatt, Inhaltsverzeichnis, Index, normale Textseite, Leerseite, Sonstiges.
  • Verknüpfungen (Links): Damit verknüpfen Sie zwei segmentiertn Elemente miteinander, die eigentlich zusammengehören würden. (z. B eine hochgestellte Ziffer im Text mit der dazugehörigen Fußnote).
    • Markieren Sie dazu die beiden betreffenden Elemente per Mausklick, während Sie die Strg-taste dabei gedrückt halten. Klicken Sie dann auf die Schaltfläche "Link".
    • Die Verknüpfung wird nun in der PAGE XML_Datei und im Textfeld dargestellt (dort wird eine Verknüpfung zwischen den Zeilen 1 und 4 beispielsweise so dargestellt: tl_1 <-> tl_4).
  • Elementtyp (Selected element type): Hier können Sie einzelne Markierungen bzw. markierte Elemente kategorisieren und hierarchisieren.
    • Sie können ein markiertes Element entweder als Textregion, Zeile. Wort etc. ausweisen (hierarchisieren).
    • Sie können Bilder, Tabellen, Zier- und Segmentierungslinien sowie Notenzeichen und mathematische oder chemische Symbole auszeichnen.
    • Schließlich können Sie auch sensible Bereiche (Namen etc.) schwärzen bzw. unkenntlich machen.
  • Strukturtyp (Structure type): Damit können Sie Angaben zur Funktion des segmentierten Elements gemacht werden (z.B. Überschrift, Absatz, Seitenzahl, Fußnote, Bogensignatur ...)
  • Formatierungsangaben (Text style): damit können Formatierungsangaben für markierte passagen gespeichert werden (z.B. hoch-/tiefgestellt, durchgestrichen, unterstrichen ...)

Tab "Tools"

Transkribus beinhaltet eine Reihe automatisierter Dienste/Werkzeuge, die über die Benutzeroberfläche aufgerufen werden können. Diese Tools laufen in der Transkribus-Cloud und werden von der Universität Innsbruck gehostet. Einige der Werkzeuge werden auch auf dem [http: //www.uibk.ac.at/zid/systeme/hpc-systeme/ | High Performance Cluster LEO3] des Zentralen Computing-Service betrieben, wofür wir sehr dankbar sind!

Folgende Funktionen stehen Ihnen unter diesem Tab zur Verfügung:

Layout Analysis
Regionen ermitteln (Detect regions)
  • Beschreibung: Auf einzelnen Seiten werden automatisch Textregionen erkannt und ausgezeichnet, da die HTR-Verarbeitung korrekt erkannte Textregionen und Grundlinien benötigt. Dabei werden bereits vorhandene Textbereiche gelöscht oder überschrieben.
  • Status: Experimentell, es besteht noch Verbesserungsbedarf. In Zukunft sollen integrierte Lösungen verfügbar sein, wo Textregionen und Grundlinien in einem Arbeitsschritt erkannt werden können.
  • Anbieter: Nationales Zentrum für wissenschaftliche Forschung (NCSR) - Demokritos in Athen (Griechenland).
Zeilen und Grundlinien ermitteln (Detect lines and baselines)
  • Beschreibung: Zeilen und Grundlinien werden in den einzelnen Textregionen automatisch erkannt und ausgezeichnet. Eigentlich wären für die HTR-Erkennung nur die Grundlinien notwendig und keine Zeilenmarkierungen. Doch das PAGE XML-Format, mit dem TRANSKRIBUS arbeitet, erfordert, dass jede Grundlinie Teil eines Zeilenbereichs ist. Daher muss das Werkzeug Zeilenregionen erzeugen, obwohl diese für die weitere Bearbeitung uninteressant sind. Somit können die hier erzeugten Zeilenmarkierungen im Korrekturprozess einfach ignoriert werden.
  • Status: Betaversion, kann für produktive Arbeit verwendet werden.
  • Anbieter: Nationales Zentrum für wissenschaftliche Forschung (NCSR) - Demokritos in Athen (Griechenland).
Grundlinien ermitteln (Detect baselines)
  • Beschreibung: Automatische Kennzeichnung und Markierung der Grundlinien innerhalb von Zeilenereichen. Denn in seltenen Fällen kommt es vor, dass nur Zeilenregionen eingezeichnet sind, die Grundlinien aber fehlen. Das Werkzeug kann aber nur dann seinen Zweck erfüllen, wenn bereits bereits korrekte Zeilenregionen markiert sind
  • Status: Betaversion, kann für produktive Arbeit verwendet werden.
  • Anbieter: Nationales Zentrum für wissenschaftliche Forschung (NCSR) - Demokritos in Athen (Griechenland).
Text Recognition
Texterkennung starten für Seite/Dokumente (Run text recognition)
  • Hierzu öffnet sich ein neues Fenster, das beide Funktionen zur Texterkennung OCR für gedruckten und HTR für handgeschriebenen Text zusammenfasst.
  • Aktuellen finden Sie weiter unten noch jeweils eine eigene Schaltfläche für OCR und HTR
    • Nähere Informationen zu den beiden Texterkennungsprogrammen finden Sie dort.
Structure analysis
Seitenstruktur ermitteln (Analyse Structure of page)
  • Beschreibung: Hiermit können Sie die Struktur einer bereits mit OCR bearbeiteten Seite automatisch analysieren.
    • Anhand verschiedener Regeln können vorhandene Seitenzahlen, Header (= laufende Titel bzw. Kopfzeile) oder Fußnoten (nur den ganzen "Fußnotenapparat" am Seitenende, nicht die einzelnen Fußnoten) erkannt und entsprechend markiert werden.
    • Die ermittelten Strukturwerte werden dann in der Registerkarte "Struktur" auf der linken Seite angezeigt.
  • Status: Betaversion. Kann produktiv verwendet werden.
  • Anbieter: Abteilung für Digitalisierung und elektronische Archivierung (DEA), Universität Innsbruck
    • Credits: Diese Implementierung basiert auf der Infrastruktur, die während des IMPACT-Projekts (2008-2012) eingerichtet wurde. Im Rahmen dieses Projektes wurden von der Abteilung für Digitalisierung und elektronische Archivierung (DEA) an der Universität Innsbruck mehrere Regelsätze für die Verarbeitung von historischen gedruckten Dokumenten entwickelt, die problemlos auch auf andere Dokumenttypen erweitert werden können.
    • Kontakt:
Compute Accuracy
Genauigkeit berechnen
  • Beschreibung: Hier können Sie zwei Versionen eines Dokuments mit einander vergleichen. Typischerweise wird eine Referenzseite (ground truth) mit einer automatisch erzeugten Version der Seite verglichen. Das Tool liefert eine Wortfehlerrate (Word error rate, WER) und ein Zeichenfehlerrate (Character Error Rate, CER). Normalerweise ist die WER signifikant höher als die CER.
    • Damit das Tool arbeiten kann darf die Segmentierung nicht geändert werden, da das Werkzeug zum Vergleichen dieselben Zeilen in beiden Versionen benötigt.
  • Beispiel:
    • Referenztext: "nahme, daß der Beschluß vom 23. August 1901 unter allen Umständen rechts¬"' vs. von der HTR erkannter Text: "nahme daß der Beschluß vom 2 . August 1901 unter allen Umständen ."
    • Also haben wir 12 Wörter und 4 von ihnen sind falsch: "nahme" anstatt "nahme,", "2 ." anstatt "23.", "." an Ende wurde falsch eingefügt und "rechts¬" fehlt; dies gibt eine WER von 33%. Der gleiche Vorgang wird für einzelne Zeichen durchgeführt. Bei 73 Zeichen (inklusive Leerzeichen) und 9 davon sind falsch oder fehlen, ergibt sich eine CER von 12%.
    • Anmerkung: Diese Fehlerraten sind sehr streng angesetzt. Selbst wenn sich die WER um 30% und die CER um 15% bewegt, sind wir immer noch in der Lage, den ungefähren Inhalt eines Texts zu verstehen.
  • Status: Produktiv
  • Anbieter: Technische Universität Valencia, Pattern Recognition and Human Language Technology
  • Kontakt: https://www.prhlt.upv.es/


OCR (TYPEWRITTEN documents ONLY)
Start OCR for Document/for page

Beschreibung: Alle Seiten/Bilder des Dokuments werden mit ABBYY Finereader 11 SDK verarbeitet: ABBYY Finereader ist eine der führenden OCR-Engines weltweit. Wir haben nur wenige der von der ABBYY SDK angebotenen Funktionen implementiert. UIBK betreibt einen leistungsfähigen ABBYY-Finereader SDK Cluster und ist in der Lage, große Mengen von Dokumenten zu verarbeiten.

    • Im OCR-Fenster können Sie je nach Text eine odere mehrere Sprachen auswählen ebenso wie den Schrifttyp: Wählen Sie normal für Antiquaschrift, gothic für Frakturschrift und "kombiniert", wenn Fraktur- und Antiquaschrift in einem Dokument zusammen verwendet werden.
    • Da das Dokument von Grund auf neu verarbeitet wird, werden manuell segmentierte Textblöcke nicht berücksichtigt.
    • ACHTUNG: Dies ist ein externes Texterkennungswerkzeug für gedruckten Text - nicht für handgeschriebenen Text!
  • Status: Produktiv
  • Anbieter: ABBYY Finereader; Universität Innsbruck, Abteilung für Digitalisierung und elektronische Archivierung (DEA)
    • Credits: ABBYY Finereader für 15 Jahre Zusammenarbeit.
    • Diese Implementierung basiert auf einer Infrastruktur, die während des Europeana-Zeitungsprojekts 2013-2015, koordiniert von der Staatsbibliothek Berlin: http://www.europeana-newspapers.eu/. aufgebaut wurde.
HTR
HTR-Verarbeitung
  • Beschreibung: HTR-Recognition ist eine der ersten Implementierungen weltweit für die Verarbeitung von handgeschriebenen historischen Texten out-of-the-box.Trainierte HTR-Modelle können ausgewählt und auf einer ausgewählen Seite angewendet werden, um den Text automatisch zu erkennen. HTR ist ein ausgeklügeltes System, in dem Zeichensätze und Sprachmodelle zusammenspielen müssen. Beim derzeitigen Stand der HTR muss es separat auf jedes Dokument (oder Sammlung von Dokumenten) trainiert werden, um Texte überhaupt transkribieren zu können. Je mehr Daten verfügbar werden, desto höher wird die Chance, dass diese Modelle zusammengeführt werden können, so dass der Trainingsphase verkürzt wird.
    • Wörter, die nicht im Lexikon sind, werden nicht erkannt.
    • Zeichen (z.B. Sonderzeichen), welche nicht Teil des Trainingsprozesses waren, werden ebenfalls nicht erkannt.
  • Verfügbare HTR-Modelle
    • Reichsgericht_Training: Basiert auf deutscher Kurrentschrift aus dem frühen 20. Jahrhundert; Drei Schreiber; Nur ein sehr begrenzter juristischer (Fach-)Wortschatz; Wurde für das Training verwendet.
    • Forrest Collection 1-3: Basiert auf Probetexten, die in der Regel von George Forrest stammen; Wortschatz sehr begrenzt; Testkorpus.
    • Bozen HS37a: Basiert auf 100 Seiten deutschsprachigem Kurrenttext aus der Bozen-Sammlung; Mehrere Schreiber; Sehr begrenzter Wortschatz.
    • Zwettl 30: basiert auf 30 Seiten deutschsprachigem Kurrenttext aus dem 17. Jahrhundert; Mehrere Schreiber.
    • Frisch: Basiert auf 100 Seiten gedruckter Frakturschrift (deutschsprachig) aus dem 17. Jh.
    • MarineLives: Basiert auf 30 Seiten englischsprachiger Texte aus dem 18. Jh.; Eingeschränktes Vokabular. Momentan kein Lexikon im Hintergrund verfügbar, deshalb begrenzte Anwendbarkeit.
  • Status: Experimentell. Nicht produktiv verwenden!
  • Anbieter: Technische Universität Valencia, Pattern Recognition and Human Language Technology

Tab "Virtual Keyboards"

Die virtuelle Tastatur macht bedeutend mehr Buchstaben und Zeichen verfügbar. Es kann bei Bedarf um weitere Unicode-Blöcke oder auch um einzelne Zeichen erweitert werden. Hierfür:

  • Öffnen Sie den Transkribus-Ordner auf Ihrem Computer;
  • Öffnen Sie die Datei "virtualKeyboards.xml";
  • Hier sind bereits einige Unicode-Blöcke standardmäßig gespeichert und Sie können auch eigene hinzufügen. Wenn Sie einzelne Zeichen besonders häufig verwenden, können Sie diese auch unter Custom direkt einfügen.

Anmerkung: Es sollte auch möglich sein, Alphabete hinzuzufügen, die - wie Arabisch oder Hebräisch - von rechts nach links geschrieben werden.

Tab "Tagging" (noch im Beta-Stadium)

Kennzeichnung und Auflösung von Abkürzung mittels Tags
Tags suchen und finden
Tags normalisieren

Die Transkription eines (historischen) Textes erfordert oft die Angabe von zusätzlichen Informationen: Beispielsweise müssen Abkürzungen aufgelöst oder unklare Wörter gekennzeichnet werden. Zu diesem Zweck stellen wir ein umfassendes Tagging system zu Verfügung, welches Ihnen einerseits vordefinierte tags (Markierungen, Etiketten) zur Verfügung stellt, Ihnen aber auch die Möglichkeit bietet, Ihre eigenen tags zu definieren bzw. Tags auch wieder zu löschen ("Add tag"/"Delete tag"). Die bereits vordefinierten Tags sind zudem mit einigen zusätzlichen Funktionen ausgestattet.

Nähere Informationen zur Tag-Funktion

  • Vordefinierte Tags sind kursiv dargestellt.
  • Tags können nur im Text-Editor festgelegt werden.
  • Tags werden im Texteditor dargestellt.
  • Tags können nicht für Blöcke, sondern nur für Linien und Wörter festgelegt werden.
  • Die Farbe eines Tags wird automatisch erzeugt, kann jedoch durch Anklicken der Farbe einfach geändert werden.
  • Ein Wort oder Textabschnitt kann mehrfach getaggt sein.
  • Tags können mit "Attributen" näher definiert werden:
    • Beispiel: Mit dem "abbrev(iation)"-Tag kann eine Abkürzung als solche gekennzeichnet werden und über das Attribut "expansion" (=Erweiterung) kann dazu zusätzlich die Auflösung abgepeichert werden.
  • Beim Exportieren eines Dokuments können Tags in verschiedenen Formaten angezeigt werden. Siehe #Dokumentexport.


Vordefinierte Tags (Predefined tags)

  • Abkürzung (abbrev): damit werden abgekürzte Wörter markiert.
    • unter "Add attribute" (= Erweiterungen hinzufügen)können, so weit bekannt, die Auflösungen der Abkürzungen eingegeben werden. (Attribut expansion).
  • unklar (unclear): für unsichere Lesarten oder schwierige Wörter. So können Stellen, wo externe Hilfe benötigt wird, leichter wiedergefunden werden.
  • Person (person): für Personennamen
  • speech: für direkte Rede
  • place: für Ortsnamen
  • textStyle: für besondere Textgestaltung. Hinweis: wird bei Verwendung von text styles im #Metadaten Tab automatisch getaggt.
  • Organisation (organization): Hier können Ämter oder Institutionen (Rechtspersonen) markiert werden.
  • geschwärzte Stellen (blackening): Hier können geschwärzte Stellen gekennzeichnet werden.
  • date: Datum
  • gap: Lücke, Auslassung, Fehlstelle
  • sic: Steht für das klassische "sic!" = genau so!
  • ...


Tags finden (find tags) Innerhalb des "Tagging Tab" ist die Funktion find tags besonders nützlich.

  • Im Suchfenster kann zuerst der Rahmen vorgegeben werden, in dem die Suche durchgeführt werden soll. So kann eine ausgewählte Region, die Seite, das Dokument oder sogar die Sammlung nach bestimmten Tags durchsucht werden.
  • Gesucht werden kann sowohl nach dem Namen (unclear, Place etc.) als auch nach dem Wert/Inhalt eines Tags (z. B. "Paris" für den Place-Tag)
  • Die Suche kann durch zusätzliche Angaben weiter verfeinert werden.
    • Beispielsweise können Sie die Kategorie "Land" hinzufügen und den Wert "Frankreich" einfügen.
    • Sog. "property faces" können sich an den Tagerweiterungen orientieren. Dies bedeutet, dass für jeden Tag-Typ unterschiedliche "property facets" benötigt werden. Sie können so viele Zusatzangaben einfügen, wie Sie möchten, und sie natürlich auch wieder löschen.

Nach Einstellung der Suchbegriffe und Einschränkungen kann die Suche gestartet werden. Die Ergebnisse werden direkt im gleichen Fenster angezeigt. Dort sehen Sie den Tag-Wert, den Kontext (ein paar Wörter vor und nach dem Tag) und zusätzliche Informationen zur Position des Tags.

Mit den Suchergebnissen haben Sie nun folgende Handlungsoptionen bzw. Möglichkeiten:

  • Erstens können Sie sich mit Hilfe der Suchergebnisse einen generellen Überblick über Art, Anzahl und Eigenschaften etc. der in Ihrem Dokument verwendeten Tags verschaffen.
  • Indem Sie auf eine Position in der Ergebnisliste doppelklicken, öffnet sich der betreffende Aussschnitt der Seite im zentralen Bildbereich, die entsprechende Textpassage erscheint unten im Texteditor.
  • Mit dem "Previous"/"next"-Buttons (Vorwärts/Zurück) können Sie sowohl über den Bildbereich als auch den Texteditor innerhalb der Suchergebnisse vor- und zurückblättern.
  • "Normalisieren", d. h. vereinheitlichen Sie Tags (Namen, Orte etc.), die in unterschiedlicher Schreibweise das Gleiche bezeichnen, indem Sie die betreffenden Elemente aus Ihren Suchergebnissen zusammen markieren (Strg + Mausklick) und auf "Normalize" klicken.
    • Beispiel: Markieren Sie zwei Personen-Tags und klicken Sie auf "normalize", um das Normalisierungsfenster zu öffnen. Dort sehen Sie alle Attribute, welche den jeweiligen Tags zugeschrieben worden sind. Wählen sie jene Attribute aus, die beide Tags gemeinsam haben und die sie für den normalisierten Tag übernehmen wollen. Klicken Sie auf "Normalize selected Tags" (= ausgewählte Tags normalisieren).
    • Wenn Sie beipielsweise drei Tags mit dem Wert "Goethe" haben ("von Goethe", "Johann Wolfgang Goethe", "Wolfgang von Goethe"), die alle dieselbe Person bezeichnen, wählen Sie alle drei aus und klicken dann auf "normalisieren". Bei den Attributen können Sie für alle drei einen gemeinsamen Vornamen definieren "Johann Wolfgang von".
  • Durch Normalisierung von Tags (Personen, Orte usw.) verbessern Sie später die Suchfunktion durch einheitliche Suchbegriffe und Definitionen. Dies ist gerade bei alten Schrifterzeugnissen notwendig, weil es bis in das 19. Jahrhundert keine einheitliche Rechtschreibung gegeben hat, und Texte nach dem Gehör bzw. im Ermessen des Schreibers verschriftlicht worden sind.
    • HINWEIS: Eine Normalisierung unterschiedlicher Tags ist nicht möglich, wenn/weil sie auch unterschiedliche Attribute haben.

Bilder zerteilen bzw. segmentieren

Die Segmentierung einzelner Scans bzw. Bilddateien in Textregionen (text regions), Zeilen (line regions) und Grundlinien (baseline) ist fundamental und die wichtigste Voraussetzung, um mit Transkribus arbeiten zu können. Im Vergleich zu einer reinen Transkription des Textes mag dies zwar ein zusätzlicher Arbeitsschritt sein, die Segmentierung bietet aber dafür mehrere Vorteile: Eine Segmetierung der einzelnen Seiten wird benötigt, um

  • ...die HTR-Texterkennung mit weiteren Inputs zu trainieren.
  • ... um überhaupt einen handgeschriebenen Text mit einem trainierten HTR-Modell transkribieren zu können.
  • ... um Texte und Bilder in andere Formate umwandeln bzw. exportieren zu können, z. B. in PDF-Dateien, die auch über die Suchfunktion durchsuchbar sind.

Hinweis: Alle segmentierten Elemente (Satzspiegel/Printspace, Textregionen, Zeilen oder Grundlinien) werden in der PAGE-Datei mitsamt ihren Koordinaten gespeichert.


All diese Funktionen finden Sie jeweils mit einer kurzen Beschreibung im Kapitel "Canvas (Bildbereich in der Mitte)"

Die Bildsegmentierung unterliegt folgenden Regeln:

  • Die händische Trankription einer Seite kann nur durchgeführt werden, wenn auf der Seite die Textregionen und Zeilen bereits markiert worden sind.
  • Der erste Bearbeitungsschritt ist daher im Allgemeinen, auf einer Seite bzw. einem Scan zuerst die Textregionen zu markieren bzw. einzuzeichnen.
  • Im Folgenden müssen die Grundlinien für jede Zeile gezogen werden, die Zeilenmarkierungen können dann automatisch erstellt werden.
  • TIPP: Alle Segmentierungen können entweder in Form eines Vielecks oder eines Rechtecks gezeichnet werden. In den allermeisten Fällen sind rechteckige Markierungen völlig ausreichend, um einen Text korrekt zu transkribieren oder die HTR-Funktion zu trainieren.

Seitensegmentierung Schritt für Schritt

Die Seitensegmentierung in Textregionen (TR), Zeilen (LR) und Grundlinien (BL) kann entweder manuell oder automatisch durchgeführt werden. Da die Beschaffenheit der Textregionen je nach Art des Dokumements sehr unterschiedlich aussehen können, sollten Sie sich zuerst eine generelle Vorstellung davon verschaffen, wie die Textregionen in Ihrem Dokument aussehen. Da es sehr unwahrscheinlich ist, dass das Programm in der Lage sein wird, alle Textregionen exakt und nach Ihren Vorstellungen zu erkennen und zu markieren, ist es besser, die Textregionen gleich manuell zu definieren. Natürlich können Sie auch die automatische Erkennung von Texregionen und Grundlinien ausprobieren, indem Sie auf "Detect Line Regions and Baselines" klicken, und danach bei Bedarf manuell korrigieren. Die automatische Segmentierung funktioniert dann recht gut, wenn sich die Zeilen möglichst selten überschneiden.

Das manuelle Segmentieren wird erleichtert, wenn die einzelnen Bildschirmblöcke bzw. Elemente der Benutzeroberfläche nicht miteinander verbunden bzw. auch unsichtbar sind. Besonders zu emopfehlen ist die Arbeit an zwei Bildschirmen.

Dokumente transkribieren

Dokumente exportieren

Export Document, z.B. PDF mit markierten Tags

Wenn Sie auf "Export Document" in der Werkzeugleiste ganz oben klicken, öffnet sich das Export-Fenster.

Hier zeigt das Programm alle möglichen Dateiformate an, in die eine Transkription umgewandelt und gespeichert werden kann. Einige dieser Formate lassen sich auch gleichzeitig für ein einziges Dokument auswählen.

  • Image/Page(Alto)/Mets: Dieses Format ermöglicht den Export sowohl der Bilder als auch der Transkription entweder im Page- oder im Alto-Format, und der Met-Datei mit den Hintergrundinformationen. Diese Einstellungen können unter dem betreffenden Tab unter Exportoptionen ausgewählt werden.
  • PDF: Im PDF-Format ist es möglich, direkt unter dem Bild die jeweilige Transkription zu positionieren. Es ist aber auch möglich, reine Textseiten innerhalb des PDF zu erzeugen. Das heißt, dass nach einer Bildseite jeweils eine Textseite mit der bereits formatierten Trankription folgt.
    • Weiters besteht hier auch die Möglichkeit, alle markierten Tags im exportierten Dokument zu unterstreichen oder farblich zu markieren. Auf der letzten Seite befindet sich dann jeweils eien Übersicht dieser markierten Tags. Wenn Sie dann in dieser Liste auf einen der Tags klicken, startet automatisch ein Suchvorgang innerhalb des PDF-Dokuments.
  • TEI: Wenn Sie eine TEI-Datei erzeugen möchten, können Sie zwischen "Zone per region" oder "Zone per line" wählen, je nachdem ob sie Transkription nach Zeilen oder nach Textregionen gliedern möchten. Die "Zone per region"-Funktion ist bereits voreingestellt: Das Dokument weist dann eine viel einfachere TEI-Struktur auf, als dies bei der zweiten Möglichkeit der Fall wäre.
  • DOCX: In diesem Fall wird eine Worddatei mit dem transkribrierten Text erzeugt.
  • Tag-Export: Dieses Format ermöglicht es, nur die Tags in Form einer Excel-Tabelle.
    • Das erste Blatt des Dokuments gibt jeweils einen Überblick über alle exportierten Tags, während die folgenden Blätter jeweils Tags desselben Typs auflisten.
    • Der Name des Blattes entpricht jeweils dem Namen des exportierten Tags.
    • Die Spalten auf den einzeln Blättern enthalten jeweils die Tagattribute, die Zeilen enthalten jeweils einen Tag.

Viele der vorhandenen Auswahlmöglichkeiten können bei allen Exportformaten gewählt werden:

  • Die einzelnen Seiten können bei allen Formaten mit exportiert werden.
  • Bei allen Formaten werden die einzelnen Seiten automatisch mit exportiert, dennoch können sie jeweils manuell für den Export ausgewählt oder ausgeschlossen werden.
  • Bei den meisten Tags können auch die benutzerdefinierten Tags ebenfalls exportiert werden.
  • Um manuell einzelne Tags für den Export auszuwählen bzw. auszuschließen, klicken Sie auf "select tags". In dem neuen Fenster finden Sie eine Liste, aus der Sie die gewünschten Tags auswählen können.
  • Im ersten Feld ganz oben können Sie den Zielort definieren, wo Ihre generierte Datei gespeichert werden soll.
  • Klicken Sie abschließend auf OK, um den Exportvorgang abzuschließen. Wenn eine Meldung erscheint, dass bereits eine Datei gleichen Namens vorhanden ist, können Sie entscheiden, ob Sie die ältere Datei überschreiben oder den Vorgang abbrechen möchten.

Shortcuts

Hier finden Sie eine Liste aller Tastaturkürzel, mit denen Sie in Transkribus arbeiten können. Damit können Sie nicht nur schneller arbeiten, sondern auch die Benutzung der Maus reduzieren, was Ihrem Arm und ihren Fingern zugutekommen wird. Diese Liste ist nicht volsltändig und wird erweitert:

  • Alt C: Markiert sehr schnell ein ausgewähltes Wort durch einen Tag. Wenn Sie bestimmten Tag auf mehrere Textstellen setzen möchten, wählen Sie den Tag aus der Checkliste aus, markieren eine bestimmte Textstelle und drücken "Alt C". Der ausgewählte Tag wird gesetzt.

Schon gewusst?

  • Video-Webinar auf English
    • Hier finden sie ein Online-Webinar in englischer Sprache mit einer kurzen Einführung, das speziell ab der 35. Minute interessant sein könnte.
  • "Fragen und Antworten"-Seite
    • Auf der Fragen und Antworten Seite können Fragen direkt an die Entwickler von Transkribus als auch an andere Benutzer gestellt werden. Schon beantwortete Fragen helfen wiederum Neueinsteigern oder Benutzern mit ähnlichen Problemen schnell und einfach weiter.
  • Wenn die Aufzählungspunkte im Transkriptionsbereich unten grün sind, wurde bereits eine HTR-Erkennung durchgeführt und die Transkriptionsunterstützung mittels Wörterbuch und Vorschlägen kann genutzt werden.
  • Sie können die Reihenfolge bzw. Zuordnung der einzelnen Segmentierungsformen ändern, indem Sie innerhalb des "Structure"-Tabs die einzelnen Elemente an die gewünschte Position ziehen.
  • Sie können die Größe einer Segmentierungsform verändern aber gleichzeitig die Form beibehalten, indem Sie die Shift-Taste gedrückt halten, während Sie mit der Maus die Größe verändern.
  • Wenn Sie die Shift-Taste gedrückt halten, während Sie ein Segmentierungselement bewegen, werden automatisch die jeweils untergeordneten bzw. "angehängten" Unterelemente mitbewegt.
  • Mit der Esc-taste kommen Sie jeweils zum Canvas-Bereich zurück.
  • Sie können die einzelnen Bilder hin und herbewegen, indem Sie die rechte oder die linke Maustaste gedrückt halten. Wenn Sie die linke Maustaste benützen, sollten Sie jedoch aufpassen, dass Sie mit der Maus nicht aus Versehen über ein ausgewähltes Segmentierungselement fahren und dieses dadurch ebenfalls verschieben.
  • Sie können mehrere Segemntierungselemente auswählen, indem Sie dabei die Strg-Taste gedrückt lassen, während Sie die gewünschten Elemente nacheinander markieren oder mit dem Markierungswerkzeug ein Rechteck aufziehen, innerhalb dessen alle Elemente ausgewählt werden sollen.