Etusivu

Transkribus Wiki
Loikkaa: valikkoon, hakuun
Transkribus-verkkosivusto

Transkribus on alusta, jolla voi puhtaaksikirjoittaa haluamaansa aineistoa ja automaattisesti tunnistaa käsinkirjoitettua tekstiä.

Transkribuksen tavoitteena on tukea painetun ja käsinkirjoitetun aineiston parissa työskenteleviä tutkijoita, arkistoja ja vapaaehtoisia. Transkribus tarjoaa asiakirjojen automatisoituun prosessointiin lukuisia työkaluja. Näistä esimerkkeinä ovat muun muassa käsinkirjoitetun tekstin-, asiakirjan- ja tekstialueiden- sekä käsialantunnistustyökalut. Kaikki alustaan liitetyt palvelut ovat ilmaisia.

Transkribus on osa Euroopan unionin rahoittamaa READ-hanketta. READin tavoitteena on luoda tutkijoiden ja arkistojen käyttöön virtuaalinen tutkimusalusta, joka mahdollistaa käsinkirjoitetun tekstin automaattisen tunnistuksen sekä erilaiset hakuominaisuudet digitaalisesta arkistoaineistosta. Näin sekä yksityiset sukututkijat että tieteentekijät saavat mahdollisuuden tutkia laajoja ja ennen käytännössä saavuttamattomissa olleita aineistoja. Lisäksi mahdollistetaan laajempi historiallisesti merkittävien aineistojen säilyvyys ja saavutettavuus.

Katso myös READin ja Transkribuksen esittelyvideo sekä 10 askeleen opasvideo Transkribuksen käyttöön (suomenkieliset tekstitykset)!

Näin pääset alkuun

  1. Rekisteröidy osoitteessa https://transkribus.eu/Transkribus/.
  2. Lataa ja asenna Transkribus omalle tietokoneellesi. Sekä rekisteröityminen että itse Transkribus ovat ilmaisia.
  3. Lataa haluamasi aineistot Transkribukseen tai ryhdy työstämään aineistoja, joihin sinulla on oikeudet.
  4. Aloita transkribointi joko segmentoimalla eli tekstialueiden ja rivien rajaamisella tai suoraan puhtaaksikirjoittamisella.
  5. Tallenna puhtaaksikirjoitetut aineistot tietokoneellesi.

Oppaita ja vinkkejä Transkribuksen käyttöön

Transkribus-käyttöliittymä
  • Yksityiskohtaisempi pikaopas Transkribuksen käyttöön.
  • Löydät täältä hyödyllisiä painikkeita Transkribuksen helpompaan käyttöön.

Mitä puhtaaksikirjoitetulla aineistolla tehdään ja miksi?

HTR- eli Handwritten Text Recognition -sovelluksen opettaminen tapahtuu antamalla sovellukselle mahdollisimman paljon opetusaineistoa, johon on merkitty käsinkirjoitetun aineiston tekstialueet ja rivit ja johon itse teksti on puhtaaksikirjoitettu. Tässä tapauksessa määrällä on väliä: mitä enemmän aineistoa, ground truthia, sitä paremmin malli oppii tunnistamaan eri käsialoja. Tämän vuoksi tarvitsemme vapaaehtoisia, jotta puhtaaksikirjoitettuja versioita olisi saatavilla mahdollisimman paljon.

Kun HTR -sovellus on opetettu lukemaan käsinkirjoitettua aineistoa, sitä voidaan testata uuteen, aiemmin sille tuntemattomaan, aineistoon. Sovelluksen antamaa tarkkuutta mitataan sana- ja merkkivirheprosentteina, jotka kertovat, kuinka suuren osuuden sanoista ja merkeistä sovellus ennusti väärin. Pitkäaikaisena tavoitteena onkin saada Transkribus opetettua niin hyvin, että se osaisi tunnistaa eri käsialoja ilman uutta opetusta ja että virheosuus olisi mahdollisimman pieni.

Esimerkkitiedostot

Transkribukseen on luotu jokaiselle yksi kolmisivuinen esimerkkitiedosto. Esimerkkitiedosto löytyy kokoelmasta, jonka nimi on <käyttäjätunnus> Collection. Esimerkkitiedostosta kaksi sivua on englanninkielistä ja yksi saksankielistä.

Lisäksi voit tutustua Transkribukseen ja sen käyttöön lataamalla seuraavat esimerkkitiedostot tietokoneellesi. Tätä kautta pääset näkemään Transkribuksen toimintoja ja ymmärrät paremmin

  • miten kuva ja teksti yhdistetään
  • miten tekstialueiden merkitseminen tehdään ja
  • missä tiedostomuodoissa sinun on mahdollista tallentaa alustalla tuottamaasi aineistoa.

Esimerkkipaketin voit ladata täältä ja se sisältää kolme mallitiedostoa, joiden PDF-tiedostoista saat käsityksen siitä, miltä asiakirjat voivat näyttää automaattisen tai manuaalisen puhtaaksikirjoittamisen jälkeen:

  • HTR Reichsgericht: kuva Saksan korkeimman oikeuden pöytäkirjasta ja HTR-sovelluksen tekemä puhtaaksikirjoitettu versio siitä.
  • Briefwechsel Goethe Schiller 1794-1795: puhtaaksi kirjoitetut manuaalisesti otteet Friedrich Schillerin ja Johann Wolfgang von Goethen välisestä kirjeenvaihdosta. Puhtaaksikirjoitettu teksti palvelee harjoitusmateriaalina HTR-sovellukselle, jotta se oppii lukemaan näiden kahden kirjailijan käsialoja.

Saat apua täältä aineistojen lataamiseen Transkribuksessa.

Edistyneempi käyttö

Jos haluat käyttää Transkribusta komentoriviltä, löydät lisätietoa täältä.

Usein kysytyt kysymykset

Olen unohtanut salasanani. Mitä teen?

Mene osoitteeseen https://transkribus.eu/Transkribus/. Paina ylhäällä oikealta kohdasta Login ja valitse laatikon alaosasta Forgot password?.

En saa purettua Transkribuksen asennuskansiota. Miten puran kansion?

Joissakin käyttöjärjestelmissä pakatun kansion saa purettua tuplaklikkaamalla kansiota tai se tapahtuu lähes automaattisesti. Jos näin ei ole, tiedostot eivät aukea.

Pakatun kansion saa purettua painamalla kansion kohdalla hiiren oikeaa näppäintä ja valitsemalla Pura kaikki... Tietokone luo samanlaisen kansion, johon tiedostot on purettu auki. Yleensä uusi kansio sijaitsee samassa paikassa kuin pakattu kansio.

Minulla on ongelmia Javan kanssa. Mitä teen?

Jotta Transkribus toimisi, sinulla täytyy olla Java asennettuna tietokoneellesi. Javan version täytyy olla vähintään 7 ja mieluusti valmiiksi asennettu. Löydät lisätietoa täältä asentamasi Javan version tarkistukseen.

Jos sinulla ei ole Javaa asennettuna, voit ladata asennusohjelman täältä ja asennusohjeet löydät täältä.

Norton Antivirus havaitsee uhan, enkä saa zip-tiedostoa purettua.

Norton antaa aiheettoman varoituksen tuntemattomasta ohjelmasta (WS.Reputation.1). Voit palauttaa tiedoston karanteenista näiden ohjeiden mukaisesti.

Näkevätkö muut tiedostoni Transkribuksessa?

Muut eivät näe työstämiäsi tiedostoja, jos et ole antanut heille käyttöoikeuksia. Oletusasetuksena on, että ladatut aineistot ovat yksityisiä.

Jos toimit vapaaehtoisena, osa tiedostoista on monen ihmisen käytössä. Tässä tapauksessa jokaiselle on annettu oma työstettävä osuus, jotta päällekkäisyyksiä ei syntyisi.

Segmentoin tekstirivejä, ja Transkribus ilmoittaa No parent line found - do you want to create it?. Mitä vastaan?

Olet ilmeisesti segmentoimassa riviä, jolle ei ole määritelty tekstialuetta. Segmentoidessa täytyy ensin rajata tekstialue ja sitten tekstirivit. Jos Transkribus kysyy tästä usein, voit laittaa automaattiseksi parent linen luomisen:

  • Paina jakoavaimen kuvaa pystypalkissa.
  • Valitse sitten Create missing parent lines (regions or lines) automatically. Nyt Transkribus luo automaattisesti puuttuvat rivit ja alueet.

Vastaa siis tämäntyyppisiin kysymyksiin aina Yes.

Kun yritän käyttää Transkribusta, saan virheen Error loading profile!. En myöskään pysty tekemään Transkribuksessa mitään.

Transkribuksella ei todennäköisesti ole pääsyä config.properties-tiedostoon, jos sitä ei esimerkiksi ole purettu. Helpoin tapa on yrittää asentaa Transkribus uudestaan niin, että purkaa asennuspaketin työpöydälle, missä käyttäjä pääsee täysin kirjoittamaan tiedostoa, ja yrittää asentaa Transkribus sieltä uudestaan.

Lisätietoa Transkribuksesta ja READistä

Alustan ylläpitäjänä toimii Innsbruckin yliopiston Digitoinnin ja digitaalisen pitkäaikaissäilytyksen osasto (DEA), ja projekti saa tukea Euroopan komissiolta. Käsinkirjoitetun tekstin tunnistamiseen tarkoitettu ohjelmisto kehitettiin tranScriptorium-nimisessä Eurooppa FP7 -projektissa, jota koordinoi Valencian teknillisen yliopiston Hahmontunnistuksen ja kieliteknologian tutkimuskeskus (PRHLT).

Jos sinulla on kysymyksiä tai ehdotuksia, voit laittaa sähköpostia Transkribus-tiimille osoitteeseen email@transkribus.eu.