Lenge siden jeg har testet sånn type programvare. Det siste jeg testet var FreeOCR som er basert på tesseract-ocr. Det eneste som er negativt med FreeOCR er at den ikke er oppdatert. tesseract har gått videre, men det har ikke FreeOCR. Tesseract er helt sikkert bra, men det er tungvindt å sette seg inn i da det er kommando-linje-basert, samt at (uten at jeg skal si det med sikkerhet), man er nødt til å lære det selv. Det er vel egentlig beregnet for Linux, men de har laget en versjon for Windows også. Men for å kunne bruke det s er det en del man må sette seg inn i:

  • En del forskjellige programmer(utilities) for å få dette til å fungere
  • Finne ut av hva parameterene gjør til de forskjellige programmene.

Det er en wiki der ute som gir noen eksempler, men som sagt: for å komme igang kjapt uten å måtte bruke ei uke på å sette seg inn i ting så er ikke dette den beste løsningen. Og FreeOCR er heller ikke å anbefale da det er utdatert. Kan hende at man kan oppdatere tesseract-filene manuelt men jeg har ikke tenkt å finne ut av det. Det har skjedd mye innen OC-teknologi siden den tida, så da får man heller ikke brukt tesseract(via) FreeOCR optimalt.

For å få testet noe av bedre kvalitet så tok jeg meg inn på en "ikke-offentlig-godkjent nedlastingsside" og installlerte det. Det er snakk om "ABBYY Finereader 11". Nyeste versjon er "14", men det får gå. Grunnen til å gjøre denne testen er pga jobben, hvor det produseres mye pdf-dokumenter, og det kan være aktuellt en gang å skaffe slik programvare. Eksemplene jeg vil bruke er tatt fra et spill "The Turing Test". Mot slutten av spillet så kommer man inn i et rom hvor det er en del papirer liggendes rundt omlring. Man kan plukke dem opp og lese dem. Papirene er (etter som jeg forstår) tatt fra noe Alan Turing har skrevet for en del år siden.

I og med at spillet ikke hadde innebygd screen-shot funksjon så ble ikke dette en lett vei å gå for å få testet OCR'en til ABBYY Finereader 11(el de andre). Poenget var at jeg skulle samle alt sammen til en tekst.

  1. Hadde OBS Studio installert, så fant ut at jeg kunne ta opp en video av hele seansen, hvor jeg da plukket opp alle papirene og plasserte dem så rett som mulig. Her er en video som ble tatt.
    https://www.youtube.com/watch?v=MrmcDJFbl3c&feature=youtu.be
  2. Brukte Adobe Premier PRO for å ta screen-shot av de aktuelle papirene.
  3. Klippet ut det aktuelle området med tekst i Paint.
  4. Åpnet bildet i Adobe Paintshop PRO for å gjøre en liten "sharpen". Gjorde ikke dette i første omgang, men for å få mindre feil(ikke mange det heller), så fant jeg ut at det var greit å gjøre bilde skarpere)
  5. Åpnet Finereader, for så å la Finereader analysere bildet og verifisere uklare/uvisse områder av bildet.

Skal vise noe screenshots nedenfor som viser hva som ble gjort. Hopper over steg nummer 1:
2. Eksportere bilde fra video.


3. Klipper ut den delen jeg vil ha i Paint(pga av begrensninger i editoren(joomla sin artikkel-editor) så ble jeg nødt til å konvertere fra tif -> jpg

4. Gjør bildet skarpere med Adobe Photoshop

Resultatet er bedre enn det originale da teksten blir skarpere. Se bildet under. Vel og merke konvertert fra tif til jpg. Men man kan se forskjellen betydelig. Dette er selvfølgelig med på å hjelpe OCR-programvaren, og det blir mindre feil.

5. Finereader i "action". Viser bare utdrag av skjermbilde.

 

Har ikke testet Finereader med pdf-dokumenter, men dette skulle jeg tro at Finereader klarer å takle enda bedre da teksten stort sett er mye klarere enn det jeg har klart å gulpe opp via diverse video og bilderedigerings-programmer. Men med tanke på at jeg ikke er noen guru på disse programmene så synes jeg det Finereader klarer jobben veldig bra.

Jeg testet et bilde som ikke var redigert. Se nedenfor. Burde være nok støy her for å lage problemer:

Det som da skjer i Finereader, er at du må stille inn området som skal leses. Se bildet nedenfor:

Det man da gjør, er å høyre-klikke på det røde området og sletter. Det grønne området justerer man slik at all tekst er innenfor ytterkanten på det grønne området. Resultatet blir som nedenfor:

 

Konklusjonen må nesten være det at jo mere tydelig tekst-området er ,dess enklere blir det for Finereader å tolke det. Men for å slippe å gå gjennom alle de stegene som jeg har gjort for å få fram teksten tydeligere så er det fremdeles mulig å sjanse det gjennom programmet. Blir bare litt mere jobb med å verifisere tekst samt definere tekst-områder.

  • Dag 2 i Finereader-test

Hadde egentlig tenkt å avslutte artikkelen med eksemplet ovenpå, men så fant jeg ut at jeg kunne liksågreit teste det på noe som kunne vært nyttig med tanke på arkivering og søking av tekst.

I enkelte tilfeller så blir det produsert masse pdf'er fra scanner-enheter både pga av historikk og verfisering av data til en tredjepart. Stort sett så er dette dokumentet(jeg ville ikek kallt det for et dokument, for det er i bunn og grunn bare et bilde) ulesbart da det er et bilde formet som et papir. Dokument er det ikke og ikke er det søkbart, hvis man da ikke har satt opp OCR-programvare som behandler det umiddelbart. Men stort sett ikke.

Iallefall. I mitt tilfelle her så er det snakk om et dokument som har blitt overlevert til meg når varer har kommet inn. Dette dokumentet scanner jeg og sebder via epost til en el annen mottaker som leser det og kan bekrefte at varene har kommet fram. pdf'en blir lagret på disk(egentlig på en epost-server...men det er helt ubetydelig i denne sammenheng). Hvis dokumentet skal ha noen form for verdi, så bør det være søkbart. Dette skal jeg teste med Finereader. PDF-dokumentet jeg skal teste kan du se her:

Det er en følgeseddel som faktisk også er litt på skakka. Mang utfordringer med tanke på hvordan OCR-programvaren skal skal tolke dette. Jeg kan på forhånd fortelle det at man kan definere områder som bilder, tekst, tabell osv. Mao all viktig informasjon kan man lagre som bilde og alt annet som tekst.

Jeg åpnet det skannede dokumentet i Finereader og fikk følgende:

Egentlig ikke så verst. Innholdet i dokumentet er blitt satt i en tabell. Teksten er riktig i tabellen. Men det er visse ting som ikke er riktig. Det ser vi på adressene til venstre og høyre. Nesten bare rot. Samt at følgeseddelnummer området er ikke helt riktig. Jeg forteller Finereader følgende med det innebygde verktøyet, og resultatet blir selvfølgelig bedre.

Eksporterer jeg dokumentet på høyresiden til et word-dokument så kommer alt med. På visningen ser man feks bare halve skriften av "Petterson" og "FØLGESEDDEL", men det ordner seg.

Man kan med andre ord ordne og fikse ganske mye slik at dokumentet er søkbart på flere områder: ordrenummer, pakkseddelnummer. dato...ja omtrentlig alt som skulle være nødvendig. Og det er veldig enkelt. Man kunne gått for første versjon og det hadde holdt i massevis. Til og med underskriften kommer med. Dette er også noe man kan definere som bilde slik at originalen kommer frem. Ville sagt at dette er et ganske bra resultat. Konverteringen til word-dokument er også bra. Se nedenfor:

Det var det. Mere kan jeg ikke si på dette tdspunktet.