Skanna og OCR

Góðan daginn

Sennilega horfðum við öll á verkefni þegar þú þarft að þýða pappírsskjal í rafrænu formi. Þetta er sérstaklega nauðsynlegt fyrir þá sem læra, vinna með skjölum, þýða texta með rafrænum orðabækur osfrv.

Í þessari grein vil ég deila nokkrum grunnatriðum þessa ferils. Almennt er skönnun og texti viðurkenning nokkuð tímafrekt, þar sem flestar aðgerðir verða að vera gerðar handvirkt. Við munum reyna að reikna út hvað, hvernig og hvers vegna.

Ekki allir skilja strax eitt. Eftir skönnun (passar öll blöðin á skannanum) verður þú að fá myndir af sniðinu BMP, JPG, PNG, GIF (það kann að vera annað snið). Svo frá þessari mynd þarftu að fá textann - þessi aðferð kallast viðurkenning. Í þessari röð, og verður kynnt hér að neðan.

Efnið

  • 1. Hvað þarf til að skanna og viðurkenna?
  • 2. Textaskönnunarmöguleikar
  • 3. Viðurkenning á texta skjalsins
    • 3.1 Texti
    • 3.2 Myndir
    • 3.3 töflur
    • 3.4 Óþarfa hluti
  • 4. Viðurkenning á PDF / DJVU skrám
  • 5. Villa við að athuga og vista vinnu niðurstöður

1. Hvað þarf til að skanna og viðurkenna?

1) Skanni

Til að þýða prentuð skjöl í textaskil, þarftu fyrst skanna og þar af leiðandi, "innfædd" forrit og ökumenn sem tóku þátt í henni. Með þeim er hægt að skanna skjalið og vista það til frekari vinnslu.

Þú getur notað aðrar hliðstæður, en hugbúnaðurinn sem fylgdi skanni í búnaðinum vinnur venjulega hraðar og hefur fleiri valkosti.

Það fer eftir því hvers konar skanni þú hefur - hraða vinnunnar getur breyst verulega. Það eru skannar sem hægt er að fá mynd úr blaði í 10 sekúndur, það eru þau sem vilja fá það í 30 sekúndur. Ef þú skoðar bók um 200-300 blöð - held ég að það sé ekki erfitt að reikna út hversu oft tíminn muni verða munur á tíma?

2) Program til viðurkenningar

Í greininni mun ég sýna þér verkið í einu af bestu forritunum til að skanna og viðurkenna algerlega öll skjöl - ABBYY FineReader. Síðan forritið er greitt, þá strax mun ég gefa tengil á annan - frjáls hliðstæða þess Cunei form. True, ég myndi ekki bera saman þá, vegna þess að FineReader vinnur að öllu leyti, mæli ég með að reyna það sama.

ABBYY FineReader 11

Opinber síða: //www.abbyy.ru/

Eitt af bestu verkefnum af sínum tagi. Það er hannað til að viðurkenna textann á myndinni. Byggði marga möguleika og eiginleika. Það er hægt að flokka fullt af leturgerðum, jafnvel styðja handskrifaða útgáfur (þótt ég hafi ekki persónulega reynt það, held ég að það sé gott að nánast ekki viðurkenna handskrifaðan útgáfu nema þú hafir fullkomið kalligrafískan handrit). Nánari upplýsingar um að vinna með henni verður rætt hér að neðan. Við athugaðu einnig hér að greinin muni ná yfir verkið í forriti 11 útgáfum.

Að jafnaði eru mismunandi útgáfur af ABBYY FineReader ekki mjög frábrugðnar hver öðrum. Þú getur auðveldlega gert það sama í hinu. Helstu munurinn getur verið í þægindi, hraða áætlunarinnar og getu þess. Til dæmis neita fyrri útgáfur að opna PDF skjal og DJVU ...

3) Skjöl til að skanna

Já, svo hér ákvað ég að taka út skjölin í sérstakri dálki. Í flestum tilfellum skaltu skanna einhverjar kennslubækur, dagblöð, greinar, tímarit, osfrv þær bækur og bókmenntir sem eru í eftirspurn. Hvað leiði ég til? Frá persónulegri reynslu, get ég sagt það mikið sem þú vilt skanna - kann að vera á Netinu! Hversu oft sparaði ég persónulega tíma þegar ég fann einn bók eða annan sem þegar var skönnuð á netinu. Ég þurfti bara að afrita textann inn í skjalið og halda áfram með það.

Af þessum einföldu ráðleggingum - áður en þú skannar eitthvað skaltu athuga hvort einhver hafi nú þegar skannað það og þú þarft ekki að sóa tíma þínum.

2. Textaskönnunarmöguleikar

Hér mun ég ekki tala um ökumenn þína fyrir skannann, forritin sem fylgdu með því, vegna þess að allir skanna líkanin eru öðruvísi, hugbúnaðinn er einnig ólíkur alls staðar og giska og jafnvel betur sýnt hvernig á að framkvæma aðgerðina er óraunhæft.

En allir skannar hafa sömu stillingar sem geta haft mikil áhrif á hraða og gæði vinnunnar. Hér um þá mun ég bara tala hér. Ég mun skrá í röð.

1) Skanna gæði - DPI

Í fyrsta lagi stilltu gæði skanna í valkostunum sem eru ekki lægri en 300 dpi. Það er ráðlegt að jafnvel setja smá meira, ef mögulegt er. Því hærra sem DPI vísirinn er, því skýrari myndin þín mun birtast og því mun frekari vinnsla fara fram hraðar. Í samlagning, því meiri gæði skanna - því minni mistök sem þú þarft síðar að leiðrétta.

Besta kosturinn veitir venjulega 300-400 DPI.

2) litskiljun

Þessi breytur hefur veruleg áhrif á leitartímann (við það hefur DPI einnig áhrif, en þau eru svo sterk og aðeins þegar notandinn setur hátt gildi).

Venjulega eru þrjár stillingar:

- svart og hvítt (fullkomið fyrir texta);

- grár (hentugur fyrir texta með töflum og myndum);

- litur (fyrir litatímarit, bækur, almennt, skjöl þar sem litur er mikilvægur).

Venjulega fer leitartíminn eftir litarvalinu. Eftir allt saman, ef þú hefur stórt skjal, jafnvel auka 5-10 sekúndur á síðunni í heild mun leiða til mannsæmandi tíma ...

3) Myndir

Þú getur fengið skjalið, ekki aðeins með því að skanna, heldur einnig með því að taka mynd af því. Sem reglu, í þessu tilfelli munt þú hafa önnur vandamál: mynd röskun, þoka. Vegna þessa getur það þurft að lengra frekari útgáfa og vinnsla á mótteknum texta. Persónulega mæli ég ekki með myndavélum fyrir þetta fyrirtæki.

Það er mikilvægt að hafa í huga að ekki verður öll slíkt skjal viðurkennt vegna þess að skanna gæði sem hann getur verið mjög lágt ...

3. Viðurkenning á texta skjalsins

Við gerum ráð fyrir að þykja vænt um þær þekkar síður sem þú hefur fengið. Oftast eru þau snið: tif, bmb, jpg, png. Almennt, fyrir ABBYY FineReader - þetta er ekki mjög mikilvægt ...

Eftir að myndin hefur verið opnuð í ABBYY FineReader byrjar forritið að jafnaði á vélinni að velja svæði og þekkja þau. En stundum gerir hún það rangt. Fyrir þetta teljum við val á viðkomandi svæði handvirkt.

Það er mikilvægt! Ekki skilur allir allir strax að eftir að skjal hefur verið opnað í forritinu birtist heimildarskjalið vinstra megin í glugganum þar sem þú lýsir mismunandi sviðum. Eftir að smella á "viðurkenninguna" hnappinn mun forritið í glugganum til hægri koma með lokið textann. Eftir viðurkenningu, við the vegur, það er ráðlegt að athuga textann fyrir villur í sömu FineReader.

3.1 Texti

Þetta svæði er notað til að auðkenna texta. Myndir og töflur ættu að vera útilokaðir frá því. Mjög sjaldgæf og óvenjuleg letur verður að vera slegið inn handvirkt ...

Til að velja textasvæði skaltu fylgjast með spjaldið efst á FineReader. Það er hnappur "T" (sjá. Skjámyndin hér fyrir neðan, músarbendillinn er bara á þennan hnapp). Smelltu á það, þá á myndinni hér fyrir neðan veldu snyrtilegt rétthyrnt svæði þar sem textinn er staðsettur. Við the vegur, í sumum tilvikum þú þarft að búa til texta blokkir 2-3, og stundum 10-12 á síðu, því Textasnið getur verið öðruvísi og ekki veldu allt svæðið með einum rétthyrningi.

Það er mikilvægt að hafa í huga að myndirnar ættu ekki að falla inn í textasvæðið! Í framtíðinni mun það spara þér mikinn tíma ...

3.2 Myndir

Notað til að varpa ljósi á myndir og þau svæði sem erfitt er að þekkja vegna lélegrar eða óvenjulegrar leturs.

Í skjámyndinni hér að neðan er músarbendillinn staðsettur á hnappnum sem notaður er til að velja "mynd" svæðið. Við the vegur, alveg hvaða hluta af síðunni er hægt að velja á þessu sviði, og FineReader mun þá setja það inn í skjalið sem eðlilegt mynd. Þ.e. bara "heimskur" mun afrita ...

Venjulega er þetta svæði notað til að varpa ljósi á illa skannaðar töflur, til að auðkenna óhefðbundin texta og leturgerð, myndirnar sjálfir.

3.3 töflur

Skjámyndin hér að neðan sýnir hnappinn til að auðkenna töflurnar. Almennt nota ég persónulega það mjög sjaldan. Staðreyndin er sú að þú verður að draga reglulega (reyndar) hverja línu á borðið og sýna hvað og hvernig forritið. Ef borðið er lítið og ekki mjög góð gæði mæli ég með að nota "mynd" svæðið í þessum tilgangi. Þannig spara mikinn tíma, og þá geturðu fljótt búið borð í Word á grundvelli myndar.

3.4 Óþarfa hluti

Það er mikilvægt að hafa í huga. Stundum eru óþarfa þættir á síðunni sem gera það erfitt að þekkja textann eða ekki láta þig velja viðkomandi svæði yfirleitt. Þeir geta verið fjarlægðir með "strokleður" yfirleitt.

Til að gera þetta skaltu fara í myndvinnsluham.

Veldu tólið fyrir strokleður og veldu óæskilegt svæði. Það verður eytt og á sínum stað verður hvítt blað.

Við the vegur, mæli ég með að nota þennan möguleika til þín eins oft og mögulegt er. Prófaðu öll textasvæðin sem þú valdir, þar sem þú þarft ekki texta, eða eru óþarfa stig, blurriness, röskun - eyða með strokleður. Þökk sé þessari viðurkenningu verður hraðar!

4. Viðurkenning á PDF / DJVU skrám

Almennt mun þetta viðurkenningarsnið ekki vera öðruvísi en hinir - þ.e. Þú getur unnið með það eins og með myndir. Það eina sem forritið ætti ekki að vera of gömul útgáfa, ef þú opnar ekki PDF / DJVU skrár - uppfærðu útgáfuna í 11.

Smá ráð. Eftir að skjalið hefur verið opnað í FineReader - mun það sjálfkrafa byrja að þekkja skjalið. Oft í PDF / DJVU skrám er ekki þörf á sérstöku svæði á síðunni um allt skjalið! Til að fjarlægja slíkt svæði á öllum síðum skaltu gera eftirfarandi:

1. Farðu í myndvinnsluhlutann.

2. Virkjaðu "snyrtingu" valkostinn.

3. Veldu svæðið sem þú þarft á öllum síðum.

4. Smelltu á að sækja um allar síður og snyrtingu.

5. Villa við að athuga og vista vinnu niðurstöður

Það virðist sem það gæti enn verið vandamál þegar öll svæði voru vald, þá viðurkennd - taktu það og bjargaðu því ... Það var ekki þarna!

Í fyrsta lagi þurfum við að athuga skjalið!

Til að virkja það, eftir viðurkenningu, í glugganum til hægri, verður "hnappur", sjá skjámyndina hér fyrir neðan. Eftir að smella á það mun FineReader forritið sjálfkrafa sýna þér þau svæði þar sem forritið hefur villur og það gæti ekki áreiðanlega ákvarðað eitt eða annað tákn. Þú verður aðeins að velja, eða þú samþykkir að mati áætlunarinnar, eða sláðu inn persónu þína.

Við the vegur, í tvennt tilvikum, um það bil, áætlunin mun bjóða þér tilbúinn rétt orð - þú verður bara að nota músina til að velja þann valkost sem þú vilt.

Í öðru lagi, eftir að hafa hakað, þarftu að velja sniðið þar sem þú vistar niðurstöðu vinnu þína.

Hér gefur FineReader þér til fulls: Þú getur einfaldlega flutt upplýsingarnar í Word einn-á-mann og þú getur vistað það í einu af tugum sniðum. En ég vil leggja áherslu á aðra mikilvæga þætti. Hvort snið þú velur, það er mikilvægara að velja tegund af afrita! Hugsaðu um áhugaverðustu valkosti ...

Nákvæm afrit

Öll svæði sem þú valdir á síðunni í viðurkenndum skjali munu passa nákvæmlega í skjalinu. Mjög þægilegur kostur þegar það er mikilvægt fyrir þig að missa ekki textasnið. Við the vegur, the letur vilja einnig vera mjög svipað og upprunalega. Ég mæli með þessari möguleika til að flytja skjalið í Word, til að halda áfram frekari vinnu þar.

Breytileg afrit

Þessi valkostur er góður vegna þess að þú færð þegar sniðinn útgáfa af textanum. Þ.e. Prentun á "kílómetra", sem kann að hafa verið í upprunalegu skjali - þú munt ekki mæta. Gagnleg valkostur þegar þú breytir verulega upplýsingum.

True, ættir þú ekki að velja hvort það er mikilvægt fyrir þig að varðveita stíl hönnunar, leturs, punkta. Stundum, ef viðurkenningin er ekki mjög vel - skjalið þitt gæti "skew" vegna breytinga á sniðinu. Í þessu tilviki er ráðlegt að velja nákvæmlega afrit.

Réttur texti

Valkostur fyrir þá sem þurfa bara textann af síðunni án þess að allt annað. Hentar fyrir skjöl án mynda og tafla.

Þetta lýkur skjalinu skönnun og viðurkenningu grein. Ég vona að með hjálp þessara einfalda ábendingar er hægt að leysa vandamálin þín ...

Gangi þér vel!

Horfa á myndskeiðið: OCR-skanner i Mobilbanken. Nordea Sverige (Apríl 2024).