Viðurkenning á textanum. Frjáls forrit - hliðstæða FineReader

Fyrr eða síðar, allir sem vinna oft með skrifstofuforritum standa frammi fyrir dæmigerðu verkefni - skanna texta úr bók, tímarit, dagblað, einfaldlega bæklinga, og þá þýða þessar myndir í textasnið, til dæmis í Word skjal.

Til að gera þetta þarftu að nota skanna og sérstakt forrit til að viðurkenna texta. Þessi grein mun fjalla um frjálsa hliðstæðu FineReader -Cuneiform (um viðurkenningu í FineReader - sjá þessa grein).

Við skulum byrja ...

Efnið

  • 1. Lögun af CuneiForm forritinu, lögun
  • 2. Dæmi um viðurkenningu texta
  • 3. Hópur texta viðurkenningu
  • 4. Ályktanir

1. Lögun af CuneiForm forritinu, lögun

Cuneiform

Þú getur sótt af vefsvæði verktaki: //cognitiveforms.com/

Óákveðinn greinir í ensku open source texti viðurkenningu Að auki virkar það í öllum útgáfum af Windows: XP, Vista, 7, 8, sem þóknast. Auk þess skaltu bæta við fullri rússneska þýðingu á forritinu!

Kostir:

- texta viðurkenningu á 20 vinsælustu tungumálum heims (enska og rússneska sjálft er innifalið í þessu númeri);

- Stór stuðningur fyrir ýmsar leturgerðir;

- athugaðu orðabók viðurkenndan texta;

- getu til að bjarga niðurstöðum vinnu á nokkra vegu;

- viðhalda uppbyggingu skjalsins;

- Excellent stuðningur og viðurkenning töflur.

Gallar:

- styður ekki of stór skjöl og skrár (meira en 400 dpi);

- styður ekki nokkrar gerðir af skanna beint (jæja, þetta er ekki skelfilegt, sérstakur skanni er innifalinn í skannaforritunum);

- hönnunin skín ekki (en hver þarfnast það ef forritið leyst vandann alveg).

2. Dæmi um viðurkenningu texta

Við gerum ráð fyrir að þú hafir þegar fengið nauðsynlegar myndir til viðurkenningar (skannað þar eða sótt bókina í pdf / djvu sniði á Netinu og fengið nauðsynlegar myndir frá þeim.) Hvernig á að gera þetta - sjá þessa grein).

1) Opnaðu nauðsynlega mynd í CuineForm forritinu (skrá / opna eða "Cntrl + O").

2) Til að hefja viðurkenningu - verður þú fyrst að velja mismunandi svið: texti, myndir, töflur osfrv. Í Cuneiform forritinu er hægt að gera þetta ekki aðeins handvirkt heldur líka sjálfkrafa! Til að gera þetta, smelltu á "markup" hnappinn í efstu glugganum í glugganum.

3) Eftir 10-15 sekúndur. forritið mun sjálfkrafa auðkenna öll svæði með mismunandi litum. Til dæmis er textasvæði hápunktur í bláu. Við the vegur, hún lögð áhersla á öll svæði rétt og frekar fljótt. Heiðarlega, ég átti ekki von á svona fljótt og rétt svar frá henni ...

4) Fyrir þá sem treysta ekki sjálfvirkri merkingu geturðu notað handbókina. Fyrir þetta er tækjastikan (sjá mynd hér að neðan), takk sem hægt er að velja: texta, borð, mynd. Færa, hækka / minnka upphafsmyndina, klipptu út kantana. Almennt, gott sett.

5) Eftir að öll svæði hafa verið merkt, geturðu haldið áfram að viðurkenning. Til að gera þetta skaltu einfaldlega smella á hnappinn með sama nafni, eins og á myndinni hér fyrir neðan.

6) Bókstaflega á 10-20 sekúndum. Þú munt sjá skjal í Microsoft Word með viðurkenndum texta. Hvað er áhugavert, í texta fyrir þetta dæmi, auðvitað voru mistök, en það eru mjög fáir af þeim! Sérstaklega, miðað við hversu látlaus upprunalegt efni var - myndin.

Hraði og gæði er alveg sambærilegt við FineReader!

3. Hópur texta viðurkenningu

Þessi aðgerð af forritinu getur komið sér vel þegar þú þarft að þekkja ekki eina mynd, en nokkrir í einu. Flýtileiðin til að hefja hópur viðurkenningu er venjulega falin í upphafseðlinum.

1) Eftir að forritið hefur verið opnað þarftu að búa til nýjan pakka eða opnaðu áður vistaðan. Í dæmi okkar - búðu til nýjan.

2) Í næsta skrefi gefur okkur það nafn, helst þannig að sex mánuðum síðar munum við muna hvað er geymt í henni.

3) Veldu síðan skjalmálið (rússnesku ensku), gefðu til kynna hvort myndir og töflur séu í skannaðu efninu þínu.

4) Nú þarftu að tilgreina möppuna þar sem skrárnar til viðurkenningar eru staðsettar. Við the vegur, hvað er áhugavert er að forritið sjálft mun finna allar myndir og aðrar grafískar skrár sem það getur þekkt og bætt þeim við verkefnið. Þú þarft einnig að fjarlægja aukalega.

5) Næsta skref er ekki mikilvægt - veldu hvað á að gera við upprunaskrárnar, eftir viðurkenningu. Ég mæli með að velja gátreitinn "gera ekkert".

6) Það er aðeins að velja sniðið þar sem viðurkennd skjal verður vistuð. Það eru nokkrir möguleikar:

- rtf - Skráin úr orði skjalinu er opnuð af öllum vinsælum skrifstofum (þ.mt frjálsir sjálfur, tengill við forrit);

- txt - textasnið, þú getur aðeins vistað texta, myndir og töflur í henni;

- htm - Hypertext síðu, þægilegt ef þú skanna og þekkja skrár fyrir síðuna. Hans og valið í fordæmi okkar.

7) Þegar smellt er á "Ljúka" hnappinn mun vinnsla verkefnisins hefjast.

8) Forritið virkar nokkuð fljótt. Eftir viðurkenningu muntu sjá flipa með htm skrám. Ef þú smellir á slíka skrá byrjar vafri þar sem þú getur séð niðurstöðurnar. Við the vegur, the pakki er hægt að spara til frekari vinna með það.

9) Eins og þú sérð niðurstöðurnar Vinna er mjög áhrifamikill. Forritið viðurkenndi auðveldlega myndina og fann auðveldlega textann undir henni. Þó að forritið sé ókeypis er það yfirleitt frábær!

4. Ályktanir

Ef þú skannað oft og þekkir ekki skjöl, þá er það ekki skynsamlegt að kaupa FineReader. CuneiForm greiðir auðveldlega flest verkefni.

Á hinn bóginn hefur hún einnig galla.

Í fyrsta lagi eru of fáir verkfæri til að breyta og stöðva niðurstöðuna sem leiðir til þess. Í öðru lagi, þegar þú þarft að viðurkenna mikið af myndum, þá er það í FineReader auðveldara að sjá allt sem bætt er við verkefnið í dálknum til hægri: Fljótt fjarlægðu óþarfa, gerðu breytingar, og svo framvegis. Og í þriðja lagi á skjölum af illa gæðum, missir CuneiForm viðurkenningu: þú verður að koma skjalinu í huga - leiðrétta mistök, setja greinarmerki, vitna osfrv.

Það er allt. Veistu einhver önnur viðeigandi hugbúnaður fyrir frjálsan orðstír?