Cum functioneaza imaginea in text (aka recunoasterea optica a caracterelor)

Tragerea textului din imagini nu a fost niciodată mai ușoară decât în prezent datorită tehnologiei de recunoaștere a caracterului optic (OCR).

OCR ne permite să facem tot felul de lucruri utile, cum ar fi căutarea imaginilor utilizând interogări de text, reproducerea documentelor fără a le tasta manual, și chiar conversia textului scris manual în textul digital Cum să convertiți o imagine cu scrierea de mână în text utilizând OCR Cum să convertiți o imagine cu scriere de mână pentru text Utilizarea OCR Pentru a converti o imagine a textului scrise de mână în textul digital pe care îl puteți edita și căuta, aveți nevoie de un instrument OCR (recunoașterea optică a caracterelor). Încercați unul din aceste instrumente OCR pentru a digitaliza scrierea de mână. Citeste mai mult .

Dar ce este recunoașterea optică a caracterelor? Cum funcționează de fapt? Ar putea părea ca o magie neagră pentru tine, dar până la sfârșitul acestui articol, veți avea o înțelegere solidă a modului în care computerele pot recunoaște literele și cuvintele.

Cum funcționează recunoașterea optică a caracterelor

Pentru a înțelege cum se extrage textul dintr-o imagine, trebuie mai întâi să înțelegem ce imagini sunt și cum sunt stocate pe computere.

A pixel este un singur punct dintr-o anumită culoare. Un imagine este, în esență, o colecție de pixeli. Cu cat mai multi pixeli dintr-o imagine, cu atat rezolutia este mai mare. Un computer nu știe că o imagine a unui semnalizator este într-adevăr un semnalizator - știe doar că primul pixel este această culoare, următorul pixel este acea culoare și afișează toți pixelii săi pentru a vedea.

Aceasta înseamnă că textul și textul nu diferă de un computer și de aceea recunoașterea optică a caracterelor este atât de dificilă. Având în vedere acest lucru, iată cum funcționează.

Pasul 1: Preprocesarea imaginii

Înainte de tragerea textului, imaginea trebuie masurată în anumite moduri pentru a ușura extragerea și pentru a reuși mai mult. Aceasta se numește pre-procesare, iar diferite soluții software utilizează diferite combinații de tehnici.

Cele mai comune tehnici de pre-procesare includ:

binarizare
Fiecare pixel din imagine este convertit fie în negru, fie în alb. Scopul este de a clarifica ce pixeli aparțin textului și care pixeli aparțin fundalului, ceea ce accelerează procesul actual de identificare a textului.

deskew
Deoarece documentele sunt rareori scanate cu aliniere perfectă, caracterele pot ajunge înclinate sau chiar cu capul în jos. Scopul aici este de a identifica linii orizontale de text și apoi rotiți imaginea astfel încât acele linii să fie de fapt orizontale.

despeckle
Dacă imaginea a fost binarizată sau nu, este posibil să existe zgomot care să interfereze cu identificarea caracterelor. Despecklingul scapă de acel zgomot și încearcă să netezească imaginea.

Îndepărtarea liniei
Identifică toate liniile și marcajele care probabil nu sunt caractere, apoi le elimină, astfel încât procesul actual de scanare OCR nu se confundă. Este deosebit de important atunci când scanați documente cu tabele și casete.

zonarea
Separă imaginea în bucăți distincte de text, cum ar fi identificarea coloanelor în documente cu mai multe coloane.

Pasul 2: Prelucrarea imaginii

În primul rând, procesul OCR încearcă să stabilească linia de bază pentru fiecare rând de text din imagine (sau dacă a fost zonat în pre-procesare, acesta va funcționa prin fiecare zonă unul câte unul). Fiecare linie de caractere identificate este tratată unul câte unul.

Pentru fiecare linie de caractere, software-ul OCR identifică distanța dintre caractere prin căutarea liniilor verticale ale pixelilor non-text (care ar trebui să fie evidente prin binarizarea corectă). Fiecare bucată de pixeli dintre aceste linii fără text este marcată ca a “jeton” care reprezintă un caracter. Prin urmare, acest pas este numit tokenizarea.

Odată ce toate caracterele potențiale din imagine sunt tokenizate, software-ul OCR poate folosi două tehnici diferite pentru a identifica ce caractere sunt acele jetoane:

Recunoasterea formelor
Fiecare jeton este comparat pixel-pixel cu un întreg set de glife cunoscute, inclusiv numere, punctuație și alte simboluri speciale, iar cel mai apropiat meci este selectat. Această tehnică este, de asemenea, cunoscută ca potrivirea matricei.

Există mai multe dezavantaje aici. În primul rând, jetoanele și simbolurile trebuie să aibă dimensiuni similare sau altfel nici unul dintre ele nu se va potrivi. În al doilea rând, jetoanele trebuie să fie într-un font similar cu ghilimele, ceea ce exclude scrisul de mână. Dar dacă este cunoscut fontul tokenului, recunoașterea modelului poate fi rapidă și precisă.

Extracția elementelor
Fiecare simbol este comparat cu reguli diferite care descriu ce fel de caracter ar putea fi. De exemplu, două linii verticale cu înălțime egală, conectate printr-o singură linie orizontală, vor fi probabil un capital H.

Această tehnică este utilă deoarece nu este limitată la anumite fonturi sau mărimi. De asemenea, poate fi mai nuanțată în recunoașterea diferențelor subtile dintre o capitală I, L minuscule și numărul 1. Dezavantajul? Programarea regulilor este mult mai complexă decât simpla comparare a pixelilor într-un token cu pixelii dintr-un glif.

Pasul 3: postprocesarea imaginii

Odată ce a fost terminată potrivirea tokenului, software-ul OCR ar putea numi o zi și vă va prezenta rezultatele. Dar, de obicei, un pic mai mult de fudging trebuie să fie făcut pentru a vă asigura că nu vă rolați ochii la rezultate gibberish.

Restricții Lexicale
Toate cuvintele sunt comparate cu un lexicon de cuvinte aprobate, iar cele care nu se potrivesc sunt înlocuite cu cuvântul cel mai apropiat. Un dicționar este un exemplu de lexicon. Acest lucru poate ajuta la corectarea cuvintelor cu caractere eronate, cum ar fi “ghimpe” in loc de “th0rn”.

Optimizări specifice aplicațiilor
Atunci când OCR este utilizat în setările de nișă, cum ar fi pentru documente medicale sau juridice, poate fi folosit un tip special de OCR special conceput pentru acea setare. În aceste cazuri, software-ul OCR poate căuta ecuații matematice, termeni specifici industriei etc..

Limba naturală
Această tehnică avansată corectează propozițiile utilizând un model lingvistic care descrie modul în care anumite cuvinte pot fi urmate de alte cuvinte. Este similar cu tehnologia care prezice ce cuvânt doriți să tastați în continuare pe o tastatură mobilă.

Când se face bine, acest lucru poate duce la un text care este remarcabil de citit.

Instrumente optice de recunoaștere a caracterelor recomandate

Acum că știți cum funcționează OCR, ar trebui să fie ușor de văzut că nu toate instrumentele OCR sunt egale. Precizia rezultatelor dvs. va depinde în mare măsură de cât de bine software-ul implementează diferitele tehnici OCR discutate în acest articol.

Recomandăm în mod deosebit OneNote pentru acest lucru, acesta fiind doar un motiv pentru care îl bate pe Evernote pentru notarea Evernote vs. OneNote: ce App-Taking App este potrivit pentru dvs.? Evernote vs. OneNote: ce aplicație care iau notă este potrivită pentru dvs.? Evernote și OneNote sunt aplicații minunate care iau notițe. Este greu să alegi între cei doi. Am comparat totul de la interfață cu organizarea notei pentru a vă ajuta să alegeți. Ce funcționează cel mai bine pentru dvs.? Citeste mai mult . Dacă sunteți dispus să plătiți o soluție premium, luați în considerare OmniPage. Comparați software-ul OneNote versus OmniPage pentru OCR gratuit și plătit OCR: Microsoft OneNote și Nuance OmniPage Comparate Software gratuit și plătit OCR: Microsoft OneNote și Nuance OmniPage Comparat OCR scanner vă permite să convertiți textul în imagini sau PDF-uri în text editabil documente. Este un instrument OCR gratuit ca OneNote suficient de bun? Să aflăm! Citeste mai mult . Pentru documentele mobile, veți dori să consultați aceste aplicații OCR pentru dispozitivele Android 6 Cele mai bune aplicații OCR Android pentru extragerea textului din imagini 6 Cele mai bune aplicații OCR Android pentru extragerea textului din imagini Aveți nevoie să digitizați orice text tipărit, copie soft de ea? Dacă da, tot ce aveți nevoie este un instrument optic de recunoaștere a caracterelor (OCR). Citeste mai mult .

Cum folosiți OCR? Aveți instrumentele OCR preferate pe care nu le-am menționat? Spuneți-ne în comentariile de mai jos!

Explorați mai multe despre: Image Converter, OCR.

« Cum funcționează motoarele de căutare de imagini [Explică-i pe MakeUseOf] Cum Infolio poate ajuta echipa ta să colaboreze ca niciodată înainte »