Care este cel mai bun program OCR gratuit sau ICR pentru transcrierea manuscriselor?

Care este cel mai bun program OCR gratuit sau ICR pentru transcrierea manuscriselor? / Întrebați experții

Javier Asks:

Sunt scriitor de povestiri și povești. Caut un program optic de recunoaștere a caracterelor (OCR) sau un program inteligent de recunoaștere a caracterelor (ICR) pentru a scana vechile manuscrise din imagini sau fotografii pentru a le putea converti în fișiere Microsoft Word.

Există programe gratuite și exacte capabile să facă acest lucru? Din păcate, nu am un scanner, dar am acces la o cameră digitală cu o rezoluție de 20 de megapixeli.

Răspunsul lui Kannon:

După cum ați menționat deja, există mai multe tipuri de tehnologii de recunoaștere a caracterelor care pot converti automat scrierea scrisă de mână sau scris în caractere digitale. Nivelul de precizie al acestor tipuri de software variază foarte mult între diferite implementări. Unii convertesc pe baza unei scrisori și alții pot converti cuvinte întregi. Există trei categorii generale ale acestui software:

  • Recunoașterea optică a caracterelor (OCR)
  • Recunoașterea inteligentă a caracterelor (ICR)
  • Recunoașterea inteligentă a cuvintelor (IWR)

Recunoaștere optică a caracterelor

În realitate, OCR este un termen generic și de cele mai multe ori toate metodele prezentate în acest articol sunt denumite OCR - Wikipedia, totuși, conferă OCR o clasificare proprie, dar implementările moderne tind să strângă împreună mai multe metode. Deci ce face? OCR convertește literele individuale - tipărite sau scrise de mână - în caractere digitale. Deci, software-ul se uită la un document și apoi încearcă să-l convertească în text simplu, ghicind ceea ce este fiecare personaj.

Software-ul nu este perfect. Software-ul OCR poate interpreta greșit caracterele individuale cu apariții similare, ducând la cuvinte greșite și la ieșiri inexacte. De cele mai multe ori, utilizatorii pot copia textul generat de un program OCR într-un procesor de text și pot remedia automat erorile de ortografie. Deseori, erorile vor apărea ca caractere similare. De exemplu, scrisoarea “d” pot fi reprezentate ca “cl”.

Dar când vine vorba de texte scrise de mână, OCR nu face foarte bine. Cel puțin, majoritatea implementărilor gratuite sunt tragic rău. Există câteva produse comerciale care pot într-adevăr transcrierea scrisă de mână cu unghi, dar prețul lor le plasează complet inaccesibile pentru publicul larg. De exemplu, există software-ul Lexmark de citire OCR. Aceste costuri software numai pentru întreprinderi mii de dolari.

Recunoașterea inteligentă a caracterelor

ICR este un subset de OCR care este specializată în conversia textului scris de mână în caractere digitale individuale. Având în vedere că notele și manuscrisele sunt scrise de mână, un program ICR este cel mai util. Cu toate acestea, nu sunt sigur cât de precis pot converti texte scrise în limbi străine, cum ar fi spaniolă. Ca și în cazul OCR, utilizatorii pot îmbunătăți calitatea textelor afișate prin copierea lor într-un procesor de text cu corecție de ortografie activată și apoi corectarea manuală.

Recunoașterea inteligentă a cuvintelor

Cea mai recentă evoluție a OCR și ICR este software-ul Inteligent Word Recognition. În loc să recunoască caracterele individuale, încearcă să traducă cuvinte întregi scrise de mână. Ca și OCR și ICR, Recunoașterea inteligentă a cuvintelor adesea interpretează greșit cuvintele și solicită utilizatorului corectarea manuală a greșelilor făcute.

Care este cel mai bun software gratuit OCR?

Tesseract

Sunt multe opțiuni disponibile. Tesseract este probabil cel mai bun sursa deschisa (și gratuit) OCR acolo. Din câte știu, se uită numai la personaje individuale și nu la cuvinte întregi.

Deoarece utilizați Microsoft Word (care are cea mai bună verificare ortografică, cea mai personalizabilă) Cum se face verificarea ortografiei și a gramaticii în Microsoft Word Cum se face verificarea ortografiei și a gramaticii în Microsoft Word Puteți personaliza instrumentele de ortografie și gramatică încorporate în Microsoft Word Aveți posibilitatea să utilizați chiar și AutoCorrect pentru a vă grăbi tastarea. Citește mai mult în companii), puteți să copiați întregul text în Word și apoi să rulați o verificare a ortografiei pentru a curăța scrierea greșită.

Tesseract este de fapt un motor OCR care rulează de pe linia de comandă. Dacă nu sunteți dispus să vă ocupați de dificultatea de a folosi un instrument de linie de comandă, probabil că veți dori să instalați ceva mai ușor de utilizat. Există o descărcare “în față” (sau o interfață grafică de utilizator) care vă permite să utilizați Tesseract ca instrument de drag-and-drop: PDF OCR X. Mai întâi, instalați pachetul software, apoi executați-l. Veți vedea apoi o fereastră:

Apoi trageți și plasați fișierul imagine pe fereastră. După încărcarea imaginii, rulați software-ul de transcriere OCR. Ar putea dura un minut sau cam asa ceva.

Din nefericire, sa dovedit total inadecvată pentru manipularea textului. Iată cum arată după extragerea textului din document:

Microsoft OneNote

Din moment ce apare că deja utilizați Microsoft Office, cea mai bună opțiune este, probabil, și de la Microsoft. Voi presupune că dețineți o copie a Microsoft Office, care include OneNote. Acesta este echipat cu o tehnologie OCR destul de avansată.

De asemenea, atât pe iOS cât și pe Android, există, de asemenea, Lentiunea Microsoft Office complet gratuită, care poate converti JPEG (și alte formate de imagine) direct în text. Ceea ce face ca versiunile mobile să fie atât de minunate este că poți trage o imagine, îl poți încărca în sistemul de cloud computing al Microsoft și apoi execută extragerea textului de la OneNote pe un desktop.

Procesul este destul de simplu. Mai întâi, faceți o fotografie a textului. Dacă v-ați decis să utilizați aplicația OneNote, va trebui doar să salvați fișierul în contul dvs. OneDrive. În caz contrar, transferați imaginea pe computer și plasați-o pe OneNote.

Apoi faceți clic dreapta pe imagine și selectați Copie Text din imagine din meniul contextual.

Apoi faceți clic dreapta pe o porțiune necompletată de OneNote (sau într-o aplicație de citire a textului) și lipiți textul în. Textul afișat din documentul dvs. arată astfel:

Din păcate, rezultatele de la OneNote nu fac oriunde lângă o treabă bună, producând prostii absolut. Acest lucru ar putea fi cauzat de o combinație de factori, cum ar fi o imagine distorsionată sau o scriere care nu se face într-o linie dreaptă sau pur și simplu pentru că software-ul nu este suficient de bun.

Google Keep

În prezent, cea mai bună soluție pentru OCR pe documente scrise de mână se referă la învățarea mașinilor: în special, învățarea profundă. Deep-learning este o metodă sofisticată de instruire a unui computer pentru a efectua activități care anterior au fost doar excelente la om, cum ar fi recunoașterea facială (Picasa recunoaște facialul Cum se utilizează Recunoașterea Facială în Picasa Web Albums Cum se utilizează Recunoașterea Facială în Picasa Web Albums , crezi sau nu). Google a achiziționat recent DeepMind, care dezvoltă tehnologii de învățare profundă Proiecte de cercetare sănătoase care ar putea schimba proiectele viitoare de cercetare care ar putea schimba viitorul Mai multe corporații ca Google, Microsoft, IBM și Intel vor continua să ofere generațiilor viitoare lumii pe care o putem Imaginați-vă acum? Aceste proiecte de cercetare interesante spun că este o promisiune pe care o vor păstra. Citeste mai mult . Această achiziție cheie a avut un efect mare: Microsoft pierde la Google în OCR Microsoft vs Google - Cine conduce rasa inteligenta artificiala? Microsoft vs Google - Cine conduce rasa inteligenta artificiala? Cercetătorii privind inteligența artificială fac progrese tangibile, iar oamenii încep să vorbească serios despre AI din nou. Cei doi titani care conduc cursa inteligenței artificiale sunt Google și Microsoft. Citeste mai mult . În prezent, Google oferă una dintre metodele cele mai avansate (și gratuite): Google Keep.

Google Keep (pe care l-am revizuit pentru prima dată în 2013) Google Keep for Android a revizuit notele simple în deplasare: Google Keep for Android a fost revizuit Există câteva aplicații uimitoare de preluare a notelor, dar aici este unul care merită o privire mai atentă : Google Keep, un manager de note care are atât o aplicație Android minunată, cât și un webapp slick (Citiți mai multe) oferă, de asemenea, o versiune mobilă a aplicației lor pentru Android. Ca și în cazul OneNote, poți fotografia și transfera direct în cloud-ul Google. Doar glisați imaginea în fereastra Google Keep. Apoi faceți clic pe butonul de meniu (trei puncte verticale) și selectați Prindeți textul imaginii din meniul contextual.

Iată cum arată după extragerea textului:

Google Keep câștigă

După cum puteți vedea, Google Keep domină în competiție. Rezultatele pot fi îmbunătățite chiar și mai mult prin utilizarea unui instrument de editare a imaginilor 10 Instrumente gratuite de editare a fotografiilor pentru a face cea mai mare parte a fotografiilor dvs. 10 Instrumente gratuite de editare a fotografiilor pentru a face cea mai mare parte a fotografiilor dvs. Orice sa întâmplat cu toate instantaneele pe care le-ați făcut în trecut ? Dacă aveți planuri și idei, aici sunt niște ferestre excelente și unele instrumente platforme cross-platform pentru a le procesa. Citește mai mult pentru a crește contrastul și a îndrepta imaginea.

Sperăm că aceste opțiuni ajută. În cazul în care aveți nevoie de mai multe opțiuni OCR, vă rugăm să verificați cele 5 instrumente OCR cele mai bune Cele mai bune 5 instrumente OCR pentru extragerea textului din imagini Cele mai bune 5 instrumente OCR pentru extragerea textului din imagini Când aveți rețineri de hârtie, text convertit în ceva ce un program digital va fi capabil să recunoască și să indexeze? Păstrați aproape un software OCR bun. Citiți mai multe, pentru mai multe informații.

Explorați mai multe despre: OCR, transcriere.