Rozpoznawanie tekstu (OCR)

Zeskanowany i zindeksowany dokument można już łatwo odszukać na komputerze, tablecie lub smartfonie. Jeżeli zostanie w nim rozpoznany tekst będzie można również przeszukać jego treść. Do automatycznego rozpoznawania tekstu służy specjalne oprogramowanie OCR (ang.: Optical Character Recognition), które piksel po pikselu przeszukuje każdą stronę elektronicznego dokumentu w poszukiwaniu liter, cyfr i innych znanych mu znaków. Rozpoznany tekst może zostać wyeksportowany do pliku tekstowego Word, arkusza Excel lub umieszczony „pod” obrazem dokumentu papierowego i zapisany w formacie PDF (tzw. searchable PDF).

Najważniejszym parametrem rozpoznanego tekstu jest jego trafność – precyzyjność odtworzenia oryginalnego tekstu z zeskanowanego papieru. Ma na nią wpływ kilka czynników:

  • jakość oryginalnego dokumentu – jeżeli dokument papierowy był zniszczony, pomięty lub wydruk na nim był niskiej jakości (charakterystyczne dla faksów) odczyt będzie mniej precyzyjny,
  • jakość zeskanowanego dokumentu – klasa skanera oraz odpowiednie parametry digitalizacji, a także funkcjonalność użytego oprogramowania (redukcja szumów czy prostowanie obrazu) mają ogromny wpływ na jakość elektronicznej postaci dokumentu, co przekłada się na jakość rozpoznanego na nim tekstu,
  • postać oryginalnych treści – oprogramowanie OCR potrafi rozpoznać jedynie tekst maszynowy, np. wydrukowany dokument Word, arkusz Excel czy wiadomość e-mail; wiele zależy też od użytej czcionki,
  • oprogramowanie OCR – funkcję OCR można znaleźć w niektórych przeglądarkach plików na smartfony jednak tekst wygenerowany za jej pomocą jej zazwyczaj bezużyteczny; profesjonalne silniki OCR, znające setki języków i tysiące czcionek, potrafiące się uczyć na próbkach nowych fontów oraz używające słowników do weryfikacji kosztują tysiące złotych.

Niezależnie od powyższych czynników rezultaty automatycznego rozpoznawania tekstu można ręcznie zweryfikować. Wbudowany moduł weryfikacji wyświetla operatorowi znaki i słowa, których rozpoznania nie uważa za pewne oraz obszar obrazu, z którego je sczytał umożliwiając ewentualną poprawę. W ten sposób można podnieść precyzyjność każdego odczytu do praktycznie 100%, jest to jednak żmudny i długotrwały proces.

Oferujemy:

  • rozpoznawanie tekstu z zeskanowanych dokumentów (nie tylko w naszej firmie) przy pomocy oprogramowania najlepszych światowych marek, cechującego się precyzyjnością przekraczającą 99%,
  • odczytywanie na serwerach dedykowanych pod silniki OCR zapewniających szybki czas realizacji usługi,
  • eksport rozpoznanych treści do wielu popularnych formatów plików: TXT/CSV, PDF, PDF/A, DOC/DOCX, XLS/XLSX, PPTX, ODT, RTF i innych,
  • wykonanie usługi przez doświadczonych operatorów przeprowadzających weryfikację rozpoznanych treści.