Działanie i zastosowanie technologii OCR

Data publikacji: 2021-10-30 Data aktualizacji: 2025-01-30

OCR to w skrócie Optical Character Recognition, a więc optyczne rozpoznawanie znaków – jest to proces przekształcania obrazu z tekstem w informację tekstową wspomagający digitalizację danych. Czasami dla pewnych specyficznych zadań OCR stosuje się nowe nazwy, takie jak inteligentne rozpoznawanie znaków (ICR) lub rozpoznawanie wizytówek (BCR). Pierwsze systemy OCR pojawiły się niemal równocześnie z pojawieniem się pierwszych komputerów cyfrowych. W latach 50. rozpoczęto stosowanie komercyjnych systemów OCR. Systemy te przetwarzały pisane na maszynie raporty sprzedaży i przekształcały je w karty perforowane. Od tego czasu OCR przeszedł wiele zmian. Główną z nich jest zastąpienie różnorodnych klasyfikatorów sztucznymi sieciami neuronowymi. Teraz zaś technologia stoi przed jednym z największych wyzwań – rozpoznawaniem obrazów zarejestrowanych kamerą, a do tego niezbędny jest terminal mobilny OCR.

Jak działa technologia OCR

Współczesne warunki pozyskiwania obrazów wymagają, aby system był odporny na bardzo różne warunki, a jakość obrazu może się drastycznie różnić. Inną rzeczą, którą należy wziąć pod uwagę, jest standardowy przepływ pracy OCR. Większość metod rozpoczyna się od wstępnego przetwarzania obrazu, zwłaszcza od jego binaryzacji. Ma to na celu uproszczenie procesu segmentacji. Następnie, algorytm segmentacji jest stosowany do podziału obrazu linii tekstu na oddzielne obrazy znaków. Na koniec system przeprowadza klasyfikację znaków. W ostatnim kroku, czasami algorytmy postprocessingu mogą poprawić dokładność rozpoznawania.

W przypadku mobilnego oprogramowania OCR pojawiają się dwa różne problemy: ograniczenia mocy obliczeniowej i niekontrolowane warunki przechwytywania obrazu. W przypadku dokumentów osobistych, wrażliwych dokumentów bankowych lub wyników testów badań medycznych człowiek pragnie zachować jak najwięcej prywatności, więc rozpoznawanie na serwerze w chmurze nie wchodzi w grę. Inną drogą jest rozpoznawanie wbudowane, które prowadzi do konieczności zastosowania szybkich i zasobooszczędnych algorytmów. Po drugie, przy mniejszej liczbie ograniczeń dotyczących przechwytywania obrazu pojawia się więcej zniekształceń. Na przykład, zniekształcenia projekcyjne, rozmycie, zmiany jasności, uwypuklenia i tak dalej. Te zniekształcenia wpływają na etap wstępnego przetwarzania przez terminal mobilny OCR.

Praktyczne zastosowanie technologii OCR

Płatności i przelewy mogą być znacznie szybsze dzięki rozpoznawaniu kart bankowych. Zastąpienie ręcznego wprowadzania danych skanowaniem kodów QR lub innych kodów kreskowych, a także rozpoznawanie kart, pozwala uniknąć irytujących i niepotrzebnych błędów we wprowadzanych danych oraz poprawić komfort użytkowania aplikacji bankowych, sklepów internetowych, a nawet sklepów offline.

Sprzedaż biletów wymaga wprowadzania danych osobowych tysięcy osób każdego dnia. Automatyczne skanowanie lub rozpoznawanie paszportów może przyspieszyć proces sprzedaży i zminimalizować liczbę błędów w danych. Zdalna identyfikacja klienta jest popularną funkcją dla wielu zadań, w tym zakupów online, odpraw online czy wstępnej rejestracji do usług medycznych. Usługa taka pozwala na uproszczenie procesu zarówno dla klientów, jak i dla personelu oraz uniknięcie kolejek w urzędach, sklepach, hotelach itp.

Inną branżą, która wprowadziła rozpoznawanie OCR są usługi bankowe. W tym przypadku jakiekolwiek błędy we wprowadzonych danych osobowych skutkują problemami dla klienta, wpływając na jego wygodę użytkowania i dalszy wybór banku. Zintegrowane automatyczne rozpoznawanie dowodów osobistych, paszportów czy praw jazdy przez terminal mobilny OCR przyspiesza proces przyjmowania nowych klientów, upraszcza uwierzytelnianie i zmniejsza liczbę błędów ludzkich.