Если вы работали в офисе, вероятнее всего вам приходилось сталкиваться со сканером, позволяющим «оцифровывать» бумажные документы. И скорее всего, вы знаете, что такое «система оптического распознавания символов» (ОРС, OCR, Optical Character Recognition). И если интересует, как это работает, каким образом эта технология применяется в современных информационных технологиях, эксперты команды проекта «СПАРСИМ» готовы рассказать об OCR, поделившись интересной, полезной и актуальной информацией со всеми читателями нашего блога!

Что такое ОРС?
Суть технологии – распознавание текстов и отдельных символов, а изображениях для преобразования видимого текста (печатного, не печатного или рукописного) в машиночитаемые данные для дальнейшей обработки или редактирования. Впервые, ее начали использовать в начале 90-х, при оцифровке исторических газет для создания электронного архива.
При этом стоит отметить, что за несколько десятков лет, систему оптического распознавания символов удалось доработать до «идеала»: нынешние системы OCR показывают почти идеальную точность распознавания текста. А расширенные методики (включая использование нейросетей) упрощает процесс документооборота на крупных предприятиях и используется для автоматизации расчетов с поставщиками и сдачи финансовой отчетности контролирующим органам.
Как оптическое распознавание символов используется в повседневности?
Первым и, пожалуй, самым популярным вариантом использования ОРС является оцифровка печатных документов в форматы, совместимые с офисным ПО (Word, Excel) и онлайн-редакторами. Более того, именно этот метод сканирования дал виток в развитии электронного документооборота, а также способствовал появлению онлайн-библиотек, хранящих сотни терабайт текстовой информации: от архивных вырезок из газет, до шедевров художественной литературы.
Кроме того, инструмент применяется в качестве “скрытой” технологии в программах, использующихся рядовыми пользователями. Нередко, основные принципы оптического распознавания ( распознавание текста) применяются в онлайн- и оффлайн-коммерции. В частности, речь идет о полной автоматизации ввода учетных данных, индексировании документов для поисковых систем, автоматическом распознавании номерных знаков, озвучивании текста для слепых или слабовидящих людей.
А в паре с инструментами парсинга, система оптического распознавания символов позволяет находить нужную информацию в оцифрованных фрагментах исторических газет и текстов, содержащихся в базах данных различных библиотек, гораздо быстрее, чем вручную.