Якщо ви працювали в офісі, найімовірніше вам доводилося зіштовхуватися зі сканером, що дозволяє «оцифровувати» паперові документи. І швидше за все, ви знаєте, що таке система оптичного розпізнавання символів (ОРС, OCR, Optical Character Recognition). І якщо цікавить, як це працює, яким чином ця технологія застосовується у сучасних інформаційних технологіях, експерти команди проекту «СПАРСІМ» готові розповісти про OCR, поділившись цікавою, корисною та актуальною інформацією з усіма читачами нашого блогу!
Що таке ОРС?
Суть технології – розпізнавання текстів та окремих символів, а зображення для перетворення видимого тексту (друкованого, не друкованого чи рукописного) в машиночитані дані для подальшої обробки або редагування. Вперше її почали використовувати на початку 90-х, при оцифруванні історичних газет для створення електронного архіву.
При цьому варто зазначити, що за кілька десятків років систему оптичного розпізнавання символів вдалося доопрацювати до «ідеалу»: нинішні системи OCR показують майже ідеальну точність розпізнавання тексту. А розширені методики (включаючи використання нейромереж) спрощує процес документообігу на великих підприємствах і використовується для автоматизації розрахунків із постачальниками та складання фінансової звітності контролюючим органам.
Як оптичне розпізнавання символів використовується у повсякденності?
Першим і, мабуть, найпопулярнішим варіантом використання ОРС є оцифрування друкованих документів у формати, сумісні з офісним програмним забезпеченням (Word, Excel) та онлайн-редакторами. Більше того, саме цей метод сканування дав виток у розвитку електронного документообігу, а також сприяв появі онлайн-бібліотек, які зберігають сотні терабайт текстової інформації: від архівних вирізок із газет до шедеврів художньої літератури.
Крім того, інструмент застосовується як “прихована” технологія в програмах, що використовуються рядовими користувачами. Нерідко основні принципи оптичного розпізнавання (розпізнавання тексту) застосовуються в онлайн-і оффлайн-комерції. Зокрема, йдеться про повну автоматизацію введення облікових даних, індексування документів для пошукових систем, автоматичне розпізнавання номерних знаків, озвучування тексту для сліпих або людей з вадами зору.
А в парі з інструментами парсингу система оптичного розпізнавання символів дозволяє знаходити потрібну інформацію в оцифрованих фрагментах історичних газет і текстів, що містяться в базах даних різних бібліотек, набагато швидше, ніж вручну.