Оптическое распознавание символов

все теги

Оптическое распознавание символов
Оптическое распознавание символов (англ. optical character recognition, OCR) — это механический или электронный перевод изображений рукописного, машинописного или печатного текста в последовательность кодов, использующихся для представления в текстовом редакторе. Оптическое распознавание имеет широкие границы применения: для конвертации книг и документов в электронный вид, для автоматизации систем учета в бизнесе или для публикации текста на веб-странице. Над преобразованным в электронный вид при помощи оптического распознавания текстом можно совершать множественные манипуляции: редактировать, осуществлять поиск слова или фразы, хранить его в более компактной форме, демонстрировать или распечатывать материал, не теряя качества, анализировать информацию, а также применять к тексту электронный перевод, форматирование или преобразование в речь при помощи соответствующего программного обеспечения. Оптическое распознавание текста является прогрессирующей и активно исследуемой проблемой, неразрывно связанной с распознаванием образов, речи и компьютерным зрением.

Первые системы оптического распознавания текста нуждались в постоянной калибровке для работы с каждым конкретным шрифтом; в ранних версиях для распознавания было необходимо изображение каждого символа. Программа одновременно могла работать только с одним шрифтом. Не так давно широкое распространение получили «интеллектуальные» системы, которые с высокой степенью точности способны распознавать большинство известных начертаний и шрифтов. Следующим этапом стало появление систем, способных не только достаточно с большой степенью точности распознавать текст, но и восстанавливать исходное форматирование, включая колонки, таблицы и другие простейшие графические компоненты.

История
В 1929 году Густав Таушек (нем. Gustav Tauschek) запатентовал метод оптического распознавания текста в Германии, после него в 1933 году в США за ним последовал Гендель (англ. Paul W. Handel) и получил патент уже на свой метод. В 1935 году Таушек также получил патент США на свой метод. Машина Таушека представляла собой механическое устройство, которое использовало шаблоны и фотодетектор.

В 1950 году Дэвид Шепард, криптоаналитик из агентства безопасности вооружённых сил США, проанализировал задачу преобразования печатных сообщений в машинный язык для обработки компьютером, и построил машину, которая решала эту задачу. После получения патента, он сообщил об этом в «Вашингтон Дэйли Ньюз» и в «Нью-Йорк Таймс». После Шепард основал компанию, разрабатывающую интеллектуальные машины, которая вскоре выпустила первые в мире коммерческие системы оптического распознавания символов.

Первая коммерческая система была установлена в «Ридерс дайджест» в 1955 году. Вторая система была продана компании «Стандарт ойл» для чтения кредитных карт для работы с чеками. Другие системы, поставлявшиеся компанией Шепарда, были проданы в конце 1950-х годов, в том числе сканер страниц для национальных воздушных сил США, предназначенный для чтения и передачи по телетайпу машинописных сообщений. IBM позже получила лицензию на использование патентов Шепарда.

Примерно в 1965 году «Ридерс дайджест» и «Ар-Си-Эй» начали сотрудничество с целью создать машину для чтения документов, использующую оптическое распознавание текста, предназначенную для оцифровки серийных номеров купонов «Ридерс дайджест», вернувшихся из рекламных объявлений. Для печати на документах барабанным принтером «Ар-Си-Эй» был использован специальный шрифт OCR-A. Машина для чтения документов работала непосредственно с компьютером RCA 301 (одна из первых полупроводниковых ЭВМ). Скорость работы машины была 1500 документов в минуту: она проверяла каждый документ, исключая те, которые она не смогла обработать правильно.

Почтовая служба Соединённых Штатов с 1965 года для сортировки почты использует машины, работающие по принципу оптического распознавания текста, созданные на основе технологий, разработанных исследователем Яковом Рабиновым. В Европе первой организацией, использующей машины с оптическим распознаванием текста, был британский почтамт. Почта Канады использует системы оптического распознавания символов с 1971 года. На первом этапе в центре сортировки системы оптического распознавания символов считывают имя и адрес получателя и печатают на конверте штрихкод. Он наносится специальными чернилами, которые отчётливо видимы в ультрафиолетовом свете. Это делается, чтобы избежать путаницы с полем адреса, заполненным человеком, которое может быть в любом месте на конверте.

В 1974 году Рэй Курцвейл создал компанию «Курцвейл компьютер продактс» и начал работать над первой системой оптического распознавания символов, способной распознать текст, напечатанный любым шрифтом. Курцвейл считал, что лучшее применение этой технологии — создание машины чтения для слепых, которая позволила бы слепым людям иметь компьютер, умеющий читать текст вслух. Данное устройство требовало изобретения сразу двух технологий — ПЗС планшетного сканера и синтезатора, преобразующего текст в речь. Конечный продукт был представлен 13 января 1976 во время пресс-конференции, возглавлявшийся Курцвейлом и руководителями Национальной федерации слепых.

В 1978 году компания «Курцвейл компьютер продактс» начала продажи первой коммерчески успешной компьютерной программы оптического распознавания символов. Два года спустя Курцвейл продал свою компанию корпорации «Ксерокс», которая была заинтересована в дальнейшей коммерциализации систем распознавания текста. «Курцвейл компьютер продактс» стала дочерней компанией «Ксерокс», известной как «Скансофт».
Первой программой, распознающей кириллицу, была программа «AutoR» российской компании «ОКРУС». Программа начала распространяться в 1992 году, работала под управлением операционной системы DOS и обеспечивала приемлемое по скорости и качеству распознавание даже на персональных компьютерах IBM PC/XT с процессором Intel 8088 при тактовой частоте 4,77 МГц. В начале 90-х компания Hewlett-Packard поставляла свои сканеры на российский рынок в комплекте с программой «AutoR». Алгоритм «AutoR» был компактный, быстрый и в полной мере «интеллектуальный», то есть по-настоящему шрифтонезависимый. Этот алгоритм разработали и испытали ещё в конце 60-х два молодых биофизика, выпускники МФТИ — Г. М. Зенкин и А. П. Петров. Свой метод распознавания они опубликовали в журнале «Биофизика». В настоящее время алгоритм Зенкина-Петрова применяется в нескольких прикладных системах, решающих задачу распознавания графических символов. На основе алгоритма компанией Paragon Software Group в 1996 была создана технология PenReader. Г. М. Зенкин продолжил работу над технологией PenReader в компании Paragon Software Group. Технология используется в одноимённом продукте компании.

В 1993 году вышла технология распознавания текстов российской компании ABBYY. На её основе создан ряд корпоративных решений и программ для массовых пользователей. В частности, программа для распознавания текстов ABBYY FineReader, приложения для распознавания текстовой информации с мобильных устройств, система потокового ввода документов и данных ABBYY FlexiCapture. Лицензиарами технологий распознавания текстов ABBYY OCR являются международные ИТ-компании, такие как Fujitsu, Panasonic, Xerox, Samsung, EMC и другие.

Оптическое распознавание символов

{{alertHeader}}