Мегаобучалка Главная | О нас | Обратная связь


Программы автоматического распознавания текста.



2020-02-03 271 Обсуждений (0)
Программы автоматического распознавания текста. 0.00 из 5.00 0 оценок




5.1. Автоматизация ввода информации в компьютер

Основным методом перевода бумажных документов в электронную форму является сканирование. Сканирование — это технологический процесс, в результате которого создается графический образ бумажного документа. Существует несколько разных видов сканеров, но в их основе лежит один и тот же принцип. Документ освещается светом от специального источника, а отраженный свет воспринимается светочувствительным элементом. Минимальный элемент изображения интерпретируется сканером как цветная (или серая) точка. Таким образом, в результате сканирования документа создается графический файл, в котором хранится растровое изображение исходного документа. Растровое изображение состоит, как известно, из точек. Количество точек определяется как размером изображения, так и разрешением сканера.            

5.2. Автоматическое распознавание текстов

После обработки документа сканером получается графическое изображение документа (графический образ), который не является текстовым документом. Человеку достаточно взглянуть на лист бумаги с текстом, чтобы понять, что на нем написано. С точки зрения компьютера, документ после сканирования превращается в набор разноцветных точек, а вовсе не в текстовый документ.

Проблема распознавания текста в составе точечного графического изображения решается с помощью специальных программных средств, называемых средствами распознавания образов. Сначала распознавание текста было возможно только путем сравнения обнаруженных конфигураций точек со стандартным образцом (эталоном, хранящимся в памяти компьютера). Авторы программ задавали критерий «похожести», используемый при идентификации символов. Подобные системы назывались ОСR. (оптическое распознавание символов) и опирались на специально разработанные шрифты. Современные программы вполне могут справляться с различными (и весьма вычурными) шрифтами без перенастройки. Многие распознают даже рукописный текст.

5.3. Программы распознавания текстов

Программы распознавания текстов должны выполнять следующие операции:   1. Сканирование;

2. Сегментация;

3. Распознавание;

4. Проверка орфографии;

5. Сохранение.

Нас, прежде всего, интересуют программы, способные распознавать текст, напечатанный на русском языке. Такие программы выпускаются отечественными производителями. Наиболее широко известны и распространены программы Fine Reader (АВВУУ) и CuneiForm (Coginitive).

Fine Reader обеспечивает высокое качество распознавания и удобство применения. Она позволяет объединять сканирование и распознавание в одну операцию. Существуют различные версии Fine Reader. Самая простая модификация поставляется бесплатно вместе со сканером. Профессиональная версия Fine Reader Pro может грамотно обработать таблицы и изображения, читать штрих-коды, добавлять в базу данных новые языки. Самая мощная и дорогостоящая версия - Fine Reader Office может распознавать любые бланки и формы. Fine Reader поддерживает почти 200 языков распознавания, в числе которых можно найти экзотические и древние языки и даже некоторые языки программирования (Basic, C/C++, COBOL, Фортран, Паскаль). Недостаток программы Fine Reader – стоимость.

Программа CuneiForm содержит гораздо меньше функциональных возможностей и поддерживает всего 20 языков. Но зато CuneiForm предлагает только полезные и необходимые услуги. Цена программы является преимуществом.

Обе программы можно обучать для повышения качества распознавания неудачно напечатанных текстов или сложных шрифтов.

Компьютерная графика.

Виды компьютерной графики

Различают всего три вида компьютерной графики. Это растровая графика, векторная графика и фрактальная графика. Они отличаются принципами формирования изображения при отображении на экране монитора или при печати на бумаге.

6.1. Растровая графика

Основным элементом растрового изображения является точка. Если изображение экранное, то эта точка называется пикселем. В зависимости от того, на какое графическое разрешение экрана настроена операционная система компьютера, на экране могут размещаться изображения, имеющие 640х480, 800х600, 1024х768 и более пикселей.

С размером изображения непосредственно связано его разрешение. Этот параметр измеряется в точках на дюйм (dpi).

 НЕДОСТАТКИ:

1. Большие объемы данных

2. Невозможность увеличения изображения для рассмотрения деталей. Поскольку изображение состоит из точек, то увеличение изображения приводит только к тому, что эти точки становятся крупнее. Более того, увеличение точек растра визуально искажает иллюстрацию и делает ее грубой. Этот эффект называется пикселизацией.

6.2. Векторная графика

В векторной графике основным элементом изображения является линия (при этом не важно, прямая это линия или кривая).

В растровой графике тоже существуют линии, но там они рассматриваются как комбинации точек. Для каждой точки линии в растровой графике отводится одна или несколько ячеек памяти (чем больше цветов могут иметь точки, тем больше ячеек им выделяется). Соответственно, чем длиннее растровая линия, тем больше памяти она занимает. В векторной графике объем памяти, занимаемый линией, не зависит от размеров линии, поскольку линия представляется в виде формулы, а точнее говоря, в виде нескольких параметров. Что бы мы ни делали с этой линией, меняются только ее параметры, хранящиеся в ячейках памяти. Количество же ячеек остается неизменным для любой линии. Линия — это элементарный объект векторной графики. Все, что есть в векторной иллюстрации, состоит из линий.

Как и все объекты, линии имеют свойства. К этим свойствам относятся: форма линии, ее толщина, цвет, характер линии (сплошная, пунктирная и т. п.). Замкнутые линии имеют свойство заполнения. Внутренняя область замкнутого контура может быть заполнена цветом, текстурой, картой. Простейшая линия, если она не замкнута, имеет две вершины, которые называются узлами. Узлы тоже имеют свойства, от которых зависит, как выглядит вершина линии и, как две линии сопрягаются между собой.

6.3. Понятие о фрактальной графике

Фрактальная графика, как и векторная — вычисляемая, но отличается от нее тем, что никакие объекты в памяти компьютера не хранятся. Изображение строится по уравнению (или по системе уравнений), поэтому ничего, кроме формулы, хранить не надо. Изменив коэффициенты в уравнении, можно получить совершенно другую картину.



2020-02-03 271 Обсуждений (0)
Программы автоматического распознавания текста. 0.00 из 5.00 0 оценок









Обсуждение в статье: Программы автоматического распознавания текста.

Обсуждений еще не было, будьте первым... ↓↓↓

Отправить сообщение

Популярное:
Как построить свою речь (словесное оформление): При подготовке публичного выступления перед оратором возникает вопрос, как лучше словесно оформить свою...
Как распознать напряжение: Говоря о мышечном напряжении, мы в первую очередь имеем в виду мускулы, прикрепленные к костям ...
Организация как механизм и форма жизни коллектива: Организация не сможет достичь поставленных целей без соответствующей внутренней...



©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (271)

Почему 1285321 студент выбрали МегаОбучалку...

Система поиска информации

Мобильная версия сайта

Удобная навигация

Нет шокирующей рекламы



(0.006 сек.)