Мегаобучалка Главная | О нас | Обратная связь


Обработка и подготовка выходных файлов



2016-09-17 694 Обсуждений (0)
Обработка и подготовка выходных файлов 0.00 из 5.00 0 оценок




После того, как все настройки заданы и рисунки оформлены в виде зон - нужно проверить качество выходных файлов. Для этого следует выбрать несколько страниц, которые вам покажутся самыми "проблемными". Как правило, это страницы с рисунками, чертежами и таблицами. Каждая страница передается на обработку командой Process -> Current File или клавишами Ctrl+P. ScanKromsator произведет обработку страниц по заданному настройками сценарию, а потом выведет специальный маленький просмотрщик с окном, подобным старым версиям ACDSee.

Перед запуском обработки программа может выдать запрос на изменение разрешения (DPI) изображения. На этот запрос нужно всегда отвечать утвердительно, иначе оверсемплинг применен не будет и выходные файлы придут в негодность.

Когда экспериментальные файлы удовлетворили требованиям к качеству, приходит время запускать основной процесс обработки. Сами первичные выходные файлы лучше удалить, чтобы программа не застопорилась на них c запросом о перезаписи. Обработка запускается нажатием кнопки Process! инструментальной панели.

Длительность обработки целиком зависит от быстродействия компьютера, и в среднем составляет для 400-страничной книги от 20 минут до полутора часов.

После обработки в выходной папке будут находиться:

· Собственно выходные файлы со страницами книги, преобразованными в черно-белые одноцветные изображения.;

· Рисунки, сохраненные под именами типа pic0001.tif.

В самих страницах на месте выделенных ранее рисунков останутся "дыры". Поэтому для получения изображений, пригодных для распознавания, нужно объединить страницы с рисунками. Это делается командой меню Zones -> Picture Zone -> Merge Zones. После окончания процесса объединения все выходные файлы будут готовы для распознавания.

Шаг 3. Распознавание и первичная вычитка

Вот, наконец, и пришло время для FineReader'а . Для цели книгосканирования лучше всего подойдет версия 9.0 Pro. Первое, что нужно сделать - зайти в диалог опций пакета, и сбросить там все флажки на вкладке Сканирование/Открытие в группе Обработка изображений.

После этого нужно переместить куда-нибудь в известное место сам пакет, чтобы потом легко найти его. Я предпочитаю сохранять в папку, куда выводил изображения страниц ScanKromsator. Когда страницы открыты, можно сразу запускать распознавание.

Первичная вычитка в FineReader сводится к легкой коррекции самых заметных ошибок. Главное правило при работе - если вы собираетесь сохранять файл в DjVu, ни в коем случае не удаляйте знаки переноса строки и концевые дефисы абзацев!

Тогда внедрить текстовый слой в DjVu-файл можно будет легко и быстро, и не возникнет проблем при модификации готовой книги.

Шаг 4. Сохранение и финальное редактирование

PDF или DjVu?

Вопрос выбора формата обязательно встает ребром, как только принимается решение преобразовать книгу в электронный вид. При выборе формата нужно учитывать несколько факторов. Чтобы лучше разобраться в них, приведу краткое сравнение особенностей форматов PDF и DjVu.

· PDF - изначально "компьютерный" издательский формат, рассчитанный на максимально точное отображение электронного документа на любых устройствах. Соответственно, он показывает наилучшие результаты именно при сохранении изначально электронных документов. PDF использует формат сжатия JPEG для графики и LZW для текста. Соответственно, лучше всего этому формату удается сохранение мультимедийных документов с полноцветным оформлением и обилием графики. Однако, при сохранении сканированных страниц получается своего рода "суррогат": текст, наложенный на сжатое JPEG изображение полного формата страницы. Такая методика дает большой проигрыш в размере (средняя книга из 300 страниц весит несколько сотен мегабайт), но приемлемое качество. PDF не переносит диффузных (Dithered) изображений, опять-таки из-за наличия в составе алгоритма JPEG. Сжатие превращает такие иллюстрации в подобие картин Казимира Малевича. Может, кому-то это понравится, но ради спортивного интереса - посмотрите когда-нибудь на свой портрет, сжатый подобным образом...

· DjVu - динамично развивающийся формат, разработанный специально для хранения сканированных документов большого объема. По сути это многостраничный графический формат, являющий собой своеобразную надстройку над алгоритмом сжатия графики JBIG. Главная особенность DjVu - использование так называемых словарей, то есть наборов описаний контрастных контуров, специфичных для страницы. Таким образом, при достаточном единообразии изображения (например, типографского шрифта) - сжатие может проводиться в сотни раз! Использование словарей позволяет делить изображение на "слои", содержащие текст, графику и задний план. Специальных средств отображения текста формат DjVu не имеет, но позволяет хранить невидимый текстовый слой со сведениями о координатах расположения строк. Такая структура дает возможность проводить текстовый поиск в файлах. Средняя книга в формате DjVu занимает не более 10 мегабайт.

Все сказанное заставляет подумать, что DjVu - идеальный формат для электронных книг. В целом это недалеко от истины. При обработке сканов обычных черно-белых книг, таблиц и справочников с относительно небольшим количеством иллюстраций и вклеек DjVu настолько сильно выигрывает в размере и качестве файла у PDF, что применять последний становится бессмысленно.

Совсем иная картина при сохранении широкоформатных журналов, детских богато иллюстрированных книг и разнообразных фотокаталогов и альбомов. Здесь обилие полноцветной графики высокого разрешения нивелирует все достоинства JBIG (поскольку в факторе сжатия сложных изображений он существенно проигрывает JPEG). Кроме того, попытки кодера DjVu понизить цветность отдельных участков изображения при его сохранении - крайне отрицательно сказываются на качестве.

Собственно в моей практике было всего два случая, когда DjVu проиграл PDF. Оба раза это были книги с большим количеством иллюстраций - "Петрович и Патапум" и фотокаталог деталей для завода. На них DjVu все-таки дал более чем двухкратный выигрыш в размере по сравнению с PDF, но при этом проиграл в качестве на два порядка, и был забракован.

Собственно, общие рекомендации по выбору формата сохранения могу дать следующие:

· Для сохранения подавляющего большинства художественной и научной литературы, таблиц и справочников, альбомов чертежей и атласов - ничего лучше, чем формат DjVu на сей момент не существует.

· Для сохранения полноформатных иллюстрированных детских книг, комиксов, альбомов по искусству, цветных фотокаталогов - стоит применить формат PDF, тем паче что такие издания обычно на мобильных устройствах не просматриваются.



2016-09-17 694 Обсуждений (0)
Обработка и подготовка выходных файлов 0.00 из 5.00 0 оценок









Обсуждение в статье: Обработка и подготовка выходных файлов

Обсуждений еще не было, будьте первым... ↓↓↓

Отправить сообщение

Популярное:
Генезис конфликтологии как науки в древней Греции: Для уяснения предыстории конфликтологии существенное значение имеет обращение к античной...
Почему человек чувствует себя несчастным?: Для начала определим, что такое несчастье. Несчастьем мы будем считать психологическое состояние...
Почему люди поддаются рекламе?: Только не надо искать ответы в качестве или количестве рекламы...



©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (694)

Почему 1285321 студент выбрали МегаОбучалку...

Система поиска информации

Мобильная версия сайта

Удобная навигация

Нет шокирующей рекламы



(0.006 сек.)