Мегаобучалка Главная | О нас | Обратная связь


Автоматизированная обработка текста



2019-10-11 199 Обсуждений (0)
Автоматизированная обработка текста 0.00 из 5.00 0 оценок




Текстовое представление информации — одно из наиболее удобных для организации автоматической обработки. Связано это с тем, что в этой форме информация представляется в виде близком к исходному языку, что позволяет выполнять преобразования, связанные со смыслом текста.

Существует несколько наиболее распространенных автоматизированных операций, связанных с текстовым представлением.

Поиск

Задача поиска необходимой информации чаще всего формулируется как поиск фрагментов, содержащих некоторые понятия, в достаточно большом массиве. Большое значение этот вид автоматической обработки получил с ростом популярности межсетевой среды Интернет. Существует несколько подходов к организации такого поиска.

Первый подход опирается на поиск фрагмента текста, соответствующего некоторому образцу. Наиболее популярная форма задания этого образца — так называемые регулярные выражения. По сути, это описание фрагмента текста, удовлетворяющего некоторым условиям, по тем частям, которые в нем содержатся, и их порядку. Таким способом в большом текстовом массиве можно находить упоминания тех или иных слов, адреса, номера телефонов и т.п. шаблонные элементы.

Достоинство этого подхода — возможность применять его к массиву текста без предварительной обработки. Например, сразу при посимвольном получении текста.

Второй подход предусматривает предварительное создание специального вида базы для ускорения поискаиндекса. Такой способ применяется для ускорения поиска, если некоторые типовые поисковые запросы повторяются часто и нет возможности формировать/хранить весь массив текста. Например, при организации поисковой машины в среде Интернет.

Расшифровка или уточнение значений слова

Для решения такой задачи в самых разных видах применяют словарибазы информационных фрагментов, связанных с некоторыми ключевыми словами или словосочетаниями. Примером таких баз могут быть словари различных языков: англо-русский, русско-английский, толковый и другие виды словарей. Одно из самых распространенных применений словарей — проверка правописания слов при наборе.

Особым видом словарей являются тезаурусысловари, в которых слова связываются на основе каких-либо лексических отношений. Например: слова являются синонимами (смысловыми аналогами), антонимами (противоположны по смыслу) и т.п.

Этот вид словарей важен не только потому, что может помочь при подготовке текстов, но и потому, что это отразит смысл слов — для систем, моделирующих отдельные аспекты мышления человека.

(Слайд  13) Системы автоматизированной обработки текста

Используя закономерности естественного языка и описанные выше средства выполнения некоторых операций и выявления зависимостей, с помощью ЭВМ автоматизируют (хотя и не полностью) некоторые операции по смысловому преобразованию текста. Современные системы обработки позволяют создавать краткие обзоры текстов (рефераты) или готовить перевод с одного естественного языка на другой. Приходится отметить, что точного решения эти задачи не имеют, поскольку зачастую трудно подобрать адекватное слово или выражение, учитывая не только формальный перевод, но и грамматические особенности, и культурные. Тем не менее с применением специализированных по областям знания словарей современные системы автоматизированного перевода создают подстрочник, который может дать представление о смысле текста и в дальнейшем помочь переводчику в переводе документа.

Примеры программных продуктов

Системы локального поиска:

Следопыт , Google Desktop, Microsoft Office Find

Системы и утилиты автоматизированной обработки текста:

Grep , lexx , yacc

Словари:

Abbyy Lingvo , Multilex

Автоматизации перевода:

Promt

Специальные тексты

Под специальными текстами подразумеваются тексты, содержащие математические, химические или другие формулы, сложные схемы и специфические обозначения, используемые в научных, учебных и технических публикациях и документах. Для создания таких фрагментов стандартные средства представления и подготовки текста плохо приспособлены.

Существует множество специальных программных средств, предназначенных для подготовки специальных текстов. Наиболее популярным способом интеграции элементов-формул в документы является технология OLE. Технология предусматривает, что в документе выделяется место для размещения объекта, а обработка его ведется с помощью внешней программы, выступающей как OLE-сервер.

Такой способ позволяет интегрировать в одном документе разные объекты, но для корректной обработки и печати требует наличия соответствующих программ, а для редактирования — большое количество системных ресурсов.

При подготовке научных, технических и учебных текстов часто используется свободно доступная система подготовки публикаций TeX (от гр. teRcnh — “искусство”, “мастерство”). При использовании этой системы документ с формулами описывается на специальном языке разметки в виде текстового файла, который и обрабатывается системой. Результатом становится специальный файл (dvi, device independent — “независимый от устройства”), который может быть просмотрен, напечатан или преобразован в другой формат с помощью специальных программ из комплекта.

Для соблюдения стандартов и упрощения набора систему комплектуют набором шаблонов и указаний о формировании страниц. Примерами таких шаблонов являются комплекты LaTeX, MikiTeX, AMSTeX.

Файл с материалом для этой системы набора может быть подготовлен с помощью обычного текстового редактора и передан на любую другую платформу. Тексты, подготовленные с помощью этой системы, соответствуют строгим стандартам оформления формул и научных текстов. Многие системы визуального набора позволяют сохранять описания формул в стандарте одного из комплектов TeX.

В современных условиях все большее значение приобретает отображение документа с помощью браузеров web-страниц, с минимальным количеством дополнительных средств.

Для решения этой задачи в общем стандарте XML предусмотрен язык специальной разметки: MathML. Формулы на этом языке описываются и отображаются в документах с помощью дополнительных модулей к программам просмотра web-страниц.

Примеры программных продуктов

Макропакеты TeX: LaTeX, MikiTeX, AMSTeX

Специализированные редакторы: MathType (его облегченная версия входит в пакет MS Office под названием Equation), Scientific Letter, Chem Window, ISIS Draw.

Издательские системы

Появление мощных и сравнительно недорогих персональных компьютеров, качественных устройств ввода и вывода информации, разработка программного обеспечения сделали возможным появление комплексов настольных издательских систем (DesktopPublishing, DTP).

В узком смысле под издательской системой понимают комплекс программ, позволяющих выполнить весь цикл допечатной подготовки издания: импорт или набор текста, его оформление и расположение на листах, вставку иллюстраций и сложных объектов — и в итоге выполнить вывод издания на печать. Примерами таких программ могут быть пакеты Adobe In Design, Scribus, Quark XPress. Процесс и результат  создания страниц издания называют версткой, а точную копию самого изданияоригинал-макетом.

Следует отметить, что многие возможности программных пакетов настольных издательских систем заимствованы современными текстовыми процессорами, которые позволяют выполнить большую часть задач верстки и подготовки макета. Полнофункциональная издательская система имеет менее развитые средства ввода и обработки собственно текста, но значительно больше возможностей управления параметрами оформления и разметки листов, управления процессом вывода (с учетом цветовых особенностей), применения шаблонов оформления и автоматизации подготовки списков, указателей и оглавлений. Некоторые операции, типичные для издательских систем, нельзя выполнить средствами текстового процессора. Например, к таким операциям относится спуск полосрасположение подготовленных полос издания на большом печатном листе, который потом будет разрезан и сброшюрован.

В широком смысле под издательской системой понимают весь комплекс программного обеспечения и аппаратных средств, позволяющих ввести текст, подготовить графические изображения, выполнить подготовку оригинал-макета и вывести его в виде готовых форм для печати.

Современная издательская система, помимо компьютера со специальным ПО, также включает устройство оптического ввода (сканер, цифровую камеру) и устройства вывода на печать — различные принтеры. Для обеспечения точности и согласованности работы всех средств ввода и вывода перед использованием проводится цветокалибровка монитора, принтера и сканера. В процессе калибровки с помощью специального оборудования добиваются точного соответствия между цветами на всех этапах обработки.

Поскольку конечной целью подготовки оригинал-макета является его печать, издательская система либо выводит полученный макет на специальное устройство печати, либо готовит файл с описанием всего издания (чаще всего в формате PostScript), либо с помощью принтера готовит эталонную копию для тиражирования.

Использование издательских систем и фотонаборного оборудования позволило значительно сократить срок подготовки печатных изданий, снизить трудоемкость этого процесса, значительно расширить творческие возможности дизайнеров печатных изданий.



2019-10-11 199 Обсуждений (0)
Автоматизированная обработка текста 0.00 из 5.00 0 оценок









Обсуждение в статье: Автоматизированная обработка текста

Обсуждений еще не было, будьте первым... ↓↓↓

Отправить сообщение

Популярное:
Модели организации как закрытой, открытой, частично открытой системы: Закрытая система имеет жесткие фиксированные границы, ее действия относительно независимы...
Как распознать напряжение: Говоря о мышечном напряжении, мы в первую очередь имеем в виду мускулы, прикрепленные к костям ...
Почему люди поддаются рекламе?: Только не надо искать ответы в качестве или количестве рекламы...



©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (199)

Почему 1285321 студент выбрали МегаОбучалку...

Система поиска информации

Мобильная версия сайта

Удобная навигация

Нет шокирующей рекламы



(0.007 сек.)