Мегаобучалка Главная | О нас | Обратная связь


Примерыпрограммныхпродуктов



2019-10-11 1415 Обсуждений (0)
Примерыпрограммныхпродуктов 0.00 из 5.00 0 оценок




Adobe InDesign, Scribus, QuarkXPress, Corel Ventura

 

(Слайд  14) 3. Автоматическое распознавание текста

Автоматический анализ печатного текста, также как и анализзвучащей речи, начинается с его ввода в компьютер. Для ввода информации в компьютер используются специальныеустройства — клавиатура, мышь и др., но наиболее удобным инструментом для ввода большого количества печатных текстов является сканер.

Сканер — это устройство ввода, работающее по принципу фотоаппарата, т.е. позволяющее компьютеру «увидеть» текст в виде фотографии. Чтобы компьютер смог «понять» этот текст, т.е.перевести графическое (растровое) изображение символов в текстовуюформу, при которой у каждого символа имеется свой двоичныйкод (например, в системе кодировок ASCII), требуется программаавтоматического распознавания символов (англ. OCR = Optical Character Recognition).

Символами являются любые буквы, знаки препинания и другиезнаки текста (апостроф, кавычки, тире, скобки и т.д.). Слово понимаетсякак последовательность символов между двумя соседнимипробелами.

Программа автоматического распознавания текста (OCR-программа)— это компьютерная программа, позволяющая преобразоватьтекст с бумажного носителя в электронный текстовый файл, которыйвдальнейшемможетобрабатываться человеком в любом текстовомредакторе. Такие программы обычно предлагаются скаждымприобретаемым сканером, но наиболее известными и полифункциональными являются OCR-программы Fine Reader (компании Аbeу) и Cunei Form (фирмы Cognitive Technologies).

С другими программами автоматического распознавания текстов можно познакомиться, например, в интернет-ресурсе, размещенном по адресу http://kompkimi.ru/?p=617 (дата обращения: 02.02.2012).

Результат распознавания большинством OCR-программ весьма точен, хотя неко

торые трудности в распознавании текста приводят к ошибкам, которые впоследствии приходится исправлять вручную.

Трудности распознавания могут быть вызваны следующими особенностями печатного текста:

• использование шрифта разной гарнитуры и размера,

• использование в тексте нескольких языков,

• размещение текста в несколько колонок,

• включение в текст таблиц и рисунков,

• искажения символов (разрывы, слипания букв и т.п.),

• посторонние включения в изображение и т.д.

Названные трудности решаются, если дополнить системы автоматического распознавания текстов с возможностью работы машины со смыслом документа, т.е. вывести OCR-программы на более высокий уровень искусственного интеллекта.

В целом точность распознавания OCR-программ на текстах хорошегои среднего качества достигает 99%, что позволяет считать проблему массового ввода печатных текстов в компьютер практически решенной.

 

(Слайд  15) 4. Автоматическое аннотирование и реферирование текста

В условиях все возрастающего количества текстов в окружающем человека мире возникает проблема: как в этом море информации найти нужные документы и познакомиться с их содержанием?

Решению данной проблемы может помочь составление рефератов и аннотаций полнотекстовых документов. Они дают читателю представление о содержании исходных документов и позволяют оценить степень необходимости обращения к полным текстам каждой работы.

Кроме того, рефераты и аннотации акцентируют внимание читателя на новых сведениях, т.е. позволяют за небольшой промежуток времени узнать много новой информации.

Рефераты и аннотации составляются вручную, например самим автором исходного текста или библиографическим работником, или автоматически, с помощью специальных компьютерных программ.

Наиболее качественным является первый вид рефератов и аннотаций, поскольку в этом случае создается новый текст, называющий основную мысль высказывания и отличающийся связным характером.

Но для обработки большого массива текстов за минимальное количество времени требуется привлечение автоматических средств для решения задачи реферирования и аннотирования текстов.

Реферат определяется как связный текст, который кратко выражает

• центральную тему,

• предмет

• цель,

• методы,

• результаты исследования.

Рефераты обычно составляют к научно-техническим документам:научным монографиям, статьям, патентам на изобретение и др.

В зависимости от жанра исходного текста (монография, статья, патент и др.) и от предметной области (медицина, химия, лингвистикаи т.д.) заданные элементы реферата могут различаться. Так, для научных рефератов дополнительно к названным выше элементам реферата прибавляется краткое изложение сути, практической апробациии перспектив исследований.

Различают следующие виды рефератов:

• связный текст — новое текстовое образование, порождаемое на основе логико-смыслового анализа исходного текста;

• реферат-клише — модификация заданной клишированной структуры, пустые ячейки которой заполняются после анализа заданного текста;

• квазиреферат — перечень наиболее информативных предложений текста.

Очевидно, что для автоматического создания рефератов — связных текстов требуются более сложные компьютерные программы, чем для создания рефератов-клише и квазирефератов.

Некоторые исследователи считают реферат и аннотацию синонимам, а некоторые предлагают разводить эти понятия, определяя аннотацию как краткое изложение содержания документа, дающее общее представление о его теме. Согласно этому определению в отличие от реферата, знакомящего читателя с сутью излагаемого в документе содержания, аннотация выполняет лишь сигнальную функцию (есть публикация на определенную тему).

(Слайд  16) В большинстве программ, направленных на автоматическое составление краткого содержания текста, можно задать разную степень компрессии текста, т.е. одна и та же программа создает как развернутые рефераты, так и краткие аннотации. В связи с этим в отношении автоматического процесса составления краткого содержания текста обычно используется двойное обозначение: автоматическое реферирование и аннотирование текста.

Создаваемые в процессе реферирования и аннотирования аннотациии рефераты представляют собой вторичные документы. Первичными (или исходными) документами являются сами книги, статьи, патенты и др.

Программы автоматического аннотирования и реферирования ориентированы на то, как это делает человек. Для человека этот процесс включает следующие этапы:

1) подготовительный: определение темы текста, его понимание;

2) аналитический: деление текста на фрагменты (абзацы и т.п.) и выделение в каждом фрагменте главных смысловых слов, которые составляют план будущего реферата;

3) непосредственное составление реферата или аннотации: соединение выделенных смысловых единиц в связный текст.

Главными смысловыми единицами исходного текста выступают ключевые слова, ключевые словосочетания и ключевые предложения.

Ключевое слово — знаменательное слово, относящееся к основному содержанию текста и повторяющееся в нем несколько раз. Ключевоесловосочетание— сочетание слов, среди которых есть одно или несколько ключевых. Ключевое предложение — предложение, которое содержит несколько (два и более) ключевых слов.

По способам выделения из исходных текстов ключевых словосочетаний и предложений различаются следующие методы автоматического реферирования и аннотирования текстов:

1) статистические,

2) позиционные,

3) логико-семантические.

При статистическом методе принадлежность слова к категории ключевых определяется его статистическими характеристиками: ключевое слово согласно этому методу встречается среди знаменательных слов текста наибольшее количество раз. Ключевое предложение, соответственно, содержит несколько ключевых слов, которые располагаются на небольшом расстоянии друг от друга.

В позиционном методе принцип отнесения предложения к ключевым опирается на его местонахождение в тексте: ключевые предложения входят в заголовок, подзаголовок, находятся в начале и конце текста.

Целью логико-семантического метода, при котором учитывается структура и семантика текста, является выделение предложений с наибольшим функциональным весом. Такими предложениями считаются те, которые содержат семантически значимые слова, особым образом связаны с другими предложениями, имеют определенный синтаксический тип предложения и т.п.

(Слайд  17) Наиболее простыми системами автоматического реферирования и аннотирования является функция Аиto Summarize в MS Word, системы IntelligentText Miner, Oracle Context и Inxight Summarizer (компонент поискового механизма Alta Vista) (IBM). Правда, возможности этих программ ограничены выбором оригинальных фрагментов из исходного документа и их соединением в короткий текст.

Кроме того, можно привести примеры следующих систем автоматического реферирования и аннотирования текстов:

• ОРФО 5.0 (компания «Информатик»): программа включает функцию автоматического аннотирования русских текстов;

• «Либретто» (компания «Медиа Лингва»): программа встраивается в Word и обеспечивает автоматическое реферирование и аннотирование русских и английских текстов;

• поисковая система «Следопыт», которая  включает средства автоматического реферирования и аннотирования документов;

• программы Extractor и Text Analyst (компания «Медиасистемы»), которые выдают последовательности именных групп, выделенных с помощью синтаксических анализаторов.

В целом можно констатировать, что автоматические рефераты и аннотации представляют собой, по сути, квазирефераты, т.е. результатом автоматической компрессии текста в большинстве случаев становится либо набор ключевых слов, либо перечень ключевых предложений, что, впрочем, в значительной степени помогает решить задачу аннотирования и реферирования большого объема текстов в малые сроки.

(Слайд  18)5. Автоматический анализ и синтез текста

Автоматический анализ текста включает ряд весьма сложных операций, которые компьютер выполняет над текстом на естественном человеческом языке согласно заданному алгоритму. При автоматическом анализе текст последовательно преобразуется в его лексемно-морфологические, синтаксические и семантические представления, понятные компьютеру. Обратный процесс преобразования лексемно-морфологических, синтаксических и семантических компьютерных представлений в текст на естественном языке называется автоматическим синтезом текста.

Автоматический анализ и синтез текста являются важными задачами компьютерной лингвистики как с точки зрения развития теории (разработки лингвистических основ создания искусственного интеллекта), так и с точки зрения реализации практических нужд человека, например, создания эффективных систем машинного перевода.

Автоматический анализ текста включает ряд этапов:

1) графематический анализ: выделение границ слов, предложений, абзацев и других элементов текста (например, врезок в газетном тексте);

2) морфологический анализ: определение исходной формы каждого использованного в тексте слова и набора морфологических характеристик этого слова;

3) синтаксический анализ: выявление грамматической структуры предложений текста;

4) семантический анализ: определение смысла фраз.

Графематический анализ определяется также как токенизация (от англ. token = отдельное слово, фраза или любой другой значимый элемент текста). Формальными сигналами границ текстовых элементов выступают разделители различного рода: пробелы, обозначающие границы между словами, прописные буквы и знаки препинания, обозначающие границы между предложениями и составными частями предложений, абзацные отступы, обозначающие границы между связанными по смыслу группами предложений и т.п.

Однако формальный метод определения границ слов применим не всегда. Например, в китайском языке нет формальных границ http://en.wikipedia.org/wiki/Tokenization слов. Кроме того, даже в распространенных европейских языках существуют устойчивые сочетания слов, разделенные пробелом, которые следует воспринимать как одну лексему, например, New York. Очевидно, что такие случаи следует учитывать в системах графематического анализа, например, путем создания списков многословныхлексем.

(Слайд  19) При морфологическом анализе каждое использованное в тексте слово возводится к его исходной форме и определяется набором орфологических характеристик текстовой формы слова: часть речи; род, число и падеж для существительных, число и лицо для глаголов и т.п.

Каждое употребленное в тексте слово называется словоформой (или словоупотреблением). Для обеспечения связности текста требуется повтор тех же самых слов, поэтому нередко разные словоформы одного или нескольких предложений текста возводятся к одной и той же исходной форме, ср.:

Вот моя деревня;

Вот мой дом родной.

Вот качусь я в санках

По горе крутой (И.З. Суриков).

Алфавитно-частотный словарь словоформ этого фрагмента стихотворения выглядит так: в — 1, вот — 3, горе — 1, деревня — 1,дом — 1, качусь — 1, крутой — 1, мой — 1, моя — \,по — 1, родной— 1, санках — \,я — 1. Кроме неизменяемой частицы вот, употребленной 3 раза, отмечаем также притяжательное местоимение1-го лица ед. числа, употребленное в формах мой и моя.

В привычных нам словарях обычно перечисляются не словоформы, а слова, приведенные к определенной исходной форме. В качестве такой исходной формы употребленных в тексте словоформ в зависимости от типа языка может служить лемма (словарная форма лексемы) или основа (ядерная часть слова без словоизменительных морфем). Например, английские словоформы swim, swims, swam и swimming восходят к одной лемме swim.

Во флективных и агглютинативных языках с богатым словоизменением для сохранения всех возможных словоформ потребуются достаточно значительные ресурсы памяти. Например, русское существительное, изменяющееся по числам (2 числа) и падежам (6 падежей), имеет 12 словоформ. Русский глагол характеризуется еще более сложным набором грамматических характеристик и соответственно имеет достаточно значительное количество словоформ. В этом случае в качестве исходной формы, к которой возводится слово, удобнее использовать его основу.

Правда, в морфологическом анализе термин «основа» не всегда имеет тот же смысл, который вкладывается в него в канонической (школьной) грамматике. Например, если в слове встречается чередование букв (сидеть — сижу, друг — друзья и т.п.), то основой (точнее, квазиосновой, или машинной основой) в этих случаях выступает часть слова не только без словоизменительных морфем, но и без чередующихся букв, т.е. си# и дру#, соответственно.

Такой тип выделения основ получил название стемминга, т.е.возведения разных словоформ к одной квазиоснове. Стемминг вполне подходит для решения некоторых автоматических задач, например, для осуществления поиска в Интернете. Так, пользовательскомузапросуфотографиив качестве полной или неполной квазиосновы соответствуют существительное фотография и прилагательноефотографический. В результате поиска пользователь получит списокдокументов со словосочетанием фотографический портрет исо словосочетанием портретная фотография.

Для морфологического анализа важно не только понятие машиннойосновы, понимаемой как последовательность букв от начала словоформы,общая для всех словоформ, входящих в формообразовательнуюпарадигму данного слова. Следующий шаг — это определение частеречной принадлежности слова (частеречный тегинг) и его морфологических характеристик, что чаще всего происходит с опорой на словоизменительные элементы слова (машинные окончания).

Машинные окончания — элементы, описывающие формоизменение конкретной лексемы и представляемые в виде парадигм. Всевозможные наборы машинных окончаний зафиксированы в типовой парадигме лексемы. При этом, с одной стороны, можно наблюдатьсовпадения типовых парадигм (и, соответственно, машинных окончаний) разных лексем, например, ручка и кочка, а с другой, совпадения машинных основ лексем, имеющих разные типовые парадигмы, ср. типовые парадигмы машинной основы лож#, относящейся к лексемам ложь и ложиться.

По машинным окончаниям, входящим в определенные типовые парадигмы, осуществляется полная морфологическая характеристика каждой словоформы, например:

Девочка {девочка = S, жен, од = им, ед}

мыла {мыть = V, несов = прош, ед, изъяв, жен, перех | мыло = S,сред, неод = им, мн | = S, сред, неод = род, ед | = S, сред, неод =вин, мн}

пол {пол = S, муж, неод = им, ед | = S, муж, неод = вин, ед | = А,кратк, муж, им, ед}.

В приведенном анализе можно увидеть лексико-морфологическую многозначность второго и третьего слова. Выбор правильной формы осуществляется человеком с учетом синтаксической роли слова в предложении и его смысла. Автоматическое разрешениемногозначности или снятие омонимии, понимаемое как выбор правильнойинтерпретации словоформы, допускающей несколько вариантовтолкований, происходит путем ручной разметки или автоматически,на основе вероятностных моделей (например, в английскомязыке наиболее вероятно сочетание неопределенного артикля исуществительного, следующего за ним) или на основе правил, созданныхавтоматически или человеком. Примеры таких правил следующие:

• Если словоформа может быть как глаголом, так и существительным,и перед ней стоит артикль, эта словоформа в данном случаеявляется существительным.

• Если словоформа может быть как предлогом, так и подчинительнымсоюзом, и если после нее до конца предложения нет глагола,эта словоформа в данном случае является предлогом.

Для автоматического морфологического анализа применяются парсеры— специальные компьютерные программы для автоматическогоанализа слов. Кроме морфологических существуют и синтаксические парсеры, применяемые для автоматического анализасинтаксических структур предложений.

В целом морфологический анализ включает в себя следующие этапы:

1) нормализация словоформ, имеющая вид лемматизации, т.е. сведения различных словоформ к некоторому единому представлению — к исходной форме (лемме) или стемминга, т.е. возведения разных словоформ к одной квазиоснове;

2) частеречный тэгинг, т.е. указание части речи для каждой словоформы в тексте;

3) полный морфологический анализ — приписывание грамматических характеристик словоформе.

(Слайд 20) При синтаксическом анализе необходимо определить роли слов в предложении и их связи между собой. Результатом этого этапа автоматического анализа является представление синтаксических связей каждого предложения в виде моделей, например в виде дерева зависимостей.

Проблемой синтаксического анализа выступает наличие альтернативных вариантов синтаксического разбора (синтаксической многозначности),ср.:

три пальто —• (сколько?) три (чего?) пальто

три пальто —• (что делай?) три (что?) пальто

Возникновение синтаксической многозначности обусловливается лексико-морфологической многозначностью словоформ (одна и та же словоформа может восходить к различным исходным формам или к разным морфологическим формам одной лексемы), а также неоднозначностью самих правил разбора, которые могут иметь целью представление синтаксической структуры, например, в виде дерева непосредственныхсоставляющих или дерева зависимостей. Так, предложение «Девочка мыла пол» описывается в первом случае моделью, представленной на рис. 4, а во втором — рис. 5.

В модели непосредственно составляющих важно разбиение синтаксической структуры на пары ее элементов: предложение (S) разбивается на группу подлежащего (NP), представленную в данном случае одним существительным (N), и группу сказуемого (VP). Вторая делится на изменяемый глагол (V) и дополнение (О). В дереве зависимостей исходным пунктом анализа выступает сказуемое (V).

находящееся в вершине графа, от которого зависят подлежащее (N) и дополнение (О). В итоге в обоих типах анализа выделяются одни и те же синтаксические единицы — N, V и О — но синтаксические отношения между ними оказываются разными.

Рис. 4. Дерево зависимостей непосредственно составляющих

Рис. 5. Дерево

Правда, в некоторых случаях на первый взгляд идентичная синтаксическаяструктура требует построения разных синтаксическихмоделей, ср.:

Чтобы выбрать правильную модель, отражающую синтаксические отношения в конкретном предложении, в подобных случаях необходимо привлечь семантику.

(Слайд 21) Семантический анализ представляет собой, пожалуй, наиболее сложное направление автоматического анализа текста. В этом случае требуется установление семантических отношений между словами в тексте, объединение различных языковых выражений, относящихся к одному и тому же понятию, и т.п.

Для семантического анализа предложений используются падежные грамматики и семантические падежи (валентности). В этом случае семантика предложения описывается через связи главного слова (глагола) с его семантическими актантами. Например, глагол передать описывается семантическими падежами дающего (агенса), адресата и объекта передачи.

В основе семантического анализа лежит утверждение о том, что значение слова не является элементарной семантической единицей. Оно делится на более элементарные смыслы — единицы словаря семантического языка. Эти единицы семантического языка являются своеобразными атомами, из различных комбинаций которых складываются «молекулы» — значения реальных слов естественного языка.

Например, если имеются элементарные смыслы «сам», «кто-то», «иметь», «заставлять», «переставать», «начинать» и «не», то с их помощью мы можем определить целую группу слов русского языка.

Кроме семи названных слов, являющихся одновременно и элементами семантического языка, и словами русского языка, сюда относятся слова: 1) владеть = «иметь», 2) обладать = «иметь», 3) брать =«заставлять себя иметь», 4) давать = заставлять кого-то иметь» и т.д..

Именно семантический анализ позволяет решить проблемы многозначности (омонимии), возникающей при автоматическом анализе на всех языковых уровнях.

• Лексическая омонимия: совпадение звучания и/или написания слов, не имеющих общих элементов смысла, например, рожа — лицо и вид болезни.

• Морфологическая омонимия: совпадение форм одного и того жеслова (лексемы), например, словоформа пол соответствует именительному и винительному падежам существительного пол.

• Лексико-морфологическая омонимия (наиболее частый вид омонимии): совпадение словоформ двух разных лексем, например,мыла — глагол мыть в единственном числе женского рода прошедшего времени и существительное мыло в единственном числе, родительном падеже.

• Синтаксическая омонимия: неоднозначность синтаксической структуры, имеющей несколько интерпретаций, например: Эти типы стали есть в цехе (словоформа стали может интерпретироваться как существительное или как глагол), Flying planes can be dangerou s(известный пример Хомского, в котором словоформа Flying может интерпретироваться либо как прилагательное, либо как существительное).

(Слайд 22)Автоматический синтез представляет собой процесс производства связного текста, отдельные этапы которого являются теми же, что и при морфологическом анализе, но применяются в обратном порядке: сначала осуществляется семантический синтез, затем синтаксический,морфологический и графематический.

Семантический синтез представляет собой переход от смысловой записи фразы к ее синтаксической структуре; синтаксический — переход от синтаксической структуры фразы к представляющей фразу цепочке лексико-грамматических характеристик словоформ;

лексико-морфологический — переход  от лексико-грамматической характеристики к реальной словоформе. При морфологическом синтезе по нормальной форме слова и его параметрам программа находит соответствующую словоформу. Графематический синтез объединяет слова в единый текст, следит за соответствием фрагментов входного текста фрагментам выходного.

Одной из первых компьютерных программ, синтезирующих письменный диалог на английском языке, явилась программа американского ученого Джозефа Вейценбаума «Элиза». Ее первый вариант был апробирован в 1966 году. Эта программа имитировала диалог с психотерапевтом, реализуя технику активного слушания. Программабыла названа в честь Элизы Дулитл, героини из пьесы «Пигмалион» Бернарда Шоу, которую обучали языку «высшего класса людей». По сути, целью программы было не моделирование мышления в точном смысле, а моделирование речевого поведения, что было обусловлено ограниченными программными ресурсами, а также начальным уровнем лингвистического анализа и синтеза.

Программа включала минимум лингвистической информации:

1) комплекс ключевых слов, которые актуализируют некоторыеустойчивые речевые формулы, 2) способность трансформироватьпредыдущее высказывание в общий вопрос. Иллюстрацией работы программы «Элиза» выступает следующий фрагмент общениямолодой женщины и программы «Элиза», опубликованный ее создателем Д. Вейценбаумом в 1966 г. Реплики, смоделированныепрограммой, выделены прописными буквами.

Men are all alike.

IN WHAT WAY?

They 're always bugging us about something or other.

CAN YOU THINK OF A SPECIFIC EXAMPLE?

Well, my boyfriend made me come here.

YOUR BOYFRIEND MADE YOU COME HERE

He says I'm depressed much of the time.

I AM SORRY TO HEAR YOU ARE DEPRESSED

It's true. I am unhappy.

DO YOU THINK COMING HERE WILL HELP YOU NOT TO BEUNHAPPY?

I need some help, that much seems certain.

Несмотря на простоту алгоритмов, использованных в созданиипрограммы, с ее помощью практически удалось опровергнуть известныйтест английского ученого Алана Тьюринга, предложенныйв 1950 г. Сущность теста Тьюринга формулируется следующим образом:

проблема создания искусственного интеллекта решена, еслибольшинство участников общения не смогут установить, с кем онибеседуют — с человеком или машиной. При проведении экспериментов с программой «Элиза» 62% испытуемых, которым былопредложено определить, с кем они общаются, решили, что им отвечалчеловек.

На современном этапе системы компьютерногомоделированияписьменных диалогов на естественном языке используют более сложныеалгоритмы. В частности, создан специальный язык разметки для искусственного интеллекта AIML( Artificial Intelligence Markup Language ),используемый для создания виртуальных агентов (или ботов).

Боты, моделирующие диалог с собеседником, используются в компьютерных играх и на корпоративных веб-страницах, например, для ответов на вопросы пользователя о возможностях мобильного оператора или торговой сети.

 



2019-10-11 1415 Обсуждений (0)
Примерыпрограммныхпродуктов 0.00 из 5.00 0 оценок









Обсуждение в статье: Примерыпрограммныхпродуктов

Обсуждений еще не было, будьте первым... ↓↓↓

Отправить сообщение

Популярное:
Генезис конфликтологии как науки в древней Греции: Для уяснения предыстории конфликтологии существенное значение имеет обращение к античной...
Как построить свою речь (словесное оформление): При подготовке публичного выступления перед оратором возникает вопрос, как лучше словесно оформить свою...



©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (1415)

Почему 1285321 студент выбрали МегаОбучалку...

Система поиска информации

Мобильная версия сайта

Удобная навигация

Нет шокирующей рекламы



(0.013 сек.)