Мегаобучалка Главная | О нас | Обратная связь


Синтаксический анализатор естественного текста на русском языке



2020-02-03 200 Обсуждений (0)
Синтаксический анализатор естественного текста на русском языке 0.00 из 5.00 0 оценок




В качестве одного из таких средств можно рассматривать «Синтаксический on-line анализатор естественного текста на русском языке» (http://syntax.ru/index.html) [13].

Синтаксический анализатор естественного текста на русском языке обрабатывает предложения с большим количеством слов (100 и более). При этом ошибочность разбора оценивается как 20% от общего числа связей, связываемость слов в предложении составляет около 70% от общего числа связей. Синтаксический анализатор выполняет разбор предложения и связывает слова в нем на основе синтаксических правил, не используя при этом знания о мире. Поэтому после разбора предложения пользователю выдаются избыточные варианты связывания слов. Эти избыточные варианты должны быть проверены самим человеком, так как именно человек имеет знания о мире и может правильно осуществить семантическое связывание слов в предложении. Данный анализатор, по мнению его автора, может быть полезен патентоведам, изобретателям для выявления ошибок синтаксических и смысловых в формуле изобретения, юристам, для выявления ошибок синтаксиса или двойственности смысла в предложении, всем кому необходимо правильно составить текст на русском языке.

Мы попытались применить его к исследуемым текстам (которые уже были до этого обработаны вручную) с целью выявления отклонений от синтаксической нормы русского языка. Программа во многих случаях указала на несвязанные элементы предложений, однако ей не удалось выявить все случаи структурных нарушений, относимые нами к синтаксической интерференции. 

Ex.: Оформление глагольного управления, временных, пространственных и других отношений во французском и русском языках реализуется различными средствами. Под влиянием французского языка происходит их переоформление в русскоязычных текстах:

 (…) сосчитать на пальцах одной руки (вместо пересчитать по пальцам). - (…) se compter sur les doigts de la main [Архитектурные шедевры, серия 10] 

Часть исходного предложения:
сосчитать на пальцах одной руки
часть предложения: (* сосчитать на пальцах одной руки *)
---сосчитать[1](предлог)на[2](чём)пальцах[3](чего)руки[5](какой)одной[4]
несвяз: сосчитать[1],
== в предл. слов всего:5, слов несвязано:1, из них предлогов:0, время обр: 0.000 с
сосчитать[1] на[2] пальцах[3] одной[4] руки[5]

Французский – аналитический язык, русский – синтетический. При анализе перевода французских аналитических конструкций со значением каузативности (побуждение к действию или создание определенного состояния объекта) на русский язык были выявлены случаи использования аналитических конструкций, представляющих собой кальки с французского:

Уклон железнодорожной колеи сделал бы сложным (вместо усложнил) торможение и разгон локомотивов. – Une pente a l’approche de la gare rendrait difficile le freinage et le démarrage des trains [Архитектурные шедевры, серия 11].

Часть исходного предложения:
уклон железнодорожной колеи сделал бы сложным торможение и разгон локомотивов
часть предложения: (* уклон железнодорожной колеи сделал бы сложным торможение и *)
---уклон[1](чего)колеи[3](какой)железнодорожной[2]
...уклон[1](глагол)сделал[4](что)и[8](что)торможение[7]
...................сделал[4](что)колеи[3]
часть предложения: (* разгон локомотивов *)
{и[8]}разгон[9](чего)локомотивов[10]
несвяз:бы[5], сложным[6],
== в предл. слов всего:10, слов несвязано:2, из них предлогов:0, время обр: 0.000 с
уклон[1] железнодорожной[2] колеи[3] сделал[4] бы[5] сложным[6] {и[8]}торможение[7] и[8] {и[8]}разгон[9] локомотивов[10]

Однако рассматриваемая программа не сумела распознать отмеченные нами ранее  в ходе анализа факты избыточной идентификации (соотнесенности) грамматических структур, где грамматическая форма преобладает над смысловым наполнением.

Ex.: Приведенная ниже конструкция, скорее всего, ассоциируется с конструкцией ê tre éclairé + par + предмет (источник света), которая переводится на русский язык как ‘освещенный чем-либо’ (обязательно указание источника света). Напимер: éclairé par une lampe – освещенный лампой, é clair é par le soleil – ‘освещенный солнцем’ и т.д. В результате избыточнй идентификации происходит экстраполяция данного значения на другие аналогичные конструкции без учета их семантики:

Голые стены освещены одним вертикальным окном. - Des murs nus, éclairés par une fente où rentre la lumière du jour [Архитектурные шедевры, серия 1].

Часть исходного предложения:
голые стены освещены одним вертикальным окном .
часть предложения: (* голые стены освещены одним вертикальным окном . *)
---стены[2](глагол)освещены[3](чем)окном[6](каким)одним[4]
...................................окном[6](каким)вертикальным[5]
...стены[2](какие)голые[1]
несвяз:
== в предл. слов всего:6, слов несвязано:1, из них предлогов:0, время обр: 0.000 с
голые[1] стены[2] освещены[3] одним[4] вертикальным[5] окном[6]

NooJ

Рассмотрим еще одну программу, которая показалась нам довольно любопытной и которую, как нам кажется, можно использовать при анализе некоторых видов языковой интерференции.

 NooJ ( разработчик– Макс Сильберштейн\Max Silberstein). NooJ является оупенсорсным продуктом, для формализации лингвистических данных. Система включает в себя морфологический и синтаксический анализатор, а также удобные средства для разметки корпуса вручную. В NooJ встроена система визуального написания грамматик, которая позволяет создавать различные системы анализа текста. Подробное описание, руководство пользователя, электронные учебники, последние наработки и сама программа доступны (бесплатно) в Сети http://www.nooj4nlp.net [16].

Мы не будем описывать здесь все возможности данной программы, а рассмотрим, как она может быть использована при изучении языковой интерференции. В качестве примера возьмем частный случай интерференции французского и немецкого языков на уровне присловных связей, наблюдаемой в швейцарской контактной зоне [2.-A]. Известно, что на территории многоязычных государств в результате языковых контактов происходит смешение языков. Так, в ходе анализа статей в швейцарских франкоязычных газетах Le Temps, Le Matin нам встретился случай ненормативного (согласно французской академической норме) глагольного управления attendre sur ‘ждать кого-л., чего-л.’, что является калькой с немецкого warten auf j-n  [2.-A].  Наша задача состоит в том, чтобы проверить, единичное (случайное) ли это употребление или его можно рассматривать как устоявшийся факт языка, закрепленный в его письменной форме (в языке прессы). Для этого мы анализируем корпус франко-швейцарсикх текстов, используя NooJ. Программа производит лексический, морфологический и синтаксический анализ. В результате получаем следующие характеристики: characters (знаки), tokens (символы), digrams (биграммы - группы из двух последовательных символов), ambiguities (неоднозначные слова), unambiguous words (однозначные слова) с их количеством и частотностью их употребления.

 

Далее в перечне (алфавитном) tokens находим все словоформы нужного нам глагола attendre -> FILTER-> N. Рассматриваемая программа способна выдавать  все дистрибуции заданного элемента в анализируемом тексте (или корпусе).

->FILTER

 

 

->N

 

Далее мы анализируем уже полученный на выходе список дистрибуций. Мы видим, что attendre sur - не случайное употребление, а элемент, вошедший в систему швейцарского французского языка.

LeoBilingua

Целью изучения феномена интерференции является разработка методик ее преодоления. Когда речь идет об интерференции в переводческой деятельности, путь к ее преодолению лежит через отработку навыков переключения (Code-Switching) с языка на язык и установки верных межъязыковых соответствий. Очень любопытным в этом отношении является описание методик, разработанных доктором филологии Лин Веем (Lin Wei) [17]. На материале английского, японского и китайского языков, Лин Вей разработал ряд мультимедийных программ для тренинга переводчиков. Языком перевода в данном случае являлся китайский. Упражнения были разделены на три уровня: семантический, синтаксический и уровень дискурса.

Однако первый этап совершенствования навыков перевода сводится так или иначе к сопоставлению языков (ИЯ/ПЯ) и текстов (ИТ/ТП).  

LeoBilingua (http://www.hot.ee/bclogic/index.html) [15] - бесплатная программа, позволяющая генерировать билингва-текст (текст из двух синхронных половинок на разных языках). Это программа для соединения двух текстов в один, параллельный текст. Если в качестве исходных взять текст на иностранном языке и его перевод, то, по мнению авторов, получается средство для изучения иностранного языка. Как нам кажется, это хорошее средство не столько для изучения языка, сколько для совершенствования навыков перевода. Изучающее чтение и одновременное сравнение переводов являются для переводчиков одним из важных методов отработки профессиональных навыков. Можно для этой цели использовать отдельные тексты, но обычно это неудобно. LeoBilingua устраняет эти неудобства, соединяя текст из двух файлов в один билингва-текст. Программа сопоставляет друг другу абзацы из обоих текстов, позволяя показать рядом именно соответствующие абзацы. LeoBilingua предоставляет возможность корректировки обоих текстов по мере составления билингвы. Сам процесс объединения текстов можно выполнять в "ручном" режиме, то есть по одному абзацу, или автоматически. В автоматическом режиме программа приближённо контролирует соответствие абзацев и прерывает выполнение, если обнаружит подозрительное расхождение. Если абзацы действительно не совпадают, можно исправить один из текстов. При этом программа автоматически возвращается в билингва-тексте к тому месту, которое не затронуто изменением, чтобы оттуда продолжить работу.

Полученный параллельный текст (билингву) можно сохранить в её оригинальном формате XML и просматривать затем в браузере, а можно преобразовать в какой-нибудь другой формат, например HTML или MS Word.

Исходные тексты (оригинал и перевод) программа принимает в формате RTF (Rich Text Format) или в виде текстовых файлов (неформатированный текст). Программу характеризует гибкий пользовательский интерфейс: настройка внешнего вида, использование подключаемых преобразований, а также наличие подробной справочной документации на русском языке. Из недостатков программы следует отметить то, что она не умеет использовать файлы формата MS Word (*.doc). Однако формат RTF очень распространён, в нём могут сохранять файлы многие текстовые редакторы, в том числе MS Word и Open Office.

 

 

Таким образом, данная программа может быть использована при самоподготовке переводчиков.

 

 

Заключение.

 

Перевод – особый вид речевой деятельности, возможный только при смешанном типе продуктивного двуязычия, включающий в себя умение переводчика воспринимать информацию, данную ему в рамках одного кода (исходного языка), и воспроизводить ее средствами другого кода (языка перевода), добиваясь при этом максимальной эквивалентности оригинала и его перевода. Переводчик, являясь билингвом по определению, вынужден все время сопоставлять языки и искать в них соответствия, чтобы выработать строгую систему эквивалентов.

В процессе своей профессиональной деятельности переводчик осуществляет постоянное переключение с одного языка на другой, суть которого, вероятно, заключается в изменении установки на использование того или иного языка. Успешное переключение гарантирует произведение правильного текста. Следствием неудачного переключения является языковая интерференция, которая может возникать на всех уровнях языка. 

Явление интерференции имеет психофизиологические и лингвистические причины. Среди предполагаемых причин языковой интерференции с наибольшей долей уверенности можно выделить недостаточную или избыточную идентификацию элементов и функций языков, контактирующих в сознании билингва, а в качестве лингвистических причин интерференции следует рассматривать расхождения и сходства контактирующих языков.

Лингвистический анализ текста перевода на предмет присутствия в нем иноязычных элементов и структур – процесс довольно трудоемкий, который занимает много времени, при этом он дает небольшой объем фактического материала. Однако на данном этапе развития ИТ лингвисты владеют значительным инструментарием для текстового анализа. В сети Интернет представлены ряд бесплатных версий  программ, связанных с анализом текстов и вычислительной лингвистикой. Данные программы могут применяться и при исследовании феномена языковой интерференции, что можно осуществлять как на этапе изучения самого явления интерференции, так и на этапе ее преодоления. 


Список литературы к реферату



2020-02-03 200 Обсуждений (0)
Синтаксический анализатор естественного текста на русском языке 0.00 из 5.00 0 оценок









Обсуждение в статье: Синтаксический анализатор естественного текста на русском языке

Обсуждений еще не было, будьте первым... ↓↓↓

Отправить сообщение

Популярное:
Организация как механизм и форма жизни коллектива: Организация не сможет достичь поставленных целей без соответствующей внутренней...
Как выбрать специалиста по управлению гостиницей: Понятно, что управление гостиницей невозможно без специальных знаний. Соответственно, важна квалификация...



©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (200)

Почему 1285321 студент выбрали МегаОбучалку...

Система поиска информации

Мобильная версия сайта

Удобная навигация

Нет шокирующей рекламы



(0.008 сек.)