Мегаобучалка Главная | О нас | Обратная связь


Глава 2. Лингвистика и ИТ



2020-02-03 344 Обсуждений (0)
Глава 2. Лингвистика и ИТ 0.00 из 5.00 0 оценок




На стыке информатики и языкознания родилась компьютерная лингвистика, что обусловлено потребностью в общении с компьютером на естественном языке. Лингвистические технологии находят множество областей применения, начиная с несложных программ проверки орфографии, до более изощрённых алгоритмов, используемых в поисковых системах, программах автоматического реферирования, машинного перевода, экспертных системах. На современном этапе развития информатизации всех сфер деятельности человека практически от каждого профессионала требуются умения представления и обработки информации. Сегодня в сети Интернет представлены ряд бесплатных версий  программ, связанных с анализом текстов и вычислительной лингвистикой. Все многообразие таких программ можно разделить на следующие группы:

· программы анализа и лингвистической обработки текстов;

· программы преобразования текстов;

· психолингвистические программы;

· системы обработки естественного языка;

· генераторы текстов и "говорящие" программы;

· словари и тезаурусы [4].

Основа исследования любого лингвиста - это работа с текстом, попытка взять из источника всю информацию, которая может содержаться в нем в явном или неявном виде. Однако зачастую бывает довольно трудно снять "неявную" информацию, выявить неочевидные при обычном рассмотрении связи. Компьютерный анализ текстов представляет собой одну из наиболее перспективных областей применения математических методов и ИТ в гуманитарном исследовании. Именно здесь существует большой спрос на современные программные средства компьютеризированного анализа текстовых структур и их компьютерной визуализации.

В Т.Н. Лукиных выделяет ряд основных методик, лежащих в основе практически всех программ по компьютеризованному текстовому анализу: контент – анализ, кластерный анализ, анализ стиля.

Контент - анализ. А.Н.Петров выделяет в понятии «контент-анализ» два различных метода: «метод для автоматической классификации документов по содержанию и метод для раскрытия значения слов и идей» [10]. В качестве исходного материала исследователь должен иметь оцифрованный /машиночитаемый текст в распознанном виде. Для осуществления «контент-анализа» изучаемый текст сводится к набору ограниченного количества лексических элементов, которые затем подвергаются счету и анализу. Метод применяется уже с 50-х гг. «Автоматическая классификация документов в течение ряда лет используется в историко-социальных науках и библиографических системах поиска. Текст, его резюме или заголовок служат основами классификации. Напротив, семантический контент - анализ нацелен на определение организации слов вокруг идей или понятий в большей степени, чем на организации текста. Суть подхода заключается в сведении изучаемого текста к ограниченному набору определенных элементов, которые затем подвергаются счету и анализу на базе фиксации частоты повторяемости символов и их корреляции друг с другом. Слова в тексте при этом классифицируются в соответствии с их дистанционными связями между собой. Для этого используется лингвистическая и статистическая техника, например кластерный анализ или анализ связей» [10]. На использовании контент-анализа построены программы TACT, ARRAS, TextPack, SYREX, SATO.

Кластерный анализ (анализ текста). Выявление и подсчет частот встречаемости лексических единиц (слов, словосочетаний), определение их связей между собой. Обычно используется как дальнейший этап работы с текстом после осуществления контент-анализа.

Анализ стиля. Предполагает выявление характерных грамматических и синтаксических конструкций, определение лексического запаса автора текста. Позволяет классифицировать текст по авторству. История современной статистической стилистики вообще восходит к 1851 году, когда  было высказано мнение о том, что длина слов может быть доказательством различия стилей писателя [7].

Лингвисты в настоящий момент владеют значительным инструментарием для текстового анализа и даже для генерации текстов. Так, на сайте РВБ (Русская виртуальная библиотека) размещен каталог лингвистических программ и ресурсов Сети (http://www.rvb.ru/soft/index.html) [11]. Данный каталог включает в себя описание программ, связанных с анализом текстов и вычислительной лингвистикой, а также соответствующих ресурсов, доступных сегодня в глобальной сети Интернет. По словам авторов, упор при составлении каталога делался на бесплатные программы, доступные для загрузки или использования в режиме on-line. Также описаны коммерческие версии некоторых наиболее интересных программ. Тематически каталог разбит на следующие разделы:

1 - программы анализа и лингвистической обработки текстов(ex.: TextAnalyst, АОТ и др.);

2 - программы преобразования текстов (TextTransformer, XReplacer);

3 - психолингвистические программы (ПСИ-Офис, ВААЛ-мини);

4 - генераторы текстов (RWC);

5 - системы обработки естественного языка и машинного перевода (Автоматический словарь Мультитран, Google Переводчик);

6 - каталоги и коллекции ресурсов (Каталог программ по вычислительной лингвистике, Справочно-информационный портал "Русский язык", LTI Projects, The Linguist List);

7 - словари и тезаурусы (ФЭБ словари, словари Ожегова и Зализняка, WordNet, толковый словарь Merriam-Webster);

8 - поисковые машины и системы полнотекстового поиска (ARM Engine, Convera Retrierval Ware);

9 - системы синтеза и распознавания речи (Sakrament Text-to-Speech Engine, Text-To-Speech Converter for MS Word, BookMania).

Это перечень лишь некоторых программ, которые могут быть использованы лингвистами при обработке текстов.

 


 Глава 3. Применение ИТ при исследовании языковой интерференции

Говоря о возможностях применения ИТ при исследовании языковой интерференции в переводе, следует отметить, что, на наш взгляд, это можно осуществлять как на этапе изучения самого явления интерференции (1), так и на этапе ее преодоления (2).

 Обычно текст, полученный в ходе машинного перевода, подвергается дополнительной обработке – производится корректирующий анализ человеком-переводчиком. Мы же пытаемся применить машинный анализ к тексту перевода, произведенному человеком. 

Нам, к сожалению, ничего не известно о существовании программ, которые были бы разработаны специально для лингвистического анализа текстов перевода на предмет интерференции, т.е. для такого анализа, в ходе которого текст перевода одновременно проверялся бы на соответствие нормам (стилистическим, грамматическим и т.д.) языка перевода и сопоставлялся с текстом исходного языка с целью выявления их структурных совпадений. Тогда случаи типа «норма нарушена»+«структуры совпадают» с определенной долей вероятности можно было бы рассматривать как факты интерференции. Вообще, теоретически все случаи укладывались бы в четыре группы:

норма нарушена + структуры совпадают = интерференция;

норма нарушена + структуры не совпадают = ошибка, вызванная не влиянием ИЯ (а, например, недостаточным владением ЯП);

норма не нарушена + структуры совпадают = типологическое сходство ИЯ и ЯП;

норма не нарушена + структуры не совпадают = типологическое расхождение ИЯ и ЯП.

Однако, на наш взгляд, можно использовать уже существующие и доступные нам средства обработки текстов.



2020-02-03 344 Обсуждений (0)
Глава 2. Лингвистика и ИТ 0.00 из 5.00 0 оценок









Обсуждение в статье: Глава 2. Лингвистика и ИТ

Обсуждений еще не было, будьте первым... ↓↓↓

Отправить сообщение

Популярное:
Как вы ведете себя при стрессе?: Вы можете самостоятельно управлять стрессом! Каждый из нас имеет право и возможность уменьшить его воздействие на нас...
Как построить свою речь (словесное оформление): При подготовке публичного выступления перед оратором возникает вопрос, как лучше словесно оформить свою...
Генезис конфликтологии как науки в древней Греции: Для уяснения предыстории конфликтологии существенное значение имеет обращение к античной...



©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (344)

Почему 1285321 студент выбрали МегаОбучалку...

Система поиска информации

Мобильная версия сайта

Удобная навигация

Нет шокирующей рекламы



(0.01 сек.)