Мегаобучалка Главная | О нас | Обратная связь


Статистические приемы.



2020-03-17 232 Обсуждений (0)
Статистические приемы. 0.00 из 5.00 0 оценок




Модели порождения.

Они используются для описания механизма порождения языка и текста, а так же для определения структуры речевой деятельности и структуры языка. Механизм данной модели описывается как структура абстрактных объектов, заданных исследователем и дедуктивно интерпретированных.

Синтаксические модели анализа

Были вызваны потребностью машинного перевода. Исследователь Мельчук исходит из предположения о том, что текст – это «черный ящик», который должен быть препарирован и описан при помощи элементов анализа – тех единиц, которые хранятся в памяти машины. Важнейшими единицами анализа являются морфы (основы, аффиксы, синтагмы(двучленное сочетание словоформ и сегментов, имеющих одинаковое грамматическое значение)).

Инвариантный семантический анализ

В его основе лежит методика перевода с естественного языка на семантический или метаязык. Эту методику предложил Ельмслев. Она базируется на выражении плана выражения и плана содержания, основывается на изучении семантической парадигмы и дистрибутивных формул, обнаруживающих семантические структуры.

Статистические приемы.

Языковые явления имеют не только качественную, но и количественную характеристику. Например, Будилович подсчитывал процент употребления букв в церковнославянских текстах, Кудрявский составил прямую распределения глагольных форм в Лаврентьевской летописи. Одни исследователи считают ее достаточной для лингвистических изучений, другие – нет (т.к. в нем используются приблизительные оценки – больше, меньше, много, мало).

Но в последние десятилетия получает распространение статистическая методика (основана на теории вероятности и правилах математической статистики, которые требуют оценки достоверности количественных данных).

Лингвостатистика – применение статистических приемов для изучения количественных характеристик и распределения языковых явлений в текстах и речи. Статистика изучает не индивидуальные факты, а совокупности событий.

Лексикографическая статистика -  теория и практика составления частотных словарей. Над их составлением работает группа Пиотровского. Составление частотных словарей поставило ряд практических и теоретических задач. При достаточно большом количестве текстов ок. 80% его занимают 2000 самых употребительных лексем. Мандельброт предложил формулу                              , где r – номер слова в списке по убывающим частотам, Pr – относительная частота, P, p, b – константы текста.

Теория информации и измерение текста интересуется не содержательной стороной передачи и хранения информации, а ее статистической структурой. Статистическая структура понимается как частота появления в сообщении символа и сочетаний символов.

Статистические выкладки, например, используются при установлении авторства на основе подсчета стилистических особенностей произведения (эта отрасль носит название эвристики). Теми же способами в сравнительно-историческом языкознании возможно определение приблизительной датировки произведения (памятника письменности). Во-вторых, установление частотности использования языковых единиц имеет первостепенное значение в сравнительно-историческом языкознании. Лексикостатистика на основе количественных показаний словарного состава стремится объективно констатировать наличие родства между языками, а также определить время их вычленения из единого праязыка.
Первую попытку выразить степень родства между отдельными группами индоевропейских языков посредством этого метода сделал польский этнограф Ян Чекановский в 1927 году. Лексикостатистику начал широко применять американский языковед Моррис Сводеш в 1948 году.

Положения Сводеша следующие:

- основной словарный фонд всех языков изменяется медленно и с постоянной скоростью.
- Сохранность подобных слов, положим, за одно тысячелетие выражается приблизительно одной и той же цифрой, процент утраты также одинаков
- Если нам известен процент сохранившихся генетически тождественных элементов лексического ядра у пары родственных языков, то можно вычислить время, то можно вычислить время, прошедшее с того момента, как эти языки разделились.

Количественный критерий используется также при типологическом изучении языков.

На статистике основывается также теория вероятности, которая также используется в языкознании, т.к. по имеющимся сведениям о степени частотности языковых единиц, их сочетаемости и распределению в тексте можно предугадать вероятность возникновения той или иной единицы. Данная теория применима в фонетике и особенно в синтаксисе. Состояние системы в данный момент времени определяет вероятность того, что через известный промежуток времени система будет выглядеть иной, причем эта вероятность будет зависеть от хода процесса в предшествующий период.


Необходимость применения методов математической логики возникает во всех научных областях, где объект науки недоступен непосредственному наблюдению. При моделировании используют метод, называемый в кибернетике «черным ящиком». О черном ящике известно только то, какие начальные продукты мы получаем «на входе» и какие конечные результаты «на выходе». Задача - узнать содержимое черного ящика. То есть построить гипотетическую модель Модель всегда является идеализацией объекта, в моделях фигурируют обычно конструкты-понятия об идеальных объектах, которые основываются на общих гипотезах. Модель, являясь идеализацией объекта обычно лишена избыточности естественных языков и стремится к сжатости выражения. Всякая модель строго формальна.
Следует отметить, что применение точных математических методов при изучении языка отнюдь не делает излишними все традиционные методы.

 

 

                            



2020-03-17 232 Обсуждений (0)
Статистические приемы. 0.00 из 5.00 0 оценок









Обсуждение в статье: Статистические приемы.

Обсуждений еще не было, будьте первым... ↓↓↓

Отправить сообщение

Популярное:



©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (232)

Почему 1285321 студент выбрали МегаОбучалку...

Система поиска информации

Мобильная версия сайта

Удобная навигация

Нет шокирующей рекламы



(0.006 сек.)