Мегаобучалка Главная | О нас | Обратная связь


Частотные характеристики текстовых сообщений



2019-05-24 446 Обсуждений (0)
Частотные характеристики текстовых сообщений 0.00 из 5.00 0 оценок




Важными характеристиками текста являются повторяемость букв, пар букв (биграмм) и вообще m-ок (m-грамм), сочетаемость букв друг с другом, чередование гласных и согласных и некоторые другие. Замечательно, что эти характеристики являются достаточно устойчивыми.

Идея состоит в подсчете чисел вхождений каждой nm возможных m-грамм в достаточно длинных открытых текстах T=t1t2…tl, составленных из букв алфавита {a1, a2, ..., an}. При этом просматриваются подряд идущие m-граммы текста

t1t2...tm, t2t3... tm+1, ..., ti-m+1tl-m+2...tl.

Если – число появлений m-граммы ai1ai2...aim в тексте T, а L общее число подсчитанных m-грамм, то опыт показывает, что при достаточно больших L частоты

для данной m-граммы мало отличаются друг от друга.

В силу этого, относительную частоту считают приближением вероятности P (ai1ai2...aim) появления данной m-граммы в случайно выбранном месте текста (такой подход принят при статистическом определении вероятности).

Для русского языка частоты (в порядке убывания) знаков алфавита, в котором отождествлены E c Ё, Ь с Ъ, а также имеется знак пробела (-) между словами, приведены в таблице 1.

Таблица 1

- 0.175 О 0.090 Е, Ё 0.072 А 0.062
И 0.062 Т 0.053 Н 0.053 С 0.045
Р 0.040 В 0.038 Л 0.035 К 0.028
М 0.026 Д 0.025 П 0.023 У 0.021
Я 0.018 Ы 0.016 З 0.016 Ь, Ъ 0.014
Б 0.014 Г 0.013 Ч 0.012 Й 0.010
Х 0.009 Ж 0.007 Ю 0.006 Ш 0.006
Ц 0.004 Щ 0.003 Э 0.003 Ф 0.002

Некоторая разница значений частот в приводимых в различных источниках таблицах объясняется тем, что частоты существенно зависят не только от длины текста, но и от его характера.

Устойчивыми являются также частотные характеристики биграмм, триграмм и четырехграмм осмысленных текстов.

Задания к лабораторной работе:

1. Определить количество информации (по Хартли), содержащееся в заданном сообщении, при условии, что значениями являются буквы кириллицы.

«Фамилия Имя Отчество» завершил ежегодный съезд эрудированных школьников, мечтающих глубоко проникнуть в тайны физических явлений и химических реакций»

2. Построить таблицу распределения частот символов, характерные для заданного сообщения. Производится так называемая частотная селекция, текст сообщения анализируется как поток символов и высчитывается частота встречаемости каждого символа. Сравнить с имеющимися данными в табл 1.

3. На основании полученных данных определить среднее и полное количество информации, содержащееся в заданном сообщении

4. Оценить избыточность сообщения.


Методические рекомендации:

1. Построить таблицу распределения частот символов, характерныx для заданного сообщения путём деления количества определённого символа в данном сообщении на общее число символов

По формуле

H= вычислить энтропию сообщения

2. Далее по формуле Шеннона для определения кол-ва информации

 

вычислить кол-во информации в передаваемом сообщении

3. Вычислить избыточность D по формуле

ВАЖНО ЗНАТЬ!!!

 

        


 Закрепление изучаемого материала.

Пример: Задача №1

В корзине лежат 32 клубка красной и черной шерсти. Среди них 4 клубка красной шерсти.

Сколько информации несет сообщение, что достали клубок красной шерсти? Сколько информации несет сообщение, что достали клубок шерсти любой окраски?

Дано: Кк=4;N=32

Найти: Iк, I

Решение:

  1. Найдем количество клубков черной шерсти: Кч=N- Кк; Кч=32-4=28
  2. Найдем вероятность доставания клубка каждого вида: pк= Кк/N=4/32=1/8; pч= Кч/N=28/32=7/8;
  3. Найдем количество информации, которое несет сообщение, что достали клубок красной шерсти: Iк= log2(1/(1/ pк))= log2(1/1/8)= log28=3 бит
  4. Найдем количество информации, которое несет сообщение, что достали клубок шерсти любой окраски:

Ответ: Iк=3 бит; I=0,547 бит

Контрольные вопросы:

  • Объясните на конкретных примерах отличие равновероятного события от неравновероятного?
  • С помощью какой формулы вычисляется вероятность события.
  • Объясните качественную связь между вероятностью события и количеством информации в сообщении об этом событии.
  • В каких случаях применяется формула Шеннона для измерения количества информации.
  • В каком случае количество информации о событии достигает максимального значения.

Пример Задача №2

В озере обитает 12500 окуней, 25000 пескарей, а карасей и щук по 6250. Какое количество информации несет сообщение о ловле рыбы каждого вида. Сколько информации мы получим, когда поймаем какую-нибудь рыбу?

Дано: Ко=12500; Кп=25000; Кк= Кщ=6250

Найти: Iо, Iп, Iк,Iщ, I

Решение:

  1. Найдем общее количество рыбы: N= Копкщ.
  2. Найдем вероятность ловли каждого вида рыбы: pо= Ко/N;pп= Кп/N;pк=pщ= Кк/N.
  3. Найдем количество информации о ловле рыбы каждого вида: Iо=log2( 1/pо);Iп=log2(1/pп);Iк=Iщ=log2(1/pк)
  4. Найдем количество информации о ловле рыбы любого вида: I=pо∙log2pо+pп∙log2pп+pк∙log2pк+pщ∙log2pщ


2019-05-24 446 Обсуждений (0)
Частотные характеристики текстовых сообщений 0.00 из 5.00 0 оценок









Обсуждение в статье: Частотные характеристики текстовых сообщений

Обсуждений еще не было, будьте первым... ↓↓↓

Отправить сообщение

Популярное:
Модели организации как закрытой, открытой, частично открытой системы: Закрытая система имеет жесткие фиксированные границы, ее действия относительно независимы...
Почему люди поддаются рекламе?: Только не надо искать ответы в качестве или количестве рекламы...
Как вы ведете себя при стрессе?: Вы можете самостоятельно управлять стрессом! Каждый из нас имеет право и возможность уменьшить его воздействие на нас...



©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (446)

Почему 1285321 студент выбрали МегаОбучалку...

Система поиска информации

Мобильная версия сайта

Удобная навигация

Нет шокирующей рекламы



(0.009 сек.)