Лабораторная работа № 2. Измерение информации
Измерение информации Цель работы: Знать два подхода к измерению информации, использовать формулы Шеннона и Хартли, уметь определять необходимый объем компьютерной памяти для хранения информации. Порядок работы: 1. Выполнить задачи на измерение информации: - с учетом вероятности событий (по формуле Шеннона); - определение необходимого объема памяти для хранения информации. 2. Используя язык программирования высокого уровня, составить программу , позволяющую выбрать тип хранимой в памяти компьютера информации и определить необходимый объем памяти.
& краткие сведения Содержательный подход Количество информации, заключенное в сообщении, определяется объемом знаний, который несет это сообщение получающему его человеку. Сообщение содержит информацию для человека, если заключенные в нем сведения являются для этого человека новыми и понятными и, следовательно, пополняют его знания. При содержательном подходе возможна качественная оценка информации: Одну и ту же информацию разные люди могут оценить по разному. Единица измерения количества информации называется бит. Сообщение, уменьшающее неопределенность знаний человека в два раза, несет для него 1 бит информации. Пусть в некотором сообщении содержатся сведения о том, что произошло одно из N равновероятных событий (равновероятность обозначает, что ни одно событие не имеет преимуществ перед другими). Тогда количество информации, заключенное в этом сообщении, — х бит и число N связаны формулой Хартли: 2х =N Данная формула является показательным уравнением относительно неизвестной х. Из математики известно, что решение такого уравнения имеет вид: х = log2N — логарифм от N по основанию 2. Если N равно целой степени двойки (2, 4, 8, 16 и т.д.), то такое уравнение можно решить «в уме». В противном случае количество информации становится нецелой величиной, и для решения задачи придется воспользоваться таблицей логарифмов. Пример 1. При бросании монеты сообщение о результате жребия (например, выпал орел) несет 1 бит информации, поскольку количество возможных вариантов результата равно 2 (орел или решка). Оба эти варианта равновероятны. Решение Ответ может быть получен из решения уравнения: 2х = 2, откуда, очевидно, следует: х = 1 бит. Вывод: в любом случае сообщение ободном событииuз двух равновероятных несет 1 бит информации. Пример 2. В барабане для розыгрыша лотереи находится 32 шара. Сколько информации содержит сообщение о первом выпавшем номере (например, выпал номер 15)? Решение Поскольку вытаскивание любого из 32 шаров равновероятно, то количество информации об одном выпавшем номере находится из уравнения: 2х = 32 Но 32 = 25. Следовательно, х = 5 бит. Очевидно, ответ не зависит от того, какой именно выпал номер. Пример 3. При игре в кости используется кубик с шестью гранями. Сколько бит информации получает игрок при каждом бросании кубика? Решение. Выпадение каждой грани кубика равновероятно. Поэтому количество информации от одного результата бросания находится из уравнения: 2х =6 Решение этого уравнения: х = log2 6. Из таблицы логарифмов следует (с точностью до 3-х знаков после запятой): х = 2,585 бит
Алфавитный подход к измерению информации позволяет определить количество информации, заключенной в тексте. Алфавитный подход является объективным, т.е. он не зависит от субъекта (человека), воспринимающего текст. Множество символов, используемых при записи текста, называется алфавитом. Полное количество символов в алфавите, называется мощностью (размером) алфавита. Если допустить, что все символы алфавита встречаются в тексте с одинаковой частотой (равновероятно), то количество информации, которое несет каждый символ, вычисляется по формуле: i = log2N, где N — мощность алфавита. Следовательно, в 2-х символьном алфавите каждый символ «весит» 1 бит (log22 =» 1); Один символ из алфавита мощностью 256 (28) несет в тексте 8 бит информации. Такое количество информации называется байт. Алфавит из 256 символов используется для представления текстов в компьютере. 1 байт = 8 бит. Если весь текст состоит из К символов, то при алфавитном подходе размер содержащейся в нем информации равен: I = К * i где i — информационный вес одного символа в используемом алфавите. Если мощность алфавита N, а максимальное количество букв в слове, записанном с помощью этого алфавита, m, то максимально возможное количество слов в языке L определяется с помощью формулы: L= Nm
Для измерения информации используются и более крупные единицы: 1 Кбайт (килобайт) = 210 байт = 1024 байта 1 Мбайт (мегабайт} =- 210 Кбайт•= 1024 Кбайта 1 Гбайт (гигабайт) = 210 Мбайт = 1024 Мбайта Пример 4. Книга, набранная с помощью компьютера, содержит 150 страниц; на каждой странице — 40 строк, в каждой строке — 60 символов. Каков объем информации в книге? Решение. Мощность компьютерного алфавита равна 256. Один символ несет 1 байт информации. Значит, страница содержит 40 * 60 = 2400 байт информации. Объем всей информации в книге (в разных единицах): 2400 * 150 = 360 000 байт 360000/1024 = 351,5625 Кбайт 351,5625/1024 = 0,34332275 Мбайт. Количество информации и вероятность Рассмотрим несколько примеров. 1. В коробке имеется 50 шаров. Из них 40 белых и 10 черных. Очевидно, вероятность того, что при вытаскивании «не глядя» попадется белый шар больше, чем вероятность попадания черного. 2. Сережа — лучший ученик в классе. Вероятность того, что за контрольную по математике Сережа получит «5» больше, чем вероятность получения двойки. 3. В пруду живут 8000 карасей, 2000 щук и 40 000 пескарей. Самая большая вероятность для рыбака — поймать в этом пруду пескаря, на втором месте — карась, на третьем — щука. Выше сделаны качественные заключения о вероятностях событий, которые интуитивно понятны. Однако вероятность может быть выражена количественно. Решение 1. Обозначим рч — вероятность попадания при вытаскивании черного шара, pб — вероятность попадания белого шара. Тогда: рч = 10/50 = 0,2; pб = 40/50 = 0,8. Отсюда видно, что вероятность попадания белого шара в 4 раза больше, чем черного. Решение 2. Представим себе, что мы изучили успеваемость Сережи за несколько лет учебы. За это время он получил по математике 100 оценок. Из них: 60 пятерок, 30 четверок, 8 троек и 2 двойки. Допуская, что такое распределение оценок может сохраниться и в дальнейшем, вычислим вероятность получения каждой из оценок. р5 = 60/100 = 0,6; р4 = 30/100 = 0,8; рз = 8/100 = 0,08; p2 = 2/100 = 0,02. Решение З. Всего в пруду обитают 50000 рыб. Из предыдущих примеров можно догадаться, что вероятность попадания на удочку каждого из видов рыб равна его доле в общем количестве. Отсюда: рк = 8000/50000 = 0,16; рщ = 2000/50000 = 0,04; рп = 4000/50000 = 0,8; Из рассмотренных примеров можно сделать вывод: если N — это общее число возможных исходов какого-то процесса (вытаскивание шара, получение оценки, ловля рыбы), и из них интересующее нас событие (вытаскивание белого шара, получение пятерки, попадание щуки) может произойти К раз, то вероятность этого события Р=K/N Вероятность выражается в долях единицы. В частном случае, вероятность достоверного события равна 1 (из 50 белых шаров вытащен белый шар); вероятность невозможного события равна нулю (из 50 белых шаров вытащен черный шар). Качественную связь между вероятностью события и количеством информации в сообщении об этом событии можно выразить так: чем меньше вероятность некоторого события, тем больше информации содержит сообщение об этом событии. Например, сообщение о том, что Сережа получил двойку по математике, содержит больше информации для тех, кто его знает, чем сообщение о пятерке. Сообщение, что рыбак поймал в пруду щуку, более информативно, чем сообщение о том, что на удочку попался пескарь. Количественная зависимость между вероятностью события (р) и количеством информации в сообщении о нем (i) выражается формулой Шеннона: i = log2(1/p) Пример 5. В задаче о шарах определим количество информации в сообщении о попадании белого шара и черного шара: iб = log2(l/0,8) = log2(l,25) = 0,321928; iч= log2(l/0,2) = log25 = 2,321928. Вероятностный метод для алфавитного подхода Вероятностный метод применим и для алфавитного подхода к измерению информации, заключенной в тексте. Известно, что разные символы (буквы алфавита, знаки препинания и др.) встречаются в тексте с разной частотой и, следовательно, имеют разную вероятность. Значит, измерять информационный вес каждого символа в тексте так, как это делалось раньше (в предположении равновероятности), нельзя. В качестве примера определим количество информации, связанное с появлением каждого символа в сообщениях, записанных на русском языке. Будем считать, что русский алфавит состоит из 33 букв и знака «пробел» для разделения слов. По формуле Хартли Н = log2 34 ≈ 5 бит Однако в словах русского языка (равно как и в словах других языков) различные буквы встречаются неодинаково часто. Ниже приведена таблица вероятностей частоты употребления различных знаков русского алфавита, полученная на основе анализа очень больших по объему текстов.
Популярное: Как распознать напряжение: Говоря о мышечном напряжении, мы в первую очередь имеем в виду мускулы, прикрепленные к костям ... Почему люди поддаются рекламе?: Только не надо искать ответы в качестве или количестве рекламы... Как вы ведете себя при стрессе?: Вы можете самостоятельно управлять стрессом! Каждый из нас имеет право и возможность уменьшить его воздействие на нас... ©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (2360)
|
Почему 1285321 студент выбрали МегаОбучалку... Система поиска информации Мобильная версия сайта Удобная навигация Нет шокирующей рекламы |