2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему
 
 Коэффициент информативности сообщения
Сообщение07.05.2011, 16:51 


07/05/11
2
Y=I/V
Y-коэф информативности
I-кол-во информации
V-объем данных

Возьму для примера сообщение из 4 символов и мощностью алфавита 32.
I=4 х 5 = 20бит (5 - это вес символа по формуле: 2^i=32)
V=4 (т.к. в сообщении 4 символа)

Y=20/4=5. Но 0<Y<1. Что я сделал не так?

 Профиль  
                  
 
 Re: Коэффициент информативности сообщения
Сообщение07.05.2011, 18:10 
Заслуженный участник


27/04/09
28128
Наверно, пример неправильный.

 Профиль  
                  
 
 Re: Коэффициент информативности сообщения
Сообщение07.05.2011, 18:15 
Аватара пользователя


31/10/08
1244
V надо в битах брать.

Если мы кодируем каждый символ 8 битами то получим.
V=4*8
Если 5 битами то V=4*5=32.

А вот I количество информации вы неправильно посчитали.
Я бы сказал I правильнее считать(мерить) для конкретного сообщения.
Путем сжатия или через энтропию.

 Профиль  
                  
 
 Re: Коэффициент информативности сообщения
Сообщение07.05.2011, 19:15 


07/05/11
2
V-объем данных: измеряется количеством символов в сообщении
I-количество информации: по формуле Хартли I=nlogm, где n-число символов, m-разрядность алфавита

Тогда если один символ имеет вес 5 бит V=4*5=20 и I=4*5=20. Y=1
Я ничего не понял

 Профиль  
                  
 
 Re: Коэффициент информативности сообщения
Сообщение07.05.2011, 22:20 
Аватара пользователя


31/10/08
1244
exp
Возьмите книгу в ней всё хорошо описаны основы.
Лидовский В.В., Теория информации
Правда конкретно ваш вопрос не рассмотрен.

Когда мы говорим про количество информации, то мы говорим про канал передачи информации или о методе хранения информации.
Информацию мы можем кодировать различными способами.

По поводу Хартли почитай его работы.
http://www.dotrose.com/etext/90_Miscell ... _1928b.pdf
Во первых он говорит что термин информация очень широк.
Он говорил о телеграфе. Привел свою формулу он для сравнения информации в системах с различными наборами алфавитов.

А уже потом спустя 20 лет появился Шеннон. Который посмотрел на информацию и сказал что если часть символов выпадает чаще то её можно сжимать.
http://cm.bell-labs.com/cm/ms/what/shan ... on1948.pdf


Цитата:
Тогда если один символ имеет вес 5 бит V=4*5=20 и I=4*5=20. Y=1
Я ничего не понял

Потому что вы задачу не правильно сформулировали.
Допустим рассматриваем канал с шумом который вызывает ошибки. Ошибки случайны но известно что расстояние между ошибками равно 5 бит.
Тогда самый простой способ кодирования информации это удвоения символов.

К примеру передаем сообщение "мама" алфавит 32 символа.
кодируем "ммааммаа"
Чтобы сравнить информацию используем теорему Хартли.
$4*Log_{2}{32}/8*Log_{2}{32}=0.5$ - информативность.

Возьмем канал без ошибок.
кодируется один к одному
"мама"
информативность канала будет 1.

Что же сказал Шенон. Шенон посмотрел и заметил что в Английском языке(справедливо и для других) одни буквы выпадают чаще других. Подумал и пришел к выводу что это сообщен "мама" можно сжать.
Если у нас на один символ приходится $Log_{2}{32}=5$ бит.
К примеру вероятность выпадания p('а')=0.7, а все остальные символы имеют вероятность 0.3/31=0.0096774...
Тогда Шенон ввел новую меру информации как энтропию.
$H(x)=-\sum_{i=1}^np(i)\log_2 p(i).$
Для слова "мама" H("мама")=-(0.0096774*log2(0.0096774)+0.7*log2(0.7)+0.0096774*log2(0.0096774)+0.7*log2(0.7)
)=0.849908

информативность $H(x)/4*Log_{2}{32}=0.849908/20=0,0424954$
Что это значит? Это значит что мы закодировали не самым оптимальным случаем. Можем закодировать информацию так что оно займет 0.849908 бит в идеальном случае по Шенону.

 Профиль  
                  
 
 Re: Коэффициент информативности сообщения
Сообщение08.05.2011, 13:52 


18/04/11
4
exp в сообщении #443135 писал(а):
V-объем данных: измеряется количеством символов в сообщении
I-количество информации: по формуле Хартли I=nlogm, где n-число символов, m-разрядность алфавита

Тогда если один символ имеет вес 5 бит V=4*5=20 и I=4*5=20. Y=1
Я ничего не понял

Если мерять V количеством символов, то I/V - это будет среднее количество информации на один символ. Чтобы было 0<=Y<=1, нужно и I и V мерять в битах.

I=nlogm - это количество информации (максимальное), которое можно закодировать при помощи сообщения длиной n символов и разрядностью алфавита m. То есть в случае когда вы заранее ничего наперед не знаете про сообщение (не знаете распределения вероятностей символов, или например вероятности получить какое-либо конкретное сообщение). То есть когда вы считаете все m^n возможных сообщений равновероятными.

Y=1 - значит сообщение полностью информативно, то есть вы заранее про него ничего не знали. Не знали каким именно будет сообщение (из 32^4 возможных сообщений).

Если бы наперед было известно распределение вероятностей символов, то I можно было бы считать по Шеннону. Тогда это было бы количество информации в сообщении, с учетом того, что вы заранее знаете рапределение вероятностей, и в случае неоднородной вероятности было бы Y<1.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 6 ] 

Модераторы: Karan, Toucan, PAV, maxal, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group