2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 Коэффициент информативности сообщения
Сообщение07.05.2011, 16:51 
Y=I/V
Y-коэф информативности
I-кол-во информации
V-объем данных

Возьму для примера сообщение из 4 символов и мощностью алфавита 32.
I=4 х 5 = 20бит (5 - это вес символа по формуле: 2^i=32)
V=4 (т.к. в сообщении 4 символа)

Y=20/4=5. Но 0<Y<1. Что я сделал не так?

 
 
 
 Re: Коэффициент информативности сообщения
Сообщение07.05.2011, 18:10 
Наверно, пример неправильный.

 
 
 
 Re: Коэффициент информативности сообщения
Сообщение07.05.2011, 18:15 
Аватара пользователя
V надо в битах брать.

Если мы кодируем каждый символ 8 битами то получим.
V=4*8
Если 5 битами то V=4*5=32.

А вот I количество информации вы неправильно посчитали.
Я бы сказал I правильнее считать(мерить) для конкретного сообщения.
Путем сжатия или через энтропию.

 
 
 
 Re: Коэффициент информативности сообщения
Сообщение07.05.2011, 19:15 
V-объем данных: измеряется количеством символов в сообщении
I-количество информации: по формуле Хартли I=nlogm, где n-число символов, m-разрядность алфавита

Тогда если один символ имеет вес 5 бит V=4*5=20 и I=4*5=20. Y=1
Я ничего не понял

 
 
 
 Re: Коэффициент информативности сообщения
Сообщение07.05.2011, 22:20 
Аватара пользователя
exp
Возьмите книгу в ней всё хорошо описаны основы.
Лидовский В.В., Теория информации
Правда конкретно ваш вопрос не рассмотрен.

Когда мы говорим про количество информации, то мы говорим про канал передачи информации или о методе хранения информации.
Информацию мы можем кодировать различными способами.

По поводу Хартли почитай его работы.
http://www.dotrose.com/etext/90_Miscell ... _1928b.pdf
Во первых он говорит что термин информация очень широк.
Он говорил о телеграфе. Привел свою формулу он для сравнения информации в системах с различными наборами алфавитов.

А уже потом спустя 20 лет появился Шеннон. Который посмотрел на информацию и сказал что если часть символов выпадает чаще то её можно сжимать.
http://cm.bell-labs.com/cm/ms/what/shan ... on1948.pdf


Цитата:
Тогда если один символ имеет вес 5 бит V=4*5=20 и I=4*5=20. Y=1
Я ничего не понял

Потому что вы задачу не правильно сформулировали.
Допустим рассматриваем канал с шумом который вызывает ошибки. Ошибки случайны но известно что расстояние между ошибками равно 5 бит.
Тогда самый простой способ кодирования информации это удвоения символов.

К примеру передаем сообщение "мама" алфавит 32 символа.
кодируем "ммааммаа"
Чтобы сравнить информацию используем теорему Хартли.
$4*Log_{2}{32}/8*Log_{2}{32}=0.5$ - информативность.

Возьмем канал без ошибок.
кодируется один к одному
"мама"
информативность канала будет 1.

Что же сказал Шенон. Шенон посмотрел и заметил что в Английском языке(справедливо и для других) одни буквы выпадают чаще других. Подумал и пришел к выводу что это сообщен "мама" можно сжать.
Если у нас на один символ приходится $Log_{2}{32}=5$ бит.
К примеру вероятность выпадания p('а')=0.7, а все остальные символы имеют вероятность 0.3/31=0.0096774...
Тогда Шенон ввел новую меру информации как энтропию.
$H(x)=-\sum_{i=1}^np(i)\log_2 p(i).$
Для слова "мама" H("мама")=-(0.0096774*log2(0.0096774)+0.7*log2(0.7)+0.0096774*log2(0.0096774)+0.7*log2(0.7)
)=0.849908

информативность $H(x)/4*Log_{2}{32}=0.849908/20=0,0424954$
Что это значит? Это значит что мы закодировали не самым оптимальным случаем. Можем закодировать информацию так что оно займет 0.849908 бит в идеальном случае по Шенону.

 
 
 
 Re: Коэффициент информативности сообщения
Сообщение08.05.2011, 13:52 
exp в сообщении #443135 писал(а):
V-объем данных: измеряется количеством символов в сообщении
I-количество информации: по формуле Хартли I=nlogm, где n-число символов, m-разрядность алфавита

Тогда если один символ имеет вес 5 бит V=4*5=20 и I=4*5=20. Y=1
Я ничего не понял

Если мерять V количеством символов, то I/V - это будет среднее количество информации на один символ. Чтобы было 0<=Y<=1, нужно и I и V мерять в битах.

I=nlogm - это количество информации (максимальное), которое можно закодировать при помощи сообщения длиной n символов и разрядностью алфавита m. То есть в случае когда вы заранее ничего наперед не знаете про сообщение (не знаете распределения вероятностей символов, или например вероятности получить какое-либо конкретное сообщение). То есть когда вы считаете все m^n возможных сообщений равновероятными.

Y=1 - значит сообщение полностью информативно, то есть вы заранее про него ничего не знали. Не знали каким именно будет сообщение (из 32^4 возможных сообщений).

Если бы наперед было известно распределение вероятностей символов, то I можно было бы считать по Шеннону. Тогда это было бы количество информации в сообщении, с учетом того, что вы заранее знаете рапределение вероятностей, и в случае неоднородной вероятности было бы Y<1.

 
 
 [ Сообщений: 6 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group