Вы не сможете определить количество информации получаемой приёмником с носителя, если не зафиксируете знания приёмника.
А если зафиксируете, то количество этой информации уже не будет зависеть от того вымер источник инфы (иероглифов) или нет.
В каком смысле не будет зависеть? Вот мы зафиксировали априорные знания о вероятностях различных ситуаций с получением сообщений от агента: 0.5% - будет сообщение о нападении, 0.5% - будет сообщено о ненападении, 99% - в данном сообщении не будет информации о нападении или ненападении. В итоге количество информации в сообщении будет здорово зависеть от того, будут ли в нём указания на нападение/ненападение.
Тут интересен первый вариант, где бит определяется, как единица информации.
Строго говоря бит, это единица
количества информации. Интерпретация его как "единицы информации" - это допустимый жаргонизм.
А именно и в частности:
1. Отсутствует, ещё не предложен механизм, как измерять смысл битами.
Просто в этом конкретном месте не описан. "Не предложен" в смысле "вообще" - это слишком сильно сказано.
2. Теория информации, оказывается, не изучат информацию. Так как изучение семантики не входит в область теории информации.
Да ладно. Семантика по своей сути в некотором смысле является интерпретацией текстов множествами. Просто она далеко не всегда формализуется, поэтому нет смысла специально "изучать" её в рамках теории информации.
А у нас (и, видимо, в англоязычной среде) знаниями принято называть нечто более значимое и интеллектуальное, а информацией - нечто менее значимое, но всё таки имеющее смысл. Знания - в книгах, например, знания о квантовой механике содержатся в третьем томе Ландау, Лифшица. А информация - в записных книжках, например, контактная информация.
Но такие дефиниции приводят
а) к сбоям в коммуникации, так как позволяют под информацией понимать разное.
б) к абсурдам, как показано выше.
С чего бы это? Не вижу никаких проблем в том, чтобы считать их синонимами, с точностью до стилистических нюансов: когда нам нужно в каких-то специальных случаях отделить одни виды знаний (информации) от других.
Очевидно, тут ошибка.
При выборке, достаточной для применения статистических методов, оценки и получаются статистические. Вместе с доверительными интервалами, если нужно
И что Вы наоцениваете, если видите перед собой текст из двадцати иероглифов, все разные и ни один из них Вам не знаком? Вот я даже не смогу сказать, из какого они языка и сколько в нём иероглифов всего. Но и когда у Вас есть достаточно большой набор с множеством повторений, все эти "статистические оценки с доверительными интервалами" могут здорово зависеть от априорных предположений.
По пунктам.
1. Редкие символы несут больше информации, чем частые, в отдельном их появлении.
Но суммарно они дадут небольшой вклад в общую сумму. Потому что редкие. И их неопределенность слабо повлияет на общую неопределенность в подсчете информации.
Вывод, конечно же ни на чём не основан. Если символ встретился один раз, то вполне может быть, что априорную вероятность его появления нужно было оценить в
, а значит его появление несёт информации на порядки больше, чем остальной текст.
2. Для частых символов с различным начертанием можно посчитать варианты считая их различными, и одинаковыми. Тут разброс может оказаться заметным. Но все равно подсчет информации даст некий диапазон, от ... до.
3. Зависимость распределения символов (да и слов тоже, считая пробел разделителем слов) учитывается с помощью условной энтропии.
Ничего из одного голого текста, без какой-то априорной модели того, что это вообще такое, Вы не посчитаете.
Я понимаю, что Вы привыкли к тому, что в компьютерной технике на компьютерный носитель можно записать ровно то количество информации, которое позволяет носитель. Но на самом деле это просто результат некой зафиксированной модели этого носителя: Есть столько-то независимых ячеек с двумя возможными "равноценными" состояниями. Разумеется, после того, как мы зафиксировали априорные вероятности вариантов того, что можем увидеть мы (читатели информации с носителя), то количество информации становится уже "независимым от читателя".
-- Вт июн 25, 2024 21:20:28 --Кстати, при оценках количества информации нам вообще по барабану из какого набора символы.
То, что входит в формулу Шеннона, зависит от количества символов в наборе и от вероятностей их появления. Вообще-то, от первого зависит уже то, что входит в формулу Хартли. А формула Шеннона, кстати, допускает не только разные вероятности символов, но допускает и различные варианты их
совместных распределений.