Просто в этом конкретном месте не описан. "Не предложен" в смысле "вообще" - это слишком сильно сказано.
Так дайте ссылку, где предложен.
В формуле Шеннона.
Там упоминается некое распределение вероятностей, которое нужно взять из вероятностной модели этого самого "смысла".
Семантика по своей сути в некотором смысле является интерпретацией текстов множествами. Просто она далеко не всегда формализуется, поэтому нет смысла специально "изучать" её в рамках теории информации.
Об чём и речь - не всегда формализуется. Я бы сказал - далеко не всегда формализуется.
Где не нужно - не формализуется. А если нужно будет посчитать количество информации, то придётся формализовать.
С чего бы это? Не вижу никаких проблем в том, чтобы считать их синонимами, с точностью до стилистических нюансов: когда нам нужно в каких-то специальных случаях отделить одни виды знаний (информации) от других.
Их нельзя считать синонимами, потому что это ведет к абсурдам. Это омонимы.
Не вижу никаких абсурдов.
Текст из двадцати иероглифов, и все разные, даст очень широкую оценку. А текст из 100500 иероглифов 20-и различных типов даст гораздо более узкую оценку.
Он даст бессмысленную оценку, если Вы, не задумываясь, оцените вероятности частотами. Возможно, что эти 20 типов иероглифов на самом деле - просто элемент орнамента, повторяющегося через каждые 20 символов, потому что "так красиво". На самом деле, посмотрев на этот орнамент, Вы получите примерно нулевое количество информации, ибо вероятность каждому иероглифу находиться на своём месте равна примерно единице, а не
, как Вы посчитаете.
Свобода в априорных предположениях нивелируется при наборе статистики. Например, при оценке эффективности вакцин по байесовскими методами, априори предполагается, не что вакцина нейтральна, а что сильно таки вредна (увеличивает вероятность заболевания).
Потому априорно и предполагается, что априорные предположения влияют на результат.
Вывод, конечно же ни на чём не основан.
конечно же основан - на формуле Шеннона.
Ещё раз: Вывод о том, что в формуле Шеннона вероятности для редких символов окажутся такими, что ими можно пренебречь, ни на чём не основан.
Считая, что сообщение
состоит из символов
, имеет длину
, и вероятность появления символов независима
Откуда Вы взяли эти предположения? Вообще-то они из разряда того, из-за чего статистику заслуженно называют худшим вариантом наглой лжи.
(вспомним крылатую фразу)
Здесь суммирование производится по всем вариантам символов, которые встретились в сообщении.
А почему Вы пренебрегли теми символами, которые
не встретились в сообщении? Если символ есть в алфавите, но почему-то не встретился в сообщении, то этот факт может нести важную информацию.
Учет зависимости символов уменьшит оценку, но если это будет иметь статистическую значимость, то статистическими методами и учтется.
Как в случае с орнаментом из повторяющейся последовательности из 20 символов? Какими же "статистическими методами" Вы здесь сможете учесть тот факт, что вероятность такой комбинации близка к единице?