Последний раз редактировалось Brizon 03.04.2025, 08:29, всего редактировалось 2 раз(а).
Мне нужно оценить насколько хорошо распределение вероятности описывает данные, и один из тестов это функция правдоподобия, вычисляемые как значения логарифма плотности log pdf(x) для каждой точки данных.
Мы строим массив [log pdf(x_i)] для каждой точки, и затем вычисляем для этого массива среднее E[log pdf(x)] - чем оно выше, тем лучше совпадение распределения с данными.
Я сравнил два распределения А и Б, и оказалось что для А E[log pdf(x)] выше чем для Б. Т.е. распределение А лучшее.
Но, затем мне пришла мысль (я думаю ошибочная, собственно вопрос в том и состоит чтобы подтвердить что она ошибочная). Можно ведь измерить не только среднее этого массива [log pdf(x_i)], но и квантили, например нижний 0.1 или 10% квантиль Q0.1[log pdf(x)]. Изначально (ошибочно) идея была посмотреть не только общее подобие, но и подобие по редким событиям в хвосте распределения.
И оказалось что "лучшее" распределение А, имеет значение Q0.1[log pdf(x)] хуже чем "худшее" распределение Б. Сначала меня (ошибочно) это насторожило. Но подумав, я решил что все нормально, "худшее" распределение Б ошибочно переоценивает вероятности редких событий, и поэтому значения его нижний квантили получаются выше, это вовсе не значит что оно лучше оценивает редкие события, оно наоборот оценивает их хуже, переоценивая их.
Т.е. получается, смотреть нужно только на среднее, Е[log pdf(x)] оно в том числе обеспечивает совпадение по хвостам распределения. Ориентироваться на квантили не просто нет смысла, но ошибочно в приницпе.
Собственно, хотелось бы подвердить это заключение :). Мне важно не допустить ошибки в оценке редких событий, хвостов распределения.
|