Пусть дана выборка
(случайный вектор) из какого-нибудь дискретного распределения с
функцией вероятности Роль
здесь играет неизвестный параметр распределения, который требуется оценить. Обычно предполагается, что компоненты выборки являются независимыми в совокупности случайными величинами, поэтому можно написать просто
Согласно методу максимального правдоподобия, нам следует искать такое значение
, при котором значение вероятности
будет максимальным. Вопрос же обоснования такого подхода пока отложим.
Теперь пусть дана выборка
из абсолютно непрерывного распределения с
функцией плотности (здесь для простоты плотность вектора и плотность каждой компоненты я обозначаю одной и той же буквой
). Согласно методу максимального правдоподобия, нам следует искать такое значение
, при котором значение функции
будет максимальным. Заметим, что таким образом мы максимизируем
что приближенно равно вероятности попадания выборки в n-мерный прямоугольник
Так что, грубо говоря, мы в обоих случаях максимизируем некую вероятность. Теперь про обоснование такого подхода. Здесь я буду следовать учебнику Боровков А.А. "Математическая статистика". Вспомним, что в матстатистике есть такая
эмпирическая функция распределения, которая определяется по формуле
где
-- это индикатор условия
. Эмпирическая функция распределения используется как оценка истинной, но неизвестной, функции распределения
. А теперь пусть у нас есть семейство распределений
, и нам кажется, что
находится среди них, но какому
она отвечает нам не известно (может она и не среди них, но как-то близка к семейству). Предлагается поступить следующим образом: найти среди
"ближайшую" к эмпирической
, ведь она неплохо приближает истинную функцию распределения
. Понятие близости здесь следует понимать в специфическом смысле (это связано с расстоянием Кульбака--Лейблера, за подробностями см. учебник). Так вот, возникает задача оптимизации: найти
такую, чтобы
было наиболее близко к
. Решением этой задачи как раз является то значение
, которое максимизирует
--
функцию вероятности в дискретном случае, или
функцию плотности в непрерывном случае. Вот этом и весь ее смысл: среди данного семейства распределений найти то, которое наиболее похоже на эмпирическую функцию распределения, и потому в пределе -- на истинную функцию распределения.
Кстати говоря, функцию
называют еще
функцией правдоподобия. С одной стороны это позволяет не уточнять каждый раз что это -- "функция вероятности" или "функция плотности", ведь подход справедлив в обоих случаях. С другой стороны максимизация по
может интерпретироваться как поиск наиболее "правдоподобного" значения
-- т.е. такого, при котором выпадение
"наиболее вероятно". Не будете же вы брать значения
, при которых данный вам
не выпадает. Отсюда и название.