Пусть дана выборка

(случайный вектор) из какого-нибудь дискретного распределения с
функцией вероятности 
Роль

здесь играет неизвестный параметр распределения, который требуется оценить. Обычно предполагается, что компоненты выборки являются независимыми в совокупности случайными величинами, поэтому можно написать просто

Согласно методу максимального правдоподобия, нам следует искать такое значение

, при котором значение вероятности

будет максимальным. Вопрос же обоснования такого подхода пока отложим.
Теперь пусть дана выборка

из абсолютно непрерывного распределения с
функцией плотности 
(здесь для простоты плотность вектора и плотность каждой компоненты я обозначаю одной и той же буквой

). Согласно методу максимального правдоподобия, нам следует искать такое значение

, при котором значение функции

будет максимальным. Заметим, что таким образом мы максимизируем

что приближенно равно вероятности попадания выборки в n-мерный прямоугольник

Так что, грубо говоря, мы в обоих случаях максимизируем некую вероятность. Теперь про обоснование такого подхода. Здесь я буду следовать учебнику Боровков А.А. "Математическая статистика". Вспомним, что в матстатистике есть такая
эмпирическая функция распределения, которая определяется по формуле

где

-- это индикатор условия

. Эмпирическая функция распределения используется как оценка истинной, но неизвестной, функции распределения

. А теперь пусть у нас есть семейство распределений

, и нам кажется, что

находится среди них, но какому

она отвечает нам не известно (может она и не среди них, но как-то близка к семейству). Предлагается поступить следующим образом: найти среди

"ближайшую" к эмпирической

, ведь она неплохо приближает истинную функцию распределения

. Понятие близости здесь следует понимать в специфическом смысле (это связано с расстоянием Кульбака--Лейблера, за подробностями см. учебник). Так вот, возникает задача оптимизации: найти

такую, чтобы

было наиболее близко к

. Решением этой задачи как раз является то значение

, которое максимизирует

--
функцию вероятности в дискретном случае, или
функцию плотности в непрерывном случае. Вот этом и весь ее смысл: среди данного семейства распределений найти то, которое наиболее похоже на эмпирическую функцию распределения, и потому в пределе -- на истинную функцию распределения.
Кстати говоря, функцию

называют еще
функцией правдоподобия. С одной стороны это позволяет не уточнять каждый раз что это -- "функция вероятности" или "функция плотности", ведь подход справедлив в обоих случаях. С другой стороны максимизация по

может интерпретироваться как поиск наиболее "правдоподобного" значения

-- т.е. такого, при котором выпадение

"наиболее вероятно". Не будете же вы брать значения

, при которых данный вам

не выпадает. Отсюда и название.