Предлагаю топикстартеру такой подход к осмыслению вопроса:
1. Функцию распределения можно понимать не единственным способом.
Первый способ -

.

- наша первая функция распределения,

- дифференциал стат.веса, то есть часть количества микросостояний, которые могут реализовать данное макросостояние. Вот это произведение - малая вероятность системе находиться в заданном малом количестве микросостояний.
Здесь неявно упомянуто, что

- функция от энергии системы, это утверждение содержательно и обосновывается в курсе статфизики. Для затронутого в топике распределения Максвелла

.
Теперь попробуем применить это рассуждение к разным системам:
1) Одна частица с заданной энергией.
Понятно, что такое распределение не может быть верно для частицы с заранее заданной энергией! Для нее распределение будет дельта функцией от энергии системы, чтобы будучи проинтегрированным по всем состояниям, в накапливаемую вероятность в системе добавлялись только состояния, реализующие именно эту энергию.
2) Несколько частиц с заданной энергией системы.
Ящик(комната) с извне заданной суммарной энергией частиц.
Рассуждаем, подобно положению в начале топика: "применяем" нашу первую функцию распределения
к частице из ящика и получаем, что "самые вероятные" микросостояния - соответствующие энергии 0. И так для каждой частицы. Но тогда "самое вероятное" значение для энергии всей системы будет тоже 0, что противоречит самой постановке задачи.
Теперь необходимо раскрыть второй способ рассуждения о функции распределения, который даст логичный ответ на поставленный вопросы.
2 Второй способ -

. Здесь

- интервал энергий,

- вторая функция распределения, и произведение дает малую вероятность системе пребывать в состоянии с энергией из интервала

.
Связь между функциями

и

такая:

(по смыслу: вероятность находиться в микросостоянии, реализующем данную энергию, равна ей же в правой части).
Теперь представим себе фазовое пространство одной частицы. Чтобы найти наиболее вероятное микросостояние, реализующее ее макросостояние, необходимо пользоваться функцией

; это будет убывающая экспонента от энергии.
Но чтобы найти наиболее вероятную энергию частицы, необходимо пользоваться функцией

.
Подсчитаем ее:

.

(одно состояние системы соответствует одной клетке фазового объема, равной

). Опустим

для однородного ящика распределение будет равномерным ко координате и при интегрировании даст просто объем ящика и опустим константу

, записав всю эту информацию в символ

. Тогда

. Вспоминаем зависимость импульса от энергии для нерелятивистской частицы

, берем производную, подставляем

и получаем:

. Вот у этой функции от энергии (или модуля импульса) уже есть определенный максимум - наиболее вероятную энергию частицы.
Резюмируем:
1) Функция распределения по количеству состояний в зависимости от энергии имеет максимум в 0.
2) Функция распределения по энергии в зависимости от энергии имеет максимум в средней энергии частицы.
3) Переход от одной к другой выполняется с помощью домножения на

.
Можно увидеть из этого, что различные энергии реализуются различным числом состояний (зависимость

). Выходит, несмотря на то, что по первой функции распределения частица пребывает большую часть времени в состояниях близких к энергии 0, то по второй функции распределения оказывается, что таких состояний, возможных для реализации, для данной системы просто мало. Вероятность находиться в этих состояниях высока, а состояний мало. Функция

учитывает оба этих фактора, и вероятность находиться в состояниях, и число состояний и дает правильный логически ответ.
Физическая сторона вопроса: почему мало состояний с энергиями, близкими к 0? Именно из-за того, что у "ящика" заданная энергия; это макросостояние реализуется большим количеством определенных ненулевых средних энергий частиц.
Буду рад коррективам, фактически все содержание поста - выдержка из главы 1 ЛЛ-5.