"Строгая" литература по машинному обучению.

kirill94 · 03.07.2018, 22:19

Очень часто в книгах по машинному обучению используют примерно такие вещи: $\mathbb{P}[Y = c|X]$ (условная вероятность того, что надо классифицировать как $c$ , если дано, что пронаблюдали $X$ ) или $\mathbb{E}[Y|X]$ . Что это всё означает, учитывая, что $X$ чаще всего - не-дискретная случайная величина? Почему никогда никто не пишет, на каком вероятностном пространстве всё рассматривается, не пишут про УМО, почему его можно брать и т.д.? Есть ли литература по машинному обучению, в которой всё это разжевывается (для дураков) -- в каком вероятностном пространстве работаем, по чему усредняем и т.д. и т.п., короче говоря, такая же строгая, как и обычные книги по терверу и матстатистике?

ozheredov · 03.07.2018, 23:07

kirill94 в сообщении #1324239 писал(а):

Есть ли литература по машинному обучению, в которой всё это разжевывается (для дураков) -- в каком вероятностном пространстве работаем, по чему усредняем и т.д. и т.п., короче говоря, такая же строгая, как и обычные книги по терверу и матстатистике?

Нет. Почему? Потому что, во-первых, книги по ML чаще пишутся людьми весьма далекими от теоретических измышлений. Они знают на какую кнопку нажать где какое API покатит. В книжке им кажется недостаточным выдать просто набор мнемонических рецептов, и они начинают набивать текст заученными/загугленными фразами об условном матожидании, возможно при этом до конца не понимая на каком вероятностном пространстве определена совместная плотность. Во вторых, если в книжку добавить обоснование, ее объём вырастет на столько, что вы её из магазина не унесёте )

Что делать? Взять листочек и ручку, и самим всё выводить и до всего доходить. В плане понимания материала это чрезвычайно полезно.

Andrey_Kireew · 04.07.2018, 00:39

Это всего лишь формальная запись результатов работы классификатора, или аппроксиматора.
В первом случае, на вход классификатора подаётся вектор информативных признаков классифицируемого наблюдения $X \in R^n$ , а на выходе, алгоритм классификатора формирует несколько результативных переменных $\mathbb{P}[Y = a|X]$ , $\mathbb{P}[Y = b|X]$ , $\mathbb{P}[Y = c|X]$ , каждая из них определяет вероятность принадлежности наблюдения соответствующему классу. Сравнивая их можно определить наиболее вероятный класс наблюдения и вероятность ошибки. (Это так в идеале, на практике такой классификатор построить не просто, в том смысле, что вычисляемые вероятности оказываются далёкими от действительности. Многие алгоритмы вообще не позволяют оценить вероятности, а сразу выдают ответ, например в виде бинарной переменной).

Во втором случае решается задача регрессии. На вход аппроксиматора, так же, подаётся вектор информативных признаков, а на выходе, алгоритм вычисляет прогноз $\mathbb{E}[Y|X]$ . Чаще всего это именно условное мат. ожидание, так как для нормально распределённых остатков это будет ММП-оценка прогноза. В этом случае, по хорошему, желательно оценить ещё и дисперсию прогноза, но это не всегда получается.

Смысл всего этого в том, что истинный класс наблюдения неизвестен, классификатор позволяет оценить только его вероятность принадлежности к заданному классу. Так же и истинное значение объясняемой переменной $Y$ не известно. Аппроксиматор даёт лишь прогноз её значения, с некоторой точностью.

Условные вероятности рассматриваются в мат. статистике. Там прямо про них и читайте, зачем пытаться найти их где то ещё.

Научный форум dxdy

"Строгая" литература по машинному обучению.