Какие алгоритмы наиболее толерантны к пропускам в данных?

Andrey_Kireew · 09.09.2019, 22:57

mserg в сообщении #1414296 писал(а):

Поэтому можно сказать, что XGBoost принимает пропуски, хотя NaN ему не скормить

Почитал, правда не до конца. Пишут, что действительно XGBoost обходит пропуски, похоже на то, что действительно обходит, а не заполняет. Как оно на самом деле, ТС скоро узнает сам, кажется начать он решил именно с него.

ozheredov · 10.09.2019, 12:03

mserg в сообщении #1414296 писал(а):

Это работа Gilles Louppe, называется "UNDERSTANDING RANDOM FORESTS"

Many thanks

Andrey_Kireew в сообщении #1414277 писал(а):

почему Вы считаете, что этот алгоритм больше похож на бустинг а не беггинг?

А я всё ждал -- когда же вы меня подловите! К своему стыду я путаю термины )))

Alex7 · 17.09.2019, 00:34

Друзья, всем привет!
Докладываю о промежуточных итогах:
1) Уменьшил выборку до ~ 7 тыс. примеров и сократил количество признаков до 54.
2) Протестировал два подхода: импутация пропусков (замещение средними/медианными значениями) и работа с пропусками (замена на резко отрицательное число -999999). Использовал классификатор CatBoostClassifier, в первом случае прогнозная точность на новых примерах находится в районе 65%, во втором случае в районе 73%. Контрольная выборка 10% от набора данных. Метрика "доля правильных ответов". Полагаю, что на кросс-валидации точность может быть улучшена.

Работу ещё не закончил, планирую постепенно добавлять/удалять признаки для повышения точности.

Andrey_Kireew · 18.09.2019, 15:54

Alex7 в сообщении #1415495 писал(а):

в первом случае прогнозная точность на новых примерах находится в районе 65%, во втором случае в районе 73%

Очень интересные результаты. Они позволяют предположить, что законы распределения некоторых признаков у Вас сильно асимметричны. В этом случае минимальное значение может оказаться лучше среднего и лучше медианы (уточняю, в Вашем случае значение -999999 следует интерпретировать как минимальное значение по выборке, в контексте древовидных алгоритмов это именно так).

Вот наглядный пример такого распределения:

из него видно, что минимальное значение, равное нулю, оказывается даже ближе к наиболее вероятному, коим является мода, чем медиана, а уж тем более - среднеарифметическое. Если признак положительный, а таких у Вас видимо много, то такая ситуация очень вероятна.

Я намекаю на то, что значение -99999 не панацея. Если выяснилось, что среднее и медиана не годятся для использования в качестве наиболее вероятного значения, советую попробовать использовать вместо них значение самой моды. Да, эти значения определяются сложнее, но это один из путей повышения качества алгоритма. Если замена медианы на -99999 приводит к такому улучшению, есть все основания полагать, что замена -99999 на моду так же приведёт к дополнительному улучшению.

И по поводу приведённых цифр, не совсем понятно, они получены с учётом корректировки на отброшенные наблюдения или нет?

И ещё, по поводу отбора признаков. Если это делать на основании кросс-валидации, то результаты самой кросс-валидации, строго говоря, перестают быть валидными. Если этим увлечься, то зайти можно очень далеко (может возникнуть иллюзия создания очень хорошего классификатора, хотя, в действительности всё будет с точностью до наоборот). На мой взгляд, надёжнее и лучше отбирать признаки по внутренним критериям, а кросс-валидацию использовать исключительно для проверки полученных результатов. Ну и чтобы дополнительно обезопасится, советую сразу случайным образом выделить из данных тестовую подвыборку, которая вообще не будет участвовать ни в обучении ни в кросс-валидации и использовать её только 1 раз, при окончательном тестировании модели. Только так можно приобрести хотя бы какую то уверенность в качестве классификатора, ибо риск переобучения в случае древовидных алгоритмов очень велик.

Alex7 · 18.09.2019, 19:04

Andrey_Kireew в сообщении #1415675 писал(а):

И по поводу приведённых цифр, не совсем понятно, они получены с учётом корректировки на отброшенные наблюдения или нет?

Ммм.. вы имеете ввиду участвовали ли эти данные в обучении? Если да, то ответ - не участвовали.

Andrey_Kireew в сообщении #1415675 писал(а):

из него видно, что минимальное значение, равное нулю, оказывается даже ближе к наиболее вероятному, коим является мода, чем медиана, а уж тем более - среднеарифметическое. Если признак положительный, а таких у Вас видимо много, то такая ситуация очень вероятна.

В наборе данных только положительные значения.

Andrey_Kireew в сообщении #1415675 писал(а):

На мой взгляд, надёжнее и лучше отбирать признаки по внутренним критериям

Спасибо, а что такое внутренние критерии?

Andrey_Kireew · 18.09.2019, 19:47

Alex7 в сообщении #1415747 писал(а):

Ммм.. вы имеете ввиду участвовали ли эти данные в обучении? Если да, то ответ - не участвовали

Если так, и Вы получили 65% и 73% без их учёта, то можно предположить, что качество классификации отброшенных наблюдений будет 50%. С учётом этого

0,7\cdot0,65+0,3\cdot 0,5=0,605

0,7\cdot0,73+0,3\cdot 0,5=0,661

т.е. на всей выборке эти различия будут проявляться уже не так ярко. Вероятнее всего, так же будет и на неизвестных данных.

Alex7 в сообщении #1415747 писал(а):

В наборе данных только положительные значения

Значит, скорее всего, всё так как я написал. Постройте гистограммы распределения значений признаков, для начала хотя бы для нескольких, и увидите где там медиана, где среднее и где мода. Если все значения положительные, ставьте Вы хоть -99999, хоть -1, для древовидного алгоритма нет абсолютно никакой разницы.

В Вашем случае ещё можно рекомендовать box-cox transformation, возможно, его применение даст дополнительное улучшение.

Alex7 в сообщении #1415747 писал(а):

Спасибо, а что такое внутренние критерии?

Это критерии, позволяющие судить о качестве модели без использования контрольной выборки. Сами по себе, они обычно хуже характеризуют прогностическую способность, по сравнению с кросс-валидацией, но их вычислением, если оно возможно, пренебрегать не стоит. Ведь близость значений внутреннего критерия и результатов кросс-валидации свидетельствует об адекватности полученных результатов, и наоборот.
Для каждого метода разработаны свои внутренние критерии. Например, в классической линейной регрессии используется эмпирический коэффициент детерминации, который можно использовать так же и в дискриминанте Фишера. Качество логистической регрессии оценивается с помощью показателя псевдодетерминации. Разнообразны так же разнообразные информационные критерии, например критерий Акаике, по которым можно сравнивать модели с разным числом признаков. Есть ли что то подобное для деревьев, да и вообще для древовидных алгоритмов, я не знаю. Вполне возможно, что нет.

Alex7 · 18.09.2019, 20:12

Andrey_Kireew в сообщении #1415770 писал(а):

Если так, и Вы получили 65% и 73% без их учёта, то можно предположить, что качество классификации отброшенных наблюдений будет 50%

Мне кажется мы друг друга не поняли, см. листинг:

Код:

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=100, test_size=0.10)
clf = CatBoostClassifier(random_state=100, task_type='GPU', iterations=10000)
clf.fit(X_train, y_train, eval_set=(X_test, y_test), plot=True, verbose=False)

65% и 73% - это и есть качество отброшенных наблюдений (тестовых).
Точность модели на обучающей выборке 90%.

Andrey_Kireew · 18.09.2019, 20:41

Alex7 в сообщении #1415786 писал(а):

Мне кажется мы друг друга не поняли

как же Вас понять, если вы пишите, что оставили 7 тыс. наблюдений из 10 тыс. (т.е. 30%), и потом указываете что объём тестовой выборки только 10%. 10% от чего, от 70% оставшихся? А как быть с теми 30%, которые Вы отбросили. Предпочитаете их просто игнорировать? Но это неправильно, ведь они объективно существуют. Среди неизвестных наблюдений могут встретиться такие же. И это будет случаться с вероятностью 30%. На них у Вас будет отказ классификации, придётся присваивать произвольное значение класса, вероятность угадать при этом будет только 50% а не 65 и не 73%.

-- 18.09.2019, 21:47 --

Alex7 в сообщении #1415786 писал(а):

Точность модели на обучающей выборке 90%

вот это как раз и есть внутренний критерий, правда не самый лучший. В него как то нужно внести поправку, учитывающей число признаков. Поищите информационные критерии для деревьев, может они разработаны. Я просто с деревьями плохо знаком, могу многого и не знать.

Alex7 · 18.09.2019, 21:27

Andrey_Kireew в сообщении #1415805 писал(а):

как же Вас понять, если вы пишите, что оставили 7 тыс. наблюдений из 10 тыс. (т.е. 30%), и потом указываете что объём тестовой выборки только 10%. 10% от чего, от 70% оставшихся? А как быть с теми 30%

Из-за уменьшения количества критериев у этих примеров не осталось данных, я при всём желании не смогу их использовать.

Andrey_Kireew в сообщении #1415805 писал(а):

В него как то нужно внести поправку, учитывающей число признаков. Поищите информационные критерии для деревьев, может они разработаны. Я просто с деревьями плохо знаком, могу многого и не знать.

Спасибо, буду думать!

mserg · 18.09.2019, 22:03

Поиск по "catboostclassifier parameters tuning" находит, что можно подкрутить. Если поиском выделить overfitting, то прямо видно куда смотреть в первую очередь.

В качестве критерия качества часто используется AUC как альтернативу проценту распознавания. Критерий, кроме точности, определяет возможность использования порогов, с помощью которых можно отделять ненадежную классификацию.

Andrey_Kireew · 18.09.2019, 22:08

Alex7 в сообщении #1415821 писал(а):

Из-за уменьшения количества критериев у этих примеров не осталось данных, я при всём желании не смогу их использовать

Если говоря не осталось данных Вы подразумеваете, что все значения признаков оказываются пропущены, то что мешает заполнить их все, например, значениями -99999?

Alex7 · 19.09.2019, 00:23

Andrey_Kireew в сообщении #1415840 писал(а):

Если говоря не осталось данных Вы подразумеваете, что все значения признаков оказываются пропущены, то что мешает заполнить их все, например, значениями -99999?

Ничего не мешает. Только какой в этом смысл? Алгоритму ведь не за что будет зацепится, и он в условиях полной неопределенности не сможет найти паттерны на этих примерах. Мне кажется это будет просто шум. Ведь примеры не несут в себе информации.

mserg в сообщении #1415838 писал(а):

Поиск по "catboostclassifier parameters tuning" находит
, что можно подкрутить. Если поиском выделить overfitting, то прямо видно куда смотреть в первую очередь.

В качестве критерия качества часто используется AUC как альтернативу проценту распознавания. Критерий, кроме точности, определяет возможность использования порогов, с помощью которых можно отделять ненадежную классификацию.

Большое спасибо, очень полезная информация, не знал!

Научный форум dxdy

Какие алгоритмы наиболее толерантны к пропускам в данных?