размер псевдовыборки для bootstrap

Andrey_Kireew · 06.08.2018, 22:51

При практической использовании метода bootstrap возникает вопрос выбора оптимального размера bootstrap псевдовыборки. Оказалось, что этому вопросу уделяется незаслуженно мало внимания, если уделяется вообще. Более - менее внятное рассмотрение данного вопроса удалось найти только здесь:
https://stats.stackexchange.com/questions/96739/what-is-the-632-rule-in-bootstrapping
из за трудностей с переводом, до конца не понял, что здесь имеется в виду, но смутные догадки наталкивают на мысль, что оптимальный размер bootstrap псевдовыборки составляет 63,2% от исходной выборки.

Почему так, непонятно. Так ли оно вообще - полной уверенности нет.
Чтобы хоть как то проверить, я провёл численный эксперимент на парных корреляциях, вовсех случаях N=1000, число репликаций M=1000,
для псевдовыборки k=999

для псевдовыборки k=632

для псевдовыборки k=100

Получается, что для 63,2% результаты самые лучшие, но возможно - это просто случайное совпадение.

Есть ли вообще какие то обоснованные правила выбора размера псевдовыборки? и на что влияет этот размер?

2old · 08.08.2018, 19:15

Andrey_Kireew · 08.08.2018, 22:34

Теперь понятно откуда это берётся.

Andrey_Kireew · 15.10.2018, 21:27

Долго изучал этот вопрос, но окончательного понимания так и нет.
Как я понял, размер псевдовыборки, получаемой из исходной - путём случайного отбора наблюдений с возвратом, традиционно берётся равным размеру исходной выборки. Просто, как само собой разумеется. Не могу понять, оптимальный ли это размер, или нет?

На счёт правила 632 - это немного не то. 632 - это вес bootstrap оценки в общей взвешенной оценки, а объёмы псевдовыборок, там так же берутся равными объёму оригинальной выборки.

Прошу помочь разобраться. На что вообще влияет объём псевдовыборки в bootstrap? Ведь технически его легко можно как увеличить, так и уменьшить.

Научный форум dxdy

размер псевдовыборки для bootstrap