Почему связанные выборки называют зависимыми?

give_up · 21/03/11 200

Евгений Машеров в сообщении #1533760 писал(а):

Я, кажется, понял причину Вашего непонимания. Вы полагаете, что прилагательные "зависимые" и "независимые" относятся к переменным. А они относятся к выборкам.
При независимых выборках попадание элемента генеральной совокупности в выборку по второй переменной не зависит от элементов первой выборки. А если мы рассматриваем пары, тройки и т.п. наблюдений на одной и той же выборке - попадание элемента в выборку по второму параметру зависит от его наличия в выборке по первому.
Поэтому "зависимые выборки" и "зависимые переменные" это понятия разных логических рядов. Если, исследуя зависимую выборку, мы показали независимость переменных - никакого противоречия не возникает.

Да, при таком подходе противоречия не возникает.

Вообще, в курсах математической статистики частенько вбрасывают термины из теории сэмплирования (sampling theory), никак не оговаривая, что ко многим понятиям из матстатистики (например, статистической зависимости переменных) они прямого отношения не имеют. При этом в них частенько дают определение термина "выборка" через термины матстатистики (случайные величины и прочее), а затем в середине курса вводят всякие термины вида "зависимая выборка", "простая выборка", "стратифицированная выборка", которые основаны на понятии числовой выборки из конечной популяции из теории сэмплирования. К счастью, когда я изучал статистику в универе, то лектор использовал термин "парные выборки", и у меня вопросов не было - было как-то сразу ясно, что это термин из теории сэмплирования.
К некоторому запутыванию приводит еще тот факт, что "зависимые выборки" можно рассматривать как выборки, порожденные "зависимыми переменными" в 90% случаев. Возникает большой соблазн ошибочно отождествить эти понятия (считать, что все зависимые выборки порождены зависимыми случайными величинами). Так что я пожалуй останусь при своем мнении, что термин "парные выборки" или "связанные выборки" более удобный. Да и в англоязычных источниках термин "paired samples" сейчас встречается в 8 раз чаще, чем фраза "dependent samples" (легко проверяется гуглом - по термину paired samples находится в 8 раз больше ссылок, чем по термину "dependent samples"). Так что его можно считать более общепринятым. В русскоязычных источниках термин "зависимые выборки" пока слегка опережает по частоте упоминаний термин "связанные выборки" и "парные выборки", но эта ситуация скорее всего изменится уже через несколько лет (сейчас народ все больше статей пишет на английском и перенимает термины оттуда, и правильно делает).

Кстати, сразу вспомнился пример, когда в матстатистике и в теории сэмплирования используют одинаковый термин с несколько разными значениями (вредная омонимия). Например, в ([url]http://www.machinelearning.ru/wiki/index.php?title=Выборка#.D0.9F.D1.80.D0.BE.D1.81.D1.82.D0.B0.D1.8F_.D0.B2.D1.8B.D0.B1.D0.BE.D1.80.D0.BA.D0.B0[/url]) термин "простая выборка" определен как i.i.d. выборка случайных величин (я встречал такое еще в нескольких источниках, в том числе в учебниках топовых московских вузов).
Тогда как в теории сэмплирования простая выборка - это "разновидность случайной выборки, отбор объектов в которую производится непосредственно из всей массы объектов генеральной совокупности в форме случайного отбора, при котором каждому объекту генеральной совокупности обеспечивается одинаковая вероятность быть выбранным." При этом, как правило, выбор делается без возвращения, то есть если размер популяции небольшой, то такую числовую выборку даже нельзя считать аппроксимацией реализации i.i.d. выборки случайных величин.

Евгений Машеров · 11/03/08 10232 Москва

Термин "связанные" мне не нравится тем, что возникает путаница со "связанными рангами". "Парные" такой коллизии, АФАИК, не вызывают, но любая замена термина порождает путаницу. А поскольку любой термин "иероглифичен", то есть несёт содержание, не сводимое к его буквальной трактовке, то расшифровывать надо будет и "парные", так что выгоды от кампании по замене не вижу.

give_up · 21/03/11 200

Евгений Машеров в сообщении #1533760 писал(а):

При независимых выборках попадание элемента генеральной совокупности в выборку по второй переменной не зависит от элементов первой выборки.

Перед там как оставить эту тему, хочу напоследок спросить - а используются ли в реальной практике независимые выборки $(x_1,\ldots,x_n)$ и $(y_1,\ldots,y_m)$ (определенные согласно процитированному определению), которые можно считать реализациями зависимых (в вероятностном смысле) случайных величин $X$ и $Y$ ?

Насколько я помню, при выводе всех критериев для независимых выборок (двухвыборочный критерий Стьюдента, все критерии однородности выборок, и др.) делается предположение, что породившие выборки $(x_1,\ldots,x_n)$ и $(y_1,\ldots,y_m)$ случайные величины $X_1,\ldots,X_n, Y_1,\ldots,Y_m$ являются независимыми в совокупности (в вероятностном смысле). Следовательно, использование этих критериев для выборок, порожденных зависимыми случайными величинами $X$ и $Y$ , выглядит некорректным.

Евгений Машеров · 11/03/08 10232 Москва

Такие выборки существуют, только как их анализировать - не вполне ясно.
Актуальный пример - надо оценить эффективность прививки, разбив группу добровольцев-испытуемых на прививаемую и контрольную выборки. Понятно, что особенности организма влияют на вероятность заболеть, но оценить заболеваемость на одном и том же человеке, привитом и не привитом, невозможно. Стандартный приём, рандомизация, не уничтожает зависимость от свойств организма, но превращает закономерное влияние в случайное, позволяя верить в "независимость". Другой подход, формирование выборки из пар разных, но максимально близких по предположительно влияющим параметрам, объектов, применяется эмпирически, поскольку теоретические свойства неопределены.
Другой пример (увы, не могу вспомнить точную ссылку, даже не уверен, что статья в Technometrics) - задача оценки прочности балок на два разных вида нагрузки. Очевидно, определить нагрузку, при которой данная балка разрушается, можно лишь для одного вида нагрузки, а задача ставилась - есть ли корреляция между предельными нагрузками. Была использована техника анализа цензурованных данных, давалась рандомизированная нагрузка одного вида, и если балка не ломалась, определялась нагрузка другого вида, ломающая балку. Подвыборки сломанных одной и другой нагрузкой балок не пересекаются.

Научный форум dxdy

Правила форума

Почему связанные выборки называют зависимыми?

Кто сейчас на конференции