Почему связанные выборки называют зависимыми?

give_up · 01.10.2021, 15:58

Определение связанных выборок в большинстве русскоязычных источников по статистике/социологии/эконометрике выглядит примерно так (взял с этого сайта):

"Связанные выборки (зависимые, парные) - каждое наблюдение одной выборки неразрывно связано (находится в паре) с одним из наблюдений другой выборки."

В других источниках дают аналогичные определения и используют термины "связанные выборки", "зависимые выборки", "парные выборки" как взаимозаменяемые синонимы (аналогично, термины "несвязанные выборки" и "независимые выборки" тоже обычно рассматриваются как синонимы). В англоязычных источниках связанные выборки обычно называют "paired samples", а несвязанные выборки - "unpaired samples".

Мой вопрос такой – можно ли называть все связанные выборки зависимыми (в вероятностном смысле, то есть считать их реализациями зависимых случайных векторов)? Если нет, то почему их так называют, ведь это наверняка вызывает путаницу, по крайней мере у студентов, которые изучали теорвер и под зависимостью подразумевают зависимость в вероятностном смысле?

Я считаю, что так делать нельзя и ниже попытаюсь объяснить почему. Определение связанных выборок можно формализовать следующим образом: рассмотрим две случайные величины -

X \sim F_X

и

Y \sim F_Y

. Эти две случайные величины как бы формализуют две генеральные совокупности (популяции). Связанные (парные) выборки - это случайные выборки, в которых эти случайные величины находятся всегда в паре, то есть такие выборки можно записать в виде

(X_1,Y_1), \ldots, (X_n,Y_n)

, где пары

(X_i,Y_i)

не зависят друг от друга и

X_1,\ldots,X_n \overset{\text{iid}}{\sim} F_X, \, Y_1,\ldots,Y_n \overset{\text{iid}}{\sim} F_Y

. Реализацией связанных выборок является набор из

n

пар чисел:

(x_1,y_1), \ldots, (x_n,y_n)

.

Ясно, что связанные выборки могут быть как зависимыми, так и независимыми в вероятностном смысле:
-- Связанные зависимые выборки - это связанные выборки, в которых для любого

i =1,\ldots,n

случайные величины

X_i

и

Y_i

являются зависимыми, то есть

\exists x,y \in \mathbb{R}: F_{X_i,Y_i}(x,y) \neq F_{X_i}(x)F_{Y_i}(y).

Примером здесь будет набор из

n

человек, у каждого из которых была измерена одна и та же характеристика в два разных момента времени, в результате получили набор из

n

пар чисел:

(x_1,y_1), \ldots, (x_n,y_n)

.
-- Связанные независимые выборки - это связанные выборки, в которых для любого

i =1,\ldots,n

случайные величины

X_i

и

Y_i

являются независимыми, то есть

F_{X_i,Y_i}(x,y) = F_{X_i}(x)F_{Y_i}(y), ~\forall x,y \in \mathbb{R}

(ясно также, что из этого условия и из определения связанных выборок сразу получаем статистическую независимость случайных величин

X_i

и

Y_j, ~\forall i,j

). Примером здесь будет набор из

n

человек, у каждого из которых были измерены две совершенно разные, несвязанные между собой характеристики (например, год рождения и пол), в результате получили набор из

n

пар чисел:

(x_1,y_1), \ldots, (x_n,y_n)

. Обычно в этом случае нет смысла сравнивать выборочные средние, но это вовсе не значит, что такие выборки нигде не используются.

Чтобы определить, являются ли рассматриваемые связанные выборки зависимыми или независимыми, можно использовать критерий независимости хи-квадрат (в случае бинарных или категориальных признаков) или критерий, оценивающий значимость отличия корреляции Пирсона от нуля (в случае количественных признаков).

Буду рад замечаниям, если в чем-то неправ...

Евгений Машеров · 01.10.2021, 16:12

Вы впервые столкнулись с омонимией? Есть установившаяся терминология, и даже если она не столь удачна - она общепринята.

give_up · 01.10.2021, 17:14

Евгений Машеров в сообщении #1533496 писал(а):

Вы впервые столкнулись с омонимией? Есть установившаяся терминология, и даже если она не столь удачна - она общепринята.

Не в первый раз, но в точных науках вижу такое редко. И когда сталкиваюсь, стараюсь убедиться, что это именно омонимия. А здесь это не совсем очевидно, потому что примеры, которые приводятся при описании связанных (парных) выборок - это, как правило, связанные и зависимые в вероятностном смысле выборки. И тот факт, что связанные выборки многие авторы называют зависимыми, постоянно используя это слово как синоним, невольно наводит на мысль - а может это и в самом деле синонимы, точнее, что все связанные выборки являются зависимыми в вероятностном смысле, и это я чего-то не понимаю.

P.S.: думаю что не в последнюю очередь из-за таких вот чудных "омонимов" успехи России в области современной матстатистики и находятся где-то около нуля. Руки хочется оторвать тем, кто решил, что фразу "paired samples" следует переводить как "зависимые выборки". Наверняка это сделал какой-нибудь гуманитарий/социолог/биолог, и все за ним стали повторять как попугаи. Ну да ладно...

Евгений Машеров · 01.10.2021, 17:42

Аргумент функции и аргумент комплексного числа, поле, которое векторное и поле, как алгебраическая структура, тело вращения и тело, опять же алгебраическая структура, грань многогранника и верхняя грань, натуральные логарифмы не связаны с натуральными числами, порядок кривой не связан с порядком числа, противоположные события не есть противоположные направления, симметричные распределения не выражаются симметричными функциями, целые функции не целочисленные и т.д. и т.п.
Я уж умолчу, что линейная функция

y=ax+b

не является линейной в смысле

f(x+y)=f(x)+f(y), f(ax)=af(x)

Да, и я сочувствую Вашей заботе об отечественной науке - но в англоязычных учебниках тоже dependent samples...

Евгений Машеров · 01.10.2021, 20:07

Теперь о том, в чём я неправ. В том, что объявляю это наименование чисто случайным совпадением. На самом деле зависимость в таких выборках имеет место и вполне очевидна. Рассмотрим достаточно типичную задачу.
Имеется группа пациентов, которым до начала лечения измерили давление. После курса лечения измерили повторно. Спрашивается, оказало ли лечение действие на давление. У каждого из пациентов был свой привычный уровень давления

p_i

. И значение после курса лечения будет равно

p_i+a+\varepsilon

, где a - эффект лечения, а эпсилон - случайная ошибка. Очевидно, распределение показателя во второй выборке зависит от его значения в соответствующих элементах первой.
Что же до предложения переименовать из зависимых в связанные - помимо затраты сил и времени на переучивание и переписывание возникает совпадение со связанными (tie) рангами в ранговых критериях. То есть избавление от одного источника недоразумений создаёт другой источник.
А переименовывать - занятие столь же захватывающее, сколь и бесполезное. Хотя, конечно, перещеголять того деятеля, который требовал именовать регрессию прогрессией (это же прогрессивный метод, а никак не регресс!) сложновато.

artempalkin · 01.10.2021, 21:58

Цитата:

П р е д о с т е р е ж е н и е. Слово "порядок" в математике многозначно. Мы говорили раньше о квадратных матрицах порядка

n

, но невырожденная матрица

A

, рассматриваемая как элемент группы, имеет также порядок в только что указанном смысле
Кострикин. Основы алгебры

give_up · 01.10.2021, 22:50

Евгений Машеров в сообщении #1533549 писал(а):

Теперь о том, в чём я неправ. В том, что объявляю это наименование чисто случайным совпадением. На самом деле зависимость в таких выборках имеет место и вполне очевидна. Рассмотрим достаточно типичную задачу.
Имеется группа пациентов, которым до начала лечения измерили давление. После курса лечения измерили повторно. Спрашивается, оказало ли лечение действие на давление. У каждого из пациентов был свой привычный уровень давления

p_i

. И значение после курса лечения будет равно

p_i+a+\varepsilon

, где a - эффект лечения, а эпсилон - случайная ошибка. Очевидно, распределение показателя во второй выборке зависит от его значения в соответствующих элементах первой.

Вы измеряете одну и ту же характеристику (давление), но в разные моменты времени. Конечно, такие выборки будут зависимыми в вероятностном смысле, я же об этом явно сказал в своем первом посте, и назвал такие выборки "связанные зависимые выборки". Стандартное определение связанных выборок там тоже приведено, даже два раза. Интересно, Вы мой первый пост хоть дочитали до конца?)

А вот выборки, которые я назвал "связанные независимые выборки" в своем первом посте, не будут зависимыми в вероятностном смысле. Примером таких выборок, повторюсь, будет набор из

n

человек, у каждого из которых были измерены две совершенно разные, несвязанные между собой характеристики (например, год рождения и пол - если сэмплировать случайных людей планеты Земля, то эти признаки вполне можно считать независимыми). Второй пример - набориз

n

случайных автомобилей, у каждого из которых выписали цвет автомобиля и величину пробега. Две полученные в результате выборки тоже можно считать независимыми.

Кстати, сейчас на всякий случай я решил погуглить термин "связанные выборки" на этом форуме, и обнаружил, что этот вопрос уже частично обсуждался в этой теме (см. последнее предложение). Там местные эксперты жаловались на то, что "студенты не могут выделить случай, когда величины "парные", но "независимые" в вероятностном смысле." То есть существование парных независимых выборок в той теме никем не отрицается. И факт наличия проблемы с "омонимией" тоже затрагивается там (посты из второй страницы темы).
Если же на секунду наивно предположить, что все связанные (парные) выборки являются зависимыми, то зачем тогда нужен критерий независимости хи-квадрат (ему на вход можно подать лишь связанные выборки, зачем проверять их на независимость, если они всегда зависимые)?

Напоследок я даже еще один довод приведу на тему того, почему вышеуказанная "омонимия" крайне порочна. Дело не только в том, что связанные выборки могут быть как зависимыми, так и независимыми.
Но еще и в том, что зависимые (с точки зрения теории вероятностей) выборки могут быть вообще непарными (то есть несвязанными). Действительно, всякие два зависимых (с точки зрения теории вероятностей) i.i.d. случайных вектора разных размеров по определению не могут быть парными/связанными (так как у них разный размер). Такие случайные векторы в англоязычной литературе называют partially paired samples или partially unpaired samples.

Евгений Машеров · 02.10.2021, 07:25

Вы придумали казуистический пример и пытаетесь изобрести название специально для него. Данная задача возникла именно в связи с тем, что измеряются связанные между собой показатели, причём их значение зависит как от интересующего нас фактора (до и после лечения), так и от не интересующих нас (и, следовательно, выступающих в роли мешающего фактора) особенностей каждого объекта выборки (привычный уровень давления). Я уж не говорю о том, что значительная часть методов анализа зависимх выборок для Вашего примера с полом и возрастом работать попросту не будет, упёршись в вычисление разности величин различной размерности, другие (ранговые, скажем) формально применимы "а по существу издевательство".
Если Вам так уж нужно особенное название для данного случая - назовите "неизвестно зачем бессмысленно спаренные"

give_up · 02.10.2021, 08:03

Евгений Машеров в сообщении #1533636 писал(а):

Вы придумали казуистический пример и пытаетесь изобрести название специально для него.

Не нравятся мои примеры (я в них взял разнотипные данные лишь для того, чтобы ярче продемонстрировать независимость), тогда откройте любой учебник по матстатистике, в главе про критерий независимости хи-квадрат, и найдете там миллион практических примеров независимых связанных выборок (для бернуллиевских или категориальных выборок). Например, из книги Ивченко: есть таблица сопряженности 2-2, в которой имеются данные о приеме в вуз. Первый признак пол, а второй - результат приема в вуз (зависимость/независимость). Требуется проверить гипотезу о независимости этих (бернуллиевских связанных) выборок. Очевидно, что если они окажутся независимыми, то термин "связанные независимые выборки" будет вполне уместен. При этом применять критерий хи-квадрат, считать корреляцию Мэттьюса (MCC) и прочие штуки можно без проблем и вполне уместно. Это совершенно практическая задача, взятая не из космоса. В общем, называть все связанные (парные/paired/matched) выборки зависимыми - это крайне небрежно, наивно, порочно и порождает путаницу! Но если хотите, то называйте, дело ваше.

Евгений Машеров · 02.10.2021, 11:45

Занятие переименовыванием отличается от онанизма тем, что онанизм иногда бывает полезен, скажем, при заболеваниях простаты, а переименовывание полезно лишь для понтов.
Мы рассматриваем не наблюдения из разных выборок по отдельности, а их пары потому, что, исходя из содержательной постановки задачи, полагаем, что распределение одного из наблюдений пары зависит от значения второго. Эта зависимость может для нас интереса сама по себе не представлять, а являться мешающим параметром, который надо исключить. Именно опираясь на зависимость.

give_up · 02.10.2021, 16:00

Представим, что вы хотите доказать, что некоторая функция, похожая на непрерывную, непрерывна. Из вашей логики можно называть эту функцию (априори) непрерывной (хотя это еще надо доказать, она может и вообще не являться непрерывной). Выборки, которые вы называете зависимыми, могут не быть зависимыми в вероятностном смысле.

Евгений Машеров в сообщении #1533647 писал(а):

Занятие переименовыванием отличается от онанизма тем, что онанизм иногда бывает полезен, скажем, при заболеваниях простаты, а переименовывание полезно лишь для понтов.

Ваша аналогия с онанизмом совершенно неуместна и груба. Вы откуда-то взяли, что все здравомыслящие люди называют парные выборки зависимыми. И любое другое именование таких выборок, по-вашему, исходит от лукавого и является совершенно бесполезным. Так вот, как минимум половина англоязычных авторов, да и русскоязычных авторов, называют такие выборки не зависимыми (dependent samples), а как-то по-другому (связанные, парные, сопряженные, matched, paired). И это неспроста, потому что в некоторых случаях эти выборки не являются зависимыми в вероятностном смысле. Я это уже сто раз показал в предыдущих постах. Именно этим объясняется тот факт, что люди напридумывали такую кучу слов для обозначения таких выборок. Поймите наконец, что у многих людей слово "зависимые выборки" вызывают в первую очередь ассоциацию с зависимостью в вероятностном смысле, а не то, что они являются парными/связанными.
Мой посыл в том, что в тех случаях, когда из контекста не очевидно, что рассматриваемые парные выборки являются зависимыми в вероятностном смысле, их не стоит называть "зависимыми", иначе это может вызвать путаницу (ведь они могут оказаться независимыми в вероятностном смысле). В таких случаях лучше назвать их, например, парными или связанными. Это логично.

Someone · 02.10.2021, 17:12

give_up в сообщении #1533667 писал(а):

Выборки, которые вы называете зависимыми, могут не быть зависимыми в вероятностном смысле.

Независимые выборки в рассматриваемой ситуации являются частным случаем зависимых, точно так же как независимые события — частный случай зависимых, и их независимость может быть априори не очевидна, если только не постулирована в условии задачи. Поэтому запрет называть зависимыми выборки или события, независимость которых ещё должна быть обоснована, приведёт к ненужному усложнению формулировок. Зачем это нужно?

-- Сб окт 02, 2021 17:18:21 --

Для сравнения: квадрат является частным случаем параллелограмма, и запрет называть квадрат параллелограммом приведёт к существенным осложнениям в школьной геометрии.

Евгений Машеров · 02.10.2021, 18:08

Давайте разобьём вопрос на два подвопроса. Надо ли переименовывать, если уже есть установившаяся терминология, и нужно ли вводить особое рассмотрение кортежей из двух элементов, если они статистически независимы.
По первому вопросу я мнение высказал. Предлагать свой собственный термин, запутывая уже пользующихся существующим, есть род самоудовлетворения, не несущий окружающим удовольствия, ни пользы.
По второму - с точки зрения статистической практики необходимость брать наблюдения попарно составляет неудобство и с точки зрения организации сбора данных, и с точки зрения объёма выборки (наблюдения "непарные" выпадают; это конкретный случай из моей практики, как статистика, у доктора не получилось статистически значимой разницы между до и после лечения, поскольку она взяла критерий для сравнения независимых выборок, не желая удалять, кажется, два наблюдения "до", где не измерили "после" и три "после", в которых не измерено было "до", в результате межиндивидуальная изменчивость весь эффект лечения забила - используя же критерий для зависимых, несмотря на сокращение объёма выборки, получено различие на 1% уровне). И оправдывается эта необходимость тем, что наблюдения в паре зависимы через некоторый, вообще говоря, не наблюдаемый нами параметр. Который в нашем исследовании является мешающим, и рассмотрение пар наблюдений и разницы между ними есть способ влияние этого неизвестного нам мешающего параметра элиминировать. Если вдруг такого параметра нет, и наблюдения не являются зависимыми, надобности использовать такой критерий не существует. А если мы его всё же применяем - тем самым мы предполагаем, что такой параметр, одинаковый для наблюдений в паре и различающийся между парами, существует.

give_up · 03.10.2021, 12:54

Евгений Машеров в сообщении #1533674 писал(а):

А если мы его всё же применяем - тем самым мы предполагаем, что такой параметр, одинаковый для наблюдений в паре и различающийся между парами, существует.

Ну вот взяли мы две парных выборки (предположительно зависимых), применили критерий независимости хи-квадрат, и он гипотезу независимости не отверг. Предположим, что мы не хотим сразу выбрасывать эти выборки, а хотим с ними дальше что-то делать. Тогда как-то странно продолжать их называть зависимыми.
Да и использовать формулировки задачи вида "рассмотрите данную пару зависимых выборок и проверьте критерием хи-квадрат являются ли они зависимыми/независимыми" звучат по мне как-то неуклюже. Формулировка "рассмотрите две заданных парных выборки и проверьте критерием хи-квадрат, являются ли они зависимыми/независимыми (в вероятностном смысле)" звучит на мой взгляд нормально, и какого-то усложнения не вызывает, скорее наоборот, все становится кристально ясно, если мы перед этим дали определение парных выборок.

Евгений Машеров · 03.10.2021, 13:39

Я, кажется, понял причину Вашего непонимания. Вы полагаете, что прилагательные "зависимые" и "независимые" относятся к переменным. А они относятся к выборкам.
При независимых выборках попадание элемента генеральной совокупности в выборку по второй переменной не зависит от элементов первой выборки. А если мы рассматриваем пары, тройки и т.п. наблюдений на одной и той же выборке - попадание элемента в выборку по второму параметру зависит от его наличия в выборке по первому.
Поэтому "зависимые выборки" и "зависимые переменные" это понятия разных логических рядов. Если, исследуя зависимую выборку, мы показали независимость переменных - никакого противоречия не возникает.

Научный форум dxdy

Почему связанные выборки называют зависимыми?