Определение связанных выборок в большинстве русскоязычных источников по статистике/социологии/эконометрике выглядит примерно так (взял с этого
сайта):
"Связанные выборки (зависимые, парные) - каждое наблюдение одной выборки неразрывно связано (находится в паре) с одним из наблюдений другой выборки."
В других источниках дают аналогичные определения и используют термины "связанные выборки", "зависимые выборки", "парные выборки" как взаимозаменяемые синонимы (
аналогично, термины "несвязанные выборки" и "независимые выборки" тоже обычно рассматриваются как синонимы). В англоязычных источниках связанные выборки обычно называют "paired samples", а несвязанные выборки - "unpaired samples".
Мой вопрос такой – можно ли называть все связанные выборки зависимыми (в вероятностном смысле, то есть считать их реализациями зависимых случайных векторов)? Если нет, то почему их так называют, ведь это наверняка вызывает путаницу, по крайней мере у студентов, которые изучали теорвер и под зависимостью подразумевают зависимость в вероятностном смысле? Я считаю, что так делать нельзя и ниже попытаюсь объяснить почему. Определение связанных выборок можно формализовать следующим образом: рассмотрим две случайные величины -
и
. Эти две случайные величины как бы формализуют две генеральные совокупности (популяции). Связанные (парные) выборки - это случайные выборки, в которых эти случайные величины находятся всегда в паре, то есть такие выборки можно записать в виде
, где пары
не зависят друг от друга и
. Реализацией связанных выборок является набор из
пар чисел:
.
Ясно, что связанные выборки могут быть как зависимыми, так и независимыми в вероятностном смысле:
--
Связанные зависимые выборки - это связанные выборки, в которых для любого
случайные величины
и
являются зависимыми, то есть
Примером здесь будет набор из
человек, у каждого из которых была измерена одна и та же характеристика в два разных момента времени, в результате получили набор из
пар чисел:
.
--
Связанные независимые выборки - это связанные выборки, в которых для любого
случайные величины
и
являются независимыми, то есть
(ясно также, что из этого условия и из определения связанных выборок сразу получаем статистическую независимость случайных величин
и
). Примером здесь будет набор из
человек, у каждого из которых были измерены две совершенно разные, несвязанные между собой характеристики (например, год рождения и пол), в результате получили набор из
пар чисел:
. Обычно в этом случае нет смысла сравнивать выборочные средние, но это вовсе не значит, что такие выборки нигде не используются.
Чтобы определить, являются ли рассматриваемые связанные выборки зависимыми или независимыми, можно использовать критерий независимости хи-квадрат (в случае бинарных или категориальных признаков) или критерий, оценивающий значимость отличия корреляции Пирсона от нуля (в случае количественных признаков).
Буду рад замечаниям, если в чем-то неправ...