2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему На страницу 1, 2  След.
 
 Объединение выборок
Сообщение04.07.2023, 18:47 


15/03/12
56
Помогите, пожалуйста, решить / разобраться.
Есть 4 выборки объёмом 100, 130, 160 и 190 из разных нормально распределённых генеральных совокупностей.
Средние и дисперсии этих генеральных совокупностей неизвестны.
Нужно объединить эти выборки так, чтобы это объединение можно было рассматривать как выборку из нормально распределённой генеральной совокупности с нулевым средним?

Проблема в том, что объём выборок небольшой, выборочные средние вычисляются с большой ошибкой, и,
поэтому, просто вычитать эти выборочные средние из вариант соответствующих выборок наверно неправильно.
Подскажите, пожалуйста, как это можно сделать наиболее правильно (точно)?

 Профиль  
                  
 
 Re: Объединение выборок
Сообщение04.07.2023, 19:21 
Заслуженный участник
Аватара пользователя


23/07/08
10909
Crna Gora
andreiandrei в сообщении #1599845 писал(а):
просто вычитать эти выборочные средние из вариант соответствующих выборок наверно неправильно
Предположим, что выборки огромные и средние известны точно. Даже в этом идеальном случае только вычитания средних было бы недостаточно, ведь могут быть разными дисперсии. И если просто объединить две такие выборки (уже после вычитания), можно получить, например, такое распределение, далёкое от нормального:
Изображение

 Профиль  
                  
 
 Re: Объединение выборок
Сообщение04.07.2023, 21:25 
Заслуженный участник
Аватара пользователя


11/03/08
9904
Москва
А можно уточнить задачу? Может быть, там вовсе не нужно объединять?

 Профиль  
                  
 
 Re: Объединение выборок
Сообщение04.07.2023, 21:41 
Заслуженный участник
Аватара пользователя


30/01/09
7068
andreiandrei в сообщении #1599845 писал(а):
Нужно объединить эти выборки так, чтобы ...

А что, объединять выборки можно по-разному?

 Профиль  
                  
 
 Re: Объединение выборок
Сообщение05.07.2023, 02:17 
Аватара пользователя


21/01/09
3925
Дивногорск
andreiandrei в сообщении #1599845 писал(а):
Есть 4 выборки объёмом 100, 130, 160 и 190 из разных нормально распределённых генеральных совокупностей.
Средние и дисперсии этих генеральных совокупностей неизвестны.
Подскажите, пожалуйста, как это можно сделать наиболее правильно (точно)?

andreiandrei в сообщении #1599845 писал(а):
Проблема в том, что объём выборок небольшой, выборочные средние вычисляются с большой ошибкой, и,
поэтому, просто вычитать эти выборочные средние из вариант соответствующих выборок наверно неправильно.
Подскажите, пожалуйста, как это можно сделать наиболее правильно (точно)?

Выборки немалые, можно проверять гипотезы о равенстве средних и дисперсий, о наличии выбросов, принадлежности к одной ГС.

 Профиль  
                  
 
 Re: Объединение выборок
Сообщение05.07.2023, 10:08 
Заслуженный участник
Аватара пользователя


11/03/08
9904
Москва
Для начала - надо понять, что обозначается словами "объединить выборки". И для начала разобраться с целью исследования. Если "объединить" понимается в самом наивном и буквальном смысле - сложить все наблюдения в одну корзину и рассматривать, как единую выборку, то ответ прост. Проверяем различия распределения в подвыборках, если они разные - ничего объединять нельзя. А если очень хочется - то тоже не стоит, а использовать нормальное распределение и вовсе невозможно. Хотя если нет различий в матожиданиях, то можно попытаться работать с объединённой выборкой непараметрическими методами (пример, когда различие дисперсий убивает нормальность, уже привели выше).
Если "объединить" понимается, как использовать в исследовании данные разных экспериментов или даже разных исследователей, то тут стоит усложнить модель, введя зависимость параметров от подвыборки. Это тема очень обширной области исследований, "метаанализ". Как именно - надо знать конкретику исследования.

 Профиль  
                  
 
 Re: Объединение выборок
Сообщение05.07.2023, 12:02 
Заслуженный участник
Аватара пользователя


11/03/08
9904
Москва
мат-ламер в сообщении #1599911 писал(а):
А что, объединять выборки можно по-разному?


Если речь о том, что именно "объединить", то да, всё тривиально, в один стакан, "смешать, но не взбалтывать". Но если, как кажется, речь об объединении информации, содержащейся в выборках, то всё усложняется.
Даже для простейшего случая, когда нужно оценить матожидание, не всё просто.
Если распределение выборок различно - объединять их нельзя. Что можно? Определив, что матожидания значимо различаются, надо выяснить причину сего. Ни в коем случае не "вводить поправку, исходя из выборочных средних", это удобный приём фальсификации данных, и только. Решение должно опираться на внестатистические аргументы, статистика лишь инструмент. В частности, может оказаться, что часть выборок согласуется меж собой, а некоторые выпадают. И нужно искать причину. Возможно, допущена грубая методическая ошибка (скажем, в данные по людям попали данные по мышам). Возможно, выборки все правильные, но инструменты имеют систематическую ошибку. В этом случае следует запросить поверку инструментов, определить систематическую ошибку и скорректировать данные, возможно, в этом случае они окажутся согласованы. Совершенно особый случай, где статистик едва ли не превращается в полицейского - если одна или несколько из выборок поддельные, или возможен случай, когда данные реальны, но редактированы (например, отброшены самые большие, или самые маленькие; тут исследователь может быть субъективно честен, но данные всё равно врут, поскольку признавал он их ошибочными, руководствуясь своей теорией). На этот случай разработаны приёмы анализа, но их много, отошлю к курсам мета-анализа. Например, "диаграмма-воронка", оценка параметра по горизонтали, обратная стандартная ошибка по вертикали
Изображение
"Честное исследование", сильные отклонения у исследований с высокой ошибкой (по инструментальным причинам ли, или по малости выборки). По-видимому, параметр от нуля не отличается.
Изображение
По всей видимости, исследования, дававшие положительные значения параметра, отбрасывались или хотя бы не публиковались. При объединении создастся впечатление, что параметр отрицателен, и будут сделаны содержательные выводы, хотя основание для них - произвол исследователя и/или публикатора.

Если (сразу, или после коррекции на основе дополнительной информации) матожидания согласуются, а дисперсии различны, объединять выборки всё равно нельзя. Однако можно объединить оценки, используя взвешенное среднее их, с весами, обратными дисперсиям оценок (но если оценки дисперсий вычислены по самим выборкам - распределение оценки уже не будет нормальным, будет сумма распределений Стьюдента, хотя в большинстве практических случаев нормальная аппроксимация удовлетворительна).

Ещё более усложняется вопрос, если выборки содержат многомерную информацию. Без подробной постановки задачи дать полезный совет нереально.

(Оффтоп)

Без внятного ТЗ результат ХЗ

 Профиль  
                  
 
 Re: Объединение выборок
Сообщение05.07.2023, 12:23 


15/03/12
56
svv в сообщении #1599855 писал(а):
andreiandrei в сообщении #1599845 писал(а):
просто вычитать эти выборочные средние из вариант соответствующих выборок наверно неправильно
Предположим, что выборки огромные и средние известны точно. Даже в этом идеальном случае только вычитания средних было бы недостаточно, ведь могут быть разными дисперсии.

Да, Вы правы. Спасибо.

-- 05.07.2023, 13:10 --

Евгений Машеров в сообщении #1599945 писал(а):
Если "объединить" понимается, как использовать в исследовании данные разных экспериментов или даже разных исследователей, то тут стоит усложнить модель, введя зависимость параметров от подвыборки. Это тема очень обширной области исследований, "метаанализ". Как именно - надо знать конкретику исследования.

Да, примерно это.
Напишу тогда подробнее, если можно.
Есть данные. Используя разные алгоритмы обработки этих данных, можно получать результирующие выборки (из нормально распределённых генеральных совокупностей).
Цель - использовать такой алгоритм, чтоб дисперсия была как можно меньше.
Но на маленьком объёме выборки различие дисперсии (в зависимости от применённого алгоритма) трудноопределимо.
Если бы объёмы выборок были большими, то тогда этой проблемы не возникло бы совсем.
Но из этих данных мы можем получать только относительно небольшие выборки, в которых ошибка определения дисперсии достаточно большая.
Таких выборок много, с разными средними и дисперсиями. (Сами по себе средние не важны.)
Вот и пришла идея их как-то объединить. Был бы очень благодарен за помощь или совет.

 Профиль  
                  
 
 Re: Объединение выборок
Сообщение05.07.2023, 13:35 
Заслуженный участник
Аватара пользователя


11/03/08
9904
Москва
Ну, я бы по-другому подходил бы. На каждой выборке и с каждым алгоритмом считал бы дисперсию, и затем что-то вроде ANOVA, факторы - выборка (мешающий) и алгоритм (интересующий).

 Профиль  
                  
 
 Re: Объединение выборок
Сообщение05.07.2023, 17:01 


15/03/12
56
Евгений Машеров в сообщении #1599967 писал(а):
Ну, я бы по-другому подходил бы. На каждой выборке и с каждым алгоритмом считал бы дисперсию, и затем что-то вроде ANOVA, факторы - выборка (мешающий) и алгоритм (интересующий).

Кажется хорошей идеей, попробую.
Большое спасибо!

 Профиль  
                  
 
 Re: Объединение выборок
Сообщение05.07.2023, 19:44 
Заслуженный участник
Аватара пользователя


11/03/08
9904
Москва
И, может быть, в качестве нормализующего преобразования логарифмировать.

 Профиль  
                  
 
 Re: Объединение выборок
Сообщение13.07.2023, 14:47 


15/03/12
56
Евгений Машеров в сообщении #1600028 писал(а):
И, может быть, в качестве нормализующего преобразования логарифмировать.

Что-то никак не могу понять, почему распределение дисперсий этих выборок можно считать логнормальным распределением.
Не подскажете, пожалуйста, в какую сторону думать, или почитать где-нибудь?

 Профиль  
                  
 
 Re: Объединение выборок
Сообщение13.07.2023, 15:39 
Заслуженный участник
Аватара пользователя


11/03/08
9904
Москва
Распределение дисперсий скорее хи-квадрат. Оно не логнормальное, но в определённом смысле ближе к логнормальному, чем к нормальному. Они оба асимметричны и с положительным эксцессом. При этом истинное значение дисперсии становится аддитивным параметром, что для ANOVA явно лучше.
Это популярный эмпирический приём - "видишь существенно положительную величину - логарифмируй"

 Профиль  
                  
 
 Re: Объединение выборок
Сообщение13.07.2023, 16:46 


15/03/12
56
Евгений Машеров в сообщении #1600841 писал(а):
Распределение дисперсий скорее хи-квадрат. Оно не логнормальное, но в определённом смысле ближе к логнормальному, чем к нормальному. Они оба асимметричны и с положительным эксцессом. При этом истинное значение дисперсии становится аддитивным параметром, что для ANOVA явно лучше.
Это популярный эмпирический приём - "видишь существенно положительную величину - логарифмируй"

Правильно ли я понимаю, что после логарифмирования необходимо сначала проверить получившееся распределение на нормальность,
затем составить дисперсионное отношение Фишера, и, с помощью критерия Фишера, сказать,
что на таком-то (заданном) уровне значимости гипотеза о том, что средняя (по выборкам) дисперсия не зависит от алгоритмов, отвергается?

Или, может быть, не обязательно, чтоб после логарифмирования распределение было очень близко к нормальному, а надо обосновывать, что распределение Фишера устойчиво
к данному отклонению от нормальности?

Или ещё как-то?
Как поступить наиболее правильно?

Ещё раз огромное Вам спасибо за ясные ответы по существу.

 Профиль  
                  
 
 Re: Объединение выборок
Сообщение14.07.2023, 01:22 
Аватара пользователя


21/01/09
3925
Дивногорск
andreiandrei в сообщении #1599845 писал(а):
Есть 4 выборки объёмом 100, 130, 160 и 190 из разных нормально распределённых генеральных совокупностей.
А можно на эти выборки глянуть?

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 28 ]  На страницу 1, 2  След.

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group