2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему На страницу Пред.  1, 2, 3, 4, 5
 
 Re: Стьюдент. Зависимые выборки.
Сообщение20.11.2023, 15:11 


27/08/16
10474
Евгений Машеров в сообщении #1618900 писал(а):
У меня вопрос. Вам это, регрессионный анализ и смещённые оценки применительно к нему действительно нужно
Оценивание параметров мне интересно, да, хоть это для меня только изредка используемый инструмент. Я был уверен, что смещённые оценки хуже несмещённых. Но вы написали, что я не прав. Дав ссылку на свою работу. Заглянув в неё я обнаружил, что читать её тяжеловато, но у меня сложилось впечатление, что вы решаете несколько иную задачу, а не задачу оценивания полностью неизвестных неслучайных параметров, неявно введя в пространстве параметров какие-то дополнительные априорные понятия о том, что такое хорошо и что такое плохо. Это априорное знание и делает вашу смещённую оценку предпочтительнее несмещённой. Эту свою гипотезу я и попытался проверить.

-- 20.11.2023, 15:18 --

andreiandrei в сообщении #1618922 писал(а):
Вопрос - хоть про какой-нибудь вывод о средних из этих тестов.
Как известно, средняя взаимная информация не отрицательная, так что, какой-то вывод сделать, конечно, можно. Из предполагаемой симметрии задачи можно сделать вывод, что скорее всего если для $a>c$ тест проходит, а для $b>c$ не проходит, то $a>c$. Но насколько вероятность этого больше $1/2$ - вопрос хороший.

-- 20.11.2023, 15:30 --

andreiandrei в сообщении #1618922 писал(а):
Но если наскребу, считаете, что это может помочь?
Ещё раз: я до конца не понимаю, какую задачу вы решаете. Но обычно, чем больше данных - тем больше информации для обоснованного выбора и тем меньше апостериорная вероятность ошибки. Предельные теоремы работают.

Если же вы перебираете разные гипотезы на одних и тех же данных, то вы попадаете в ловушку переобучения. Рано или поздно вы найдёте гипотезу, идеально соответствующую вашим выборкам, конечно. Эти выборки у вас уже грязные.

-- 20.11.2023, 15:35 --

andreiandrei в сообщении #1618922 писал(а):
Требуется только, чтобы разности были распределены нормально. Нормальность самих выборок при обосновании этого варианта критерия Стьюдента нигде не используется.
Для разностей - да, конечно, достаточно, чтобы они были нормальными. Но вы должны это знать априорно, а не из данных.

-- 20.11.2023, 15:39 --

andreiandrei в сообщении #1618922 писал(а):
Выборки зависимые, они получается из одних и тех же данных, это и в названии темы указано.
В случае зависимых выборок оценка дисперсии в знаменателе теста Стьюдента съезжает.

-- 20.11.2023, 15:57 --

andreiandrei в сообщении #1618922 писал(а):
Определение - это не утверждение, с ним не надо спорить. Это просто определение понятия.
Плохое определение вводит в заблуждение похожестью на совершенно не связанные вещи. Но я оспаривал не то, что это некая вероятность ошибки вообще, а то, что это вероятность вашей ошибки. Это априорная вероятность ошибки в рамках гипотезы, а не апостериорная вероятность вашей ошибки после сделанного вами выбора. Разница может быть существенной, когда вы эту вероятность 0.05 интуитивно начинаете воспринимать как второе. Сначала эти 0.05 превращаются в 0.1 в "типичных" условиях, потом нужно накинуть ещё двоечку чтобы учесть погрешности применения вами теста Стюдента в условиях, на которые он не рассчитан, и в результате ваш риск, что вы всё-таки ошиблись, оказывается, например, $1/5$. Вам самому решать, насколько это приемлемо.

 Профиль  
                  
 
 Re: Стьюдент. Зависимые выборки.
Сообщение20.11.2023, 16:51 


15/03/12
56
realeugene в сообщении #1618934 писал(а):
Как известно, средняя взаимная информация не отрицательная, так что, какой-то вывод сделать, конечно, можно. Из предполагаемой симметрии задачи можно сделать вывод, что скорее всего если для $a>c$ тест проходит, а для $b>c$ не проходит, то $a>c$. Но насколько вероятность этого больше $1/2$ - вопрос хороший.
Какой-то вывод мне нужен про соотношение средних A и B, а не про A и C. Про A и C всё уже есть.

realeugene в сообщении #1618934 писал(а):
Но обычно, чем больше данных - тем больше информации для обоснованного выбора и тем меньше апостериорная вероятность ошибки.
Это да, но я уверен, что напрямую Стьюдент не найдёт различия на разумном уровне значимости, даже если я добавлю ещё 50, эти два алгоритма дают очень близкие средние. Да и нормальность разностей вряд ли появится.

realeugene в сообщении #1618934 писал(а):
Эти выборки у вас уже грязные.
Почему? И в каком смысле?

realeugene в сообщении #1618934 писал(а):
Для разностей - да, конечно, достаточно, чтобы они были нормальными. Но вы должны это знать априорно, а не из данных.
Как это возможно? Ведь нет данных - нет разностей.

 Профиль  
                  
 
 Re: Стьюдент. Зависимые выборки.
Сообщение20.11.2023, 17:00 


27/08/16
10474
andreiandrei в сообщении #1618945 писал(а):
Какой-то вывод мне нужен про соотношение средних A и B, а не про A и C.
Извините, опечатался, можно сделать вывод, что $a>b$. Просто потому, что в условиях симметрии ситуации делать вывод, что $a<b$ странно.

 Профиль  
                  
 
 Re: Стьюдент. Зависимые выборки.
Сообщение20.11.2023, 17:05 


15/03/12
56
realeugene в сообщении #1618946 писал(а):
Извините, опечатался, можно сделать вывод, что $a>b$. Просто потому, что в условиях симметрии ситуации делать вывод, что $a<b$ странно.
Тогда вот как раз хотелось бы получить ответ именно на этот хороший вопрос, как Вы говорите, на сколько вероятность больше 1/2? Ну или даже какое-нибудь менее сильное утверждение получить. Но как вот это сделать?

 Профиль  
                  
 
 Re: Стьюдент. Зависимые выборки.
Сообщение20.11.2023, 17:13 


27/08/16
10474
andreiandrei в сообщении #1618945 писал(а):
Почему? И в каком смысле?

В смысле, что вы их уже использовали, чтобы отвергнуть какие-то гипотезы. А значит, для следующих рассматриваемых вами гипотез условия независимости выборок будут нарушены. Отвергнутый ранее тест вводит какую-то связь между выборками: из полного пространства выборок вырезается часть. Плюс к тому же возрастают риски плохой генерализации.

-- 20.11.2023, 17:20 --

andreiandrei в сообщении #1618945 писал(а):
Как это возможно? Ведь нет данных - нет разностей.
Исходя из модели случайного процесса, порождающего эти выборки. Или из априорного анализа других выборок, порождённых этим же случайным процессом, если только риск ошибки будет достаточно мал. Неуверенность в нормальности размазывает распределение случайной величины, которую вы используете в качестве теста, сравнивая с порогом.

 Профиль  
                  
 
 Re: Стьюдент. Зависимые выборки.
Сообщение20.11.2023, 19:47 


27/08/16
10474
andreiandrei в сообщении #1616880 писал(а):
"среднее A не больше среднего С" отвергается на уровне значимости 0.005, статистика критерия 2.68212, $pvalue=0.004972$
Присмотрелся внимательнее. У вас порог не 0.05, как мне показалось, а 0.005.Апостериорная вероятность 0.02 конечно лучше, чем 0.2. Точно посчитать вероятности в рамках гипотез вам, конечно, уже не получится, да и данных для проверки у вас больше нет, если вам важна точность границы. Но что вам мешает грубо сравнить качество черных ящиков, посчитав того же Стьюдента для ненормальной $a-b$ разности? ЦПТ нам говорит, что каким бы ни было распределение при некоторых дополнительных условиях, которые у вас скорее всего выполняются, его сумма стремится к нормальному, и 50 уже достаточно много отсчётов в сумме. Для 50 степеней свободы распределение Стьюдента уже почти точно нормальное распределение.

 Профиль  
                  
 
 Re: Стьюдент. Зависимые выборки.
Сообщение24.11.2023, 16:58 


15/03/12
56
Сделал бутстрэпом.
p-value получилось 0.4932.
Видимо, это максимум информации об отношении средних, которые можно получить из выборок A и B.

-- 24.11.2023, 17:03 --

Большое спасибо всем за участие и идеи!
А Евгению Машерову ещё особенное спасибо за файл про бутстрэп.
Очень классный метод.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 67 ]  На страницу Пред.  1, 2, 3, 4, 5

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group