2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




На страницу Пред.  1, 2, 3
 
 Re: Гипотеза различия
Сообщение11.05.2014, 03:53 
Аватара пользователя
Я понял так. Нужно всем элементам выборки присвоить $X_{\min}$ или $X_{\max}$ в такой пропорции чтобы среднее значение осталось тем же. Объёмы около 400.

 
 
 
 Re: Гипотеза различия
Сообщение11.05.2014, 21:45 
Аватара пользователя
Вот (пока не имею возможности помоделировать методом Монте-Карло) положим, что у нас 400 нормально распределённых величин с нулевым средним и единичной дисперсией.
Для грубой оценки примем, что максимум и минимум равны трём сигмам, а среднее равно матожиданию, то есть нулю.
Тогда "разгонка" сведётся к формированию выборки из равного числа величин +3 и -3, сумма их квадратов равна 3600, средний квадрат 9, оценка дисперсии завышена в 9 раз, СКО "всего лишь" втрое.
Подход крайне сомнителен.

 
 
 
 Re: Гипотеза различия
Сообщение12.05.2014, 15:37 
Аватара пользователя
Ну, вот помонтекарлил. Две выборки по 400 точек, нормально распределённые, вычисляется среднее, максимум и минимум. Затем оценивается СКО (через максимум-минимум и предложенным Гуру способом, второй даёт примерно втрое большие значения). Первая выборка имеет исходно нулевое матожидание и единичную дисперсию, у второй матожидание сдвинуто на h при той же дисперсии. Расчёт сделан при разных h, от 0 (где нахождение различий есть ошибка, при заданном уровне с вероятностью 5%) до 0.5 с шагом 0.1 (где метод должен замечать различия).
Код:
h          P1         P2
0      3.1%     0%
0.1   28.9%    0%
0.2   74.6%    0%
0.3   98.4%   6.6%
0.4   100%   51.6%
0.5   100%   93.0%

То есть предложенный мной вариант ведёт разумно, а "от Гуру" подслеповат, начинает замечать различия, когда они втрое выше, чем замечаемые обычным способом. Можно, конечно, высказать претензию, что сильно используется презумпция нормальности - но предложенные Гуру критерии тоже на неё опираются. При том, что наиболее опасный вид ненормальности - "тяжёлые хвосты", а при них минимум и максимум статистики крайне неинформативные.

 
 
 
 Re: Гипотеза различия
Сообщение13.05.2014, 05:20 
Аватара пользователя
Евгений Машеров
, спасибо за проделанную работу! В самом деле во втором случае берется максимальная оценка дисперсии и уж если при таком раскладе гипотеза об отсутствии сдвига не подтверждается, то он железно присутствует. Ошибка первого рода исключена. Реальные плотности распределения в самом деле далеки от классических, как правило это смеси нескольких распределений. И как считать дисперсию по размаху вопрос интересный.

 
 
 
 Re: Гипотеза различия
Сообщение13.05.2014, 06:24 
Аватара пользователя
Александрович в сообщении #862497 писал(а):
Ошибка первого рода исключена
Ну, не совсем. Возможно, вы просто "не добрались" до истинных максимума и минимума. И при увеличении выборки они резко увеличатся/уменьшатся.

 
 
 
 Re: Гипотеза различия
Сообщение13.05.2014, 06:36 
Аватара пользователя
Реальные распределения как правило ограниченные.

 
 
 
 Re: Гипотеза различия
Сообщение13.05.2014, 07:51 
Аватара пользователя
Тогда уж проще ввести "коэффициент перестраховки", увеличивая дисперсию. Эффект тот же, но, по крайней мере, ясно, что это не "по науке", а просто паникуем.

Что же до конкретной задачи - брать сигнал с симметричного и полагаемого здоровым органа за норму, с которой и сравнивать разумно, а оценивать возможную дисперсию по максимуму и минимуму в данной точке - нет.
Правильное решение - набрать группу здоровых испытуемых и посчитать дисперсию разности сигнала в каждой точке по группе. Трудоёмкое, да. Но честное.

-- 13 май 2014, 08:30 --

Да, и уточню, что в каждом эксперименте было 256 реализаций. Для качественной оценки достаточно, а вообще надо бы побольше, но времени жаль. Поэтому при h=0 3.1%, а не теоретические 5%.
Но вообще среднее и дисперсия это естественные характеристики нормального распределения, то есть если мы пользуемся ими - мы принимаем "презумпцию нормальности". Если сильно боимся ненормальности - то либо исследуем распределение, находим более подходящее (возможно, смесь распределений), выбираем характеризующие его параметры и строим критерий, исходя из такого распределения. Ну, или пользуемся непараметрическими методами (но тогда желательно иметь вариационный ряд, а не посчитанные по нему параметры).

 
 
 [ Сообщений: 37 ]  На страницу Пред.  1, 2, 3


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group