2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


В этом разделе нельзя создавать новые темы.

Если Вы хотите задать новый вопрос, то не дописывайте его в существующую тему, а создайте новую в корневом разделе "Помогите решить/разобраться (М)".

Если Вы зададите новый вопрос в существующей теме, то в случае нарушения оформления или других правил форума Ваше сообщение и все ответы на него могут быть удалены без предупреждения.

Не ищите на этом форуме халяву, правила запрещают участникам публиковать готовые решения стандартных учебных задач. Автор вопроса обязан привести свои попытки решения и указать конкретные затруднения.

Обязательно просмотрите тему Правила данного раздела, иначе Ваша тема может быть удалена или перемещена в Карантин, а Вы так и не узнаете, почему.



Начать новую тему Ответить на тему На страницу 1, 2, 3  След.
 
 Гипотеза различия
Сообщение07.05.2014, 10:35 
Аватара пользователя


21/01/09
3926
Дивногорск
Требуется по имеющимся данным по двум совокупностям $[X_1;X_n;\bar{X}]$ и $[Y_1;Y_m;\bar{Y}]$ проверить гипотезу об их отличии друг от друга. Распределение неизвестно. Посоветуйте что-нибудь.

 Профиль  
                  
 
 Re: Гипотеза различия
Сообщение07.05.2014, 10:41 
Заслуженный участник
Аватара пользователя


01/03/06
13626
Москва
Стандартный ответ-ранговый критерий Манна-Уитни.

 Профиль  
                  
 
 Re: Гипотеза различия
Сообщение07.05.2014, 10:46 
Аватара пользователя


21/01/09
3926
Дивногорск
Спасибо, но это не годится. Для каждой совокупности известен лишь набор четырех параметров: минимум, максимум, об"ем и среднее.

 Профиль  
                  
 
 Re: Гипотеза различия
Сообщение07.05.2014, 10:54 
Заслуженный участник
Аватара пользователя


01/03/06
13626
Москва
Тогда только наугад. :D

 Профиль  
                  
 
 Re: Гипотеза различия
Сообщение07.05.2014, 10:58 
Аватара пользователя


21/01/09
3926
Дивногорск
Должно же что-либо быть.

 Профиль  
                  
 
 Re: Гипотеза различия
Сообщение07.05.2014, 12:21 
Заслуженный участник
Аватара пользователя


18/01/13
12065
Казань
Если так рассуждать, то можно сравнивать выборки, например, по названию. "Первая" и "вторая". Или "основная" и "контрольная" - совпадают ли они?
Александрович в сообщении #860115 писал(а):
Должно же что-либо быть.

Если минимум одной выборки больше максимума второй, возникает большое подозрение, что они все-таки не совпадают. 8-)

 Профиль  
                  
 
 Re: Гипотеза различия
Сообщение07.05.2014, 13:46 
Аватара пользователя


21/01/09
3926
Дивногорск
provincialka в сообщении #860130 писал(а):
Если так рассуждать, то можно сравнивать выборки, например, по названию. "Первая" и "вторая". Или "основная" и "контрольная" - совпадают ли они? Ну, должно же что-то быть!

Как это понимать? Вы не знаете или в самом деле ничего не должно быть?

 Профиль  
                  
 
 Re: Гипотеза различия
Сообщение07.05.2014, 14:40 
Заслуженный участник
Аватара пользователя


18/01/13
12065
Казань
Это цитата из вас. Типо юмор. Щас поправлю.

А если серьезно, то не знаю. Но чисто интуитивно минимум и максимум дают весьма мало информации: может, это случайные выбросы. Они же не "улучшаются" с ростом объема выборки.
Другое дело среднее: это, хотя бы, состоятельная оценка и при больших объемах довольно точна.

Впрочем, задача сформулирована нечетко. Что означает, что выборки "отличаются"? Отличаются их средние? Другие параметры? Распределения?

 Профиль  
                  
 
 Re: Гипотеза различия
Сообщение07.05.2014, 19:38 
Заслуженный участник
Аватара пользователя


11/03/08
9967
Москва
Грубая оценка стандартного отклонения - $\sigma=(max-min)/6$
Такое прикидочное значение используется иногда в контроле качества.
Можно попробовать подставить эти оценки в обычный критерий разности матожиданий.
Но надо иметь в виду, что это не "настоящий статистический критерий", а некая грубая прикидка. Причём с неявным предположением, что распределение нормальное, "правило плюс-минус три сигма". Для неизвестного распределения вряд ли что-то можно сказать.

 Профиль  
                  
 
 Re: Гипотеза различия
Сообщение08.05.2014, 01:06 
Аватара пользователя


21/01/09
3926
Дивногорск
provincialka в сообщении #860167 писал(а):
Впрочем, задача сформулирована нечетко. Что означает, что выборки "отличаются"? Отличаются их средние? Другие параметры? Распределения?

Имеется в виду статистически значимое отличие. Например, класс А в количестве $25$ чел. сдали ЕГЭ по математике с результатами: макс. балл - $90$, ср. балл - $70$, мин. балл - $50$. У класса Б в количестве $20$ чел. следующие результаты: макс. балл - $75$, ср. балл - $55$, мин. балл - $35$. Различия обусловлены случайными факторами или у классов разный уровень подготовки?

 Профиль  
                  
 
 Re: Гипотеза различия
Сообщение08.05.2014, 09:21 
Заслуженный участник
Аватара пользователя


18/01/13
12065
Казань
Александрович, вы меня удивляете. Я понимаю, что вам нужны статистически значимые различия. Я спрашиваю между чем и чем? Судя по вашему примеру, все-таки между средними? Или между минимумами/максимумами тоже?
Вы же понимаете, что даже при одинаковых средних распределения оценок могут сильно отличаться, иногда вопрос ставят о всем распределении.
Например, в одном классе при весьма невысоком общем уровне есть пара "вундеркиндов". А в другом - уровень ровный, хотя и повыше, чем у большинства первого класса. При этом среднее значение может совпадать. Какой класс вы будете считать более подготовленным?
Я еще понимаю, если бы вы сравнивали двух учеников, которые пишут несколько тестов. Тут хоть можно разумным образом поставить задачу.

Евгений Машеров вам предложил метод расчета, но он по сути "среднепотолочный". Помните тему «Знаки зодиака»? Там казалось, что в данных есть существенные различия, хотя их не было. Особенно убедительным мне показался статистический эксперимент. Попробуйте проделать аналогичный, выбирая разные предположения о распределении оценок в классе.

 Профиль  
                  
 
 Re: Гипотеза различия
Сообщение08.05.2014, 09:24 
Заслуженный участник
Аватара пользователя


11/03/08
9967
Москва
Для того, чтобы получить статистически значимые отличия, надо куда больше информации. И либо точные предположения о распределениях, либо непараметрические критерии при доступе ко всей выборке. А то, о чём я веду - эмпирический приём, который может навести на мысль, но "статистическим доказательством" не может быть.
$\sigma_A=(90-50)/6=6.67$
$\sigma_B=(75-35)/6=6.67$
Если принять, что на самом деле дисперсии равны, а возможные различия случайны, то для объединённой выборки $\sigma_U=\sqrt{\frac {39\cdot 6.67^2+19\cdot 6.67^2} {40+20-2}}=6.67$ (здесь я механически повторяю вычитание единицы, как если бы дисперсию считал по обычной схеме, через сумму квадратов отклонение от среднего; но я действительно не знаю, как тут правильно, хотя в данном случае, ввиду одинаковости размаха, это ничего не меняет)
$t=\frac {70-55}{6.67 \cdot \sqrt{1/25+1/20}}=7.5$
Для t-критерия это достаточно много, чтобы полагать, что различия есть. Но это не "статистический вывод", это "информация к размышлению". На основе которой можно потребовать проверки работы преподавателя отстающего класса, или попросить преподавателя успевающего класса поделиться опытом. Или обосновать необходимость полноценной проверки, в том числе и с построением "законных" статистических сравнений.
В реальности, если распределение может быть любым, возможен, скажем, вариант, что в классах есть один или несколько "гениев" и один или несколько "дебилов" (попадание которых в данный класс, разумеется, случайно), а остальные учатся совершенно ровно.
Предположим, например, что в классе А есть ровно один "дебил" с 50 баллами, несколько (обозначим Y) "гениев" по 90 и остальные с ровно Х баллами у каждого, суммарно дающие 1750 баллов (для среднего 70). В классе Б есть ровно один "гений" с 75 баллами, несколько (обозначим Z) "дебилов" с 35 баллами и остальные с теми же Х баллами, в сумме 1100 баллов.
Тогда
$50+90Y+X(25-1-Y)=1750$
$35Z+75+X(20-1-Z)=1100$
Соответственно
$X=\frac {1700-90Y}{24-Y}=\frac{1025-35Z}{19-Z}$
Довольно легко подобрать целые значения Y и Z, чтобы левая и правая части равенства были бы близки с точностью до десятых.
То есть численно то же самое, но вывод совершенно иной - преподавание одинаковое, основная масса получила равный уровень знаний, но есть выбросы, вызванные, возможно, комплектованием класса (причём такой разброс может быть вполне случаен)

 Профиль  
                  
 
 Re: Гипотеза различия
Сообщение08.05.2014, 12:42 
Аватара пользователя


21/01/09
3926
Дивногорск
Спасибо всем, кто принял участие в обсуждении поставленной задачи. А теперь ближе к теме. Например речь идёт о тепловизионной диагностике рака молочной железы. На термограмме мы выделяем две области (правая и левая грудь) и программа обработки выдаёт нам только те параметры, о которых я упомянул в первом посте.
Вот здоровая женщина:
Изображение
А вот проблемная:
Изображение.
Как всё-таки по приведённым параметрам проверить гипотезу о различии двух совокупностей?
В данном случае параметры совокупностей это температура.

 Профиль  
                  
 
 Re: Гипотеза различия
Сообщение08.05.2014, 12:52 
Заслуженный участник
Аватара пользователя


18/01/13
12065
Казань
А что, есть только две картинки? Разве не была набрана статистика подобных случаев за предыдущее время?

 Профиль  
                  
 
 Re: Гипотеза различия
Сообщение08.05.2014, 13:01 
Аватара пользователя


21/01/09
3926
Дивногорск
provincialka в сообщении #860539 писал(а):
А что, есть только две картинки?

Это две разные женщины.
provincialka в сообщении #860539 писал(а):
Разве не была набрана статистика подобных случаев за предыдущее время?

Такой информацией не обладаю. Вы, например, каждые три месяца проходите тепловизионное обследование своей груди? Наверняка обратитесь впервые, когда занеможите. Поэтому у врача при первом приёме информация только по различию в параметрах тепловизионного поля вашей правой и левой груди. А различаются ли они, вот в чём вопрос!

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 37 ]  На страницу 1, 2, 3  След.

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group