2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему На страницу 1, 2  След.
 
 Проверка гипотезы при скошенном распределении
Сообщение20.04.2023, 02:49 


19/04/23
7
Доброго времени суток.

При выполнении лабораторной работы столкнулся с некоторыми сложностями.
Задание: есть таблица формата .csv, в которой содержаzтся данные о возрасте жителей разных регионов Великобритании (9 регионов по 1000 человек). Необходимо взяв первую половину таблицы, построить гипотезу и нулевую гипотезу к ней. После этого, используя вторую половину таблицы опровергнуть или не опровергнуть нулевую гипотезу.
H1: средний возраст жителей Лондона ниже, чем средний национальный возраст в Великобритании.
H0: нет значительной разницы в возрасте людей, проживающих в Лондоне, и средним национальным.
Собирался использовать z-тест для проверки гипотезы, но проблема заключается в том, что во всех примерах в лекциях, данные могли быть приведены к нормальному распределению (используя Центральную предельную теорему). Но ведь подобное не применимо к возрасту, так как он не может быть отрицательным. Средний возраст во второй выборке (по которой и происходит проверка) 39.57 лет, среднеквадратическое отклонение 23.328 (оно получено из второй выборки, основываясь на том, что людей достаточно много, чтобы сказать, что отклонения являются такими же, как и в генеральной совокупности). При попытке привести к нормальному распределению, становится ясно, что распределение будет скошено вправо. При подсчёте значения z,
используя формулу $$z=\frac{\mu_{2}-\mu_{1}}{\sqrt{\frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}}}$$, где mu2 - средний возраст в Лондоне (36.764), mu1 - в Великобритании (39.57), среднеквадратичные отклонения 23.238, n1 - кол-во жителей с Лондона(500), n1 - общее количество жителей(4500)
оно оказалось -2.554 сигмы, но это значение явно находится за пределами возможных значений. Была идея взять z=2.554, но ведь распределение не симметричное.

Что делать в сложившейся ситуации? Подходит ли z-тест вообще в таком случае и насколько может быть искажен результат? Что можно использовать вместо z-теста при таком распределении? (уровень не очень продвинутый, как можно было понять из вопроса). Если что-то изложено не очень ясно, то без каких-либо проблем спрашивайте
Заранее большое спасибо всем, кто сможет чем-либо помочь.

-- 19.04.2023, 23:51 --
https://imgur.com/a/Fw0gJH3 - ссылка на то, как выглядит распределение.

 Профиль  
                  
 
 Re: Проверка гипотезы при скошенном распределении
Сообщение20.04.2023, 03:43 
Аватара пользователя


21/01/09
3927
Дивногорск
d4k3rz в сообщении #1590382 писал(а):
ссылка на то, как выглядит распределение.
Похоже на ограниченное (усечённое)нормальное распределение.

-- Чт апр 20, 2023 07:59:24 --

d4k3rz в сообщении #1590382 писал(а):
Что делать в сложившейся ситуации?

Применить критерий Манна-Уитни-Вилкоксона.

 Профиль  
                  
 
 Re: Проверка гипотезы при скошенном распределении
Сообщение20.04.2023, 13:47 
Заслуженный участник
Аватара пользователя


30/01/09
7139
d4k3rz в сообщении #1590382 писал(а):
https://imgur.com/a/Fw0gJH3
- ссылка на то, как выглядит распределение.

График выглядит весьма подозрительно. Что показывает вертикальная ось?

 Профиль  
                  
 
 Re: Проверка гипотезы при скошенном распределении
Сообщение20.04.2023, 16:24 


19/04/23
7
мат-ламер в сообщении #1590419 писал(а):
d4k3rz в сообщении #1590382 писал(а):
https://imgur.com/a/Fw0gJH3
- ссылка на то, как выглядит распределение.

График выглядит весьма подозрительно. Что показывает вертикальная ось?

Если я правильно понимаю, то это вероятность (проверял через интегрирование, площадь под кривой равна 1).

 Профиль  
                  
 
 Re: Проверка гипотезы при скошенном распределении
Сообщение20.04.2023, 16:38 
Заслуженный участник
Аватара пользователя


30/01/09
7139
d4k3rz в сообщении #1590438 писал(а):
Если я правильно понимаю, то это вероятность (проверял через интегрирование, площадь под кривой равна 1).

Вероятность чего?

 Профиль  
                  
 
 Re: Проверка гипотезы при скошенном распределении
Сообщение20.04.2023, 16:43 


19/04/23
7
мат-ламер в сообщении #1590440 писал(а):
d4k3rz в сообщении #1590438 писал(а):
Если я правильно понимаю, то это вероятность (проверял через интегрирование, площадь под кривой равна 1).

Вероятность чего?

Вероятность того, что случайно взятый из 9000 человек окажется конкретного возраста (возраст определяется по оси абсцисс).

 Профиль  
                  
 
 Re: Проверка гипотезы при скошенном распределении
Сообщение20.04.2023, 16:45 
Аватара пользователя


22/11/22
676
мат-ламер
Гистограмма это. Нереальная.
d4k3rz
Не бывает таких возрастных данных. Откуда наберется толпа сорокалетних, при практически нулевой рождаемости - даже если предположить, что основное трудоспособное население этой страны - иммигранты?
В основном диапазоне данные чуть ли не равномерны.
https://disk.yandex.ru/d/6pr1TQ6fbdgcqQ
Данные на 2011 год.

 Профиль  
                  
 
 Re: Проверка гипотезы при скошенном распределении
Сообщение20.04.2023, 16:54 


19/04/23
7
Combat Zone в сообщении #1590442 писал(а):
мат-ламер
Гистограмма это. Нереальная.
d4k3rz
Не бывает таких возрастных данных. Откуда наберется толпа сорокалетних, при практически нулевой рождаемости - даже если предположить, что основное трудоспособное население этой страны - иммигранты?
В основном диапазоне данные чуть ли не равномерны.
https://disk.yandex.ru/d/6pr1TQ6fbdgcqQ
Данные на 2011 год.

Да я честно говоря сам не знаю, не я ведь собирал данные, может просто выборка такая попалась (таблицу составлял наш профессор, основываясь на какой-то другой статистике. А в открытом доступе таблицы нигде нет). Моя задача-то состоит в том, чтобы с этими данными составить гипотезу и опровергнуть/не опровергнуть нулевую гипотезу. Но, как я уже раньше писал, возраст отрицательным быть не может, поэтому стандартные способы, которые нам показывали ранее, если я правильно понимаю, не подходят. С этим и не мог нормально разобраться, сейчас читаю про предложенный вариант использования критерия Манна-Уитни-Вилкоксона.

 Профиль  
                  
 
 Re: Проверка гипотезы при скошенном распределении
Сообщение20.04.2023, 18:17 
Аватара пользователя


22/11/22
676
d4k3rz в сообщении #1590443 писал(а):
А в открытом доступе таблицы нигде нет)

Все там есть. В открытом доступе. И если воспользоваться их данными, то по Лондону они будут выглядеть так (перепись 2021 года)
https://disk.yandex.ru/i/NuFRQe0onx7nfA Это совсем непохоже на то, что у вас.
По остальным регионам и Уэльсу данные тоже есть. Пользуйтесь.
Ваша https://www.ons.gov.uk/

А как притянуть за уши одну половину задачи при отсутствии всей остальной ее части - понятия не имею. Положим даже, на картинке распределение возрастов в Лондоне, а где информация по всей великой Британии, с которой надо сравнивать? Оставим в покое, что просто картинки недостаточно, нужны именно данные, так ведь нет ничего вообще, даже и картинки.

 Профиль  
                  
 
 Re: Проверка гипотезы при скошенном распределении
Сообщение20.04.2023, 18:57 


19/04/23
7
Combat Zone в сообщении #1590447 писал(а):
d4k3rz в сообщении #1590443 писал(а):
А в открытом доступе таблицы нигде нет)

Все там есть. В открытом доступе. И если воспользоваться их данными, то по Лондону они будут выглядеть так (перепись 2021 года)
https://disk.yandex.ru/i/NuFRQe0onx7nfA Это совсем непохоже на то, что у вас.
По остальным регионам и Уэльсу данные тоже есть. Пользуйтесь.
Ваша https://www.ons.gov.uk/

А как притянуть за уши одну половину задачи при отсутствии всей остальной ее части - понятия не имею. Положим даже, на картинке распределение возрастов в Лондоне, а где информация по всей великой Британии, с которой надо сравнивать? Оставим в покое, что просто картинки недостаточно, нужны именно данные, так ведь нет ничего вообще, даже и картинки.


Распределение на картинке выполнено по всем, представленным в таблице, 9000 человек.
https://dropmefiles.com/BUPcv - ссылка на файл с таблицей. Мне по ней работать необходимо, какие бы недостоверные данные там ни были.

-- 20.04.2023, 16:03 --

Александрович в сообщении #1590385 писал(а):
d4k3rz в сообщении #1590382 писал(а):
ссылка на то, как выглядит распределение.
Похоже на ограниченное (усечённое)нормальное распределение.

-- Чт апр 20, 2023 07:59:24 --

d4k3rz в сообщении #1590382 писал(а):
Что делать в сложившейся ситуации?

Применить критерий Манна-Уитни-Вилкоксона.


Спасибо большое Вам за ответ, почитал и узнал много чего нового. Но теперь появились новые вопросы.
1. Возник вопрос касательно критерия Манна-Уитни. Вычитал, что у него есть определенные ограничения, как например "В каждой выборке должно быть не более 60 наблюдений: n1, n2 <60", подходит ли он тогда к конкретно этой задаче?
2. Ещё вычитал про критерий Колмогорова-Смирнова. Но и у него тоже есть ограничения: "Разряды должны быть упорядочены по нарастанию или убыванию какого-либо признака. Они обязательно должны отражать какое-то однонаправленное его изменение". Это было написано лишь в одном источнике, в других же указано только то, что выборка должна быть большой, n1, n2 > 50.
3. Также вычитал про Бутстрэппинг, подойдёт ли он, например, для решения? Его много где "рекомендуют" для приведения к нормальному распределению.
Заранее спасибо.

 Профиль  
                  
 
 Re: Проверка гипотезы при скошенном распределении
Сообщение20.04.2023, 20:05 


27/06/20
337
d4k3rz в сообщении #1590449 писал(а):
касательно критерия Манна-Уитни. Вычитал, что у него есть определенные ограничения, как например "В каждой выборке должно быть не более 60 наблюдений: n1, n2 <60", подходит ли он тогда к конкретно этой задаче?
Если задача протестировать гипотезу о различии среднего, то не очень, т.к. там речь не о среднем.

Распределение возраста в выборках при таких больших размерах выборок нас не будет особо интересовать. Нас интересует распределение выборочной средней, а оно при таких размерах выборок и таком распределении возраста будет весьма близким к нормальному (сделав бутстреп, Вы бы это увидели). Именно поэтому Вы и используете нормальную аппроксимацию. Единственное: z-тест использовали в таких случаях (когда не известна истинная дисперсия, а только выборочная дисперсия) по таблицам в те далекие времена, когда у людей не было компьютеров, смартфонов. Сейчас даже на больших выборках (когда неизвестна истинная дисперсия случайной величины, а известна только выборочная дисперсия) нет смысла использовать нормальное распределение и критерий z, но используют похожее на него распредедение Стьюдента и критерий t. Ведь оба вычисляются элементарно.

Но самый большой "грех", который Вы рискуете допустить, это попытка сравнить часть выборки (по Лондону) с целым (выборка по всей стране включая эту выборку из Лондона). Если же выборки абсолютно независимы, то тогда ок.

 Профиль  
                  
 
 Re: Проверка гипотезы при скошенном распределении
Сообщение21.04.2023, 07:18 
Заслуженный участник
Аватара пользователя


30/01/09
7139
d4k3rz в сообщении #1590449 писал(а):
Возник вопрос касательно критерия Манна-Уитни. Вычитал, что у него есть определенные ограничения, как например "В каждой выборке должно быть не более 60 наблюдений: n1, n2 <60"

Вытянутая из контекста, фраза кажется довольно странной. Ссылочкой не поделитесь?

 Профиль  
                  
 
 Re: Проверка гипотезы при скошенном распределении
Сообщение21.04.2023, 10:58 
Аватара пользователя


21/01/09
3927
Дивногорск
мат-ламер в сообщении #1590509 писал(а):
Ссылочкой не поделитесь?

https://www.psychol-ok.ru/statistics/mann-whitney/

 Профиль  
                  
 
 Re: Проверка гипотезы при скошенном распределении
Сообщение21.04.2023, 11:43 
Заслуженный участник
Аватара пользователя


30/01/09
7139
Александрович
Спасибо за ссылку! Я думаю, что это ограничение (60 наблюдений) касается ограничения ввода в окно таблицы по данной ссылке.

 Профиль  
                  
 
 Re: Проверка гипотезы при скошенном распределении
Сообщение21.04.2023, 11:59 


19/04/23
7
мат-ламер в сообщении #1590526 писал(а):
Александрович
Спасибо за ссылку! Я думаю, что это ограничение (60 наблюдений) касается ограничения ввода в окно таблицы по данной ссылке.

Судя по всему нет, вот ещё несколько ссылок
https://gymnasium42.ru/stat/Book/page_1_2.htm - здесь ещё указано, цитирую "На наш взгляд, в случае, если n1•n2>20, лучше использовать другой критерий, а именно угловое преобразование Фишера в комбина­ции с критерием λ,, позволяющим выявить критическую точку, в кото­рой накапливаются максимальные различия между двумя сопоставляе­мыми выборками"
https://www.matburo.ru/Examples/Files/MSPsy2.pdf
https://studfile.net/preview/9275733/page:3/
Я только начинаю изучать самые азы статистики, сам судить не могу.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 21 ]  На страницу 1, 2  След.

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group