2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


В этом разделе нельзя создавать новые темы.



Начать новую тему Ответить на тему На страницу 1, 2  След.
 
 Как корректно сравнить две выборки?
Сообщение25.01.2015, 21:36 


16/03/11
7
Есть две целочисленные выборки (точнее, даже, их гистограммы, но по гистограмме можем получить вариационный ряд). Выборки разного размера.
Как корректно их сравнить на предмет того, они из одного и того же распределения или нет?
Критерий Пирсона, Смирнова или какой-то ещё, и почему?

(Есть ещё несколько более мелких вопросов по деталям, но начнём с этого общего. В учебниках по статистике, которые под рукой, критерии согласия вообще как-то вскользь обсуждаются.)

 Профиль  
                  
 
 Re: Как корректно сравнить две выборки?
Сообщение26.01.2015, 03:44 
Аватара пользователя


21/01/09
3925
Дивногорск
Можно и по критерию Смирнова и по критерию Пирсона.

 Профиль  
                  
 
 Re: Как корректно сравнить две выборки?
Сообщение26.01.2015, 04:18 
Заслуженный участник
Аватара пользователя


23/11/06
4171
По гистограмме нельзя получить вариационный ряд. Если выборки группированы, то, конечно, критерий хи-квадрат. Критерий Смирнова применим исключительно к выборкам из заведомо непрерывных распределений.

 Профиль  
                  
 
 Re: Как корректно сравнить две выборки?
Сообщение26.01.2015, 05:08 
Аватара пользователя


21/01/09
3925
Дивногорск
--mS-- в сообщении #968457 писал(а):
По гистограмме нельзя получить вариационный ряд.

Приближенно можно. Считаем что внутри интервала равномерное распределение.

 Профиль  
                  
 
 Re: Как корректно сравнить две выборки?
Сообщение26.01.2015, 10:23 


16/03/11
7
Спасибо. Про гистограммы не уточнил, что там количество значений посчитано для каждого целого числа из диапазона возможных значений, поэтому вариационный ряд получается однозначно.
Теперь вопрос по критерию хи-квадрат. В тех материалах, которые я видел, указано, что для корректного использования критерия в каждом интервале должно быть не менее 5 значений. Получается, если исходные гистограммы не удовлетворяют этому требованию, то нужно построить новые с более широкими интервалами.
Вот здесь сталкиваюсь с вопросом: как конкретно выбирать новые интервалы? Варианты:
- посчитать суммарное количество значений, поделить на равные интервалы, чтобы в среднем приходилось не менее 10 на интервал
- "идти" от левой границы диапазона, считать сумму по двум гистограммам, как только превысила 10 - ставить границу
- то же самое, только ставить границу, когда хотя бы по одной гистограмме набралось больше 5
Вот эти варианты пробовал, но во всех нашел некоторые недостатки, в итоге запутался, как же правильно. Буду благодарен за подсказку.

 Профиль  
                  
 
 Re: Как корректно сравнить две выборки?
Сообщение26.01.2015, 10:47 
Аватара пользователя


21/01/09
3925
Дивногорск
Каких об"емов выборки?

 Профиль  
                  
 
 Re: Как корректно сравнить две выборки?
Сообщение26.01.2015, 10:48 
Заслуженный участник
Аватара пользователя


18/01/13
12065
Казань
Дождитесь специалистов, но я, на своем уровне, скажу, что никакого "правильно" тут нет. Хи-квадрат вообще очень зыбкий критерий.

 Профиль  
                  
 
 Re: Как корректно сравнить две выборки?
Сообщение26.01.2015, 11:07 


07/08/14
4231
Aracon в сообщении #968488 писал(а):
Про гистограммы не уточнил, что там количество значений посчитано для каждого целого числа из диапазона возможных значений, поэтому вариационный ряд получается однозначно.

правильно я понимаю, что гистограммы эти очень сильно отличаются друг от друга, а Вы хотите понять из одного и того же они распределения или нет?

 Профиль  
                  
 
 Re: Как корректно сравнить две выборки?
Сообщение26.01.2015, 13:18 


16/03/11
7
upgrade в сообщении #968503 писал(а):
Aracon в сообщении #968488 писал(а):
Про гистограммы не уточнил, что там количество значений посчитано для каждого целого числа из диапазона возможных значений, поэтому вариационный ряд получается однозначно.

правильно я понимаю, что гистограммы эти очень сильно отличаются друг от друга, а Вы хотите понять из одного и того же они распределения или нет?

Да, хочу понять, из одного и того же они распределения или нет, но вот "сильно отличаются" - понятие не формализованное. Предполагаю, что отличаются сильно, если гипотеза о том, что они из одного распределения, отклоняется с заданным уровнем значимости.

Вот пример пар гистограмм выборок:
Цитата:
0 16 128 57 1 0 0 0
0 7 121 58 0 0 0 0

Цитата:
0 72 39 0 0 0 0 0
0 88 35 0 0 0 0 0

Цитата:
0 37 264 4 0 0 0 0
0 41 206 22 0 0 0 0


(Вообще бывают разные, так как работаю с изображениями. Рассматриваю только выборки из не менее чем 40 значений)

 Профиль  
                  
 
 Re: Как корректно сравнить две выборки?
Сообщение26.01.2015, 13:29 


07/08/14
4231
а нули - это что?
и хотелось бы понять про диапазоны значений, какие они для вышеприведенных чисел?

 Профиль  
                  
 
 Re: Как корректно сравнить две выборки?
Сообщение26.01.2015, 13:54 


16/03/11
7
upgrade в сообщении #968566 писал(а):
а нули - это что?
и хотелось бы понять про диапазоны значений, какие они для вышеприведенных чисел?

Например, есть изображение в 8 градациях серого. Считаем, сколько пикселей каждого цвета, получается такая гистограмма. Где ноль - такого значения не встретилось.
Диапазон значений зависит от размера изображения, точнее, обрабатываемого фрагмента. При тех параметрах, с которыми работаю сейчас, теоретический максимум (для случая однотонного фрагмента) в одном случае 400 (фрагмент 20х20), в другом 1600 (40х40), но на практике в большинстве случаев меньше.

 Профиль  
                  
 
 Re: Как корректно сравнить две выборки?
Сообщение26.01.2015, 13:57 


07/08/14
4231
Aracon в сообщении #968576 писал(а):
Например, есть изображение в 8 градациях серого. Считаем, сколько пикселей каждого цвета, получается такая гистограмма. Где ноль - такого значения не встретилось.

я именно так и понял
Aracon в сообщении #968488 писал(а):
количество значений посчитано для каждого целого числа

то есть нулей быть не должно или, если ему соответствует какой-то исход, он должен быть один с указанием сколько раз он встретился.

-- 26.01.2015, 14:00 --

Aracon в сообщении #968576 писал(а):
Диапазон значений зависит от размера изображения, точнее, обрабатываемого фрагмента.

то есть
Aracon в сообщении #968576 писал(а):
8 градаций серого
это не диапазон значений?

 Профиль  
                  
 
 Re: Как корректно сравнить две выборки?
Сообщение26.01.2015, 14:09 


16/03/11
7
upgrade в сообщении #968578 писал(а):
Aracon в сообщении #968488 писал(а):
количество значений посчитано для каждого целого числа

то есть нулей быть не должно или, если ему соответствует какой-то исход, он должен быть один с указанием сколько раз он встретился.


Почему? Ноль же тоже количество.

upgrade в сообщении #968578 писал(а):
Aracon в сообщении #968488 писал(а):
Aracon в сообщении #968576 писал(а):
Диапазон значений зависит от размера изображения, точнее, обрабатываемого фрагмента.

то есть
Aracon в сообщении #968576 писал(а):
8 градаций серого
это не диапазон значений?


Диапазон значений случайной величины (яркости пикселя) - от 1 до 8. Диапазон значений гистограммы (количество соответствующих значений в выборке) - зависит от размера выборки (фрагмента изображения).

 Профиль  
                  
 
 Re: Как корректно сравнить две выборки?
Сообщение26.01.2015, 14:17 


07/08/14
4231
Aracon в сообщении #968585 писал(а):
Почему? Ноль же тоже количество.

Aracon в сообщении #968585 писал(а):
Диапазон значений случайной величины (яркости пикселя) - от 1 до 8. Диапазон значений гистограммы (количество соответствующих значений в выборке) - зависит от размера выборки (фрагмента изображения).

тогда я снова завис. первая и вторая строки - это что за значения? например, что означают цифры $128, 121$ в том что Вы называете первой выборкой?

 Профиль  
                  
 
 Re: Как корректно сравнить две выборки?
Сообщение26.01.2015, 14:25 
Аватара пользователя


21/01/09
3925
Дивногорск
Это частота. Количество пикселей с одинаковой градацией в фрагменте.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 19 ]  На страницу 1, 2  След.

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group