2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




На страницу 1, 2  След.
 
 Как корректно сравнить две выборки?
Сообщение25.01.2015, 21:36 
Есть две целочисленные выборки (точнее, даже, их гистограммы, но по гистограмме можем получить вариационный ряд). Выборки разного размера.
Как корректно их сравнить на предмет того, они из одного и того же распределения или нет?
Критерий Пирсона, Смирнова или какой-то ещё, и почему?

(Есть ещё несколько более мелких вопросов по деталям, но начнём с этого общего. В учебниках по статистике, которые под рукой, критерии согласия вообще как-то вскользь обсуждаются.)

 
 
 
 Re: Как корректно сравнить две выборки?
Сообщение26.01.2015, 03:44 
Аватара пользователя
Можно и по критерию Смирнова и по критерию Пирсона.

 
 
 
 Re: Как корректно сравнить две выборки?
Сообщение26.01.2015, 04:18 
Аватара пользователя
По гистограмме нельзя получить вариационный ряд. Если выборки группированы, то, конечно, критерий хи-квадрат. Критерий Смирнова применим исключительно к выборкам из заведомо непрерывных распределений.

 
 
 
 Re: Как корректно сравнить две выборки?
Сообщение26.01.2015, 05:08 
Аватара пользователя
--mS-- в сообщении #968457 писал(а):
По гистограмме нельзя получить вариационный ряд.

Приближенно можно. Считаем что внутри интервала равномерное распределение.

 
 
 
 Re: Как корректно сравнить две выборки?
Сообщение26.01.2015, 10:23 
Спасибо. Про гистограммы не уточнил, что там количество значений посчитано для каждого целого числа из диапазона возможных значений, поэтому вариационный ряд получается однозначно.
Теперь вопрос по критерию хи-квадрат. В тех материалах, которые я видел, указано, что для корректного использования критерия в каждом интервале должно быть не менее 5 значений. Получается, если исходные гистограммы не удовлетворяют этому требованию, то нужно построить новые с более широкими интервалами.
Вот здесь сталкиваюсь с вопросом: как конкретно выбирать новые интервалы? Варианты:
- посчитать суммарное количество значений, поделить на равные интервалы, чтобы в среднем приходилось не менее 10 на интервал
- "идти" от левой границы диапазона, считать сумму по двум гистограммам, как только превысила 10 - ставить границу
- то же самое, только ставить границу, когда хотя бы по одной гистограмме набралось больше 5
Вот эти варианты пробовал, но во всех нашел некоторые недостатки, в итоге запутался, как же правильно. Буду благодарен за подсказку.

 
 
 
 Re: Как корректно сравнить две выборки?
Сообщение26.01.2015, 10:47 
Аватара пользователя
Каких об"емов выборки?

 
 
 
 Re: Как корректно сравнить две выборки?
Сообщение26.01.2015, 10:48 
Аватара пользователя
Дождитесь специалистов, но я, на своем уровне, скажу, что никакого "правильно" тут нет. Хи-квадрат вообще очень зыбкий критерий.

 
 
 
 Re: Как корректно сравнить две выборки?
Сообщение26.01.2015, 11:07 
Aracon в сообщении #968488 писал(а):
Про гистограммы не уточнил, что там количество значений посчитано для каждого целого числа из диапазона возможных значений, поэтому вариационный ряд получается однозначно.

правильно я понимаю, что гистограммы эти очень сильно отличаются друг от друга, а Вы хотите понять из одного и того же они распределения или нет?

 
 
 
 Re: Как корректно сравнить две выборки?
Сообщение26.01.2015, 13:18 
upgrade в сообщении #968503 писал(а):
Aracon в сообщении #968488 писал(а):
Про гистограммы не уточнил, что там количество значений посчитано для каждого целого числа из диапазона возможных значений, поэтому вариационный ряд получается однозначно.

правильно я понимаю, что гистограммы эти очень сильно отличаются друг от друга, а Вы хотите понять из одного и того же они распределения или нет?

Да, хочу понять, из одного и того же они распределения или нет, но вот "сильно отличаются" - понятие не формализованное. Предполагаю, что отличаются сильно, если гипотеза о том, что они из одного распределения, отклоняется с заданным уровнем значимости.

Вот пример пар гистограмм выборок:
Цитата:
0 16 128 57 1 0 0 0
0 7 121 58 0 0 0 0

Цитата:
0 72 39 0 0 0 0 0
0 88 35 0 0 0 0 0

Цитата:
0 37 264 4 0 0 0 0
0 41 206 22 0 0 0 0


(Вообще бывают разные, так как работаю с изображениями. Рассматриваю только выборки из не менее чем 40 значений)

 
 
 
 Re: Как корректно сравнить две выборки?
Сообщение26.01.2015, 13:29 
а нули - это что?
и хотелось бы понять про диапазоны значений, какие они для вышеприведенных чисел?

 
 
 
 Re: Как корректно сравнить две выборки?
Сообщение26.01.2015, 13:54 
upgrade в сообщении #968566 писал(а):
а нули - это что?
и хотелось бы понять про диапазоны значений, какие они для вышеприведенных чисел?

Например, есть изображение в 8 градациях серого. Считаем, сколько пикселей каждого цвета, получается такая гистограмма. Где ноль - такого значения не встретилось.
Диапазон значений зависит от размера изображения, точнее, обрабатываемого фрагмента. При тех параметрах, с которыми работаю сейчас, теоретический максимум (для случая однотонного фрагмента) в одном случае 400 (фрагмент 20х20), в другом 1600 (40х40), но на практике в большинстве случаев меньше.

 
 
 
 Re: Как корректно сравнить две выборки?
Сообщение26.01.2015, 13:57 
Aracon в сообщении #968576 писал(а):
Например, есть изображение в 8 градациях серого. Считаем, сколько пикселей каждого цвета, получается такая гистограмма. Где ноль - такого значения не встретилось.

я именно так и понял
Aracon в сообщении #968488 писал(а):
количество значений посчитано для каждого целого числа

то есть нулей быть не должно или, если ему соответствует какой-то исход, он должен быть один с указанием сколько раз он встретился.

-- 26.01.2015, 14:00 --

Aracon в сообщении #968576 писал(а):
Диапазон значений зависит от размера изображения, точнее, обрабатываемого фрагмента.

то есть
Aracon в сообщении #968576 писал(а):
8 градаций серого
это не диапазон значений?

 
 
 
 Re: Как корректно сравнить две выборки?
Сообщение26.01.2015, 14:09 
upgrade в сообщении #968578 писал(а):
Aracon в сообщении #968488 писал(а):
количество значений посчитано для каждого целого числа

то есть нулей быть не должно или, если ему соответствует какой-то исход, он должен быть один с указанием сколько раз он встретился.


Почему? Ноль же тоже количество.

upgrade в сообщении #968578 писал(а):
Aracon в сообщении #968488 писал(а):
Aracon в сообщении #968576 писал(а):
Диапазон значений зависит от размера изображения, точнее, обрабатываемого фрагмента.

то есть
Aracon в сообщении #968576 писал(а):
8 градаций серого
это не диапазон значений?


Диапазон значений случайной величины (яркости пикселя) - от 1 до 8. Диапазон значений гистограммы (количество соответствующих значений в выборке) - зависит от размера выборки (фрагмента изображения).

 
 
 
 Re: Как корректно сравнить две выборки?
Сообщение26.01.2015, 14:17 
Aracon в сообщении #968585 писал(а):
Почему? Ноль же тоже количество.

Aracon в сообщении #968585 писал(а):
Диапазон значений случайной величины (яркости пикселя) - от 1 до 8. Диапазон значений гистограммы (количество соответствующих значений в выборке) - зависит от размера выборки (фрагмента изображения).

тогда я снова завис. первая и вторая строки - это что за значения? например, что означают цифры $128, 121$ в том что Вы называете первой выборкой?

 
 
 
 Re: Как корректно сравнить две выборки?
Сообщение26.01.2015, 14:25 
Аватара пользователя
Это частота. Количество пикселей с одинаковой градацией в фрагменте.

 
 
 [ Сообщений: 19 ]  На страницу 1, 2  След.


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group