Статистика: группировка данных

guranvir · 16.04.2011, 11:23

Хотелось бы разобраться с тем как выбирать правильные граничные значения для интервалов группировки.Мне стало понятно, что зависит от количества групп, на которые идет разбивка, от размаха данных, количества самих значений. Что непонятно:
а) Как правильно выбрать количество групп
б) Как правильно выбрать граничные значения интервалов
Дополнения к пункту а: моя выборка из 100 значений, с точностью каждого значения до десятых и была на лекции такая рекомендация, что выбирать надо количество групп кратных десятичному логарифму. Еще оговаривалось, что нежелательно, чтобы середина интервала была четным числом.
дополнения к пункту б: для того чтобы достигнуть вышеозначенных целей разрешено сдвигать минимум-максимум, а вот насколько я честно говоря не смог понять. К сожалению на лекции я практически не успел поэтому нужна помощь с пониманием правильного подхода к группировке данных. Литературу смотрел, однако вопрос группирования освещается там весьма кратко

--mS-- · 16.04.2011, 14:27

guranvir в сообщении #435413 писал(а):

Хотелось бы разобраться с тем как выбирать правильные граничные значения для интервалов группировки.Мне стало понятно, что зависит от количества групп, на которые идет разбивка, от размаха данных, количества самих значений. Что непонятно:

Следует сначала понять, в каком смысле "правильные", т.е. чего Вы хотите добиться, выбирая между разными способами группирования. Если только для того, чтобы гистограмма выглядела красиво, то какая, собственно, разница?

Из литературы - например, посмотрите Новицкий П.В., Зограф И.А., "Оценка погрешностей результатов измерений", разделы 5-2, 5-3.

oveka · 07.06.2011, 16:36

guranvir в сообщении #435413 писал(а):

Литературу смотрел, однако вопрос группирования освещается там весьма кратко

Может уже и не нужно. Но я всё же скажу.
Использую равновероятные интервалы, крайние беру открытыми.
Безусловно проблема с вычислением интегралов на отрезках.
Зато обеспечиваешь условия применения, например Хи-квадрата.
Почти пропадает проблема границы интервала - куда отнести наблюдение, когда оно попало ровно на границу.
Обычные рекомендации хороши, когда наблюдений ну очень много.
Хотел бы услышать твоё мнение.

alisa-lebovski · 07.06.2011, 18:58

На самом деле, идеальных правил для группировки данных нету.

Часто используют формулу Стерджеса, по которой надо брать округленный двоичный логарифм плюс один. Это значит, что на 100 наблюдений надо брать 8 отрезков.

Отрезки лучше брать просто равными, а не равновероятными. "Равновероятность" предполагает при построении уже какую-то априорную информацию об имеющемся распределении, которое мы еще только хотим проверить, что ставит под сомнение применимость метода.

--mS-- · 07.06.2011, 21:13

alisa-lebovski в сообщении #455338 писал(а):

Отрезки лучше брать просто равными, а не равновероятными. "Равновероятность" предполагает при построении уже какую-то априорную информацию об имеющемся распределении, которое мы еще только хотим проверить, что ставит под сомнение применимость метода.

Вы выражаете сомнение в справедливости теоремы Пирсона? Клянусь честью, она верна :-)

Её и доказать нетрудно...

Априорная информация никакая не требуется. Если есть простая основная гипотеза, то именно в соответствии с ней и можно завести равновероятные интервалы (если хочется такие). Даже если бы какая-то априорная информация использовалась - она никак не может помешать теореме Пирсона. Единственное, что ей, как изначально кажется, может повредить - если границы интервалов станут величинами случайными. Да и то не при всякой зависимости от выборки предельное распределение испортится (см. п. 30.20, 30.21 Кендалл, Стьюарт "Статистические выводы и связи", 1973). По поводу выбора оптимального числа равновероятных интервалов (о пресловутой формуле Стерджесса там нет ни слова) и смысла брать равновероятные интервалы - см. там же, 30.21, 30.28-30.31, а также по ссылкам - например, у Манна и Вальда (статья есть на JSTOR).

Впрочем, более свежий источник, где все рекомендации систематизированы, выше приводился.

alisa-lebovski · 07.06.2011, 21:29

Я имела в виду случай сложной гипотезы, как это обычно и бывает.

--mS-- · 08.06.2011, 15:36

alisa-lebovski в сообщении #455438 писал(а):

Я имела в виду случай сложной гипотезы, как это обычно и бывает.

См. указанные пункты Кендалла и Стюарта.

Ощущаю себе мартышкой из поговорки про бессмысленные труды...

alisa-lebovski · 09.06.2011, 16:01

Рада за вас, что у вас есть много хороших книжек, на которые можно ссылаться и найти ответы на все вопросы. Не всем так повезло в жизни.

Я не утверждаю, что теорема Пирсона нарушается. Но вот чувствительность критерия к альтернативам при равновероятных отрезках может снизиться (особенно в случае тяжелых хвостов). Например, у вас по нормальному распределению рассчитан крайний правый промежуток

[1,+\infty]

, исходя из его вероятности 1/10, и куда должно попасть в среднем 10 наблюдений из 100. И туда действительно попадает примерно столько. Но по нормальному распределению это должны были быть числа, например, до 2-3, а реально там попались, скажем, 5, 10 или 15. Хи-квадрат этого не почувствует.

--mS-- · 09.06.2011, 18:49

alisa-lebovski в сообщении #456126 писал(а):

Рада за вас, что у вас есть много хороших книжек, на которые можно ссылаться и найти ответы на все вопросы. Не всем так повезло в жизни.

Так же как и все, я пользуюсь сетевыми библиотеками. Извините, не думала, что для Вас будет затруднительно найти в сети книгу, на которую дана ссылка.

alisa-lebovski в сообщении #456126 писал(а):

Хи-квадрат этого не почувствует.

Критерий хи-квадрат является асимптотическим. Число интервалов меняется с ростом объёма выборки. Поэтому рано или поздно почувствует.

Научный форум dxdy

Статистика: группировка данных