2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 Статистика: группировка данных
Сообщение16.04.2011, 11:23 
Хотелось бы разобраться с тем как выбирать правильные граничные значения для интервалов группировки.Мне стало понятно, что зависит от количества групп, на которые идет разбивка, от размаха данных, количества самих значений. Что непонятно:
а) Как правильно выбрать количество групп
б) Как правильно выбрать граничные значения интервалов
Дополнения к пункту а: моя выборка из 100 значений, с точностью каждого значения до десятых и была на лекции такая рекомендация, что выбирать надо количество групп кратных десятичному логарифму. Еще оговаривалось, что нежелательно, чтобы середина интервала была четным числом.
дополнения к пункту б: для того чтобы достигнуть вышеозначенных целей разрешено сдвигать минимум-максимум, а вот насколько я честно говоря не смог понять. К сожалению на лекции я практически не успел поэтому нужна помощь с пониманием правильного подхода к группировке данных. Литературу смотрел, однако вопрос группирования освещается там весьма кратко

 
 
 
 Re: Статистика: группировка данных
Сообщение16.04.2011, 14:27 
Аватара пользователя
guranvir в сообщении #435413 писал(а):
Хотелось бы разобраться с тем как выбирать правильные граничные значения для интервалов группировки.Мне стало понятно, что зависит от количества групп, на которые идет разбивка, от размаха данных, количества самих значений. Что непонятно:

Следует сначала понять, в каком смысле "правильные", т.е. чего Вы хотите добиться, выбирая между разными способами группирования. Если только для того, чтобы гистограмма выглядела красиво, то какая, собственно, разница?

Из литературы - например, посмотрите Новицкий П.В., Зограф И.А., "Оценка погрешностей результатов измерений", разделы 5-2, 5-3.

 
 
 
 Re: Статистика: группировка данных
Сообщение07.06.2011, 16:36 
guranvir в сообщении #435413 писал(а):
Литературу смотрел, однако вопрос группирования освещается там весьма кратко

Может уже и не нужно. Но я всё же скажу.
Использую равновероятные интервалы, крайние беру открытыми.
Безусловно проблема с вычислением интегралов на отрезках.
Зато обеспечиваешь условия применения, например Хи-квадрата.
Почти пропадает проблема границы интервала - куда отнести наблюдение, когда оно попало ровно на границу.
Обычные рекомендации хороши, когда наблюдений ну очень много.
Хотел бы услышать твоё мнение.

 
 
 
 Re: Статистика: группировка данных
Сообщение07.06.2011, 18:58 
Аватара пользователя
На самом деле, идеальных правил для группировки данных нету.

Часто используют формулу Стерджеса, по которой надо брать округленный двоичный логарифм плюс один. Это значит, что на 100 наблюдений надо брать 8 отрезков.

Отрезки лучше брать просто равными, а не равновероятными. "Равновероятность" предполагает при построении уже какую-то априорную информацию об имеющемся распределении, которое мы еще только хотим проверить, что ставит под сомнение применимость метода.

 
 
 
 Re: Статистика: группировка данных
Сообщение07.06.2011, 21:13 
Аватара пользователя
alisa-lebovski в сообщении #455338 писал(а):
Отрезки лучше брать просто равными, а не равновероятными. "Равновероятность" предполагает при построении уже какую-то априорную информацию об имеющемся распределении, которое мы еще только хотим проверить, что ставит под сомнение применимость метода.

Вы выражаете сомнение в справедливости теоремы Пирсона? Клянусь честью, она верна :-) Её и доказать нетрудно...

Априорная информация никакая не требуется. Если есть простая основная гипотеза, то именно в соответствии с ней и можно завести равновероятные интервалы (если хочется такие). Даже если бы какая-то априорная информация использовалась - она никак не может помешать теореме Пирсона. Единственное, что ей, как изначально кажется, может повредить - если границы интервалов станут величинами случайными. Да и то не при всякой зависимости от выборки предельное распределение испортится (см. п. 30.20, 30.21 Кендалл, Стьюарт "Статистические выводы и связи", 1973). По поводу выбора оптимального числа равновероятных интервалов (о пресловутой формуле Стерджесса там нет ни слова) и смысла брать равновероятные интервалы - см. там же, 30.21, 30.28-30.31, а также по ссылкам - например, у Манна и Вальда (статья есть на JSTOR).

Впрочем, более свежий источник, где все рекомендации систематизированы, выше приводился.

 
 
 
 Re: Статистика: группировка данных
Сообщение07.06.2011, 21:29 
Аватара пользователя
Я имела в виду случай сложной гипотезы, как это обычно и бывает.

 
 
 
 Re: Статистика: группировка данных
Сообщение08.06.2011, 15:36 
Аватара пользователя
alisa-lebovski в сообщении #455438 писал(а):
Я имела в виду случай сложной гипотезы, как это обычно и бывает.

См. указанные пункты Кендалла и Стюарта.

Ощущаю себе мартышкой из поговорки про бессмысленные труды...

 
 
 
 Re: Статистика: группировка данных
Сообщение09.06.2011, 16:01 
Аватара пользователя
Рада за вас, что у вас есть много хороших книжек, на которые можно ссылаться и найти ответы на все вопросы. Не всем так повезло в жизни.

Я не утверждаю, что теорема Пирсона нарушается. Но вот чувствительность критерия к альтернативам при равновероятных отрезках может снизиться (особенно в случае тяжелых хвостов). Например, у вас по нормальному распределению рассчитан крайний правый промежуток $[1,+\infty]$, исходя из его вероятности 1/10, и куда должно попасть в среднем 10 наблюдений из 100. И туда действительно попадает примерно столько. Но по нормальному распределению это должны были быть числа, например, до 2-3, а реально там попались, скажем, 5, 10 или 15. Хи-квадрат этого не почувствует.

 
 
 
 Re: Статистика: группировка данных
Сообщение09.06.2011, 18:49 
Аватара пользователя
alisa-lebovski в сообщении #456126 писал(а):
Рада за вас, что у вас есть много хороших книжек, на которые можно ссылаться и найти ответы на все вопросы. Не всем так повезло в жизни.

Так же как и все, я пользуюсь сетевыми библиотеками. Извините, не думала, что для Вас будет затруднительно найти в сети книгу, на которую дана ссылка.
alisa-lebovski в сообщении #456126 писал(а):
Хи-квадрат этого не почувствует.

Критерий хи-квадрат является асимптотическим. Число интервалов меняется с ростом объёма выборки. Поэтому рано или поздно почувствует.

 
 
 [ Сообщений: 9 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group