2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


В этом разделе нельзя создавать новые темы.

Если Вы хотите задать новый вопрос, то не дописывайте его в существующую тему, а создайте новую в корневом разделе "Помогите решить/разобраться (М)".

Если Вы зададите новый вопрос в существующей теме, то в случае нарушения оформления или других правил форума Ваше сообщение и все ответы на него могут быть удалены без предупреждения.

Не ищите на этом форуме халяву, правила запрещают участникам публиковать готовые решения стандартных учебных задач. Автор вопроса обязан привести свои попытки решения и указать конкретные затруднения.

Обязательно просмотрите тему Правила данного раздела, иначе Ваша тема может быть удалена или перемещена в Карантин, а Вы так и не узнаете, почему.



Начать новую тему Ответить на тему
 
 Статистика: группировка данных
Сообщение16.04.2011, 11:23 


27/01/10
20
Хотелось бы разобраться с тем как выбирать правильные граничные значения для интервалов группировки.Мне стало понятно, что зависит от количества групп, на которые идет разбивка, от размаха данных, количества самих значений. Что непонятно:
а) Как правильно выбрать количество групп
б) Как правильно выбрать граничные значения интервалов
Дополнения к пункту а: моя выборка из 100 значений, с точностью каждого значения до десятых и была на лекции такая рекомендация, что выбирать надо количество групп кратных десятичному логарифму. Еще оговаривалось, что нежелательно, чтобы середина интервала была четным числом.
дополнения к пункту б: для того чтобы достигнуть вышеозначенных целей разрешено сдвигать минимум-максимум, а вот насколько я честно говоря не смог понять. К сожалению на лекции я практически не успел поэтому нужна помощь с пониманием правильного подхода к группировке данных. Литературу смотрел, однако вопрос группирования освещается там весьма кратко

 Профиль  
                  
 
 Re: Статистика: группировка данных
Сообщение16.04.2011, 14:27 
Заслуженный участник
Аватара пользователя


23/11/06
4171
guranvir в сообщении #435413 писал(а):
Хотелось бы разобраться с тем как выбирать правильные граничные значения для интервалов группировки.Мне стало понятно, что зависит от количества групп, на которые идет разбивка, от размаха данных, количества самих значений. Что непонятно:

Следует сначала понять, в каком смысле "правильные", т.е. чего Вы хотите добиться, выбирая между разными способами группирования. Если только для того, чтобы гистограмма выглядела красиво, то какая, собственно, разница?

Из литературы - например, посмотрите Новицкий П.В., Зограф И.А., "Оценка погрешностей результатов измерений", разделы 5-2, 5-3.

 Профиль  
                  
 
 Re: Статистика: группировка данных
Сообщение07.06.2011, 16:36 


17/04/11
70
guranvir в сообщении #435413 писал(а):
Литературу смотрел, однако вопрос группирования освещается там весьма кратко

Может уже и не нужно. Но я всё же скажу.
Использую равновероятные интервалы, крайние беру открытыми.
Безусловно проблема с вычислением интегралов на отрезках.
Зато обеспечиваешь условия применения, например Хи-квадрата.
Почти пропадает проблема границы интервала - куда отнести наблюдение, когда оно попало ровно на границу.
Обычные рекомендации хороши, когда наблюдений ну очень много.
Хотел бы услышать твоё мнение.

 Профиль  
                  
 
 Re: Статистика: группировка данных
Сообщение07.06.2011, 18:58 
Заслуженный участник
Аватара пользователя


05/12/09
1813
Москва
На самом деле, идеальных правил для группировки данных нету.

Часто используют формулу Стерджеса, по которой надо брать округленный двоичный логарифм плюс один. Это значит, что на 100 наблюдений надо брать 8 отрезков.

Отрезки лучше брать просто равными, а не равновероятными. "Равновероятность" предполагает при построении уже какую-то априорную информацию об имеющемся распределении, которое мы еще только хотим проверить, что ставит под сомнение применимость метода.

 Профиль  
                  
 
 Re: Статистика: группировка данных
Сообщение07.06.2011, 21:13 
Заслуженный участник
Аватара пользователя


23/11/06
4171
alisa-lebovski в сообщении #455338 писал(а):
Отрезки лучше брать просто равными, а не равновероятными. "Равновероятность" предполагает при построении уже какую-то априорную информацию об имеющемся распределении, которое мы еще только хотим проверить, что ставит под сомнение применимость метода.

Вы выражаете сомнение в справедливости теоремы Пирсона? Клянусь честью, она верна :-) Её и доказать нетрудно...

Априорная информация никакая не требуется. Если есть простая основная гипотеза, то именно в соответствии с ней и можно завести равновероятные интервалы (если хочется такие). Даже если бы какая-то априорная информация использовалась - она никак не может помешать теореме Пирсона. Единственное, что ей, как изначально кажется, может повредить - если границы интервалов станут величинами случайными. Да и то не при всякой зависимости от выборки предельное распределение испортится (см. п. 30.20, 30.21 Кендалл, Стьюарт "Статистические выводы и связи", 1973). По поводу выбора оптимального числа равновероятных интервалов (о пресловутой формуле Стерджесса там нет ни слова) и смысла брать равновероятные интервалы - см. там же, 30.21, 30.28-30.31, а также по ссылкам - например, у Манна и Вальда (статья есть на JSTOR).

Впрочем, более свежий источник, где все рекомендации систематизированы, выше приводился.

 Профиль  
                  
 
 Re: Статистика: группировка данных
Сообщение07.06.2011, 21:29 
Заслуженный участник
Аватара пользователя


05/12/09
1813
Москва
Я имела в виду случай сложной гипотезы, как это обычно и бывает.

 Профиль  
                  
 
 Re: Статистика: группировка данных
Сообщение08.06.2011, 15:36 
Заслуженный участник
Аватара пользователя


23/11/06
4171
alisa-lebovski в сообщении #455438 писал(а):
Я имела в виду случай сложной гипотезы, как это обычно и бывает.

См. указанные пункты Кендалла и Стюарта.

Ощущаю себе мартышкой из поговорки про бессмысленные труды...

 Профиль  
                  
 
 Re: Статистика: группировка данных
Сообщение09.06.2011, 16:01 
Заслуженный участник
Аватара пользователя


05/12/09
1813
Москва
Рада за вас, что у вас есть много хороших книжек, на которые можно ссылаться и найти ответы на все вопросы. Не всем так повезло в жизни.

Я не утверждаю, что теорема Пирсона нарушается. Но вот чувствительность критерия к альтернативам при равновероятных отрезках может снизиться (особенно в случае тяжелых хвостов). Например, у вас по нормальному распределению рассчитан крайний правый промежуток $[1,+\infty]$, исходя из его вероятности 1/10, и куда должно попасть в среднем 10 наблюдений из 100. И туда действительно попадает примерно столько. Но по нормальному распределению это должны были быть числа, например, до 2-3, а реально там попались, скажем, 5, 10 или 15. Хи-квадрат этого не почувствует.

 Профиль  
                  
 
 Re: Статистика: группировка данных
Сообщение09.06.2011, 18:49 
Заслуженный участник
Аватара пользователя


23/11/06
4171
alisa-lebovski в сообщении #456126 писал(а):
Рада за вас, что у вас есть много хороших книжек, на которые можно ссылаться и найти ответы на все вопросы. Не всем так повезло в жизни.

Так же как и все, я пользуюсь сетевыми библиотеками. Извините, не думала, что для Вас будет затруднительно найти в сети книгу, на которую дана ссылка.
alisa-lebovski в сообщении #456126 писал(а):
Хи-квадрат этого не почувствует.

Критерий хи-квадрат является асимптотическим. Число интервалов меняется с ростом объёма выборки. Поэтому рано или поздно почувствует.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 9 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group