2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему
 
 Помогите разобраться: вопрос по статистике
Сообщение30.10.2016, 16:36 


27/10/16
3
Доброго времени суток. Прошу совета.
Взял пример у С.Д. Некрасова «Математические методы в психологии (MS EXCEL)» -
«Самооценка студентов по математике».
Решил проверить на нормальность распределения и построил график эмпирических значений частот и их теоретических значений.
Вопрос:
1. Эксцесс (Е) у нас имеет отрицательный знак, значит эмпирические значения частот должны располагаться ниже кривой нормального распределения, а у меня наоборот ????
Нормальное распределение рассчитывал как : =НОРМ.РАСП(D2;D$8;D$9;ЛОЖЬ);
Частоты нормального распределения: =F2*A$26.
2. Сумма частот нормального распределения должны равняться 25 (кол-во студентов), а у меня – 22, 39 ????
Прилагаю скриншот.
Изображение

 Профиль  
                  
 
 Re: Помогите разобраться: вопрос по статистике
Сообщение30.10.2016, 17:12 
Заслуженный участник


09/05/13
8904
∞⠀⠀⠀⠀
Yuri_Plyas в сообщении #1164389 писал(а):
значит эмпирические значения частот должны располагаться ниже кривой нормального распределения,

Yuri_Plyas в сообщении #1164389 писал(а):
Сумма частот нормального распределения должны равняться

Да что же это такое, куда ни плюнь, все должны что-то выборке.
1 - почему? Почему эмпирический коэффициент эксцесса, который рассчитывается по моментам (всяким-разным усреднениям выборочных значений), к чему-то обязывает выборочные значения? Если бы они все были ниже, то и к. э. изменился бы.
2 - как влияет объем выборки на теоретические частоты нормального распределения?

Ну и наконец, причем тут это все? Я, конечно, чайник, но это годится, имхо, только в роли предварительной оценки. И что коэффициент эксцесса столь незначительно отличается от нуля, не может говорить против гипотезы о нормальности, а может наоборот, воодушевить.

И таким образом, это всего лишь предварительные данные, которые в данном случае, говорят о том, что в эту сторону стоит, скорее, копать, чем не копать. А для серьезной оценки положения дел есть всякие-разные гипотезы о проверке нормальности (критерии нормальности). Поищите их в Вашей методичке или в других местах, их несложно найти.

 Профиль  
                  
 
 Re: Помогите разобраться: вопрос по статистике
Сообщение30.10.2016, 19:18 


27/10/16
3
Otta, большое спасибо Вам. Буду думать.

 Профиль  
                  
 
 Re: Помогите разобраться: вопрос по статистике
Сообщение31.10.2016, 11:22 
Заслуженный участник
Аватара пользователя


11/03/08
10031
Москва
Yuri_Plyas в сообщении #1164389 писал(а):
1. Эксцесс (Е) у нас имеет отрицательный знак, значит эмпирические значения частот должны располагаться ниже кривой нормального распределения, а у меня наоборот ????
Нормальное распределение рассчитывал как : =НОРМ.РАСП(D2;D$8;D$9;ЛОЖЬ);
Частоты нормального распределения: =F2*A$26.
2. Сумма частот нормального распределения должны равняться 25 (кол-во студентов), а у меня – 22, 39 ????


1. "Эмпирические значения частот", вне зависимости от эксцесса, должны в среднем лежать на кривой аппроксимации. Где-то может быть выше, где-то ниже, но "в среднем" компенсировано. Иначе это была бы не аппроксимация.
Эксцесс, нормированный четвёртый момент, скорее говорит о том, насколько "тяжелы хвосты", то есть вероятность получения больших отклонений больше или меньше даваемой нормальным распределением. В Вашем случае произвольно больших отклонений вообще не будет, по сути Ваших данных, и вполне естественно ожидать эксцесса меньшего, чем для нормального. При этом он не столь велик, чтобы отвергать методы, основанные на нормальном распределении.
2. У Вас где-то вычислительная ошибка. Поскольку считали Вы не вручную, а поручили специально обученному Экселю, чисто счётные ошибки маловероятны, но вот формулы могут быть неверны. Возможная типовая ошибка - вероятность попадания в интервал Вами считается не как $P(a<x<b)=F(b)-F(a)$, где F - функция распределения, а через приближение $P(a<x<b)\approx (b-a)f(x_0)$, где $x_0$ некая точка внутри интервала, а f(x) - плотность распределения. Однако это приближение работает при малом b-a, и чем шире интервалы, тем оно грубее (да, и для крайних надо брать не границы этих интервалов, а плюс или минус бесконечность, хорошо, что для этих значений функция распределения легко считается...).

-- 31 окт 2016, 11:24 --

Ещё раз прочёл Ваш постинг. Да, именно с такой ошибкой Вы и считаете.

 Профиль  
                  
 
 Re: Помогите разобраться: вопрос по статистике
Сообщение31.10.2016, 12:26 
Аватара пользователя


21/01/09
3929
Дивногорск
Yuri_Plyas. А можно ли дискретные св приближать непрерывной функцией распределения?

 Профиль  
                  
 
 Re: Помогите разобраться: вопрос по статистике
Сообщение31.10.2016, 12:48 
Заслуженный участник
Аватара пользователя


11/03/08
10031
Москва
Можно. Если не забывать о том, что это всё-таки аппроксимация.

 Профиль  
                  
 
 Re: Помогите разобраться: вопрос по статистике
Сообщение31.10.2016, 14:43 
Аватара пользователя


21/01/09
3929
Дивногорск
Yuri_Plyas в сообщении #1164389 писал(а):
Решил проверить на нормальность распределения и построил график эмпирических значений частот и их теоретических значений.

А Вы проверьте на равномерность распределения.

 Профиль  
                  
 
 Re: Помогите разобраться: вопрос по статистике
Сообщение31.10.2016, 15:56 
Заслуженный участник
Аватара пользователя


11/03/08
10031
Москва
А какая, [вырезано цензурой] разница? При сравнении с равномерным распределением, боюсь, будет та же стандартная ошибка (в смысле не standard error, а ошибка, стандартно вылезающая у гг. студентов). Неверный расчёт вероятности попадания в ячейку.
Да, и проверка соответствия нормальному распределению тут может и не ради самой себя делаться, а чтобы быть уверенным, что методы, в которых предполагается нормальность, тут применимы.

 Профиль  
                  
 
 Re: Помогите разобраться: вопрос по статистике
Сообщение31.10.2016, 21:10 


27/10/16
3
Евгений Машеров в сообщении #1164658 писал(а):
Yuri_Plyas в сообщении #1164389 писал(а):

Ещё раз прочёл Ваш постинг. Да, именно с такой ошибкой Вы и считаете.

Уважаемый Евгений. Спасибо Вам за ответ.

 Профиль  
                  
 
 Re: Помогите разобраться: вопрос по статистике
Сообщение31.10.2016, 21:43 
Аватара пользователя


21/01/09
3929
Дивногорск
Евгений Машеров в сообщении #1164710 писал(а):
А какая, [вырезано цензурой] разница? При сравнении с равномерным распределением, боюсь, будет та же стандартная ошибка (в смысле не standard error, а ошибка, стандартно вылезающая у гг. студентов). Неверный расчёт вероятности попадания в ячейку.

Для дискретного равномерного распределения не будет.

-- Вт ноя 01, 2016 01:46:35 --

Yuri_Plyas в сообщении #1164389 писал(а):
2. Сумма частот нормального распределения должны равняться 25 (кол-во студентов), а у меня – 22, 39 ????

Ваше нормальное распределение ограничено с обеих сторон.

 Профиль  
                  
 
 Re: Помогите разобраться: вопрос по статистике
Сообщение01.11.2016, 08:38 
Заслуженный участник
Аватара пользователя


11/03/08
10031
Москва

(Оффтоп)

- Уважаемые коллеги-повара! Сварил борщ, а он пересолёный и не красный. В чём ошибся?
- А надо было яблочную шарлотку печь!


По условию задачи рассматривалось нормальное распределение. И вопрос был о нём. Ошибка, которая, по всей видимости, имела место, типична для работы с непрерывными распределениями - смешивают вероятность исхода x дискретного распределения и плотность вероятности в точке x непрерывного распределения. При работе с непрерывными в данном случае, поскольку есть готовая функция Excel'а, считающая функцию распределения, просто берётся разность этих функций в правой и левой границах интервала, при этом левой границей левого берётся $-\infty$, и функция распределения в этой точке равна 0, а правой границей правого интервала $+\infty$, и функция распределения в этой точке равна 1.
Вопрос о том, насколько правомерно использовать для приближения данных, полученных в дискретной форме, лежит вне учебной задачи. Он должен быть рассмотрен до её постановки. И возможна ситуация, когда наиболее осмыслена именно непрерывная модель (скажем, предполагается, что действительная самооценка непрерывна, а дискретность лишь продукт грубой шкалы; в других случаях данные измеряются непрерывно, но искусственно группируются, скажем, для сокращения объёма публикуемых статистических данных). Разумеется, возможно и исходно дискретная модель, но вот именно равномерное распределение самооценок мне представляется крайне неправдоподобным, как правило, имеется мода выборки (хотя и бимодальное видел, но там после рассмотрения обнаруживалась стратификация выборки).

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 11 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group