2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему
 
 Помогите разобраться: вопрос по статистике
Сообщение30.10.2016, 16:36 


27/10/16
3
Доброго времени суток. Прошу совета.
Взял пример у С.Д. Некрасова «Математические методы в психологии (MS EXCEL)» -
«Самооценка студентов по математике».
Решил проверить на нормальность распределения и построил график эмпирических значений частот и их теоретических значений.
Вопрос:
1. Эксцесс (Е) у нас имеет отрицательный знак, значит эмпирические значения частот должны располагаться ниже кривой нормального распределения, а у меня наоборот ????
Нормальное распределение рассчитывал как : =НОРМ.РАСП(D2;D$8;D$9;ЛОЖЬ);
Частоты нормального распределения: =F2*A$26.
2. Сумма частот нормального распределения должны равняться 25 (кол-во студентов), а у меня – 22, 39 ????
Прилагаю скриншот.
Изображение

 Профиль  
                  
 
 Re: Помогите разобраться: вопрос по статистике
Сообщение30.10.2016, 17:12 
Заслуженный участник


09/05/13
8904
∞⠀⠀⠀⠀
Yuri_Plyas в сообщении #1164389 писал(а):
значит эмпирические значения частот должны располагаться ниже кривой нормального распределения,

Yuri_Plyas в сообщении #1164389 писал(а):
Сумма частот нормального распределения должны равняться

Да что же это такое, куда ни плюнь, все должны что-то выборке.
1 - почему? Почему эмпирический коэффициент эксцесса, который рассчитывается по моментам (всяким-разным усреднениям выборочных значений), к чему-то обязывает выборочные значения? Если бы они все были ниже, то и к. э. изменился бы.
2 - как влияет объем выборки на теоретические частоты нормального распределения?

Ну и наконец, причем тут это все? Я, конечно, чайник, но это годится, имхо, только в роли предварительной оценки. И что коэффициент эксцесса столь незначительно отличается от нуля, не может говорить против гипотезы о нормальности, а может наоборот, воодушевить.

И таким образом, это всего лишь предварительные данные, которые в данном случае, говорят о том, что в эту сторону стоит, скорее, копать, чем не копать. А для серьезной оценки положения дел есть всякие-разные гипотезы о проверке нормальности (критерии нормальности). Поищите их в Вашей методичке или в других местах, их несложно найти.

 Профиль  
                  
 
 Re: Помогите разобраться: вопрос по статистике
Сообщение30.10.2016, 19:18 


27/10/16
3
Otta, большое спасибо Вам. Буду думать.

 Профиль  
                  
 
 Re: Помогите разобраться: вопрос по статистике
Сообщение31.10.2016, 11:22 
Заслуженный участник
Аватара пользователя


11/03/08
10031
Москва
Yuri_Plyas в сообщении #1164389 писал(а):
1. Эксцесс (Е) у нас имеет отрицательный знак, значит эмпирические значения частот должны располагаться ниже кривой нормального распределения, а у меня наоборот ????
Нормальное распределение рассчитывал как : =НОРМ.РАСП(D2;D$8;D$9;ЛОЖЬ);
Частоты нормального распределения: =F2*A$26.
2. Сумма частот нормального распределения должны равняться 25 (кол-во студентов), а у меня – 22, 39 ????


1. "Эмпирические значения частот", вне зависимости от эксцесса, должны в среднем лежать на кривой аппроксимации. Где-то может быть выше, где-то ниже, но "в среднем" компенсировано. Иначе это была бы не аппроксимация.
Эксцесс, нормированный четвёртый момент, скорее говорит о том, насколько "тяжелы хвосты", то есть вероятность получения больших отклонений больше или меньше даваемой нормальным распределением. В Вашем случае произвольно больших отклонений вообще не будет, по сути Ваших данных, и вполне естественно ожидать эксцесса меньшего, чем для нормального. При этом он не столь велик, чтобы отвергать методы, основанные на нормальном распределении.
2. У Вас где-то вычислительная ошибка. Поскольку считали Вы не вручную, а поручили специально обученному Экселю, чисто счётные ошибки маловероятны, но вот формулы могут быть неверны. Возможная типовая ошибка - вероятность попадания в интервал Вами считается не как $P(a<x<b)=F(b)-F(a)$, где F - функция распределения, а через приближение $P(a<x<b)\approx (b-a)f(x_0)$, где $x_0$ некая точка внутри интервала, а f(x) - плотность распределения. Однако это приближение работает при малом b-a, и чем шире интервалы, тем оно грубее (да, и для крайних надо брать не границы этих интервалов, а плюс или минус бесконечность, хорошо, что для этих значений функция распределения легко считается...).

-- 31 окт 2016, 11:24 --

Ещё раз прочёл Ваш постинг. Да, именно с такой ошибкой Вы и считаете.

 Профиль  
                  
 
 Re: Помогите разобраться: вопрос по статистике
Сообщение31.10.2016, 12:26 
Аватара пользователя


21/01/09
3929
Дивногорск
Yuri_Plyas. А можно ли дискретные св приближать непрерывной функцией распределения?

 Профиль  
                  
 
 Re: Помогите разобраться: вопрос по статистике
Сообщение31.10.2016, 12:48 
Заслуженный участник
Аватара пользователя


11/03/08
10031
Москва
Можно. Если не забывать о том, что это всё-таки аппроксимация.

 Профиль  
                  
 
 Re: Помогите разобраться: вопрос по статистике
Сообщение31.10.2016, 14:43 
Аватара пользователя


21/01/09
3929
Дивногорск
Yuri_Plyas в сообщении #1164389 писал(а):
Решил проверить на нормальность распределения и построил график эмпирических значений частот и их теоретических значений.

А Вы проверьте на равномерность распределения.

 Профиль  
                  
 
 Re: Помогите разобраться: вопрос по статистике
Сообщение31.10.2016, 15:56 
Заслуженный участник
Аватара пользователя


11/03/08
10031
Москва
А какая, [вырезано цензурой] разница? При сравнении с равномерным распределением, боюсь, будет та же стандартная ошибка (в смысле не standard error, а ошибка, стандартно вылезающая у гг. студентов). Неверный расчёт вероятности попадания в ячейку.
Да, и проверка соответствия нормальному распределению тут может и не ради самой себя делаться, а чтобы быть уверенным, что методы, в которых предполагается нормальность, тут применимы.

 Профиль  
                  
 
 Re: Помогите разобраться: вопрос по статистике
Сообщение31.10.2016, 21:10 


27/10/16
3
Евгений Машеров в сообщении #1164658 писал(а):
Yuri_Plyas в сообщении #1164389 писал(а):

Ещё раз прочёл Ваш постинг. Да, именно с такой ошибкой Вы и считаете.

Уважаемый Евгений. Спасибо Вам за ответ.

 Профиль  
                  
 
 Re: Помогите разобраться: вопрос по статистике
Сообщение31.10.2016, 21:43 
Аватара пользователя


21/01/09
3929
Дивногорск
Евгений Машеров в сообщении #1164710 писал(а):
А какая, [вырезано цензурой] разница? При сравнении с равномерным распределением, боюсь, будет та же стандартная ошибка (в смысле не standard error, а ошибка, стандартно вылезающая у гг. студентов). Неверный расчёт вероятности попадания в ячейку.

Для дискретного равномерного распределения не будет.

-- Вт ноя 01, 2016 01:46:35 --

Yuri_Plyas в сообщении #1164389 писал(а):
2. Сумма частот нормального распределения должны равняться 25 (кол-во студентов), а у меня – 22, 39 ????

Ваше нормальное распределение ограничено с обеих сторон.

 Профиль  
                  
 
 Re: Помогите разобраться: вопрос по статистике
Сообщение01.11.2016, 08:38 
Заслуженный участник
Аватара пользователя


11/03/08
10031
Москва

(Оффтоп)

- Уважаемые коллеги-повара! Сварил борщ, а он пересолёный и не красный. В чём ошибся?
- А надо было яблочную шарлотку печь!


По условию задачи рассматривалось нормальное распределение. И вопрос был о нём. Ошибка, которая, по всей видимости, имела место, типична для работы с непрерывными распределениями - смешивают вероятность исхода x дискретного распределения и плотность вероятности в точке x непрерывного распределения. При работе с непрерывными в данном случае, поскольку есть готовая функция Excel'а, считающая функцию распределения, просто берётся разность этих функций в правой и левой границах интервала, при этом левой границей левого берётся $-\infty$, и функция распределения в этой точке равна 0, а правой границей правого интервала $+\infty$, и функция распределения в этой точке равна 1.
Вопрос о том, насколько правомерно использовать для приближения данных, полученных в дискретной форме, лежит вне учебной задачи. Он должен быть рассмотрен до её постановки. И возможна ситуация, когда наиболее осмыслена именно непрерывная модель (скажем, предполагается, что действительная самооценка непрерывна, а дискретность лишь продукт грубой шкалы; в других случаях данные измеряются непрерывно, но искусственно группируются, скажем, для сокращения объёма публикуемых статистических данных). Разумеется, возможно и исходно дискретная модель, но вот именно равномерное распределение самооценок мне представляется крайне неправдоподобным, как правило, имеется мода выборки (хотя и бимодальное видел, но там после рассмотрения обнаруживалась стратификация выборки).

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 11 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: Geen


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group