--mS--, спасибо за критику. Но меня, честно говоря, зодиаки не волнуют. Я, как начинающий статистик, просто прикидываю, как это можно обыграть в учебном курсе.
Это, вероятно, ко мне претензия. Я увидел первое сообщение, потом отвлёкся на дела, и когда дошли руки посчитать - не просмотрел набравшихся к этому времени комментариев, где этот расчёт уже был сделан. Ну, астрология не область моих интересов. Она для меня лишь курьёзный факт истории астрономии (которая тоже не моя специальность, лишь увлечение школьных времён, ещё не угасшее окончательно). И тут любопытны только временные отрезки, которые топикстартер задаёт для "знаков". Это не равномерная шкала одинаковых "домов" (где неравномерность может быть лишь в силу эллиптичности орбиты Земли или, учитывая историчность - в силе деферента орбиты обращающегося вокруг Земли Солнца), и не разбивка по фиксированным датам календаря. Это какая-то система или произвольный выбор топикстартера? И в последнем случае - не было ли отнесения "пограничных рождений" к тому знаку, который подтверждал его теорию?
Что до
. Это не "грубый критерий". Он вполне точен, но есть два момента, которые могут его "загрубить". Если его используют применительно к дискретным величинам (какздесь), первый из них не проявляется, всё точно. Но часто им пользуются применительно к непрерывным, которые, посредством группировки, превращаются в дискретные. Вместо точного значения у нас появляется число попаданий в определённый интервал. Это само по себе загрубление, но ещё и появляется субъективность разбивки. Даже число интервалов однозначно не определено (хотя есть некие общепринятые рекомендации, типа формулы Стёрджесса, но это скорее "лучше безобразно - но однообразно", чем действительно оптимальный совет). Но в данном случае, повторюсь, этого нет. Другой момент связан с тем, что
это распределение сумм квадратов нормальных величин, а у нас биномиальные. То есть аппроксимируем, отсюда совет делать ячейки не менее 5, а лучше 10 наблюдений (а при сильной неравномерности появляется ещё субъективный выбор - какие "бедные" ячейки объединять?). Но тут в каждой ячейке достаточно много наблюдений (впрочем, разработан и вариант, использующий биномиальное распределение, он предлагается, как вариант выбора, например, в пакете Statistica, но он в данном случае приводит к различию в третьем знаке).