И все-таки, несмотря на красноречивое молчание, я не оставляю надежды, что кто-нибудь либо развеет мои сомнения относительно корректности представленного выше способа оценки, либо, наоборот, покажет мне, что я ступил на неверный путь.
Попробую несколько конкретизировать процедуры, при осмыслении которых я пришел к мнению, что корреляции между связанными долями могут быть интерпретируемы стандартными способами.
В основе всего, конечно же, лежит стохастическая модель. Она мне кажется правильной. Но мало ли что может казаться самоуверенному дилетанту?!
В общих чертах моделируемую ситуацию можно представить следующим образом. Есть пространство, размеры которого определяются через количество населяющих его особей. Пространство неоднородно, и по этой причине членится на участки разной размерности, различающиеся по качественным признакам. Население также выглядит неоднородным, но различия заметны только на перцептивном уровне, - скажем, наблюдается разная раскраска особей. Согласно нулевой гипотезе, все наблюдаемые соотношения между типами раскрасок на качественно разных участках пространства должны возникать случайным образом.
Пусть мы насчитали 10000 особей. Из них 2000 носят красные штаны, а 1000 – желтые. Остальные 7000 пусть здесь будут недифференцированы. Основа модели тогда будет иметь следующий вид (каждая цифра здесь заменяет соответственно тысячу единиц и тысячу нулей).
1 0 0
1 0 0
0 1 0
0 0 1
0 0 1
0 0 1
0 0 1
0 0 1
0 0 1
0 0 1
Сумма в каждой строке всегда равна единице, а длина каждого столбца равна сумме наблюдаемых в эксперименте особей, т.е. 10000. Каждую строку привязываем к случайному числу. Теперь ранжирование по столбцу случайных чисел будет обеспечивать беспорядочное перетасовывание строк. Как видно, в такой модели все исходные параметры остаются постоянными, меняются только соотношения между категориями особей внутри выделенных участков общего пространства.
Величину сдвига центра варьирования можно считать прямо по этим столбцам. Пусть они расчленены на 25 участков. Тогда по столбцам вычисляем обычную линейную корреляцию и корректируем ее для
. Получаем
. Теперь проводим испытания и проверяем, насколько эта величина соответствует эмпирической средней.
Естественно, в данной модели абсолютные частоты каждого участка пространства автоматически переводятся в относительные, а также автоматически производится вычисление частных корреляций, устраняющих влияние размера участка. Сдвиг в обоих случаях одинаков (вернее, имеет ничтожно малые отличия), а разница в общем распределении результатов примерна такая, какой она и должна быть при отличии на одну степень свободы.
Уверенность в том, что расчет таким способом достаточно точен, у меня базируется на 54 распределениях, имеющих разные исходные параметры и включающих в себя от 20000 до 75000 результатов. Только в 3 случаях вычисленное данным способом значение при сравнении с эмпирическим средним не попадает в доверительный интервал 95%. Небольшое превышение одной двадцатой для 54 случаев явно несущественно.
Неточную работу формулы
хорошо видно при сравнении преобразованного по ней эмпирического ряда с теоретически ожидаемыми значениями. Так, например, в своем реальном опыте я имею значение -0,689. Преобразование по данной формуле дает -0,571. Однако в полученном при моделировании распределении 30000 результатов значение -0,689 заняло 68 место, а для данной позиции по распределению Стьюдента соответствует величина -0,548 (
; 23 степени свободы). Примерно с такими же отклонениями идет распределение и в хвосте положительных значений. И это наблюдается во всех рассмотренных случаях.
Если в охарактеризованные процедуры не закралась какая-нибудь принципиальная ошибка, то, как мне кажется, при явно заметном превышении порога значимости можно не прибегать к стохастическим испытаниям, а пользоваться для грубой оценки конструкцией
, пока для уверенности понижая ее результат на 0,03 и с нетерпением ожидая, когда кто-нибудь создаст правильную формулу.