Оценка погрешности данных путем разбивки на 2 выборки

Coyote · 06/12/23 32

Доброго здравия.
У меня после обработки матрицы 84х84 получились 82 нужных мне значения. В обработке исходных данных (не мною получены, опубликованы в 1992 году 3 амер. лингвистами) были функции логарифмирования и СА. Поскольку точность результатов неизвестна, разбил провел обработку еще 2 раза по 2 выборкам матриц 42х42, брал четные и нечетные номера строк/столбцов. Номера присваивал не я, а авторы исследования 1992 года, каждую выборку считаю случайной и репрезентативной.
Сличил результаты расчета по полной выборке и 2 половинкам (это 30 значений, поскольку меня интересовали лишь особые случаи коих было ровно 30 по 2 выборкам). Распределение ошибок оказалось симметричным (СА ошибок близко к 0, именно -0,027), сигма 0,923.
Вправе ли я считать, что на полной выборке, погрешности расчета результатов я не знаю, погрешность окажется меньше значения 0,923 в $\sqrt{2}$ раза, т.е. 0,527 ?

Также, есть подозрение, что из 30 полученных значений 3 выпадающие. Это результат обработки чужих данных, которые проверить невозможно. Критерием явилось выпадение этих 3 значений за пределы 1,5 межквартильных расстояний от 1 и 3 квартиля. Насколько правомерно исключение этих значений при указание на погрешность метода? Сами исходные значения, приведшие к выпадающим после обработки результатам исключить нельзя - результаты "полевых" испытаний святы. При исключении этих 3 значений сигма падает до 0,444, т.е практически вдвое, и погрешность по полной выборке могу считать 0,314.

Но это погрешность полученного результата, полученного вычитанием 2 СА по 84 исходным данным каждая СА. Я могу считать погрешность каждой СА выше значения 0,314 в $\sqrt{2}$ раза, а погрешность каждого из 84 значений исходных данных выше еще в $\sqrt{84}$ раза, итого считать погрешность исходных данных как $0,314 \sqrt{168}=4,07$ ?

Погрешность исходных данных от меня не зависит, но исходя из достаточной субъективности сравнения лингвистами списков слов на разных языках с целью поиска "совпадающих", 4 вполне приемлемое значение, т.б. что сами лингвисты оговаривают точность своей работы в 2-3 слова. Но к высокой точности результата приводит возможная компенсация отдельных погрешностей.

Научный форум dxdy

Правила форума

Оценка погрешности данных путем разбивки на 2 выборки

Кто сейчас на конференции