2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему
 
 Оценка погрешности данных путем разбивки на 2 выборки
Сообщение17.07.2024, 11:22 


06/12/23
32
Доброго здравия.
У меня после обработки матрицы 84х84 получились 82 нужных мне значения. В обработке исходных данных (не мною получены, опубликованы в 1992 году 3 амер. лингвистами) были функции логарифмирования и СА. Поскольку точность результатов неизвестна, разбил провел обработку еще 2 раза по 2 выборкам матриц 42х42, брал четные и нечетные номера строк/столбцов. Номера присваивал не я, а авторы исследования 1992 года, каждую выборку считаю случайной и репрезентативной.
Сличил результаты расчета по полной выборке и 2 половинкам (это 30 значений, поскольку меня интересовали лишь особые случаи коих было ровно 30 по 2 выборкам). Распределение ошибок оказалось симметричным (СА ошибок близко к 0, именно -0,027), сигма 0,923.
Вправе ли я считать, что на полной выборке, погрешности расчета результатов я не знаю, погрешность окажется меньше значения 0,923 в \sqrt{2} раза, т.е. 0,527 ?

Также, есть подозрение, что из 30 полученных значений 3 выпадающие. Это результат обработки чужих данных, которые проверить невозможно. Критерием явилось выпадение этих 3 значений за пределы 1,5 межквартильных расстояний от 1 и 3 квартиля. Насколько правомерно исключение этих значений при указание на погрешность метода? Сами исходные значения, приведшие к выпадающим после обработки результатам исключить нельзя - результаты "полевых" испытаний святы. При исключении этих 3 значений сигма падает до 0,444, т.е практически вдвое, и погрешность по полной выборке могу считать 0,314.

Но это погрешность полученного результата, полученного вычитанием 2 СА по 84 исходным данным каждая СА. Я могу считать погрешность каждой СА выше значения 0,314 в \sqrt{2} раза, а погрешность каждого из 84 значений исходных данных выше еще в \sqrt{84} раза, итого считать погрешность исходных данных как 0,314 \sqrt{168}=4,07 ?

Погрешность исходных данных от меня не зависит, но исходя из достаточной субъективности сравнения лингвистами списков слов на разных языках с целью поиска "совпадающих", 4 вполне приемлемое значение, т.б. что сами лингвисты оговаривают точность своей работы в 2-3 слова. Но к высокой точности результата приводит возможная компенсация отдельных погрешностей.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ 1 сообщение ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: VanD


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group