2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему
 
 Оценка погрешности данных путем разбивки на 2 выборки
Сообщение17.07.2024, 11:22 


06/12/23
32
Доброго здравия.
У меня после обработки матрицы 84х84 получились 82 нужных мне значения. В обработке исходных данных (не мною получены, опубликованы в 1992 году 3 амер. лингвистами) были функции логарифмирования и СА. Поскольку точность результатов неизвестна, разбил провел обработку еще 2 раза по 2 выборкам матриц 42х42, брал четные и нечетные номера строк/столбцов. Номера присваивал не я, а авторы исследования 1992 года, каждую выборку считаю случайной и репрезентативной.
Сличил результаты расчета по полной выборке и 2 половинкам (это 30 значений, поскольку меня интересовали лишь особые случаи коих было ровно 30 по 2 выборкам). Распределение ошибок оказалось симметричным (СА ошибок близко к 0, именно -0,027), сигма 0,923.
Вправе ли я считать, что на полной выборке, погрешности расчета результатов я не знаю, погрешность окажется меньше значения 0,923 в \sqrt{2} раза, т.е. 0,527 ?

Также, есть подозрение, что из 30 полученных значений 3 выпадающие. Это результат обработки чужих данных, которые проверить невозможно. Критерием явилось выпадение этих 3 значений за пределы 1,5 межквартильных расстояний от 1 и 3 квартиля. Насколько правомерно исключение этих значений при указание на погрешность метода? Сами исходные значения, приведшие к выпадающим после обработки результатам исключить нельзя - результаты "полевых" испытаний святы. При исключении этих 3 значений сигма падает до 0,444, т.е практически вдвое, и погрешность по полной выборке могу считать 0,314.

Но это погрешность полученного результата, полученного вычитанием 2 СА по 84 исходным данным каждая СА. Я могу считать погрешность каждой СА выше значения 0,314 в \sqrt{2} раза, а погрешность каждого из 84 значений исходных данных выше еще в \sqrt{84} раза, итого считать погрешность исходных данных как 0,314 \sqrt{168}=4,07 ?

Погрешность исходных данных от меня не зависит, но исходя из достаточной субъективности сравнения лингвистами списков слов на разных языках с целью поиска "совпадающих", 4 вполне приемлемое значение, т.б. что сами лингвисты оговаривают точность своей работы в 2-3 слова. Но к высокой точности результата приводит возможная компенсация отдельных погрешностей.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ 1 сообщение ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group