2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




На страницу 1, 2  След.
 
 Усреднение эмпирических данных
Сообщение25.04.2012, 14:08 
Добрый день, коллеги!

Поскольку математиком не являюсь, заранее прошу прощения за сумбурность изложения и, вероятно, слабую теоретическую подготовку. Суть вопроса в следующем. Имеется математическая модель, в которой требуется учесть влияние некоторой случайной величины. Информация о природе этой сущности может быть получена лишь экспериментально в процессе моделирования. В результате предлагается перейти от случайности (вернее псевдослучайности) к оценке среднего значения и в мат. аппарате использовать именно его. С точки зрения самого эксперимента использования среднего должно быть достаточно для иллюстрации "масштаба бедствия". Случайная величина характеризует число возникновений некоторого события на интервале времени.

Вопрос 1: Насколько корректно предложение использования среднего в принципе (интересует мнение близкое к практике)?
Вопрос 2: Как определить достаточное число экспериментов (число интералов времени, на которых производится наблюдение)?
Вопрос 3: Достаточным ли будет указания на мат. ожидания и дисперсии для пояснения характера явления? Имеет ли здесь место речь о погрешности?

Спасибо.

P.S. Просьба к модераторам перенести в "Помогите решить / разобраться (М)", ошибся разделом.

 
 
 
 Re: Усреднение эмпирических данных
Сообщение25.04.2012, 17:53 
@nger в сообщении #563737 писал(а):
Вопрос 1: Насколько корректно предложение использования среднего в принципе (интересует мнение близкое к практике)?
Ну упрощенно говоря ответ обычный: использование корректно и в среднем дает именно то, что нужно. Но следует параллельно вычислять и дисперсию - оценивать разброс значений. Чем больше разброс, тем хуже.

@nger в сообщении #563737 писал(а):
Вопрос 2: Как определить достаточное число экспериментов (число интералов времени, на которых производится наблюдение)?
Зависит от распределения. Если оно нормальное, то примерно 30 хватает для значимости $0,95$. Если не знаете какое - то больше.

@nger в сообщении #563737 писал(а):
Вопрос 3: Достаточным ли будет указания на мат. ожидания и дисперсии для пояснения характера явления? Имеет ли здесь место речь о погрешности?
Если распределение нормальное (быть может еще какое-то, но надо знать какое), то достаточно для установления распределения случайной величины точно, иначе - нет. Характер явления вообще относится не к математике, а к физике, статистика ничего о характере в принципе сказать не может.

 
 
 
 Re: Усреднение эмпирических данных
Сообщение25.04.2012, 18:19 
Sonic86 в сообщении #563826 писал(а):
@nger в сообщении #563737 писал(а):
Вопрос 3: Достаточным ли будет указания на мат. ожидания и дисперсии для пояснения характера явления? Имеет ли здесь место речь о погрешности?
Если распределение нормальное (быть может еще какое-то, но надо знать какое), то достаточно для установления распределения случайной величины точно, иначе - нет. Характер явления вообще относится не к математике, а к физике, статистика ничего о характере в принципе сказать не может.


Спасибо. По большому счету все соответствует ожиданиям. Под характером понимал, естественно, закон распределения - неверно выразился.

 
 
 
 Re: Усреднение эмпирических данных
Сообщение25.04.2012, 18:42 
@nger в сообщении #563836 писал(а):
Спасибо. По большому счету все соответствует ожиданиям. Под характером понимал, естественно, закон распределения - неверно выразился.
Можете взять какую-нибудь книжку по статистике - там это все написано.

 
 
 
 Re: Усреднение эмпирических данных
Сообщение25.04.2012, 19:16 
Аватара пользователя
@nger в сообщении #563737 писал(а):
Вопрос 2: Как определить достаточное число экспериментов (число интералов времени, на которых производится наблюдение)?

Смотря для чего.
Sonic86 в сообщении #563826 писал(а):
Если оно нормальное, то примерно 30 хватает для значимости

Смотря какая дисперсия. В принципе можно попробовать её оценить.
На всякий случай можно провести какие-нибудь дополнительные тесты (относительно стационарности, нормальности ...).

 
 
 
 Re: Усреднение эмпирических данных
Сообщение27.04.2012, 09:41 
Аватара пользователя
@nger, ответы на все три вопроса зависят от априорной вероятностной модели задачи, без коей Вы никак не обойдётесь. Под вероятностной моделью я имею в виду не то, что распределение случайной величины должно быть задано, а то, что хоть что-то должно быть задано: например, распределение на множестве возможных распределений.

Помню, я как-то пробовал оценить для фондового рынка такую вещь, как распределение моментального тренда (скорости роста/падения курса). На первый взгляд кажется, что можно оценить дисперсию этой величины и, опираясь на гипотезу о её нормальном распределении, уже быть в состоянии кое-что сказать о динамике курса. Увы, более глубокое копание показало, что гипотеза нормальности распределения совершенно не работает: оценки моментов четвёртого и более высоких порядков оказались гораздо бОльшими, чем должны были быть для нормального распределения. Так что если бы я положился на гипотезу нормальности распределения, то совершил бы жестокую ошибку.

Но на какие-то априорные гипотезы полагаться придётся. А потом придётся на практике отвечать за результаты своих предположений...

 
 
 
 Re: Усреднение эмпирических данных
Сообщение27.04.2012, 16:23 
мат-ламер в сообщении #563868 писал(а):
Смотря для чего.
По большому счету цель единственная - показать, что оценка достоверна и можно на нее полагаться в контексте совершенствования исходной мат. модели. В данном аспекте, при оценке выборочного среднего необходимо располагать информацией о достаточном числе измерений.

мат-ламер в сообщении #563868 писал(а):
Смотря какая дисперсия. В принципе можно попробовать её оценить.
На всякий случай можно провести какие-нибудь дополнительные тесты (относительно стационарности, нормальности ...).
Да, выяснилось, что выборочное среднее получить на этапе моделирования гораздо проще, нежели выборочную дисперсию (выборка в явном виде не хранится ни для одной из $10^7$ исследуемых сущностей, $10^4$ экспериментов с сущностями, длительность единичного эксперимента, и прочая лирика). Смущает формулировка "можно попробовать" :roll:

epros в сообщении #564435 писал(а):
@nger, ответы на все три вопроса зависят от априорной вероятностной модели задачи, без коей Вы никак не обойдётесь. Под вероятностной моделью я имею в виду не то, что распределение случайной величины должно быть задано, а то, что хоть что-то должно быть задано: например, распределение на множестве возможных распределений.

Помню, я как-то пробовал оценить для фондового рынка такую вещь, как распределение моментального тренда (скорости роста/падения курса). На первый взгляд кажется, что можно оценить дисперсию этой величины и, опираясь на гипотезу о её нормальном распределении, уже быть в состоянии кое-что сказать о динамике курса. Увы, более глубокое копание показало, что гипотеза нормальности распределения совершенно не работает: оценки моментов четвёртого и более высоких порядков оказались гораздо бОльшими, чем должны были быть для нормального распределения. Так что если бы я положился на гипотезу нормальности распределения, то совершил бы жестокую ошибку.

Но на какие-то априорные гипотезы полагаться придётся. А потом придётся на практике отвечать за результаты своих предположений...
Насколько я понял, Вы предлагаете задаться гипотезой о законе распределения с.в., а затем, на этапе статистической проверки гипотезы, либо отбросить ее, либо принять (таким образом перебрав различные распределения и определив единственно-верное)? Встает вопрос, насколько это действительно нужно (учитывая объем вычислений при ограниченном запасе времени и т.п.), ведь от использования в модели выборочного среднего мне в любом случае никуда не уйти?

Фактически, насколько я могу судить, у меня кроме среднего есть лишь максимальное, но его использование видится излишне пессимистичным. В данном смысле оценка дисперсии может ответить на вопрос "насколько часто проявляется наихудший сценарий?" и обусловить необходимость перехода от среднего к максимуму. Если я правильно понял то, о чем писал Sonic86.

 
 
 
 Re: Усреднение эмпирических данных
Сообщение27.04.2012, 19:55 
Аватара пользователя
@nger в сообщении #564581 писал(а):
Смущает формулировка "можно попробовать"

Я не знаю Вашу ситуацию и потому так пишу. Если выборка не хранится, то можно попробовать применить рекуррентные оценки.

 
 
 
 Re: Усреднение эмпирических данных
Сообщение27.04.2012, 21:34 
Аватара пользователя
А можно предполагаемый диапазон измеряемой величины разбить на интервалы и хранить только количество попаданий в интервалы.

 
 
 
 Re: Усреднение эмпирических данных
Сообщение28.04.2012, 01:52 
Да я в принципе и не отрицал, что дисперсию можно вычислить). Тем не менее, за последний вариант отдельное спасибо, он очень хорошо вписывается (случайная величина целочисленная).

 
 
 
 Re: Усреднение эмпирических данных
Сообщение28.04.2012, 08:52 
Аватара пользователя
@nger в сообщении #564581 писал(а):
Насколько я понял, Вы предлагаете задаться гипотезой о законе распределения с.в., а затем, на этапе статистической проверки гипотезы, либо отбросить ее, либо принять (таким образом перебрав различные распределения и определив единственно-верное)? Встает вопрос, насколько это действительно нужно (учитывая объем вычислений при ограниченном запасе времени и т.п.), ведь от использования в модели выборочного среднего мне в любом случае никуда не уйти?
От каких-то гипотез Вам всё равно никуда не деться. В зависимости от того, что Вам нужно и какая сложность вычислений для Вас приемлема, и гипотезы могут быть разными. Ведь, в конце концов, можно наплевать на распределения и просто посчитать соответствующую величину заданной, игнорируя «некоторые несоответствия» экспериментальным данным.

 
 
 
 Re: Усреднение эмпирических данных
Сообщение28.04.2012, 11:17 
По большому счету я склоняюсь к последнему варианту, в зависимости от величины дисперсии. Если она не большая - оценивать по среднему, в противном случае по максимуму.

 
 
 
 Re: Усреднение эмпирических данных
Сообщение28.04.2012, 21:29 
Аватара пользователя
@nger в сообщении #564860 писал(а):
По большому счету я склоняюсь к последнему варианту, в зависимости от величины дисперсии. Если она не большая - оценивать по среднему

Проведите тест на нормальность распределения с помощью критерия хи-квадрат. И если тест будет пройден, то используйте среднее.
@nger в сообщении #564860 писал(а):
в противном случае по максимуму.

А это как?
@nger в сообщении #564581 писал(а):
По большому счету цель единственная - показать, что оценка достоверна и можно на нее полагаться в контексте совершенствования исходной мат. модели. В данном аспекте, при оценке выборочного среднего необходимо располагать информацией о достаточном числе измерений.

Если будет пройден тест на нормальность, найдёте оценку дисперсии оцениваемой случайной величины. Далее находите оценку дисперсии выборочного среднего и доверительный интервал для него. Далее исходя из требуемой величины доверительного интервала находите необходимое число наблюдений.

 
 
 
 Re: Усреднение эмпирических данных
Сообщение28.04.2012, 21:53 
мат-ламер в сообщении #565183 писал(а):
А это как?


Размышление приблизительно следующее: разброс случайной величины достаточно велик (большая дисперсия) => использование в модели максимального значения параметра не обладает излишним пессимизмом.

Предложенный метод на будущей неделе обязательно опробую, спасибо. Даст бог нормальность подтвердится.

 
 
 
 Re: Усреднение эмпирических данных
Сообщение02.05.2012, 12:15 
Нормальность распределения не подтвердилась (что вполне логично, т.к. распределение, судя по всему, дискретное :| ).

Пример выборки:
Выборочное среднее = 2
Выборочная дисперсия = 2.513
Размер выборки = 40
Выборка: 3, 2, 5, 1, 5, 2, 4, 2, 3, 3, 0, 6, 2, 2, 2, 1, 2, 1, 0, 2, 0, 0, 2, 2, 1, 0, 0, 0, 3, 2, 1, 1, 0, 3, 1, 5, 3, 3, 4, 3

Какие у меня варианты могут быть?

 
 
 [ Сообщений: 19 ]  На страницу 1, 2  След.


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group