2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




На страницу 1, 2  След.
 
 Оценка медианы за один проход без сортировки
Сообщение15.11.2013, 10:51 
Собственно, сабж существует с приемлемой точностью.
То есть, по мере поступления данных $X_i$ можно сразу получить выборочное среднее $\bar{X} = \frac{1}{n}\sum_{i=1}^n X_i$, выборочную дисперсию $S^2_n = \frac{1}{n}\sum\limits_{i=1}^nX_i^2-\left(\frac{1}{n}\sum\limits_{i=1}^nX_i\right)^2$ при каждом изменении $n$.

А выборочную медиану или какое-нибудь ее приближение без сортировки можно получить?

Анатолий

 
 
 
 Re: Оценка медианы за один проход без сортировки
Сообщение15.11.2013, 11:05 
Аватара пользователя
Смотря что дозволено.
Скажем, формально решением является формирование "по мере поступления" вставками отсортированного массива. Это "без сортировки" или нет? Можно немного сэкономить, массив формировать из первой половины данных, а последующие точки нам просто позволят отметить, где в этом массиве медиана (экономия 50% памяти).
Если распределение входных данных не слишком прихотливо (ну, скажем, мы уверены, что оно одномодальное и с конечными моментами), то можно "по мере поступления" считать моменты, по ним строить аппроксимирующее распределение (разложение Грама-Шарлье, система Пирсона и т.п.) и по нему вычислять медиану.

 
 
 
 Re: Оценка медианы за один проход без сортировки
Сообщение15.11.2013, 11:54 
Спасибо за быстрый ответ. Буду разбираться.

То есть, все подобные попытки от лукавого?

 
 
 
 Re: Оценка медианы за один проход без сортировки
Сообщение15.11.2013, 11:59 
Аватара пользователя
Евгений Машеров в сообщении #788874 писал(а):
Если распределение входных данных не слишком прихотливо (ну, скажем, мы уверены, что оно одномодальное и с конечными моментами), то можно "по мере поступления" считать моменты, по ним строить аппроксимирующее распределение (разложение Грама-Шарлье, система Пирсона и т.п.) и по нему вычислять медиану.

А ведь медиана со средним значением и коэффициентом асимметрии должна быть как-то связана?

 
 
 
 Re: Оценка медианы за один проход без сортировки
Сообщение15.11.2013, 12:41 
Аватара пользователя
askrotov в сообщении #788870 писал(а):
А выборочную медиану или какое-нибудь ее приближение без сортировки можно получить?

Запомнить некоторое начало входных данных и на его основе получить гистограмму. Точные неравенства для медианы.
К сожалению, зависит от порядка.

 
 
 
 Re: Оценка медианы за один проход без сортировки
Сообщение15.11.2013, 12:51 
Александрович в сообщении #788896 писал(а):
Евгений Машеров в сообщении #788874 писал(а):
Если распределение входных данных не слишком прихотливо (ну, скажем, мы уверены, что оно одномодальное и с конечными моментами), то можно "по мере поступления" считать моменты, по ним строить аппроксимирующее распределение (разложение Грама-Шарлье, система Пирсона и т.п.) и по нему вычислять медиану.

А ведь медиана со средним значением и коэффициентом асимметрии должна быть как-то связана?

Я видел где-то такую связь: оценка медианы $me=avg-std\frac {skew} {3}$, оценка моды $mo=avg-std\cdot skew$, где $avg$ - выборочное среднее, $std$ - выборочная дисперсия, $skew$ - выборочный коэффициент ассиметрии.

 
 
 
 Re: Оценка медианы за один проход без сортировки
Сообщение15.11.2013, 12:53 
Аватара пользователя
askrotov в сообщении #788893 писал(а):
Спасибо за быстрый ответ. Буду разбираться.

То есть, все подобные попытки от лукавого?


Ну отчего же "от лукавого"? Они же начинают с Relationship between the mean, median, mode, and standard deviation in a unimodal distribution
То есть это не "универсальная оценка", а некое приближение для важного частного случая. На мой взгляд, довольно грубое, но может быть полезно.

 
 
 
 Re: Оценка медианы за один проход без сортировки
Сообщение15.11.2013, 12:53 
Аватара пользователя
Вопрос к ТС. Какое количество значений с.в. можно запомнить?

 
 
 
 Re: Оценка медианы за один проход без сортировки
Сообщение15.11.2013, 12:57 
Александрович в сообщении #788911 писал(а):
Вопрос к ТС. Какое количество значений с.в. можно запомнить?

около $500000$

 
 
 
 Re: Оценка медианы за один проход без сортировки
Сообщение15.11.2013, 13:00 
Аватара пользователя
Да, через гистограмму можно за один проход получить оценку медианы (и вообще любого квантиля) с гарантированной ошибкой в один бин, причём реальная точность за счёт интерполяции может быть заметно выше. Но, чтобы начать построение гистограммы, надо бы знать максимальное и минимальное значение выборки (ну, или дико резервировать память, или использовать списки).

 
 
 
 Re: Оценка медианы за один проход без сортировки
Сообщение15.11.2013, 13:07 
Понятно, спасибо за ответы.

 
 
 
 Re: Оценка медианы за один проход без сортировки
Сообщение15.11.2013, 13:17 
Аватара пользователя
askrotov в сообщении #788913 писал(а):
Александрович в сообщении #788911 писал(а):
Вопрос к ТС. Какое количество значений с.в. можно запомнить?

около $500000$

А тогда какие проблемы с нахождением медианы?

 
 
 
 Re: Оценка медианы за один проход без сортировки
Сообщение15.11.2013, 13:18 
Аватара пользователя
Александрович в сообщении #788896 писал(а):
Евгений Машеров в сообщении #788874 писал(а):
Если распределение входных данных не слишком прихотливо (ну, скажем, мы уверены, что оно одномодальное и с конечными моментами), то можно "по мере поступления" считать моменты, по ним строить аппроксимирующее распределение (разложение Грама-Шарлье, система Пирсона и т.п.) и по нему вычислять медиану.

А ведь медиана со средним значением и коэффициентом асимметрии должна быть как-то связана?


Вообще говоря, нет. Можно построить контрпример, в котором медиана и среднее неизменны, а асимметрия растёт неограничено.
Но для распределений, похожих на нормальное (унимодальны, асимметрия и эксцесс невелики) можно получить прикидку.

 
 
 
 Re: Оценка медианы за один проход без сортировки
Сообщение15.11.2013, 13:46 
Аватара пользователя
Евгений Машеров в сообщении #788916 писал(а):
Да, через гистограмму можно за один проход получить оценку медианы (и вообще любого квантиля) с гарантированной ошибкой в один бин

В "моём" варианте, когда границы интервалов образуют данные начального куска массива, бины различны.
Во многих случаях медиана попадёт в интервал, длина которого существенно меньше средней.

 
 
 
 Re: Оценка медианы за один проход без сортировки
Сообщение15.11.2013, 14:12 
Аватара пользователя
Строить массив для гистограммы по начальному отрезку - может, конечно, ускорить. Но представьте себе, что данные некто (из лучших побуждений!) предварительно отсортировал... :-)

 
 
 [ Сообщений: 18 ]  На страницу 1, 2  След.


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group