2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


В этом разделе нельзя создавать новые темы.

Если Вы хотите задать новый вопрос, то не дописывайте его в существующую тему, а создайте новую в корневом разделе "Помогите решить/разобраться (М)".

Если Вы зададите новый вопрос в существующей теме, то в случае нарушения оформления или других правил форума Ваше сообщение и все ответы на него могут быть удалены без предупреждения.

Не ищите на этом форуме халяву, правила запрещают участникам публиковать готовые решения стандартных учебных задач. Автор вопроса обязан привести свои попытки решения и указать конкретные затруднения.

Обязательно просмотрите тему Правила данного раздела, иначе Ваша тема может быть удалена или перемещена в Карантин, а Вы так и не узнаете, почему.



Начать новую тему Ответить на тему На страницу 1, 2  След.
 
 Оценка медианы за один проход без сортировки
Сообщение15.11.2013, 10:51 


15/11/13
19
Собственно, сабж существует с приемлемой точностью.
То есть, по мере поступления данных $X_i$ можно сразу получить выборочное среднее $\bar{X} = \frac{1}{n}\sum_{i=1}^n X_i$, выборочную дисперсию $S^2_n = \frac{1}{n}\sum\limits_{i=1}^nX_i^2-\left(\frac{1}{n}\sum\limits_{i=1}^nX_i\right)^2$ при каждом изменении $n$.

А выборочную медиану или какое-нибудь ее приближение без сортировки можно получить?

Анатолий

 Профиль  
                  
 
 Re: Оценка медианы за один проход без сортировки
Сообщение15.11.2013, 11:05 
Заслуженный участник
Аватара пользователя


11/03/08
10041
Москва
Смотря что дозволено.
Скажем, формально решением является формирование "по мере поступления" вставками отсортированного массива. Это "без сортировки" или нет? Можно немного сэкономить, массив формировать из первой половины данных, а последующие точки нам просто позволят отметить, где в этом массиве медиана (экономия 50% памяти).
Если распределение входных данных не слишком прихотливо (ну, скажем, мы уверены, что оно одномодальное и с конечными моментами), то можно "по мере поступления" считать моменты, по ним строить аппроксимирующее распределение (разложение Грама-Шарлье, система Пирсона и т.п.) и по нему вычислять медиану.

 Профиль  
                  
 
 Re: Оценка медианы за один проход без сортировки
Сообщение15.11.2013, 11:54 


15/11/13
19
Спасибо за быстрый ответ. Буду разбираться.

То есть, все подобные попытки от лукавого?

 Профиль  
                  
 
 Re: Оценка медианы за один проход без сортировки
Сообщение15.11.2013, 11:59 
Аватара пользователя


21/01/09
3929
Дивногорск
Евгений Машеров в сообщении #788874 писал(а):
Если распределение входных данных не слишком прихотливо (ну, скажем, мы уверены, что оно одномодальное и с конечными моментами), то можно "по мере поступления" считать моменты, по ним строить аппроксимирующее распределение (разложение Грама-Шарлье, система Пирсона и т.п.) и по нему вычислять медиану.

А ведь медиана со средним значением и коэффициентом асимметрии должна быть как-то связана?

 Профиль  
                  
 
 Re: Оценка медианы за один проход без сортировки
Сообщение15.11.2013, 12:41 
Заслуженный участник
Аватара пользователя


06/04/10
3152
askrotov в сообщении #788870 писал(а):
А выборочную медиану или какое-нибудь ее приближение без сортировки можно получить?

Запомнить некоторое начало входных данных и на его основе получить гистограмму. Точные неравенства для медианы.
К сожалению, зависит от порядка.

 Профиль  
                  
 
 Re: Оценка медианы за один проход без сортировки
Сообщение15.11.2013, 12:51 


15/11/13
19
Александрович в сообщении #788896 писал(а):
Евгений Машеров в сообщении #788874 писал(а):
Если распределение входных данных не слишком прихотливо (ну, скажем, мы уверены, что оно одномодальное и с конечными моментами), то можно "по мере поступления" считать моменты, по ним строить аппроксимирующее распределение (разложение Грама-Шарлье, система Пирсона и т.п.) и по нему вычислять медиану.

А ведь медиана со средним значением и коэффициентом асимметрии должна быть как-то связана?

Я видел где-то такую связь: оценка медианы $me=avg-std\frac {skew} {3}$, оценка моды $mo=avg-std\cdot skew$, где $avg$ - выборочное среднее, $std$ - выборочная дисперсия, $skew$ - выборочный коэффициент ассиметрии.

 Профиль  
                  
 
 Re: Оценка медианы за один проход без сортировки
Сообщение15.11.2013, 12:53 
Заслуженный участник
Аватара пользователя


11/03/08
10041
Москва
askrotov в сообщении #788893 писал(а):
Спасибо за быстрый ответ. Буду разбираться.

То есть, все подобные попытки от лукавого?


Ну отчего же "от лукавого"? Они же начинают с Relationship between the mean, median, mode, and standard deviation in a unimodal distribution
То есть это не "универсальная оценка", а некое приближение для важного частного случая. На мой взгляд, довольно грубое, но может быть полезно.

 Профиль  
                  
 
 Re: Оценка медианы за один проход без сортировки
Сообщение15.11.2013, 12:53 
Аватара пользователя


21/01/09
3929
Дивногорск
Вопрос к ТС. Какое количество значений с.в. можно запомнить?

 Профиль  
                  
 
 Re: Оценка медианы за один проход без сортировки
Сообщение15.11.2013, 12:57 


15/11/13
19
Александрович в сообщении #788911 писал(а):
Вопрос к ТС. Какое количество значений с.в. можно запомнить?

около $500000$

 Профиль  
                  
 
 Re: Оценка медианы за один проход без сортировки
Сообщение15.11.2013, 13:00 
Заслуженный участник
Аватара пользователя


11/03/08
10041
Москва
Да, через гистограмму можно за один проход получить оценку медианы (и вообще любого квантиля) с гарантированной ошибкой в один бин, причём реальная точность за счёт интерполяции может быть заметно выше. Но, чтобы начать построение гистограммы, надо бы знать максимальное и минимальное значение выборки (ну, или дико резервировать память, или использовать списки).

 Профиль  
                  
 
 Re: Оценка медианы за один проход без сортировки
Сообщение15.11.2013, 13:07 


15/11/13
19
Понятно, спасибо за ответы.

 Профиль  
                  
 
 Re: Оценка медианы за один проход без сортировки
Сообщение15.11.2013, 13:17 
Аватара пользователя


21/01/09
3929
Дивногорск
askrotov в сообщении #788913 писал(а):
Александрович в сообщении #788911 писал(а):
Вопрос к ТС. Какое количество значений с.в. можно запомнить?

около $500000$

А тогда какие проблемы с нахождением медианы?

 Профиль  
                  
 
 Re: Оценка медианы за один проход без сортировки
Сообщение15.11.2013, 13:18 
Заслуженный участник
Аватара пользователя


11/03/08
10041
Москва
Александрович в сообщении #788896 писал(а):
Евгений Машеров в сообщении #788874 писал(а):
Если распределение входных данных не слишком прихотливо (ну, скажем, мы уверены, что оно одномодальное и с конечными моментами), то можно "по мере поступления" считать моменты, по ним строить аппроксимирующее распределение (разложение Грама-Шарлье, система Пирсона и т.п.) и по нему вычислять медиану.

А ведь медиана со средним значением и коэффициентом асимметрии должна быть как-то связана?


Вообще говоря, нет. Можно построить контрпример, в котором медиана и среднее неизменны, а асимметрия растёт неограничено.
Но для распределений, похожих на нормальное (унимодальны, асимметрия и эксцесс невелики) можно получить прикидку.

 Профиль  
                  
 
 Re: Оценка медианы за один проход без сортировки
Сообщение15.11.2013, 13:46 
Заслуженный участник
Аватара пользователя


06/04/10
3152
Евгений Машеров в сообщении #788916 писал(а):
Да, через гистограмму можно за один проход получить оценку медианы (и вообще любого квантиля) с гарантированной ошибкой в один бин

В "моём" варианте, когда границы интервалов образуют данные начального куска массива, бины различны.
Во многих случаях медиана попадёт в интервал, длина которого существенно меньше средней.

 Профиль  
                  
 
 Re: Оценка медианы за один проход без сортировки
Сообщение15.11.2013, 14:12 
Заслуженный участник
Аватара пользователя


11/03/08
10041
Москва
Строить массив для гистограммы по начальному отрезку - может, конечно, ускорить. Но представьте себе, что данные некто (из лучших побуждений!) предварительно отсортировал... :-)

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 18 ]  На страницу 1, 2  След.

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group