2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


В этом разделе нельзя создавать новые темы.

Если Вы хотите задать новый вопрос, то не дописывайте его в существующую тему, а создайте новую в корневом разделе "Помогите решить/разобраться (М)".

Если Вы зададите новый вопрос в существующей теме, то в случае нарушения оформления или других правил форума Ваше сообщение и все ответы на него могут быть удалены без предупреждения.

Не ищите на этом форуме халяву, правила запрещают участникам публиковать готовые решения стандартных учебных задач. Автор вопроса обязан привести свои попытки решения и указать конкретные затруднения.

Обязательно просмотрите тему Правила данного раздела, иначе Ваша тема может быть удалена или перемещена в Карантин, а Вы так и не узнаете, почему.



Начать новую тему Ответить на тему На страницу Пред.  1, 2, 3, 4  След.
 
 Re: Среднее арифметическое, медиана, мода, ...
Сообщение01.12.2011, 09:22 


28/11/11
2884
Задача такова, что нужно усреднить ответы (оценки) людей, которые даны в порядковой шкале. (например, картине выставляют 30 людей оценки от 1 балла до 10 баллов; нужно из этого набора индивидуальных оценок получить коллективную). Хорошим способом считается медиана Кемени.

1. Хотелось бы как-нибудь показать, что медиана Кемени лучше моды и медианы (хотя интуитивно это ясно).

Может, если всё-таки для медианы и моды нет аналога закона больших чисел, а для медианы есть, то уже этим она лучше медианы и моды?

2. И хотелось бы показать математически, сколько людей достаточно опросить, чтобы считать "усреднение" медианой Кемени в каком-то смысле близким к "истинному" мнению.

 Профиль  
                  
 
 Re: Среднее арифметическое, медиана, мода, ...
Сообщение01.12.2011, 13:05 
Аватара пользователя


21/01/09
3925
Дивногорск
longstreet в сообщении #510351 писал(а):
И хотелось бы показать математически, сколько людей достаточно опросить, чтобы считать "усреднение" медианой Кемени в каком-то смысле близким к "истинному" мнению.

А разве с увеличением количества экспертов средняя оценка стремится к истинному значению?

 Профиль  
                  
 
 Re: Среднее арифметическое, медиана, мода, ...
Сообщение01.12.2011, 13:46 


28/11/11
2884
Если под "средней оценкой" понимать усреднение с помощью медианы Кемени, то да. Это следствие справедливости закона (точнее, аналога) больших чисел для медианы Кемени.

-- 01.12.2011, 13:46 --

насколько я понимаю.

 Профиль  
                  
 
 Re: Среднее арифметическое, медиана, мода, ...
Сообщение01.12.2011, 14:49 
Аватара пользователя


21/01/09
3925
Дивногорск
longstreet в сообщении #510351 писал(а):
Задача такова, что нужно усреднить ответы (оценки) людей, которые даны в порядковой шкале. (например, картине выставляют 30 людей оценки от 1 балла до 10 баллов; нужно из этого набора индивидуальных оценок получить коллективную). Хорошим способом считается медиана Кемени.

Покажите на этом примере как вы считаете эту медиану. Мне казалось что она применима для n экспертов и m объёктов.

 Профиль  
                  
 
 Re: Среднее арифметическое, медиана, мода, ...
Сообщение01.12.2011, 23:46 


28/11/11
2884
Ой, Вы правы! :oops: Спасибо! Извините!
Действительно, отношение порядка (с которым работает медиана Кемени) подразумевает минимум два объекта (две художественные картины). Александрович, привести для m=2?

-- 01.12.2011, 23:55 --

То есть, $n\ge 1$, $m\ge 2$.
Так как отношение $xRy=R(x,y)$, где $R='\ge'$ отношение порядка определено для каждых двух объектов.
Когда объектов меньше, чем два, нельзя задать отношение порядка.
Вы совершенно првильно заметили! Спасибо! Теперь я обдумал это.

-- 02.12.2011, 00:04 --

Впрочем, это не отменяет поставленных вопросов.

 Профиль  
                  
 
 Re: Среднее арифметическое, медиана, мода, ...
Сообщение02.12.2011, 07:44 
Супермодератор
Аватара пользователя


29/07/05
8248
Москва
longstreet
я приведу небольшой пример из своего опыта, который возможно окажется полезен для лучшего понимания ситуации. Мне как-то довелось поучаствовать в одном соревновании по анализу данных. Там была некоторая предыстория, по которой требовалось предсказать значения некоторого количества случайных величин. Чье предсказание окажется ближе других к наблюденному в опыте значению - тот и победил. Мой подход (достаточно типичный для таких ситуаций) заключался в том, чтобы по этой предыстории попробовать максимально точно оценить распределение той случайной величины, которую требуется предсказать, после чего взять в качестве ответа некоторую характеристику этого предполагаемого распределения. Ясно, что в качестве этой характеристики следует взять некоторое "среднее", однако какое именно?
Решение следует из того, по какой конкретно формуле в данной ситуации измеряется ошибка предсказания. В том соревновании организаторы измеряли ошибку модулем разности между предсказанным значением и наблюдаемым. Известно, что данный функционал минимизируется на медиане распределения, поэтому в данном случае нужно было брать именно ее. Я для интереса пробовал взять математическое ожидание - результат получался заметно хуже. Поэтому те участники, кто про данное свойство не знал или об этом не задумался, а, к примеру, взял просто среднее арифметическое как наиболее "привычное" среднее - были заранее в худшем положении.
С другой стороны, если бы ошибка предсказания измерялась бы квадратом отклонения, а не модулем (почему бы и нет?), то правильным выбором было бы именно математическое ожидание, потому что квадрат разности минимизируется именно этой величиной.
А если бы речь шла об оценке явно дискретного распределения с небольшим числом возможных значений, и ошибка измерялась бы просто по "угадал - не угадал" без оценки разницы между предсказанием и истинным значением, тогда понятно, что следовало бы максимизировать вероятность точного совпадения, а для этого необходимо брать моду.

Вывод отсюда следующий: различные числовые характеристики распределения не "лучше" и не "хуже" одна другой. Они просто разные, и выбрать между ними можно только глядя на то, для чего они будут использоваться. Вы пишете, что хотите найти "истинную коллективную оценку", однако само по себе это словосочетание все равно еще совершенно ни о чем не говорит. Вы должны ответить на вопрос, как будет использована эта оценка. В зависимости от этого наиболее подходящей может оказаться та или другая характеристика распределения.

Возможно, Вам бы стоило лучше не пытаться оценить распределение одним числом, а учитывая то, что уровней оценок всего 10, просто выдать все распределение полностью - 10 вероятностей в виде таблицы, а еще нагляднее - в виде графика.

 Профиль  
                  
 
 Re: Среднее арифметическое, медиана, мода, ...
Сообщение02.12.2011, 12:50 
Аватара пользователя


21/01/09
3925
Дивногорск
longstreet в сообщении #510663 писал(а):
Действительно, отношение порядка (с которым работает медиана Кемени) подразумевает минимум два объекта (две художественные картины). Александрович, привести для m=2?
То есть, $n\ge 1$, $m\ge 2$.

Если всего два объекта, а экспертов больше двух, то решение какой объект выбрать можно принять простым голосованием.
Приведите расчёты для m=3, тогда минимальное количество экспертов будет $n=m+1=4$. А потом решите ту же задачу с применением моды и среднего значения. Тогда возможно будет понятно о чём вы пытаетесь здесь говорить.

 Профиль  
                  
 
 Re: Среднее арифметическое, медиана, мода, ...
Сообщение02.12.2011, 13:47 


28/11/11
2884
PAV, спасибо что поделились!
Некий аналог ошибки предсказания (по значению которой выбирали победителя в соревноваии по анализу данных), конечно, возможен всегда.
Это всевозможные принципы нахождения количественной оценки 'согласованности' мнений, например, посетителей картинной галереи.
Таких принципов много. Как и Вы упомянули, ошибка предсказания могла измеряться по другому (а почему бы и нет). Но всегда ли мы заранее знаем критерий подсчёта ошибки предсказания? Вот Вы говорите, что я должен ответить на вопрос о том, как будет использовано коллективное усреднение? Но обязательно ли я знаю ответ? Мне кажется, что не знаю. Хотя, надо подумать. Вам, кстати, объявляли как вас будут проверять, или Вы это потом узнали?

Про вывод, который Вы сделали из истории с соревнованием. То, что нет идеального способа получить коллективную оценку – понятно. Мы 'усредняем' всегда в каком-то специальном смысле. (Наверное, Вы могли заметить, что, говоря о желании получить коллективную идеальную оценку, я слово идеальную взял в кавычки.)

Но мне сильно интуитивно кажется (и именно эту кажущность я и хотел бы зафиксировать математически), что медиана Кемени в моём случае лучше других способов. Куча способов 'усреднения' отметаются на том основании, что не всегда их значением является порядковая статистика (то есть можно получить ответ типа 1,72 ребёнка в 'среднем' в семье). Но всё равно остаётся куча способов. Обычная медиана не нравится тем, что мы просто зачеркиваем по оценке (естественно уорядочив прежде) слева-справа, совершенно механически, не смотря на значения зачёркиваемых оценок. Далее, мода плоха тем, что может 'усреднением' оказаться то, что не является предпочтением большинства. (есть такой принцип Кондорсе, позже обобщённый теоремой Эрроу). И вроде мода может привести к пародоксу Кондорсе, а медиана Кемени — не приводит (то есть, удовлетворяет так называемому, вроде, условию Кондорсе).
Ещё, медиана Кемени имеет ясную геометрическую интерпретацию. Которая мне интуитивно сильно нравится. :D

 Профиль  
                  
 
 Re: Среднее арифметическое, медиана, мода, ...
Сообщение02.12.2011, 14:03 


16/05/07
172
Москва
Насколько я понимаю, в каких задачах невозможно угадать правильный вид статистики. Поэтому единственный путь в таких задачах (когда стандартные статистики плохо работают, а точность нужна приемлемая) - это строить оценки через минимизацию функции риска http://en.wikipedia.org/wiki/Empirical_ ... nimization
Там, "по ходу пьессы", можно будет задать какие именно оценки интересуют (или какие оценки заведомо не интересуют).

 Профиль  
                  
 
 Re: Среднее арифметическое, медиана, мода, ...
Сообщение02.12.2011, 14:08 


28/11/11
2884
Далее. Про то, чтобы отказаться от соблазна использовать один показатель для всех оценок. Да! Об этом я думал, грубо говоря, дважды.
Первый – когда захотел для начала убрать весь субъективизм из того, что я делаю с полученными данными. Тогда и упёрся в то, что 'усреднять' можно по-разному. Тогдя же я пришёл к выводу, что лучшее, что я тогда (без субъективизма) могу сделать — просто выдать все данные, которые собрал, в их изначальном виде — держите! :D :D :D
Второй раз я подумал когда читал фейнмановские лекции по квантовой механике. Там про дифракцию на двух щелях. И типа мы обстреливаем из из трясущегося пулемёта. А потом с волнами… И там появляется функция, которая позволяет находить число пуль в каждой (там ящик с песком из которого пули вынимаем потом чтобы посчитать передвигаетчя вдоль оси) точке экрана-мишени. Я подумал, что и у меня в задаче надо вероятность обнаружения в каждой точке (дискретной области: вроде "1 балл","2 балла", … выдавать, а не за все сразу отвечать.

По всему этому я думаю, идея хорошая. Но Вы же всё-таки в какой-то степени можете понять соблазн использовать одну обобщённую коллективную оценку? И, наверное, для каких-то нужд это важно. Например, так легче сравнивать.

-- 02.12.2011, 14:26 --

Александрович, Вы пишете:
Цитата:
Если всего два объекта, а экспертов больше двух, то решение какой объект выбрать можно принять простым голосованием.

Это будет всё равно что модой воспользоваться, да?

Цитата:
Приведите расчёты для m=3, тогда минимальное количество экспертов будет $n=m+1=4$.

Не понял. Количество объектов никак же не связано с количеством людей?! Хотя, может, Вы мне опять на что-то новое глаза откроете. :-)
Откуда такая $n=m+1$ связь? n – это, как я подразумеваю, количество людей (экспертов); m – количество объектов (художественных картин).

Рассчёты для $n=4, m=3$ могу привести. Но откуда мне для этого вычисления взять оценки (баллы, которые эксперты выставляют картинам) – от балды? Это я могу. 8-)

-- 02.12.2011, 14:34 --

Цитата:
А потом решите ту же задачу с применением моды и среднего значения.

Ну, из конкретных оценок, я могу, конечно, случайно получить значение, которое совпадало бы с модой или средним артфметическим. Но в общем случае – нет.

PS и у меня в задаче конечно не два объекта, больше.

-- 02.12.2011, 14:37 --

Андрей1, скажите про это пару слов, пожалуйста.

 Профиль  
                  
 
 Re: Среднее арифметическое, медиана, мода, ...
Сообщение02.12.2011, 15:09 
Аватара пользователя


21/01/09
3925
Дивногорск
longstreet в сообщении #510809 писал(а):
Рассчёты для $n=4, m=3$ могу привести. Но откуда мне для этого вычисления взять оценки (баллы, которые эксперты выставляют картинам) – от балды? Это я могу. 8-)

Давайте.

 Профиль  
                  
 
 Re: Среднее арифметическое, медиана, мода, ...
Сообщение02.12.2011, 17:33 


28/11/11
2884
Хорошо!

Дано:
Три объекта: Ferrari, Lamborgini, Porsche.
Четыре эксперта: Анна, Инна, Ольга, Маша.
Шкала оценок – десятибалльная, от <1> до <10>.

Оценки, выставленные Анной: Ferrari (9), Lamborgini (8), Porshe (4).
Оценки, выставленные Инной: Ferrari (10), Lamborgini (10), Porshe (8).
Оценки, выставленные Ольгой: Ferrari (8), Lamborgini (5), Porshe (10).
Оценки, выставленные Машей: Ferrari (8), Lamborgini (8), Porshe (6).

Решение:
Перейдём от оценок в баллах к порядкам объектов (это после первых знаков равенства будет), а потом представим из матрицы упорядочений (этому соответствовать будут матрицы после вторых знаков равенств). Тогда
$$\text{Анна}=\begin{pmatrix}
\text{Ferrari}\\
\text{Lamborgini}\\
\text{Porsche}
\end{pmatrix}
=\begin{pmatrix}
0 & +1 & +1\\
-1 & 0 & +1\\
-1 & -1 & 0
\end{pmatrix}$$

$$\text{Инна}=\begin{pmatrix}
\text{Ferrari, Lamborgini}\\
\text{Porsche}
\end{pmatrix}
=\begin{pmatrix}
0 & 0 & +1\\
0 & 0 & +1\\
-1 & -1 & 0
\end{pmatrix}$$

$$\text{Ольга}=\begin{pmatrix}
\text{Porsche}\\
\text{Ferrari}\\
\text{Lamborgini}
\end{pmatrix}
=\begin{pmatrix}
0 & +1 & -1\\
-1 & 0 & -1\\
+1 & +1 & 0
\end{pmatrix}$$

$$\text{Маша}=\begin{pmatrix}
\text{Ferrari, Porshe}\\
\text{Lamborgini}
\end{pmatrix}
=\begin{pmatrix}
0 & +1 & +1\\
-1 & 0 & -1\\
-1 & +1 & 0
\end{pmatrix}$$

Теперь вычислим меру близости ('расстояние') между каждыми двумя из имеющихся четырёх упорядочений:
$$d(\text{Анна},\text{Инна})=1$$$$d(\text{Анна},\text{Ольга})=2$$$$d(\text{Анна},\text{Маша})=1$$$$d(\text{Инна},\text{Ольга})=3$$$$d(\text{Инна},\text{Маша})=2$$$$d(\text{Ольга},\text{Маша})=1$$

Далее, я составил всевозможные упорядочения из четырёх объектов (таких упорядочений оказалось $13$, так как возможен делёж мест), посчитал расстояния между всеми соседними упорядочениями и нашёл из этих тринадцати точек те, от которых сумма 'расстояний' до всех упорядочений-ответов минимальна (те упорядочения, которые удовлетворяют этому условию – медианы Кемени) и нашёл из этих точек те, от которых сумма квадратов 'расстояний' минимальна (это среднее-по-Кемени; обобщение среднего арифметического).

Ответ. Медиана Кемени – множество следующих упорядочений:
$$M_1=\begin{pmatrix}
\text{Ferrari}\\
\text{Lamborgini}\\
\text{Porsche}
\end{pmatrix}
$$
$$M_2
=\begin{pmatrix}
\text{Ferrari, Porsche}\\
\text{Lamborgini}
\end{pmatrix}
$$
$$M_3
=\begin{pmatrix}
\text{Ferrari}\\
\text{Porsce}\\
\text{Lamborgini}
\end{pmatrix}
$$
$$M_4
=\begin{pmatrix}
\text{Ferrari}\\
\text{Lamborgini, Porsche}
\end{pmatrix}
$$


Среднее-по-Кемени – множество следующих упорядочений:
$$S_1
=\begin{pmatrix}
\text{Ferrari}\\
\text{Porsche}\\
\text{Lamborgini}
\end{pmatrix}
$$

$$S_2
=\begin{pmatrix}
\text{Ferrari}\\
\text{Lamborgini, Porsche}
\end{pmatrix}
$$

Замечание.
Конечно, не очень явно получилось выделить коллективное мнение. Но, может, зато мы застрахованы от привнесения точности туда, где её нет.
Напомню, что начальные оценки взяты от балды. Думаю, во-первых, когда есть условия для существования согласованного мнения, ответ лучше. Во-вторых, в примере мало экспертов. Надеюсь, чем их больше – тем меньше проблем с множественностью ответов будет.

-- 02.12.2011, 17:40 --

Среднее-по-Кемени я привёл для сравнения. Сам я не сравнивал, минимум какой суммы 'лучше': расстояний (тогда получаем медиану Кемени) или же квадратов расстояний (тогда получаем среднее-по-Кемени).

-- 02.12.2011, 17:46 --

Из четырёх полученных медиан Кемени $M_1$, $M_2$, $M_3$, $M_4$ мы можем любую провозгласить коллективной.

-- 02.12.2011, 17:56 --

Добавление.
Среднее арифметическое (обычное самое :D ) для Ferrari$=8,75$, для Porsche$=7,5$, для Lamborgini$=7,25$.
То есть, упорядочение, соответствующее средним арифметическим значением есть:
$$
\text{Ср.ар.упорядочение}=
\begin{pmatrix}
\text{Ferrari}\\
\text{Porsche}\\
\text{Lamborgini}
\end{pmatrix}
$$

 Профиль  
                  
 
 Re: Среднее арифметическое, медиана, мода, ...
Сообщение03.12.2011, 09:43 


28/11/11
2884
PAV в сообщении #510717 писал(а):
Вы должны ответить на вопрос, как будет использована эта оценка. В зависимости от этого наиболее подходящей может оказаться та или другая характеристика распределения.


Я узнал!) Оценка будет использована для сравнения разных выборок. Например, опросили лиц женского пола и лиц мужского пола, а потом сравнивают соответствующие коллективные (женские и мужские) оценки. На самом деле сравнение оценок предполагается не только между разными полами, но и , например, между разными социокультурными общностями.

Как зто может помочь выбрать более подходящий способ?

 Профиль  
                  
 
 Re: Среднее арифметическое, медиана, мода, ...
Сообщение03.12.2011, 09:54 
Супермодератор
Аватара пользователя


29/07/05
8248
Москва
Вот, это уже гораздо определеннее. Но в таком случае никакая отдельно взятая числовая характеристика распределения не может считаться достаточной. Какую бы характеристику Вы ни выбрали, всегда может оказаться так, что будут наблюдаться два различных распределения, для которых эта выбранная характеристика совпадет, однако другие будут различаться. В данном случае следовало бы решать общую задачу о сравнении двух дискретных распределений. Использовать числовую характеристику типа среднего можно было бы, если бы Вы исходили из априорного предположения, что отличия распределений для сравниваемых выборок могут проявляться в сдвиге. Тогда в принципе любое разумное среднее такое отличие может заметить. Но в Вашем случае, как я понимаю, такого предположения не делается.

 Профиль  
                  
 
 Re: Среднее арифметическое, медиана, мода, ...
Сообщение03.12.2011, 10:46 


28/11/11
2884
PAV в сообщении #511052 писал(а):
В данном случае следовало бы решать общую задачу о сравнении двух дискретных распределений.

Не можете ли Вы, подсказать, литературу, где такая задача решается?
Если такой литературы нет, то как можно её начать решать?

-- 03.12.2011, 10:49 --

А что можно сказать про часто даваемый в литературе по применении статистики в социальных науках совет о том, чтобы использовать одновременно несколько числовых показателей?
Мне кажется несколько это бредовым, потому что вопрос, какой из них доверять (они ведь наверняка будут отличаться) остаётся.

-- 03.12.2011, 10:56 --

PAV в сообщении #511052 писал(а):
Использовать числовую характеристику типа среднего можно было бы, если бы Вы исходили из априорного предположения, что отличия распределений для сравниваемых выборок могут проявляться в сдвиге.

Спасибо! Для меня это очень ценное указание!
Правильно ли его понял как то, что можно было бы использовать характеристику типа среднего, если бы были основания считать, что распределиния для различных выборок могут отличаться только сдвигом и шириной (а форму сохранять)?

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 49 ]  На страницу Пред.  1, 2, 3, 4  След.

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group