2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


В этом разделе нельзя создавать новые темы.

Если Вы хотите задать новый вопрос, то не дописывайте его в существующую тему, а создайте новую в корневом разделе "Помогите решить/разобраться (М)".

Если Вы зададите новый вопрос в существующей теме, то в случае нарушения оформления или других правил форума Ваше сообщение и все ответы на него могут быть удалены без предупреждения.

Не ищите на этом форуме халяву, правила запрещают участникам публиковать готовые решения стандартных учебных задач. Автор вопроса обязан привести свои попытки решения и указать конкретные затруднения.

Обязательно просмотрите тему Правила данного раздела, иначе Ваша тема может быть удалена или перемещена в Карантин, а Вы так и не узнаете, почему.



Начать новую тему Ответить на тему На страницу 1, 2  След.
 
 средние величины
Сообщение13.05.2015, 00:12 


13/05/15
9
Добрый день. У меня имеются 5 векторов. первый-так называемый эталон, остальные 4-приближенные значения. нужно проагрегировать данные четырех векторов чтобы итоговый имел хорошую корреляцию с эталоном.Использую разные виды агрегации данных этих четырех векторов и пришла к такому выводу: если данные достаточно близки и эти 4 вектора хорошо коррелируют между собой, а также достаточно хорошо коррелируют с эталоном, то лучше выбирать среднее квадратическое . объяснения этому в литературе не нашла. Буду очень признательна, если кто-нибудь сможет мне это объяснить

 Профиль  
                  
 
 Re: средние величины
Сообщение13.05.2015, 01:11 
Заслуженный участник
Аватара пользователя


18/01/13
12065
Казань
А в каком смысле вы понимаете "лучше"? Как сравниваете результаты?

 Профиль  
                  
 
 Re: средние величины
Сообщение13.05.2015, 01:21 


13/05/15
9
я считаю коэффициент корреляции Пирсона между эталонным вектором и агрегированными(теми, что получены используя медиану, среднее арифметическое, среднее квадратическое, максимум, минимум и среднее геометрическое) и корреляция выше с вектором полученным при помощи среднего квадратического

 Профиль  
                  
 
 Re: средние величины
Сообщение13.05.2015, 01:42 
Заслуженный участник
Аватара пользователя


18/01/13
12065
Казань
А откуда берутся эти 4 вектора? У вас один конкретный набор? Или генерируются как-то?

 Профиль  
                  
 
 Re: средние величины
Сообщение13.05.2015, 01:54 


13/05/15
9
provincialka в сообщении #1014245 писал(а):
А откуда берутся эти 4 вектора? У вас один конкретный набор? Или генерируются как-то?

Изначально я их генерировала: эталон по равномерному.приближенные: один по равномерному, 2 по нормальному, 1 по экспоненциальному закону (либо другая комбинация данных законов), но это наблюдается и на реальных данных. у меня есть некая оценка-эталон и ряд приближенных значений(тут их 4), полученные при помощи разных алгоритмов. Вот например: 1 столбец-эталон. остальные-приближенные.(разброс достаточно большой, но это не ошибка-это просто разные алгоритмы по разному считают)
0,033 0 0,25 0 0,09
0,02 0 0,148 0 0,041
0,02 0 0,2 0 0,058
0,028 0 0,352 0,066 0,083
0,138 0,1875 0,8 0,201 0,2
0,105 0 0,285 0 0,125
0,275 0 0,695 0,182 0,125
0,105 0,1875 0,8 0,224 0,2
0,21 0 0,235 0 0,071
0,223 0 0,285 0,076 0,062
0,218 0,1875 0,714 0,728 0,2
0,42 0 0,166 0 0,047
0,42 0 0,222 0 0,125
0,415 0 0,727 0,24 0,142
0,743 0 0,2 0 0,111
0,763 0,125 0,285 0 0,142
0,705 0 0,375 0,095 0,09
0,705 0 0,695 0,207 0,125
0,903 0 0,666 0 0,125
0,778 0,3125 0,5 0,229 0,076
0,875 0,125 0,761 0,195 0,166
0,96 0,25 0,869 0,827 0,5
0,925 1 0,923 0,963 0,5
0,738 1 0,941 0,914 0,5
0,94 0,3125 0,9 0,643 0,333
0,98 1 1 1 1
0,855 1 1 1 1
0,96 0 0,631 0,243 0,125

 Профиль  
                  
 
 Re: средние величины
Сообщение13.05.2015, 11:14 
Заслуженный участник
Аватара пользователя


11/03/08
10067
Москва
А почему они вообще должны быть связаны? Если они генерируются, как независимые величины, то дело вообще может быть в том, что взят наихудший способ усреднения...

 Профиль  
                  
 
 Re: средние величины
Сообщение13.05.2015, 11:44 


13/05/15
9
Евгений Машеров в сообщении #1014317 писал(а):
А почему они вообще должны быть связаны? Если они генерируются, как независимые величины, то дело вообще может быть в том, что взят наихудший способ усреднения...

а почему наихудший способ дает хорошую корреляцию? и в каком плане независимы? они обозначают одну и ту же величину, просто получены разными методами.

 Профиль  
                  
 
 Re: средние величины
Сообщение13.05.2015, 14:32 
Заслуженный участник
Аватара пользователя


11/03/08
10067
Москва
Понимаете, я могу поверить,, что в реальных данных у Вас есть основания ждать коррелированности эталона и приближений. Но в моделированных всё зависит от того, что и как Вы моделируете. Почему
student_11 в сообщении #1014248 писал(а):
один по равномерному, 2 по нормальному, 1 по экспоненциальному закону

должны быть как-то связаны с эталоном? Может быть, расскажи Вы подробнее о моделировании, было бы яснее, в чём причина?

 Профиль  
                  
 
 Re: средние величины
Сообщение13.05.2015, 16:02 


13/05/15
9
Евгений Машеров в сообщении #1014419 писал(а):
Понимаете, я могу поверить,, что в реальных данных у Вас есть основания ждать коррелированности эталона и приближений. Но в моделированных всё зависит от того, что и как Вы моделируете. Почему
student_11 в сообщении #1014248 писал(а):
один по равномерному, 2 по нормальному, 1 по экспоненциальному закону

должны быть как-то связаны с эталоном? Может быть, расскажи Вы подробнее о моделировании, было бы яснее, в чём причина?

для равномерного я беру эталон+-какое то значение и новое уже генерирую из данного интервала. для нормального беру эталон как среднее значение и для экспоненциального тоже. В случае реальных данных они обозначают меру близости двух слов. Разные оценки одной меры

 Профиль  
                  
 
 Re: средние величины
Сообщение13.05.2015, 22:14 
Заслуженный участник
Аватара пользователя


11/03/08
10067
Москва
То есть Вы генерируете одно равномерно распределённое значение со средним, равным эталону (а размах какой?), два нормально распределённых со средним, равным эталону (дисперсия?) и экспоненциальное со средним, равным эталону?
У меня такое впечатление, что дело в экспоненциальном. А если промоделировать без него?

 Профиль  
                  
 
 Re: средние величины
Сообщение14.05.2015, 00:05 


13/05/15
9
Размах я меняю: от 0 до 0.6 - я пытаюсь отследить закономерность. чем меньше размах, тем больше вероятность того, что лучший результат даст ср. квадратическое. а те данные, которые я привела выше, не являются сгенерированными-это реальные данные-результаты работы методов. и там тоже среднее квадратическое дает хороший результат (там они работают на основе одной базы и корреляция между ними (без эталона) хорошая( выше 0,55)). Когда я брала только равномерно распределенные величины, то там лучшим был (макс+мин)/2 а на втором месте опять таки среднее квадратическое

 Профиль  
                  
 
 Re: средние величины
Сообщение14.05.2015, 16:31 
Заслуженный участник
Аватара пользователя


11/03/08
10067
Москва
По представленным реальным данным - преимущество в коррелированности "агрегатов" с эталоном действительно у среднего квадратического, но оно, 56.8%, не настолько выше корреляций для среднего (55.6%) и медианы (55.2%), чтобы можно было утверждать, что это не случайное совпадение.
Вообще среднее квадратическое "подчёркивает" большие значения, они оказывают большее влияние на значение среднего по сравнению с малыми, хотя в отличие от максимума, зависящего лишь от одного наибольшего, зависят от всех. Возможно (если наблюдённый Вами эффект действителен, а не случайная флуктуация), если один из векторов лучше коррелирован с эталоном и при этом имеет большие значения, это проявится в подчёркивании его влияния средним квадратичным, которое, таким образом, оказывается более коррелированным с эталоном, поскольку более коррелирована эта, "подчёркнутая" переменная (в данном случае это имеет место - значения средних по переменным 0.203 0.558 0.287 0.227, а корреляций с эталоном 0.4871 0.545 0.526 0.512, то есть вторая переменная и наибольшая по среднему значению, и лучше коррелирована).
По моделированным данным - мне отчего-то кажется, что это артефакт, вызванным тем, что у Вас использовано, среди прочих, экспоненциальное распределение. Если для всех прочих величин, нормальное ли распределение или равномерное, дисперсия разности сгенерированной величины с эталоном постоянна, то в этом случае она растёт с увеличением значения эталона. Получается некий "выброс", сильно искажающий корреляции.
Возможно, есть резон вовсе отказаться от оценки коэффициентом корреляции, используя просто отклонение величины от "эталона" (абсолютное, или лучше квадратическое).

 Профиль  
                  
 
 Re: средние величины
Сообщение14.05.2015, 18:36 


13/05/15
9
Евгений Машеров в сообщении #1015010 писал(а):
По представленным реальным данным - преимущество в коррелированности "агрегатов" с эталоном действительно у среднего квадратического, но оно, 56.8%, не настолько выше корреляций для среднего (55.6%) и медианы (55.2%), чтобы можно было утверждать, что это не случайное совпадение.
Вообще среднее квадратическое "подчёркивает" большие значения, они оказывают большее влияние на значение среднего по сравнению с малыми, хотя в отличие от максимума, зависящего лишь от одного наибольшего, зависят от всех. Возможно (если наблюдённый Вами эффект действителен, а не случайная флуктуация), если один из векторов лучше коррелирован с эталоном и при этом имеет большие значения, это проявится в подчёркивании его влияния средним квадратичным, которое, таким образом, оказывается более коррелированным с эталоном, поскольку более коррелирована эта, "подчёркнутая" переменная (в данном случае это имеет место - значения средних по переменным 0.203 0.558 0.287 0.227, а корреляций с эталоном 0.4871 0.545 0.526 0.512, то есть вторая переменная и наибольшая по среднему значению, и лучше коррелирована).
По моделированным данным - мне отчего-то кажется, что это артефакт, вызванным тем, что у Вас использовано, среди прочих, экспоненциальное распределение. Если для всех прочих величин, нормальное ли распределение или равномерное, дисперсия разности сгенерированной величины с эталоном постоянна, то в этом случае она растёт с увеличением значения эталона. Получается некий "выброс", сильно искажающий корреляции.
Возможно, есть резон вовсе отказаться от оценки коэффициентом корреляции, используя просто отклонение величины от "эталона" (абсолютное, или лучше квадратическое).

Мне просто нужно отследить , скажем так, "соизменяемость", на деле, алгоритмы часто дают оценку ниже, чем эталон и как следствие, лучшим способом агрегации получается максимум, который не может служить хорошей оценкой. Спасибо большое, я попробую еще раз промоделировать без экспоненциального. Вообще, малый размер выборки мешает делать какие-либо точные выводы

а то что Вы сказали действительно имеет место.когда я работала с 5 алгоритмами, 4 из них давали не очень большую корреляцию с эталоном и значения были не очень большими при добавлении 5го алгоритма, корреляция которого с эталоном больше и сами значения больше,лучшую оценку получало среднее квадратическое примерно в 95% случаев, остальные -максимум. Спасибо. я сама как-то не додумалась до этого...

Хотела еще спросить, а вот Вы говорите, что оно подчеркивает, но возведение в квадрат чисел от 0 до 1 наоборот уменьшает их и разницу между ними. Например, было 0,2 и 0,7. разница между ними 0,5. а в квадрате 0,04 и 0,49 и разница между ними 0,45. не так существенно , конечно, но все же. такое ощущение, что оно наоборот сглаживает данные или я ошибаюсь? или же возведение в квадрат уменьшает влияние других, не так хорошо коррелирующих, и усиливает (по сравнению с другими)

 Профиль  
                  
 
 Re: средние величины
Сообщение14.05.2015, 21:20 
Заслуженный участник
Аватара пользователя


11/03/08
10067
Москва

(Оффтоп)

Я бы советовал, единожды процитировав, далее не цитировать. Могут быть замечания (не от меня, я не модератор). Уже понятно, к чему относится. Ну, или вместо "цитата" выделять фрагмент и нажимать "вставка", тогда вставится лишь он.

 Профиль  
                  
 
 Re: средние величины
Сообщение14.05.2015, 21:22 


13/05/15
9
Хорошо. Извините) я просто первый раз обращаюсь за помощью на форум

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 20 ]  На страницу 1, 2  След.

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group