2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему
 
 Сумма признаков с разным масштабом с учетом корреляций
Сообщение09.12.2021, 17:13 


10/07/21
4
Всем привет! Задача не стандартная и не требует строгого математического обоснования, нужна лишь некая рекуррентная формула.
Есть несколько признаков с разными масштабами и значениями корреляций между ними. Присутствует множественная корреляция, но не попарная всех со всеми. Ставится задача путем математических операций произвести сумму этих величин в соответствии с корреляцией.
Например. Пусть, признаки состоит всего из одного элемента
Первый признак: 100
Второй признак: 1000
Корреляция между ними: 0.7
Я долго думала и в голове созрел такой способ: Признак с большим масштабом оставить без изменения и сложить с признак меньшего масштаба, умноженный на корреляцию и деленный на разницу масштабов. Для данного случая сумма будет равна 1007 и это хоть отдаленно, но похоже не правду. Однако при бОльшем количестве признаков и попарных корреляций, метод ломается и выдает слишком малые значения. Может, у кого была схожая задача или кто-нибудь знает название метода?

 Профиль  
                  
 
 Re: Сумма признаков с разным масштабом с учетом корреляций
Сообщение09.12.2021, 17:51 
Заслуженный участник
Аватара пользователя


16/07/14
9151
Цюрих
А что получить-то нужно? Почему нельзя взять в качестве суммы $42$ и этим ограничиться?

 Профиль  
                  
 
 Re: Сумма признаков с разным масштабом с учетом корреляций
Сообщение09.12.2021, 17:56 


10/07/21
4
mihaild в сообщении #1542221 писал(а):
А что получить-то нужно? Почему нельзя взять в качестве суммы $42$ и этим ограничиться?

Нужно получить сумму двух величин, учитывая их корреляцию. Сама задача пришла от бизнеса. У них есть множество точек продаж своей продукции и различные метрики, оценивающие состояние этих точек (средняя свежесть продукции, очереди, недовольные клиенты и тд). По каждой метрике также рассчитаны потери в деньгах. Само собой понятно, что множество недовольных клиентов может быть из-за очередей и эти метрики коррелируют и потери по ним нельзя просто линейно складывать. Не совсем понятно, как вы получили 42, ибо это число должно быть точно более 1000 ибо число с наибольшим масштабом = 1000 :D
P.S. просто умножать на корреляцию также нельзя, ибо тогда мы никак не учитываем объем

 Профиль  
                  
 
 Re: Сумма признаков с разным масштабом с учетом корреляций
Сообщение09.12.2021, 18:55 


10/03/16
4444
Aeroport
kristina_pyt99
У Вас есть: 1) разные масштабы и 2) корреляции. Поэтому первым делом избавляемся от 1) и 2) путем преобразования главных компонент (principal component transformation, который обычно называют principal component analysis или PCA). Метод PCA есть в библиотеках пайтона и R. На выходе он дает столько же признаков, сколько было, только теперь признаки декоррелированы. Далее - просто возьмите из этой группы признак, который меняется больше остальных, т.е. у которого среднеквадратичная амплитуда больше всех. Это будет признак, соответствующий максимальному собственному значению ковариационной матрицы

-- 09.12.2021, 19:02 --

kristina_pyt99 в сообщении #1542223 писал(а):
Не совсем понятно, как вы получили 42

Это мем из какого-то фантастического произведения: там сконструировали супер-пупер искусственный интелект и задали вопрос то ли о смысле жизни, то ли... в общем, очень умный и корректный вопрос задали. И комп им ответил: 42 (произведение видать писалось в то время, когда компы не умели выдавать ничего, кроме цифр). С тех пор 42 - это у учёных как бы псевдо-случайное число ))

 Профиль  
                  
 
 Re: Сумма признаков с разным масштабом с учетом корреляций
Сообщение09.12.2021, 19:15 
Заслуженный участник
Аватара пользователя


16/07/14
9151
Цюрих
kristina_pyt99 в сообщении #1542223 писал(а):
Нужно получить сумму двух величин, учитывая их корреляцию.
Что это значит? Что такое сумма двух величин - знаю, что такое "сумма двух величин учитывая их корреляицю" - не знаю.
Если у вас есть набор величин и вы хотите по ним что-то предсказывать - это стандартная задача машинного обучения.
kristina_pyt99 в сообщении #1542223 писал(а):
Не совсем понятно, как вы получили 42
Я просто хотел чтобы вы написали, что вам нужно, чтобы из этого было понятно, почему 42 вам не подходит.
ozheredov в сообщении #1542234 писал(а):
Это мем из какого-то фантастического произведения
Автостопом по галактике

 Профиль  
                  
 
 Re: Сумма признаков с разным масштабом с учетом корреляций
Сообщение09.12.2021, 19:30 


10/03/16
4444
Aeroport
mihaild в сообщении #1542237 писал(а):
что такое "сумма двух величин учитывая их корреляицю" - не знаю


ИМХО это некая конструкция, которая дает ту сумму, которую Вы знаете ( :mrgreen: ), когда величины декоррелированы, и одну величину (какую-нибудь), когда они 100%-но коррелируют.

mihaild в сообщении #1542237 писал(а):
Если у вас есть набор величин и вы хотите по ним что-то предсказывать - это стандартная задача машинного обучения.


Думаю, что а) у них нет и не будет достаточной обучающей выборки, потому что в качестве целевой переменной там некие "потери", которые можно вычислять так, эдак и еще вот так, и б) логика алгоритма, который "вылезет" из мышиного обучения, будет непрозрачна для руководства.

mihaild в сообщении #1542237 писал(а):
Автостопом по галактике


Thanks!

 Профиль  
                  
 
 Re: Сумма признаков с разным масштабом с учетом корреляций
Сообщение10.12.2021, 10:41 


10/07/21
4
Речь тут идет о потерях, как я уже писала выше (задача пришла от бизнеса). Каждый признак - отдельная метрика по потерям. Но, некоторые метрики считались по схожим данным отсюда и корреляция. Поэтому и нужно найти способ (уравнение, выражение) как бы их складывать, чтобы эта сумма была меньше изначальной их суммы. PCA и другие не интерпретируемые методы использовать не получится ибо потом нужно будет все это объяснять бизнесу

 Профиль  
                  
 
 Re: Сумма признаков с разным масштабом с учетом корреляций
Сообщение10.12.2021, 10:59 
Заслуженный участник
Аватара пользователя


16/07/14
9151
Цюрих
А модель-то какая? Прежде чем думать, как что-то кому-то объяснять, неплохо бы понять, что собственно хочется получить.
PCA - вполне интерпретируемо, это просто сумма исходных величин с правильными коэффициентами (как и линейная регрессия).

 Профиль  
                  
 
 Re: Сумма признаков с разным масштабом с учетом корреляций
Сообщение10.12.2021, 12:12 
Аватара пользователя


26/05/12
1694
приходит весна?
Сдаётся мне, по предоставленным вами данным нельзя посчитать того, что вы хотите. Посмотрите на картинку из вики:

Изображение

В средней строке два параметра друг другу пропорциональны. В вашем случае это будет соответствовать корреляции между ними 1.0. Однако, чтобы один в другой пересчитать (для нахождения суммы или разности), нужен коэффициент пропорциональности (наклон прямой на картинке), который в ваших исходных данных отсутствует. И это только начало проблемы.

Единственное, что можно вам посоветовать, это следующее. Добейтесь от ваших ТЗ-постановщиков сырых необработнных данных во всей их полноте. Постройте корректную модель зависимости потерь от признаков. И уж по этой корректной модели находите искомые величины. (С оценкой их погрешности!)

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 9 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group