2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему
 
 Сумма признаков с разным масштабом с учетом корреляций
Сообщение09.12.2021, 17:13 


10/07/21
4
Всем привет! Задача не стандартная и не требует строгого математического обоснования, нужна лишь некая рекуррентная формула.
Есть несколько признаков с разными масштабами и значениями корреляций между ними. Присутствует множественная корреляция, но не попарная всех со всеми. Ставится задача путем математических операций произвести сумму этих величин в соответствии с корреляцией.
Например. Пусть, признаки состоит всего из одного элемента
Первый признак: 100
Второй признак: 1000
Корреляция между ними: 0.7
Я долго думала и в голове созрел такой способ: Признак с большим масштабом оставить без изменения и сложить с признак меньшего масштаба, умноженный на корреляцию и деленный на разницу масштабов. Для данного случая сумма будет равна 1007 и это хоть отдаленно, но похоже не правду. Однако при бОльшем количестве признаков и попарных корреляций, метод ломается и выдает слишком малые значения. Может, у кого была схожая задача или кто-нибудь знает название метода?

 Профиль  
                  
 
 Re: Сумма признаков с разным масштабом с учетом корреляций
Сообщение09.12.2021, 17:51 
Заслуженный участник
Аватара пользователя


16/07/14
9151
Цюрих
А что получить-то нужно? Почему нельзя взять в качестве суммы $42$ и этим ограничиться?

 Профиль  
                  
 
 Re: Сумма признаков с разным масштабом с учетом корреляций
Сообщение09.12.2021, 17:56 


10/07/21
4
mihaild в сообщении #1542221 писал(а):
А что получить-то нужно? Почему нельзя взять в качестве суммы $42$ и этим ограничиться?

Нужно получить сумму двух величин, учитывая их корреляцию. Сама задача пришла от бизнеса. У них есть множество точек продаж своей продукции и различные метрики, оценивающие состояние этих точек (средняя свежесть продукции, очереди, недовольные клиенты и тд). По каждой метрике также рассчитаны потери в деньгах. Само собой понятно, что множество недовольных клиентов может быть из-за очередей и эти метрики коррелируют и потери по ним нельзя просто линейно складывать. Не совсем понятно, как вы получили 42, ибо это число должно быть точно более 1000 ибо число с наибольшим масштабом = 1000 :D
P.S. просто умножать на корреляцию также нельзя, ибо тогда мы никак не учитываем объем

 Профиль  
                  
 
 Re: Сумма признаков с разным масштабом с учетом корреляций
Сообщение09.12.2021, 18:55 


10/03/16
4444
Aeroport
kristina_pyt99
У Вас есть: 1) разные масштабы и 2) корреляции. Поэтому первым делом избавляемся от 1) и 2) путем преобразования главных компонент (principal component transformation, который обычно называют principal component analysis или PCA). Метод PCA есть в библиотеках пайтона и R. На выходе он дает столько же признаков, сколько было, только теперь признаки декоррелированы. Далее - просто возьмите из этой группы признак, который меняется больше остальных, т.е. у которого среднеквадратичная амплитуда больше всех. Это будет признак, соответствующий максимальному собственному значению ковариационной матрицы

-- 09.12.2021, 19:02 --

kristina_pyt99 в сообщении #1542223 писал(а):
Не совсем понятно, как вы получили 42

Это мем из какого-то фантастического произведения: там сконструировали супер-пупер искусственный интелект и задали вопрос то ли о смысле жизни, то ли... в общем, очень умный и корректный вопрос задали. И комп им ответил: 42 (произведение видать писалось в то время, когда компы не умели выдавать ничего, кроме цифр). С тех пор 42 - это у учёных как бы псевдо-случайное число ))

 Профиль  
                  
 
 Re: Сумма признаков с разным масштабом с учетом корреляций
Сообщение09.12.2021, 19:15 
Заслуженный участник
Аватара пользователя


16/07/14
9151
Цюрих
kristina_pyt99 в сообщении #1542223 писал(а):
Нужно получить сумму двух величин, учитывая их корреляцию.
Что это значит? Что такое сумма двух величин - знаю, что такое "сумма двух величин учитывая их корреляицю" - не знаю.
Если у вас есть набор величин и вы хотите по ним что-то предсказывать - это стандартная задача машинного обучения.
kristina_pyt99 в сообщении #1542223 писал(а):
Не совсем понятно, как вы получили 42
Я просто хотел чтобы вы написали, что вам нужно, чтобы из этого было понятно, почему 42 вам не подходит.
ozheredov в сообщении #1542234 писал(а):
Это мем из какого-то фантастического произведения
Автостопом по галактике

 Профиль  
                  
 
 Re: Сумма признаков с разным масштабом с учетом корреляций
Сообщение09.12.2021, 19:30 


10/03/16
4444
Aeroport
mihaild в сообщении #1542237 писал(а):
что такое "сумма двух величин учитывая их корреляицю" - не знаю


ИМХО это некая конструкция, которая дает ту сумму, которую Вы знаете ( :mrgreen: ), когда величины декоррелированы, и одну величину (какую-нибудь), когда они 100%-но коррелируют.

mihaild в сообщении #1542237 писал(а):
Если у вас есть набор величин и вы хотите по ним что-то предсказывать - это стандартная задача машинного обучения.


Думаю, что а) у них нет и не будет достаточной обучающей выборки, потому что в качестве целевой переменной там некие "потери", которые можно вычислять так, эдак и еще вот так, и б) логика алгоритма, который "вылезет" из мышиного обучения, будет непрозрачна для руководства.

mihaild в сообщении #1542237 писал(а):
Автостопом по галактике


Thanks!

 Профиль  
                  
 
 Re: Сумма признаков с разным масштабом с учетом корреляций
Сообщение10.12.2021, 10:41 


10/07/21
4
Речь тут идет о потерях, как я уже писала выше (задача пришла от бизнеса). Каждый признак - отдельная метрика по потерям. Но, некоторые метрики считались по схожим данным отсюда и корреляция. Поэтому и нужно найти способ (уравнение, выражение) как бы их складывать, чтобы эта сумма была меньше изначальной их суммы. PCA и другие не интерпретируемые методы использовать не получится ибо потом нужно будет все это объяснять бизнесу

 Профиль  
                  
 
 Re: Сумма признаков с разным масштабом с учетом корреляций
Сообщение10.12.2021, 10:59 
Заслуженный участник
Аватара пользователя


16/07/14
9151
Цюрих
А модель-то какая? Прежде чем думать, как что-то кому-то объяснять, неплохо бы понять, что собственно хочется получить.
PCA - вполне интерпретируемо, это просто сумма исходных величин с правильными коэффициентами (как и линейная регрессия).

 Профиль  
                  
 
 Re: Сумма признаков с разным масштабом с учетом корреляций
Сообщение10.12.2021, 12:12 
Аватара пользователя


26/05/12
1694
приходит весна?
Сдаётся мне, по предоставленным вами данным нельзя посчитать того, что вы хотите. Посмотрите на картинку из вики:

Изображение

В средней строке два параметра друг другу пропорциональны. В вашем случае это будет соответствовать корреляции между ними 1.0. Однако, чтобы один в другой пересчитать (для нахождения суммы или разности), нужен коэффициент пропорциональности (наклон прямой на картинке), который в ваших исходных данных отсутствует. И это только начало проблемы.

Единственное, что можно вам посоветовать, это следующее. Добейтесь от ваших ТЗ-постановщиков сырых необработнных данных во всей их полноте. Постройте корректную модель зависимости потерь от признаков. И уж по этой корректной модели находите искомые величины. (С оценкой их погрешности!)

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 9 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: YandexBot [bot]


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group