2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки





Начать новую тему Ответить на тему На страницу 1, 2, 3  След.
 
 Задача прогнозирования данных (Data Mining)
Сообщение04.07.2016, 20:28 


14/12/14
454
SPb
Здравствуйте!

Подскажите, пожалуйста, какие аналитические модели лучше применять для предсказания/прогнозирования данных в данном случае?
Входной набор данных состоит из 5 переменныx: $time, id_1, id_2, id_3, value$.
Целевая переменная -- $value$.
Нужно предсказать, будет ли в момент времени $t$ для данного $id_1$ и упорядоченной пары $(id_2, id_3)$ значение $value > 0$.

 Профиль  
                  
 
 Re: Задача прогнозирования данных (Data Mining)
Сообщение04.07.2016, 22:17 


07/03/11
660
Для начала можете попробовать прогнать все эти переменные через xgboost.

(Оффтоп)

А ещё можете подождать, пока Brukvalub зайдет в эту тему и позадаёт Вам вопросы в стиле: "Дайте определение предсказания :shock: " или "Что такое аналитические модели? :shock: "

 Профиль  
                  
 
 Re: Задача прогнозирования данных (Data Mining)
Сообщение04.07.2016, 23:18 
Заслуженный участник
Аватара пользователя


01/03/06
12919
Москва
Безумный в своей безумности вопрос!

 Профиль  
                  
 
 Re: Задача прогнозирования данных (Data Mining)
Сообщение04.07.2016, 23:47 
Аватара пользователя


31/10/08
803
Brukvalub
:-) А по существу сказать нечего?

timber
Лучше всего работают доказанные модели. Выдвигайте гипотезы о свойствах сигнала и проверяйте их. Так как вопрос у вас поставлен широко, то и ответ широкий. В качестве подопытных свойств вам подходят любые свойства из математического анализа.

А вот по поводу того, что считать доказательством модели для природного сигнала с заранее неизвестными свойствами.
Я бы хотел услышать, что скажет Munin. Или другими словами как определить рамки модели? Как узнать, тот масштаб в котором модель работает?

 Профиль  
                  
 
 Re: Задача прогнозирования данных (Data Mining)
Сообщение05.07.2016, 00:09 
Заслуженный участник
Аватара пользователя


01/03/06
12919
Москва
Pavia в сообщении #1135769 писал(а):
Brukvalub
:-) А по существу сказать нечего?

А что вы сказали "по существу"? Ваш ответ примерно таков: "Здоровья вам, счастья, всего хорошего". :D

 Профиль  
                  
 
 Re: Задача прогнозирования данных (Data Mining)
Сообщение05.07.2016, 00:51 


14/12/14
454
SPb
Ну может быть я не совсем точно сформулировал. Уточню наглядно.
Задача в том, что необходимо, например, для $id_1 = 6954$ предсказать, будет ли в будущий момент времени $time = 201505$ для пары $ (id_2, id_3) = (9, 84)$ значение $value > 0$.
Исходный набор данных содержит несколько сотен тысяч строк и более тысячи уникальных значений $id_1$.
Вот так вот выглядит subset набора данных:

Изображение

 Профиль  
                  
 
 Re: Задача прогнозирования данных (Data Mining)
Сообщение05.07.2016, 01:08 
Заслуженный участник


23/07/08
7306
Харьков
Интересно, какова природа этих величин, что стоит за именами этих переменных? Какого характера могут быть взаимосвязи между ними, исходя из их смысла?

 Профиль  
                  
 
 Re: Задача прогнозирования данных (Data Mining)
Сообщение05.07.2016, 01:41 


14/12/14
454
SPb
Хотелось бы абстрагироваться от смысла переменных.
Это физические объекты, которым присвоены идентификаторы $id_1$. У объектов были выделены несколько сотен признаков (характеристик) -- $id_2, id_3$. В моменты времени -- $time$ у объектов происходило изменение любых двух признаков. Изменения фиксировались. Эти изменения влияли на целевую переменную с определенной силой -- $value$.
Под физическими объектами могут быть, например, космические тела -- звезды, а могут быть и микробиологические организмы с их разнообразными биолого-химическими характеристиками.

 Профиль  
                  
 
 Re: Задача прогнозирования данных (Data Mining)
Сообщение05.07.2016, 01:46 
Заслуженный участник


23/07/08
7306
Харьков
Спасибо, уже немного яснее стало.

-- Вт июл 05, 2016 01:52:43 --

В вашем примере 9 и 84 — это номера признаков, или их значения?

 Профиль  
                  
 
 Re: Задача прогнозирования данных (Data Mining)
Сообщение05.07.2016, 01:54 


14/12/14
454
SPb
svv в сообщении #1135784 писал(а):
Спасибо, уже немного яснее стало.

-- Вт июл 05, 2016 01:52:43 --

В вашем примере 9 и 84 — это номера признаков, или их значения?


Это номера (идентификаторы) признаков.

 Профиль  
                  
 
 Re: Задача прогнозирования данных (Data Mining)
Сообщение05.07.2016, 01:59 
Заслуженный участник


23/07/08
7306
Харьков
А какие тогда значения принимают эти признаки? Доступны ли сами значения для наблюдения? То, как именно они изменились в указанные моменты времени — это ж, наверное, важно.

Вообще, вопросов куча. Например, независимы ли разные физические объекты? Если да, всё распадается на независимые задачи для каждого значения $id_1$.

 Профиль  
                  
 
 Re: Задача прогнозирования данных (Data Mining)
Сообщение05.07.2016, 02:12 


14/12/14
454
SPb
Данные по значениям самих признаков не доступны. Это все, что есть.
Физические объекты не зависят друг от друга. Да, действительно это можно делать отдельно для каждого объекта.
Допустим, задачу необходимо решить для указанного в топике набора данных (см. изображение/таблицу), то есть только для единственного объекта c $id = 6954$.
1) $value(201402, 9, 84) = 0$
2) $value(201402, 9, 84) = 71$
3) $value(201403, 9, 84) = 83$
4) $value(201403, 9, 84) = 0$
5) $value(201505, 9, 84) = ?$

 Профиль  
                  
 
 Re: Задача прогнозирования данных (Data Mining)
Сообщение05.07.2016, 02:55 
Заслуженный участник
Аватара пользователя


16/07/14
1403
Москва
В общем виде такая задача, естественно, не решается - нужны какие-то дополнительные утверждения о свойствах системы, и чем их больше, тем лучше.

Что известно про природу признаков и про их изменения? И какой у вас объем обучающей выборки? (для объема данных, приведенного на картинке, шансов предсказать что-то осмысленное почти нет)

 Профиль  
                  
 
 Re: Задача прогнозирования данных (Data Mining)
Сообщение05.07.2016, 09:29 


14/12/14
454
SPb
Объем выборки -- 700 000 наблюдений/записей.
Количество разных объектов -- 1 700.
Объект с номером 9645 действительно имеет всего 125 наблюдений.
Тут svv высказал мысль, что всё распадается на независимые задачи для каждого объекта. Значит нужно уметь делать анализ и по 125 наблюдениям.
В работе я применяю программу R. Там есть пакет xgboost. Вопрос еще теперь и в том, насколько применение метода xgboost адекватно для данной задачи?

Изображение

 Профиль  
                  
 
 Re: Задача прогнозирования данных (Data Mining)
Сообщение05.07.2016, 10:12 
Заслуженный участник
Аватара пользователя


01/03/06
12919
Москва
timber в сообщении #1135805 писал(а):
В работе я применяю программу R. Там есть пакет xgboost. Вопрос еще теперь и в том, насколько применение метода xgboost адекватно для данной задачи?

Зачем сомневаться? Все правильно, ведь пакеты затем и написаны, чтобы "прогнал через пакет, и вот он - результат". Про это даже песня есть:
"Эх, нам электричество сделать все сумеет,
Нам электричество мрак и тьму развеет,
Нам электричество все сделает дела:
Нажал на кнопку – чик-чирик, поехала, пошла." :D

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 38 ]  На страницу 1, 2, 3  След.

Модераторы: maxal, Karan, Toucan, PAV, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group