2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




На страницу 1, 2, 3  След.
 
 Задача прогнозирования данных (Data Mining)
Сообщение04.07.2016, 20:28 
Здравствуйте!

Подскажите, пожалуйста, какие аналитические модели лучше применять для предсказания/прогнозирования данных в данном случае?
Входной набор данных состоит из 5 переменныx: $time, id_1, id_2, id_3, value$.
Целевая переменная -- $value$.
Нужно предсказать, будет ли в момент времени $t$ для данного $id_1$ и упорядоченной пары $(id_2, id_3)$ значение $value > 0$.

 
 
 
 Re: Задача прогнозирования данных (Data Mining)
Сообщение04.07.2016, 22:17 
Для начала можете попробовать прогнать все эти переменные через xgboost.

(Оффтоп)

А ещё можете подождать, пока Brukvalub зайдет в эту тему и позадаёт Вам вопросы в стиле: "Дайте определение предсказания :shock: " или "Что такое аналитические модели? :shock: "

 
 
 
 Re: Задача прогнозирования данных (Data Mining)
Сообщение04.07.2016, 23:18 
Аватара пользователя
Безумный в своей безумности вопрос!

 
 
 
 Re: Задача прогнозирования данных (Data Mining)
Сообщение04.07.2016, 23:47 
Аватара пользователя
Brukvalub
:-) А по существу сказать нечего?

timber
Лучше всего работают доказанные модели. Выдвигайте гипотезы о свойствах сигнала и проверяйте их. Так как вопрос у вас поставлен широко, то и ответ широкий. В качестве подопытных свойств вам подходят любые свойства из математического анализа.

А вот по поводу того, что считать доказательством модели для природного сигнала с заранее неизвестными свойствами.
Я бы хотел услышать, что скажет Munin. Или другими словами как определить рамки модели? Как узнать, тот масштаб в котором модель работает?

 
 
 
 Re: Задача прогнозирования данных (Data Mining)
Сообщение05.07.2016, 00:09 
Аватара пользователя
Pavia в сообщении #1135769 писал(а):
Brukvalub
:-) А по существу сказать нечего?

А что вы сказали "по существу"? Ваш ответ примерно таков: "Здоровья вам, счастья, всего хорошего". :D

 
 
 
 Re: Задача прогнозирования данных (Data Mining)
Сообщение05.07.2016, 00:51 
Ну может быть я не совсем точно сформулировал. Уточню наглядно.
Задача в том, что необходимо, например, для $id_1 = 6954$ предсказать, будет ли в будущий момент времени $time = 201505$ для пары $ (id_2, id_3) = (9, 84)$ значение $value > 0$.
Исходный набор данных содержит несколько сотен тысяч строк и более тысячи уникальных значений $id_1$.
Вот так вот выглядит subset набора данных:

Изображение

 
 
 
 Re: Задача прогнозирования данных (Data Mining)
Сообщение05.07.2016, 01:08 
Аватара пользователя
Интересно, какова природа этих величин, что стоит за именами этих переменных? Какого характера могут быть взаимосвязи между ними, исходя из их смысла?

 
 
 
 Re: Задача прогнозирования данных (Data Mining)
Сообщение05.07.2016, 01:41 
Хотелось бы абстрагироваться от смысла переменных.
Это физические объекты, которым присвоены идентификаторы $id_1$. У объектов были выделены несколько сотен признаков (характеристик) -- $id_2, id_3$. В моменты времени -- $time$ у объектов происходило изменение любых двух признаков. Изменения фиксировались. Эти изменения влияли на целевую переменную с определенной силой -- $value$.
Под физическими объектами могут быть, например, космические тела -- звезды, а могут быть и микробиологические организмы с их разнообразными биолого-химическими характеристиками.

 
 
 
 Re: Задача прогнозирования данных (Data Mining)
Сообщение05.07.2016, 01:46 
Аватара пользователя
Спасибо, уже немного яснее стало.

-- Вт июл 05, 2016 01:52:43 --

В вашем примере 9 и 84 — это номера признаков, или их значения?

 
 
 
 Re: Задача прогнозирования данных (Data Mining)
Сообщение05.07.2016, 01:54 
svv в сообщении #1135784 писал(а):
Спасибо, уже немного яснее стало.

-- Вт июл 05, 2016 01:52:43 --

В вашем примере 9 и 84 — это номера признаков, или их значения?


Это номера (идентификаторы) признаков.

 
 
 
 Re: Задача прогнозирования данных (Data Mining)
Сообщение05.07.2016, 01:59 
Аватара пользователя
А какие тогда значения принимают эти признаки? Доступны ли сами значения для наблюдения? То, как именно они изменились в указанные моменты времени — это ж, наверное, важно.

Вообще, вопросов куча. Например, независимы ли разные физические объекты? Если да, всё распадается на независимые задачи для каждого значения $id_1$.

 
 
 
 Re: Задача прогнозирования данных (Data Mining)
Сообщение05.07.2016, 02:12 
Данные по значениям самих признаков не доступны. Это все, что есть.
Физические объекты не зависят друг от друга. Да, действительно это можно делать отдельно для каждого объекта.
Допустим, задачу необходимо решить для указанного в топике набора данных (см. изображение/таблицу), то есть только для единственного объекта c $id = 6954$.
1) $value(201402, 9, 84) = 0$
2) $value(201402, 9, 84) = 71$
3) $value(201403, 9, 84) = 83$
4) $value(201403, 9, 84) = 0$
5) $value(201505, 9, 84) = ?$

 
 
 
 Re: Задача прогнозирования данных (Data Mining)
Сообщение05.07.2016, 02:55 
Аватара пользователя
В общем виде такая задача, естественно, не решается - нужны какие-то дополнительные утверждения о свойствах системы, и чем их больше, тем лучше.

Что известно про природу признаков и про их изменения? И какой у вас объем обучающей выборки? (для объема данных, приведенного на картинке, шансов предсказать что-то осмысленное почти нет)

 
 
 
 Re: Задача прогнозирования данных (Data Mining)
Сообщение05.07.2016, 09:29 
Объем выборки -- 700 000 наблюдений/записей.
Количество разных объектов -- 1 700.
Объект с номером 9645 действительно имеет всего 125 наблюдений.
Тут svv высказал мысль, что всё распадается на независимые задачи для каждого объекта. Значит нужно уметь делать анализ и по 125 наблюдениям.
В работе я применяю программу R. Там есть пакет xgboost. Вопрос еще теперь и в том, насколько применение метода xgboost адекватно для данной задачи?

Изображение

 
 
 
 Re: Задача прогнозирования данных (Data Mining)
Сообщение05.07.2016, 10:12 
Аватара пользователя
timber в сообщении #1135805 писал(а):
В работе я применяю программу R. Там есть пакет xgboost. Вопрос еще теперь и в том, насколько применение метода xgboost адекватно для данной задачи?

Зачем сомневаться? Все правильно, ведь пакеты затем и написаны, чтобы "прогнал через пакет, и вот он - результат". Про это даже песня есть:
"Эх, нам электричество сделать все сумеет,
Нам электричество мрак и тьму развеет,
Нам электричество все сделает дела:
Нажал на кнопку – чик-чирик, поехала, пошла." :D

 
 
 [ Сообщений: 38 ]  На страницу 1, 2, 3  След.


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group