2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки





Начать новую тему Ответить на тему На страницу Пред.  1, 2, 3  След.
 
 Re: Задача прогнозирования данных (Data Mining)
Сообщение05.07.2016, 15:00 
Заслуженный участник
Аватара пользователя


16/07/14
1413
Москва
timber в сообщении #1135805 писал(а):
Значит нужно уметь делать анализ и по 125 наблюдениям

Можно (и нужно) сделать задачи зависимыми. Например, предположить что у каждого объекта есть текущее состояние, которое определяет value, и изменение компонент которого известно - тогда останется для каждого объекта подбирать начальное состояние.

Впрочем, для многих довольно естественных моделей восстановить начальное состояние по числу наблюдений, меньшему чем число признаков, не получится.

Еще раз - что-нибудь известно про природу признаков? Про их изменения? Приводят ли изменения [(1, 2), (3, 4)] и [(2,3), (4,1)] к одному результату?

xgboost - это не конкретный метод (тысячи их), это библиотека для упрощения реализации некоторых методов. Попробуйте обучить какую-нибудь конкретную модель, и посмотрите, что получитсяобучать можно, например, по вектору "число изменений каждого признака до текущего момента + текущее изменение" предсказывать текущее значение, или текущее изменение, или сумму всех изменений, включая текущее - логистической регрессией, деревьями или чем-то еще подобным.

 Профиль  
                  
 
 Re: Задача прогнозирования данных (Data Mining)
Сообщение05.07.2016, 15:37 


14/12/14
454
SPb
mihaild в сообщении #1135880 писал(а):
Приводят ли изменения [(1, 2), (3, 4)] и [(2,3), (4,1)] к одному результату?

Нет, не приводят. Результаты могут быть разные.
Еще раз. У нас есть объект у которого фиксируется изменение каких-то 2-х признаков (назовем их воздействующими).
Это изменение влияет на другой признак (назовем его целевым). Целевой признак один и тот же для всех объектов и наблюдений.
Сила влияния воздействующих признаков на целевой измеряется и хронологически записывается в переменную $value$.
Может быть так, что для одного и того же объекта в разные моменты времени изменение воздействующих признаков повлияло на целевой с одной и той же силой.
Посмотрите, пожалуйста, на таблицу в начале топика. Там виден характер изменений.

 Профиль  
                  
 
 Re: Задача прогнозирования данных (Data Mining)
Сообщение05.07.2016, 15:48 
Заслуженный участник


23/07/08
7306
Харьков
Рискну сказать, что сейчас вопросы задаются не столько потому, что что-то осталось непонятным в той модели, которую Вы изложили, сколько потому, что в таком виде задача малоперспективна. Чтобы что-то можно было сделать, мы пытаемся выпытать у Вас спасительные крохи дополнительной информации.

 Профиль  
                  
 
 Re: Задача прогнозирования данных (Data Mining)
Сообщение05.07.2016, 15:51 


14/12/14
454
SPb
Ну а что бы Вы еще дополнительно хотели узнать?
Какая информация нужна, если этого не достаточно?
Если говорить о природе данных, то это результаты биологического эксперимента. В области молекулярной генетики.
Что-то подробнее в этом сказать не получается, так как не специалист в предметной области.

 Профиль  
                  
 
 Re: Задача прогнозирования данных (Data Mining)
Сообщение05.07.2016, 16:12 
Заслуженный участник


15/05/05
3353
USA
timber в сообщении #1135779 писал(а):
Задача в том, что необходимо, например, для $id_1 = 6954$ предсказать, будет ли в будущий момент времени $time = 201505$ для пары $ (id_2, id_3) = (9, 84)$ значение $value > 0$.
То есть для каждой тройки $(id_1, id_2, id_3)$ у Вас есть отдельная выборка пар $(time, value)$, то есть временной ряд. А задача состоит в предсказании значений этих временных рядов.

Как заметил Pavia, нужны какие-то оценки статистических свойств этих рядов.

А в общем виде эта задача решения не имеет. Использование генератора ПСЧ будет не менее теоретически обосновано, чем любая другая "эвристика". (IMHO именно на это намекал Brukvalub).

Кроме того,
timber в сообщении #1135788 писал(а):
1) $value(201402, 9, 84) = 0$
2) $value(201402, 9, 84) = 71$
3) $value(201403, 9, 84) = 83$
4) $value(201403, 9, 84) = 0$
Для одного и того же $time = 201402$ у Вас $value$ может быть 71 и 0. А для $time = 201403$ - $value$ может быть 83 и 0.
Как Вы интерпретируете эти данные?
Для $time = 201402$ значение $value$ больше нуля или нет?

 Профиль  
                  
 
 Re: Задача прогнозирования данных (Data Mining)
Сообщение05.07.2016, 16:28 
Заслуженный участник
Аватара пользователя


16/07/14
1413
Москва
timber, в таблице в начале топика 20 строк, по ним могла бы быть видна максимум линейная зависимость (и ее нет).

Нужна вся информация, которая есть (чем больше, тем лучше). Вообще, анализ данных - это большая сложная область, а то, что вы сформулировали - почти что ее универсальная задача (нерешаемая).

Yuri Gendelman в сообщении #1135905 писал(а):
То есть для каждой тройки $(id_1, id_2, id_3)$ у Вас есть отдельная выборка пар $(time, value)$, то есть временной ряд

Тут наверняка может быть зависимость от предыдущих изменений ($id_2, id_3$), так что скорее у нас HMM, где $id_2, id_3, value$ - наблюдаемые.

 Профиль  
                  
 
 Re: Задача прогнозирования данных (Data Mining)
Сообщение05.07.2016, 16:30 
Заслуженный участник
Аватара пользователя


01/03/06
12919
Москва

(Оффтоп)

Yuri Gendelman в сообщении #1135905 писал(а):
(IMHO именно на это намекал Brukvalub

Уррррааа!!! Есть на форуме родственная душа, которая меня понимает!!!

 Профиль  
                  
 
 Re: Задача прогнозирования данных (Data Mining)
Сообщение05.07.2016, 16:55 


14/12/14
454
SPb
Yuri Gendelman в сообщении #1135905 писал(а):
То есть для каждой тройки $(id_1, id_2, id_3)$ у Вас есть отдельная выборка пар $(time, value)$, то есть временной ряд. А задача состоит в предсказании значений этих временных рядов.

Лучше сказать так. Каждой четверке $(time, id_1, id_2, id_3)$ сопоставляется значение переменной $value$.
Нужно спрогнозировать, будет ли у данного объекта с $id_1$ в момент времени (август 2015 года) проявляться заданная пара признаков $(id_2, id_3)$.
Под проявлением подразумевается значение $value$ больше нуля.
Yuri Gendelman в сообщении #1135905 писал(а):
Для одного и того же $time = 201402$ у Вас $value$ может быть 71 и 0. А для $time = 201403$ - $value$ может быть 83 и 0.
Как Вы интерпретируете эти данные?
Для $time = 201402$ значение $value$ больше нуля или нет?

Думаю, что больше нуля. Если есть несколько значений в один момент времени, то их нужно суммировать. В данном случае видно, что в момент времени (февраль 2014) признаки 9 и 84 проявились. Ну и в марте 2014 (201403) года они тоже проявились.

Изображение

Наблюдения проводились за период с 2013-01 (январь 2013) по 2015-07 (июль 2015).
В таблице, как пример всей выборки, представлены значения наблюдений (не всех) только для объекта с $id_1 = 6954$.
Видно, что признаки (3, 84) и (13, 84) проявлялись у этого объекта всего один раз за всю историю наблюдений. Интуитивно можно предположить, что эти признаки скорее всего не проявятся и в августе 2015. Признаки (9, 84) проявлялись 2 раза за всю историю (в феврале и марте 2014). Вероятнее всего они тоже не проявятся в августе 2015.
Ну а что можно предположить для пары (24, 84)?
Думаю, что должна быть формула, какой-то алгоритм позволяющий делать такие выводы.

 Профиль  
                  
 
 Re: Задача прогнозирования данных (Data Mining)
Сообщение05.07.2016, 18:01 
Заслуженный участник


15/05/05
3353
USA
mihaild в сообщении #1135908 писал(а):
Тут наверняка может быть зависимость от предыдущих изменений ($id_2, id_3$), так что скорее у нас HMM, где $id_2, id_3, value$ - наблюдаемые.
Вполне возможно. Но это - еще более сложный вариант для идентификации.

 Профиль  
                  
 
 Re: Задача прогнозирования данных (Data Mining)
Сообщение05.07.2016, 18:38 
Заслуженный участник
Аватара пользователя


16/07/14
1413
Москва
timber, т.е. $(id_2, id_3)$ - это пара признаков, "проявляющихся" с силой $value$? (я по начальной формулировке думал, что $value$ - это свойство объекта)

Есть ли какой-то физический смысл в том, что это именно пара признаков? Есть ли какие-то априорные знания о том, как $value$ связано с изменением отдельных признаков?

Простейшая идея - stateless модель - считаем, что у нас для каждой пары признаков есть вероятность проявиться вообще, и распределение при проявлении. Если получится плохо - уже думать.

timber в сообщении #1135912 писал(а):
Думаю, что должна быть формула, какой-то алгоритм позволяющий делать такие выводы.

Без дополнительных сведений - такой формулы нет, и быть не может.

 Профиль  
                  
 
 Re: Задача прогнозирования данных (Data Mining)
Сообщение05.07.2016, 18:57 


14/12/14
454
SPb
mihaild в сообщении #1135935 писал(а):
timber, т.е. $(id_2, id_3)$ - это пара признаков, "проявляющихся" с силой $value$? (я по начальной формулировке думал, что $value$ - это свойство объекта)

Это пара признаков, которые влияют на свойство объекта. Сила влияния оценивается значением $value$.
mihaild в сообщении #1135935 писал(а):
Есть ли какой-то физический смысл в том, что это именно пара признаков?

Что такое "физический смысл"?
mihaild в сообщении #1135935 писал(а):
Есть ли какие-то априорные знания о том, как $value$ связано с изменением отдельных признаков?

Априорной информации нет.

 Профиль  
                  
 
 Re: Задача прогнозирования данных (Data Mining)
Сообщение05.07.2016, 19:50 
Заслуженный участник
Аватара пользователя


16/07/14
1413
Москва
timber в сообщении #1135938 писал(а):
Это пара признаков, которые влияют на свойство объекта

Дайте что-ли более полное описание - что такое "объект", что такое "признаки", откуда берется это "влияние" (его генерирует объект в зависимости от своего состояния, или среда?).
timber в сообщении #1135938 писал(а):
Что такое "физический смысл"?

В данном случае - является ли получение признаков парами особенностью происходящего процесса, или нашего способа измерения?

Вообще, в общем виде ваша задача не решается. И информации недостаточно даже для генерации разумных идей (ну можно конечно обучить рекуррентную нейросеть на каждом объекте, но несколько тысяч последовательностей на сотни признаков маловато будет).

 Профиль  
                  
 
 Re: Задача прогнозирования данных (Data Mining)
Сообщение06.07.2016, 11:49 


14/12/14
454
SPb
mihaild в сообщении #1135944 писал(а):
Дайте что-ли более полное описание - что такое "объект", что такое "признаки", откуда берется это "влияние" (его генерирует объект в зависимости от своего состояния, или среда?).

Думал, что можно было бы обойтись без подробностей. Но видно, нет. Придется сделать небольшой экскурс.

В общем, проводятся исследования влияния генных мутаций бактерий на процесс фотосинтеза.

Основным элементом отвечающим за этот процесс у бактерий является бактериохлорофилл (БХЛ). БХЛ в бактериях выполняют те же функции, что и хлорофиллы в растениях. В целом, БХЛ поглощают свет большей длины волны, чем хлорофиллы. Положение максимума поглощения зависит от типа БХЛ и его белкового окружения и приходится на красную или инфракрасную область. Бактерии в отличие от растений способны осуществлять фотосинтез не только в видимой части спектра, но и за ее пределами -- в инфракрасной области (800 нм и более). Эта уникальная особенность объясняет возможность функционирования таких бактерий в полной темноте и находиться в местах, непригодных для других фотосинтезирующих систем (в толще почвы, на глубинах морей, во внутренних органах живых существ). Такие свойства открывают перспективы практического использования БХЛ, в частности, в качестве элементов наноконструкций для фотодинамической терапии и наномедицины.
Так вот. Способность к светонезависимому и/или светозависимому образованию БХЛ обеспечивается ферментами, катализирующими превращение протохлорофиллида (ПХЛД) в хлорофиллид (ХЛД). Основные сведения о генетическом контроле темнового (не зависящего от света) биосинтеза ХЛД из ПХЛД были получены при анализе пигментных мутантов бактерий вида Rhodobacter. Эти пурпурные бактерии способны к аноксигенному фотосинтезу и независимо от света образуют БХЛ. В результате генетического анализа пигментных мутантов был выявлен участок хромосом, названный «фотосинтетическим генным кластером». Это группа тесно сцепленных генов, затрагивающих родственные функции, или дополняющие друг друга функционально. Она состоит более чем из 100 генов, отвечающих за фотосинтетические функции и содержит всю генетическую информацию, необходимую для синтеза БХЛ. То есть мутации по этим генам блокируют темновое восстановление ПХЛД.
Как известно, ген представляет собой участок ДНК или РНК. Элементарной единицей молекулы НК является пара нуклеотидов (base pair). Вase pare формируются по принципу комплементарности азотистых оснований -- гуанин-цитозин и аденин-тимин (в РНК или гибридных ДНК/РНК-дуплексах -- аденин-урацил).

Все вышеприведенные результаты были получены исторически раньше, начиная так с годов 1960-х.

В данном эксперименте искусственно создаются условия приводящие к генным мутациям разных участков хромосом у микроорганизмов. Такие участки заранее были идентифицированы, в данном случае это $id_1$. Base pare также идентифицированы в виде пары $(id_2, id_3) $. Генные мутации происходят не сразу, а в течение какого-то времени через которое они как-то проявляются. Момент проявления фиксируется. В данном случае это переменная $time$. В момент проявления мутации вычисляется длина волны поглощения света микроорганизмом в нанометрах -- переменная $value$. Как видно, мутации могут приводит как к усилению фотопоглащения, так и наоборот, полностью блокировать данный процесс ($value = 0$).

 Профиль  
                  
 
 Re: Задача прогнозирования данных (Data Mining)
Сообщение06.07.2016, 12:54 
Заслуженный участник
Аватара пользователя


28/04/16
1205
Можно, пожалуйста, задать ещё пару уточняющих вопросов?
timber в сообщении #1136076 писал(а):
Как известно, ген представляет собой участок ДНК или РНК. Элементарной единицей молекулы НК является пара нуклеотидов (base pair).

имеется в виду пара А--Т (У, в РНК) / Г -- Ц? т.е. там возможны только 4 значения для $\mathrm{id_2, \ id_3}$ в случае ДНК/РНК? (тогда почему в Вашей таблице различных значений больше)...
timber в сообщении #1136076 писал(а):
Генные мутации происходят не сразу, а в течение какого-то времени через которое они как-то проявляются. Момент проявления фиксируется.

Т.е. -- это просто время, когда возникла мутация? или есть какой-то более сложный смысл у фразы
timber в сообщении #1136076 писал(а):
в течение какого-то времени через которое они как-то проявляются

?
timber в сообщении #1136076 писал(а):
В момент проявления мутации вычисляется длина волны поглощения света микроорганизмом в нанометрах -- переменная $value$.

А эффективность поглощения света при этом не меняется (или меняется пренебрежимо мало)? или она не является интересной величиной?
timber в сообщении #1136076 писал(а):
Как видно, мутации могут приводит как к усилению фотопоглощения, так и наоборот, полностью блокировать данный процесс ($value = 0$).

странно, если $\mathrm{value} = \lambda$ [нм], то $\lambda = 0$ выглядит немного странно (типа $\nu \rightarrow \infty$ :lol: ), имхо... (понятно, что так обозначать проще, но всё же...)

 Профиль  
                  
 
 Re: Задача прогнозирования данных (Data Mining)
Сообщение06.07.2016, 14:57 
Заслуженный участник
Аватара пользователя


16/07/14
1413
Москва
timber в сообщении #1136076 писал(а):
Base pare также идентифицированы в виде пары $(id_2, id_3) $.

Тоже вопрос - $(id_2, id_3)$ - это позиции нуклеотидов (тогда почему они не восстанавливаются одна по другой?)? Или что-то еще?

$value$ - это текущее поглощение, или его изменение?

Верно ли, что каждая мутация происходит (хотя бы в большинстве случаев) у своего организма (т.е. почти всегда мы меряем $value$ у организма, отличающегося от канонического ровно этой одной мутацией)?

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 38 ]  На страницу Пред.  1, 2, 3  След.

Модераторы: maxal, Karan, Toucan, PAV, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group