Задача прогнозирования данных (Data Mining)

madschumacher · 06.07.2016, 15:07

Продолжу вопрос:

mihaild в сообщении #1136141 писал(а):

Верно ли, что каждая мутация происходит (хотя бы в большинстве случаев) у своего организма (т.е. почти всегда мы меряем

value

у организма, отличающегося от канонического ровно этой одной мутацией)?

или же там можно "скомпановать" данные по организмам (учесть, какие предыдущие мутации произошли в том же организме до определенного момента), т.е. можно ли посмотреть на "эволюцию" (неудачное слово, но под ним тут подразумевается "изменение во времени")

\lambda

с учетом случавшихся мутаций.

timber · 06.07.2016, 20:52

Мне плохо знакома физика процесса, так как не являюсь специалистом в предметной области. Поэтому прощу прощения, но особо не ожидайте от меня получить какие-то глубокие ответы.

madschumacher в сообщении #1136115 писал(а):

имеется в виду пара А--Т (У, в РНК) / Г -- Ц? т.е. там возможны только 4 значения для

\mathrm{id_2, \ id_3}

в случае ДНК/РНК? (тогда почему в Вашей таблице различных значений больше)...

Речь идет не о самих азотистых основаниях, а об участках их последовательностей в ДНК. Известно, что структуру ДНК/РНК в общем виде можно представить в виде двух последовательностей азотистых (нуклеиновых) оснований (РНК -- A, U, G, C и ДНК -- А, T, G, C).
Есть ДНК которая содержит две комплементарные нуклеотидные последовательности:
1) A -- T -- G -- C -- G -- T -- G -- C -- T -- ...
2) T -- A -- С -- G -- C -- A -- C -- G -- A -- ..
Длина таких последовательностей может быть достаточно большой до нескольких десятков тысяч нуклеотидов . Соответственно различных участков мутаций у последовательностей может быть тоже очень много.

madschumacher в сообщении #1136115 писал(а):

А эффективность поглощения света при этом не меняется (или меняется пренебрежимо мало)? или она не является интересной величиной?

Измеряется длина волны при которой эффективность поглощения максимальна (пики).

mihaild в сообщении #1136141 писал(а):

Верно ли, что каждая мутация происходит (хотя бы в большинстве случаев) у своего организма (т.е. почти всегда мы меряем

value

у организма, отличающегося от канонического ровно этой одной мутацией)?

Мутации происходят на разных участках микроорганизма одного вида. В начале эксперимента запущен процесс, который приводит к мутациям. На это требуется некоторое время.

time

-- это время, когда возникла мутация.

Например, первую строку таблицы можно интерпретировать так: у объекта №6954 на участках нуклеотидных последовательностей гена с номерами соответственно №3 и №84, первая (и в данном случае единственная) мутация произошла 2013-11, при этом максимальное поглощение света было на длине волны равной 20 нм.

Получается, что в результате анализа данных нужно ответить на вопрос, произойдет ли мутация у заданного объекта в заданных участках в момент 2015-08, которая блокирует/изменит поглощение света. Список объектов и пар участков по которым нужно сделать выводы имеется. То есть для каждого заданного объекта по сути нужно ответить на 2 вопроса:
1) произойдет ли вообще мутация на заданных участках в будущий момент времени (август 2015)?
2) будет ли при этом длина волны максимального поглощения света нулевой или отличной от нуля? желательно еще бы указать/спрогнозировать конкретное значение, но это не обязательно.

madschumacher · 07.07.2016, 01:10

Disclamer: возможно, я какие-то аспекты задачи упустил (или вообще где-то проврался). Тогда просьба закидать тапками и поправить.

timber в сообщении #1136242 писал(а):

1) произойдет ли вообще мутация на заданных участках в будущий момент времени (август 2015)?

ну чисто из общих (химических) соображений, я бы посоветовал Вам взять данные для заданного участка ДНК/РНК (в заданных условиях мутагенеза). Пусть у Вас будет в начальный момент времени

N

объектов у которых Вы наблюдаете изменения выбранного участка. Тогда в момент времени

t \in [0; + \infty)

у Вас будет

n(t)

случаев мутации. Смотрите на соотношение

\frac{n(t)}{N}

. я бы ожидал, что это будет похоже на

\frac{n(t)}{N} \approx 1 - \exp(-\frac{t}{\tau})

, где

\tau

-- "полупериод мутации" (?). Если полученная наблюдаемая зависимость действительно похожа на предложенную функцию, то подгоняете этот период, если нет, то тоже подгоняете, МНК всё сожрет :lol1:

. Собственно, Ваша полученная

\frac{n(t)}{N}

и есть оценка вероятности мутации для данного конкретного участка ДНК/РНК.

(Оффтоп)

Если у Вас условия мутагенеза отличаются, скажем, только концентрацией мутагена (в случае нехимических мутагенов, типа радиации, можно взять, скажем, интенсивность излучения), то можно было бы использовать более сложную модель, основанную на реакции, скажем, второго порядка (или оценить порядок реакции по мутагену). :wink:

timber в сообщении #1136242 писал(а):

2) будет ли при этом длина волны максимального поглощения света нулевой или отличной от нуля? желательно еще бы указать/спрогнозировать конкретное значение, но это не обязательно.

имхо, эта задача с первой не очень то и связана

и на порядок сложнее первой. Для этого, имхо, время вообще нафиг не нужно. Тут надо учитывать для конкретной длины волны все мутации, которые уже были в организме

+

ту, которая появилась новая.
Тогда у Вас есть задача поиска функции

\lambda=\lambda(x_1, x_2, ... , x_M)

, где

\lambda

-- длина волны, а

x_i

-- это, скажем маркер того, что в

i

-м участке ДНК/РНК (уж как-нибудь их можно пронумеровать) произошла мутация (для простоты

x_i = 0

, если мутации нет, и

x_i = 1

, если есть). Тогда, самая простая идея для подгонометрии -- это представить

\lambda

в виде линейной функции:

\lambda = \lambda_0 + \sum_i c_i x_i

, где (очевидно),

\lambda_0

-- длина волны при отсутствии мутаций. Ищите коэффициенты

c_i

с помощью МНК, после чего убеждаетесь, что ничего не работает, пробуете

\lambda = \lambda_0 + \sum_i c_i^{(1)} x_i + \sum_i \sum_{j\leq i} c_i^{(2)} x_i x_j

, получаете результат ещё хуже, плюёте на всю эту лабуду и идете задавать вопросы специалистам по нейронным сеткам.

Дополнение: я бы, лично искал выражение не для

\lambda

, а для частот

\nu = c / \lambda

. В Ваших данных нужно было бы преобразовать все значения

\lambda \neq 0

(т.к. нет света -- это

\nu = 0

).

madschumacher · 07.07.2016, 02:42

Ой, собственно, про оценку длины волны (частоты) в момент времени

t

забыл.

По идее (если у Вас нет априорного знания о состоянии в ближайший момент времени), то лучшая оценка -- это

\lambda(t) = \lambda_0 + \sum_i c_i p_i(t)

, где

p_i(t)=n_i(t)/N_i

, т.е. подогнанная в первой задаче вероятность мутации для конкретного (

i

-го) участка ДНК/РНК.
Если же Вы знаете, какие мутации уже прошли на данный момент времени, то хорошей оценкой будет

\lambda(t) = \lambda_0 + \sum_{i_0} c_{i_0} p_{i_0}(t) + \sum_{i_1} c_{i_1}

, где индексы

i_0

обозначают еще не успевшие мутировать участки, а

i_1

-- уже мутировавшие. :wink:

(Оффтоп)

можно еще посчитать дисперсии аналогично, но там формулы чуточку побольше будут, да и погрешность реальная будет существенно выше, а учесть её будет существенно уже сложнее...

timber · 07.07.2016, 12:03

Спасибо!
Видно зря я начал декомпозировать задачу на несколько вопросов. Я тут сам запутался и начал других сбивать с толку.
Дело в том, что все выводы по данным нужно сделать относительно объектов.
Нужно предсказать будет ли в августе 2015 у объекта с определенным номером мутации на уже известных участках?

madschumacher · 07.07.2016, 12:13

timber в сообщении #1136320 писал(а):

Нужно предсказать будет ли в августе 2015 у объекта с определенным номером мутации на уже известных участках?

Ну так я Вам для решения этой проблемы и предложил простой метод (см. ответ на вопрос 1)). Смотрите на вероятность возникновения мутаций на данном участке в заданных условиях и экстраполируете её на нужный Вам момент времени. :wink:

При этом в качестве рабочей гипотезы выступает то, что одни и те же ДНК/РНК в одних и тех же условиях мутирут одинаково (я не знаю, но наверное, если заменить бактерии на другие в одних и тех же внешних условиях -- это уже другие условия для ДНК/РНК, т.к. вся окружающая биохимия будет другая, насколько сильно -- это уже 2й вопрос).

timber · 07.07.2016, 12:25

madschumacher в сообщении #1136267 писал(а):

взять данные для заданного участка ДНК/РНК (в заданных условиях мутагенеза). Пусть у Вас будет в начальный момент времени

N

объектов у которых Вы наблюдаете изменения выбранного участка.

Что такое

N

? Объект же один для которого нужно определить вероятность появления мутации на участках.

madschumacher · 07.07.2016, 13:19

timber в сообщении #1136326 писал(а):

Что такое

N

? Объект же один для которого нужно определить вероятность появления мутации на участках.

У Вас по 1му организму в одних и тех же условиях? Если объекты бактерии, например, то у Вас же наверное не по 1-му представителю в чашке Петри (образно) сидит? Грубо говоря, размер популяции микроорганизмов Вы можете же прикинуть (понятно, что это не константа, но хотя бы общий порядок)? Или нет?

(опять же -- чем точнее представлять себе эксперимент и данные, тем легче придумать модель для него, сложно строить модели черного ящика :wink:

).

Научный форум dxdy

Задача прогнозирования данных (Data Mining)