|
Map |
|
|
|
Назрел такой вопрос. Хоть и приложение к биологии, но задача чисто математическая. Есть несколько классов нуклеотидов в строении ДНК. Нуклеотиды медленно выстраивают цепь. Нужно по строению этой цепи и того, как располагались нуклеотиды в прошлом, определить с определённой вероятностью какого класса будет следующий нуклеотид в цепочке. Я так понял, что в этом может помочь секвенциальный анализ, который входит в поиск ассоциативных правил?
|
|
|
|
 |
|
gris |
|
|
|
Не могли бы Вы пояснить, когда именно нуклеотиды выстраивают цепь? Каким может быть строение этой цепи? Что значит "в прошлом"?
|
|
|
|
 |
|
Map |
|
|
|
Ну чтобы абстрагироваться от различной биохимии обьясню так. У нас есть классы обьектов, например ошибки типа 1, 2, 3 и 4. Ошибки появляются во времени последовательно и образуют дискретный ряд. Так вот в этом ряде, в прошлом после 3 ошибок 1 типа в 90% случаев идёт ошибка 3 типа. Но ведь для разного колличества ошибок, которые беруться во внимание может быть разная вероятность развития событий. Т.е. для 3 ошибок 1 типа одна вероятность, а если мы возьмём во внимание ошибку, которая предшествовала этим 3, вероятность будет уже другая. По сути интересует нахождение закономерностей.
|
|
|
|
 |
|
Vince Diesel |
|
|
|
Подходящий математический аппарат - теория случайных процессов. Если бы результат зависил только от последней ошибки, это были бы марковские цепи. Если взять модель, что вероятности след. ошибки зависят ровно от трех предыдущих, тоже.
|
|
|
|
 |
|
gris |
|
|
|
Последний раз редактировалось gris 24.04.2012, 14:34, всего редактировалось 1 раз.
Только 4? То есть каждый нуклеотид определяется железно. A,G,C и T без всяких там K,R,N и т.п. То есть появляется цепочка букв AAGCTCCGTA... и надо угадать, какая будет следующая буква? Вопрос дилетанта: ведь всякая такая последовательность строится только на основе уже существующей с рождения организма комплементарной последовательности. То есть жёстко детерминирована. Какие там могут быть случайности? Или вопрос именно в нахождении закономерности? Тогда какой смысл рассматривать последовательность во времени? Наборщик медленно набирает текст произведения А.С. Пушкина:" Мой дядя самы". К какой вероятностью следующей будет буква "х"?
Вам надо получше формализовать задачу. Тогда придут опытные секвенционисты и додут дельный совет.
|
|
|
|
 |
|
Map |
|
|
|
4 класса я взял только как пример. Их может быть заметно больше. Сама задача - это мутации и мутагенез в ДНК. На самом деле обьекты сначала кластеризуются, потом классифицируются с помощью Simple Vector Machine. Но это не суть важно. Если брать ваш пример, при наборе произведения мы имеем одну вероятность появления буквы "х" после "ы", другую после "мы" и третью после "амы". Мы сперва находим все частные наборы обьектов, а потом генерируем для них ассоциативные правила.
|
|
|
|
 |
|
gris |
|
|
Тогда пардон за некоторое ёрничество, но уж больно фраза " нуклеотиды медленно выстраивают цепь" напомнила "стремительный домкрат".  Ан дело-то серьёзное.
|
|
|
|
 |
|
Map |
|
|
 Я просто старался сфокусировать внимание на поиске закономерностей. А "белки, жиры и углеводы" можно заменить фруктами или овощами. Суть проблемы не меняется.
|
|
|
|
 |
|
vajsaforutube |
|
|
|
Map, я биоинформатик, но не уверен, что правильно понял, о чем вы говорите. Вам известно несколько предыдущих нуклеотидов, и вы хотите, глядя на них предсказать следующий? Слова в геноме считаете, что ли? Перепредставленность каких-нибудь сайтов? :)
Если вы предполагаете, что вероятность того, что следующий нуклеотид будет "С", зависит от 3 предыдущих, то это называется Марковская цепь 3 порядка (например, если у вас сайт рестрикции "ATGC" избегается, то вероятность "C" при условии того, что предыдущие 3 нуклеотида были "ATG" почти 0, а если предыдущие были не "ATG", то около 0,25). Ключевое слово для вас - марковская цепь или марковская модель; если поясните подробнее, что вы хотите посчитать, может быть, я смогу ответить вам конкретнее.
|
|
|
|
 |
|
Map |
|
|
Проблема разрешилась. Спасибо всем откликнувшимся. Вот кто бы ещё по другому моему топику о задаче высказался. 
|
|
|
|
 |