2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 Секвенциальный анализ
Сообщение24.04.2012, 12:41 
Назрел такой вопрос. Хоть и приложение к биологии, но задача чисто математическая. Есть несколько классов нуклеотидов в строении ДНК. Нуклеотиды медленно выстраивают цепь. Нужно по строению этой цепи и того, как располагались нуклеотиды в прошлом, определить с определённой вероятностью какого класса будет следующий нуклеотид в цепочке. Я так понял, что в этом может помочь секвенциальный анализ, который входит в поиск ассоциативных правил?

 
 
 
 Re: Секвенциальный анализ
Сообщение24.04.2012, 13:24 
Аватара пользователя
Не могли бы Вы пояснить, когда именно нуклеотиды выстраивают цепь? Каким может быть строение этой цепи? Что значит "в прошлом"?

 
 
 
 Re: Секвенциальный анализ
Сообщение24.04.2012, 14:06 
Ну чтобы абстрагироваться от различной биохимии обьясню так. У нас есть классы обьектов, например ошибки типа 1, 2, 3 и 4. Ошибки появляются во времени последовательно и образуют дискретный ряд. Так вот в этом ряде, в прошлом после 3 ошибок 1 типа в 90% случаев идёт ошибка 3 типа. Но ведь для разного колличества ошибок, которые беруться во внимание может быть разная вероятность развития событий. Т.е. для 3 ошибок 1 типа одна вероятность, а если мы возьмём во внимание ошибку, которая предшествовала этим 3, вероятность будет уже другая. По сути интересует нахождение закономерностей.

 
 
 
 Re: Секвенциальный анализ
Сообщение24.04.2012, 14:30 
Подходящий математический аппарат - теория случайных процессов. Если бы результат зависил только от последней ошибки, это были бы марковские цепи. Если взять модель, что вероятности след. ошибки зависят ровно от трех предыдущих, тоже.

 
 
 
 Re: Секвенциальный анализ
Сообщение24.04.2012, 14:33 
Аватара пользователя
Только 4? То есть каждый нуклеотид определяется железно. A,G,C и T без всяких там K,R,N и т.п.
То есть появляется цепочка букв AAGCTCCGTA... и надо угадать, какая будет следующая буква?
Вопрос дилетанта: ведь всякая такая последовательность строится только на основе уже существующей с рождения организма комплементарной последовательности. То есть жёстко детерминирована. Какие там могут быть случайности?
Или вопрос именно в нахождении закономерности? Тогда какой смысл рассматривать последовательность во времени?
Наборщик медленно набирает текст произведения А.С. Пушкина:" Мой дядя самы". К какой вероятностью следующей будет буква "х"?

Вам надо получше формализовать задачу. Тогда придут опытные секвенционисты и додут дельный совет.

 
 
 
 Re: Секвенциальный анализ
Сообщение24.04.2012, 15:37 
4 класса я взял только как пример. Их может быть заметно больше. Сама задача - это мутации и мутагенез в ДНК. На самом деле обьекты сначала кластеризуются, потом классифицируются с помощью Simple Vector Machine. Но это не суть важно. Если брать ваш пример, при наборе произведения мы имеем одну вероятность появления буквы "х" после "ы", другую после "мы" и третью после "амы". Мы сперва находим все частные наборы обьектов, а потом генерируем для них ассоциативные правила.

 
 
 
 Re: Секвенциальный анализ
Сообщение24.04.2012, 16:23 
Аватара пользователя
Тогда пардон за некоторое ёрничество, но уж больно фраза " нуклеотиды медленно выстраивают цепь" напомнила "стремительный домкрат". :-) Ан дело-то серьёзное.

 
 
 
 Re: Секвенциальный анализ
Сообщение24.04.2012, 16:34 
:-) Я просто старался сфокусировать внимание на поиске закономерностей. А "белки, жиры и углеводы" можно заменить фруктами или овощами. Суть проблемы не меняется.

 
 
 
 Re: Секвенциальный анализ
Сообщение26.04.2012, 19:02 
Map, я биоинформатик, но не уверен, что правильно понял, о чем вы говорите. Вам известно несколько предыдущих нуклеотидов, и вы хотите, глядя на них предсказать следующий? Слова в геноме считаете, что ли? Перепредставленность каких-нибудь сайтов? :)

Если вы предполагаете, что вероятность того, что следующий нуклеотид будет "С", зависит от 3 предыдущих, то это называется Марковская цепь 3 порядка (например, если у вас сайт рестрикции "ATGC" избегается, то вероятность "C" при условии того, что предыдущие 3 нуклеотида были "ATG" почти 0, а если предыдущие были не "ATG", то около 0,25). Ключевое слово для вас - марковская цепь или марковская модель; если поясните подробнее, что вы хотите посчитать, может быть, я смогу ответить вам конкретнее.

 
 
 
 Re: Секвенциальный анализ
Сообщение26.04.2012, 21:50 
Проблема разрешилась. Спасибо всем откликнувшимся. Вот кто бы ещё по другому моему топику о задаче высказался. :-)

 
 
 [ Сообщений: 10 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group