2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


В этом разделе нельзя создавать новые темы.



Начать новую тему Ответить на тему На страницу 1, 2  След.
 
 тест Колмогорова-Смирнова?
Сообщение15.08.2012, 18:00 
Аватара пользователя


15/08/12
54
Добрый день!

У меня такая проблема. Есть несколько составов химических растворов в виде интервалов концентраций различных химических элементов (24), т.е. есть максимальное и минимальное значение для каждого элемента. Это составы бактерий и различных природных вод. Нужно определить с помощью методов непараметрической статистики, потому что размер выборки ничтожен, с каким из природных растворов генетически связан состав этих бактерий и по каким элементам (это вторая часть задачи и я думаю, что могу применить тот же тест, просто изменив список элементов). Редактор в журнале попросил выполнить тест Колмогорова-Смирнова. Я нигде не могу найти примера, как применить этот тест для интервалов. Не могли бы вы мне помочь разобраться пригоден ли этот тест для моей задачи? Может кто подскажет, где найти пример применения такого теста для интервалов, без перехода к рангам? Я к сожалению не очень силен в статистике.

 Профиль  
                  
 
 Re: тест Колмогорова-Смирнова?
Сообщение16.08.2012, 17:15 
Аватара пользователя


15/08/12
54
Возможно не ясно изложил в чем заключается затруднение. Я разобрался как работает тест Колмогорова-Смирнова, но во всех примерах, которые я нашел с распределением генеральной совокупности сравниваются дискретные значения. У меня же интервалы: либо, например, просто от 0.001 до 0.01, либо от 1 до 5 различных независимо полученных значений, например, 0.25, 0.0006, 0.0095, 0.1. Что мне сравнивать с распределением генеральной совокупности? Средне-арифметическое или, например, максимальное и минимальное значение для каждого химического элемента в отдельности? Если средне-арифметическое, то как в таком случае будет учитываться размах? Разброс значений может быть довольно велик, и среднее-арифметическое может пройти тест, в то время как максимальное значение нет.

Еще одна проблема. Для некоторых элементов в распределении генеральной совокупности у меня только одно измерение с неизвестной точностью, т.е. стандартное отклонение равно нулю. Может ли быть применен этот тест для данных элементов?

 Профиль  
                  
 
 Re: тест Колмогорова-Смирнова?
Сообщение16.08.2012, 18:41 


23/12/07
1763
alenov в сообщении #606731 писал(а):
Возможно не ясно изложил в чем заключается затруднение.

ИМХО, вы и исходную задачу неясно изложили (Что с чем собираетесь сравнивать на предмет одинаковости происхождения?) :roll:

 Профиль  
                  
 
 Re: тест Колмогорова-Смирнова?
Сообщение16.08.2012, 19:54 
Аватара пользователя


15/08/12
54
Вопрос редактора относится вот к этому рисунку: https://docs.google.com/open?id=0B08REa ... XhoZmtvZm8
Светло-зеленый - это состав бактерий, остальные цвета соответствуют составам растворов абиогенного происхождения (на рисунке подписаны). Нужно попарно сравнить все растворы абиогенного происхождения с составом бактерий на предмет принадлежности к общей выборке (общего происхождения). Я сейчас использую программу SPSS. В принципе понятно как сравнивать по одному элементу, но редактор хотел, чтобы я всю совокупность элементов протестировал - пока единственный способ как это сделать, на мой взгляд, перебрать все элементы один за другим - кажется, это не совсем то, что он хотел. Если считать в ручную, то не понятно, как учитывается размах, во всех примерах, которые я нашел нужно вводить только среднее значение.

В принципе я нашел другой способ, как решать эту задачу - с помощью критерия Хотеллинга. Но тест Колмогорова-Смирнова все равно нужно сделать

 Профиль  
                  
 
 Re: тест Колмогорова-Смирнова?
Сообщение16.08.2012, 21:34 


23/12/07
1763
Как-то все равно постановка непонятна . Вы что где-то взяли пробу, проанализировали в ней концентрацию 24-ех химических элементов, и теперь на основании этого хотите узнать, насколько вероятно, что она является результатом деятельности бактерий?
Если да, то что все-таки на картинке изображено? Почему в подписи говорится, что это флуктуация (кстати, почему "флуктуация" - она что случайна?) состава бактерий, а вы говорите, что к бактериальному составу относится только то, что выделено светлозеленым?

 Профиль  
                  
 
 Re: тест Колмогорова-Смирнова?
Сообщение16.08.2012, 21:46 
Аватара пользователя


15/08/12
54
Как учитывается "размах" программно тоже непонятно. Вот например у натрия бактерий среднее значение 80, а размах 72, т.е. довольно большой интервал. Программа подтверждает нулевую гипотезу, т.е. что по натрию все растворы генетически связаны (у абиогенных растворов соответствующие значения от 200 до 700). Возможно нужно задавать крайние значения: максимальное (160) и минимальное (8)? (Для растворов у меня в большинстве случаев точечные значения, а для бактерий только интервалы.) Вот в этом конкретно и заключается главная трудность. Я не исключаю, что что-то делаю вообще неправильно, потому что раньше вообще никогда не работал с непараметрическими методами...

-- 16.08.2012, 22:58 --

Бактерии - это только светло-зеленое. Остальное - это морская вода и различные гидротермальные растворы (подписано на рисунке). Бактерии живут в этих растворах и задача понять какие элементы в составе бактерий отражают состав растворов, а какие ведут себя независимо. Т.е. как вы написали, только наоборот. Флуктуация в данном контексте значит изменение, потому что во всех растворах содержание всех элементов сильно изменяется. Эти изменения случайны. Гипотеза в том, что содержание каких-то элементов (по логике, все тяжелые элементы начиная с марганца) в составе природных абиогенных растворов отражается в составе бактерий, которые в этих растворах живут, а какие-то ведут себя независимо, те бактерии дополнительно тратят энергию на то, чтобы поддерживать их концентрации на каком-то им нужном уровне. Вот натрий, например, по идее, один из таких элементов - в бактериях его содержание существенно понижено (8-152 ммоль/кг и 200-700 ммоль/кг), чем в окружающей среде. Но этот самый тест Колмогорова-Смирнова показывает, что нет - растворы генетически связаны.

 Профиль  
                  
 
 Re: тест Колмогорова-Смирнова?
Сообщение16.08.2012, 22:13 


23/12/07
1763
alenov в сообщении #606807 писал(а):
Бактерии живут в этих растворах и задача понять какие элементы в составе бактерий отражают состав растворов, а какие ведут себя независимо. Т.е. как вы написали, только наоборот.

Не могли бы вы, в конце-концов, полностью и как можно более конкретно сформулировать свою задачу от начала до конца? Наподобие описанного мной выше: имеет проба, взятая оттуда-то, в ней то-то. Известно, что то-то подчиняется таким-то закономерностям (см. таблицу, которая была построена след. образом - бралось то-то и то-то, на основании чего отмечалось это и это). И нужно убедиться, что это-то похоже на то-то.

В таких задачах, ИМХО, очень важно корректно выполнить формализацию. Иначе получится "есть ложь, большая ложь и статистика".

 Профиль  
                  
 
 Re: тест Колмогорова-Смирнова?
Сообщение16.08.2012, 23:08 
Аватара пользователя


15/08/12
54
Большое вам спасибо, Hum, за то что помогаете мне разобраться с этой проблемой! Постараюсь все полностью объяснить как можно понятней.
Задача как есть: я послал статью в журнал с этой картинкой, сделал по ней определенные выводы, что бактерии живут в растворах и от этого у них существуют определенные особенности в химическом составе. Составы растворов взяты из литературы, в большинстве случаев погрешности у них не указаны, например, натрия 441 ммоль/кг или 303 ммоль/кг или 557 ммоль/кг (для базальтового флюида 11 значений - минимальное 230 ммоль/кг и максимальное 698 ммоль/кг, для перидотитового - 16, разброс значений примерно такой же, для Лост Сити (это такой особый редкий тип раствора) - только 1 и то криво полученный, для морской воды тоже 1, потому что ее состав всегда постоянный). Составы бактерий тоже из литературы. Они даны для сухого вещества, т.е. бактерии высушены и для сравнения с растворами используется численная модель, которая реконструирует их прижизненный состав. Поэтому для бактерий даны только интервалы составов максимальное и минимальное значения, для натрия 8-152 ммоль/кг. В обоих случаях собственно данных очень мало, что исключает использование параметрической статистики. На статью из журнала пришел ответ, что все хорошо, но вот не могли бы вы проверить свои выводы каким-нибудь непараметрическим тестом, например Колмогорова-Семенова. У меня проблема заключается в том, что я не могу найти примера как работать с интервалом, если взять по нему среднее, то это будет только одно значение и оно поглощается нормальным распределением составов раствора, если по составам раствора взять среднее, то получается, что я сравниваю 2 точки, что в общем-то совсем безобразие. Я подозреваю, что пожелание редактора, не очень-то правильное и нашел в литературе другой критерий Хотеллинга, который как раз и применяется для того чтобы выявлять наличие общего генезиса у различных растворов, там используется среднее значение и стандартное отклонение, но для корректного ответа на замечание нужно тест Колмогорова-Семенова тоже сделать.

Я постарался изложить все нюансы этой проблемы. Вот здесь экселевский файл с таблицей, по которой построена эта картинка, может она что-то прояснит: https://docs.google.com/open?id=0B08REa ... HFYbjlITGs

 Профиль  
                  
 
 Re: тест Колмогорова-Смирнова?
Сообщение17.08.2012, 00:59 


23/12/07
1763
Какой результат конкретно вы хотите обоcновать в своей статье? Что скрывается под фразой "бактерии живут в растворах и от этого у них существуют определенные особенности в химическом составе"?
Означает ли это, что вы хотите доказать присутствие влияния на химический состав бактерий химического состава среды, в которой они обитают?
Если так, то, по идее, надо было бы выбрать конкретные две среды и рассмотреть концентрацию, например, Na для одного и того же типа бактерии в этих двух средах. Взять $N$-штук таких бактерий в каждой среде, набрав две выборки $n^{I}_i, n^{II}_i, i = 1,\dots,N$ концентраций Na в них. После чего провести тест на неоднородность этих выборок. Эта неоднородность и будет служить обоснованием существованием влияния среды на бактерии (если более строго, только ЭТИХ двух сред и только на ЭТИ бактерии).
В более общем случае нужно делать то же самое, только рассматривать векторозначные выборки, где вместо $n^{I}_i = \mathrm{Na}^{I}_i $ будет вектор $\mathbf{n}^{I}_i = (\mathrm{Na}^{I}_i, \mathrm{Mg}^{I}_i, \mathrm{Al}^{I}_i,\dots)$, $i = 1,\dots,N.$ и использовать хотя бы того же Хотеллинга.

Но обратите внимание, везде нужна выборка (набор значений из одного и того же опыта). У вас же, по сказанному, ее вроде бы нет (или есть, но вы не говорили?).

И еще.
alenov в сообщении #606829 писал(а):
В обоих случаях собственно данных очень мало, что исключает использование параметрической статистики.

Вы немного не так понимаете - непараметрическая статистика не оттого, что "работаете с малой выборкой", а оттого, что неизвестны параметры модели. И, как правило, непараметрические методы требуют для своей "нормальной работы" больший объем выборки, чем параметрические (это объясняется тем, что у них меньше исходной информации о задаче, и соответственно, нужно больше "переварить", чтобы ее получить).

P.S. Табличка не грузится.

 Профиль  
                  
 
 Re: тест Колмогорова-Смирнова?
Сообщение17.08.2012, 15:10 
Аватара пользователя


15/08/12
54
Да, именно это я хочу доказать. Составов бактерий у меня 8, но они пропущены через модель, которая восстанавливает их прижизненный состав. А эта модель дает интервал, т.к. содержание воды в клетках меняется на разных стадиях жизни и в зависимости от разных условий, да и погрешность там высокая. Но в принципе для бактерий у меня N=8 - я могу пересчитать и получить значение для каждой из них, просто сами значения довольно близки и я раньше не придавал значения наличию нескольких значений. В общем-то что делать понятно. Большое вам спасибо за объяснения!!!

Остался один вопрос. У меня для морской воды и флюида Лост Сити только по одному значению - имеет ли какой-нибудь статистический смысл проводить тест на неоднородность этих "выборок" с выборкой для бактерий?

 Профиль  
                  
 
 Re: тест Колмогорова-Смирнова?
Сообщение17.08.2012, 17:46 


23/12/07
1763
alenov в сообщении #607033 писал(а):
Составов бактерий у меня 8

Ох уж, умеете вы писать "понятно".
Надеюсь, что это означает, что у вас есть для каждой отдельной среды по 8 образцов хим. составов бактерий, в ЭТОЙ среде обитавших.
Если вы меня правильно поняли (а я вас), то тогда у вас в конце концов получится набор результатов теста на неоднородность (например, в виде $p$-value) для каждой пары сред (в случае трех сред это пары
среда 1 - среда 2,
среда 1 - среда 3,
среда 2 - среда 3.)
(Как вариант, можно рассмотреть использование дисперсионного анализа, в котором есть возможность тестирование на неоднородность каждой пары заменить тестированием на неоднородность сразу всех [см. Multiple-comparison ANOVA problems]. Но в этом случае без дополнительных тестов не видно будет насколько отличается по неоднородности каждая пара выборок).
alenov в сообщении #607033 писал(а):
Остался один вопрос. У меня для морской воды и флюида Лост Сити только по одному значению - имеет ли какой-нибудь статистический смысл проводить тест на неоднородность этих "выборок" с выборкой для бактерий?

Опять же, если я правильно понял, и у вас для какой-то из сред есть только один образец бактерии в этой среде, то тогда использовать его в тестах на неоднородность не имеет смысла.
Кстати, для $N = 8$ в тесте Колмогорова-Смирнова нужно использовать спец. таблицы значений квантилей, потому как обычные составляются в предположении, что $N \rightarrow \infty (N > 100)$.
Да, и еще, насколько я могу судить, тест Хоттелинга вам не подойдет, поскольку он, в отличие от Колмогорова-Смирнова, не чисто непараметрический - для своей корректной работы требует либо предположения о нормальности распределения, либо большого объема выборки, коего у вас нет. Поэтому, либо нужно искать что-то наподобие Колмогорова в многомерном случае (какой-нибудь чисто непараметрический тест), либо попробовать провести тестирование по каждому химическому элементу в отдельности.

 Профиль  
                  
 
 Re: тест Колмогорова-Смирнова?
Сообщение17.08.2012, 19:40 
Аватара пользователя


15/08/12
54
У меня всего 8 измерений составов бактерий. Неизвестно из какой они среды, могут быть из любой. Я так понимаю, что вы обозначили бактерий за среду 1, в таком случае у меня еще 4 среды: базальтовый раствор - среда 2, перидотитовый - среда 3, Лост Сити - среда 4 и морская вода - среда 5.
Да, именно p-value для этих пар мне и нужно. По этой схеме я в настоящий момент и двигаюсь - вроде бы получается.

Большое спасибо, попробую еще про ANOVA прочитать.

Про спец. таблицы. А вы не знаете, они в SPSS не зашиты?

Про Хотеллинга, у меня есть предположение о нормальности распределения. Кроме того, я нашел пример использования его для схожей задачи с такой же малой выборкой: Дж. С. Дэвис, Статистический анализ данных в Геологии, М. 1990, Книга 2, стр. 236
https://docs.google.com/open?id=0B08REa ... 3BBa2EyTWc
Здесь про базальты, где-то еще было про грунтовые воды - там совсем идентичная задача

 Профиль  
                  
 
 Re: тест Колмогорова-Смирнова?
Сообщение17.08.2012, 22:17 


23/12/07
1763
alenov в сообщении #607111 писал(а):
У меня всего 8 измерений составов бактерий. Неизвестно из какой они среды, могут быть из любой. Я так понимаю, что вы обозначили бактерий за среду 1, в таком случае у меня еще 4 среды: базальтовый раствор - среда 2, перидотитовый - среда 3, Лост Сити - среда 4 и морская вода - среда 5.

:((
Неужели опять... Ну, мы же вроде бы договорились, что задача состоит в том, чтобы выяснить, влияет ли окружающая среда на концентрацию химических элементов внутри бактерии. Ведь так? А как определить, что это влияние есть? Правильно, в идеале, взять две идентичные бактерии и дать одной пожить в одной среде, другой - в другой. После чего сравнить концентрации в этих бактериях, и если различие есть - значит, влияние среды есть, нету - значит, нет. Ведь так? Так почему же вы предлагаете вместо этого сравнить концентрацию внутри бактерии с концентрацией в САМОЙ СРЕДЕ??? Где логика? Так можно действовать, только если стоит совсем другая задача - просто установить, что концентрация элементов внутри бактерии отличается от концентрации элементов в самой среде.
alenov в сообщении #607111 писал(а):
Здесь про базальты, где-то еще было про грунтовые воды - там совсем идентичная задача

Ну и замечательно, потому как, видимо, узнать суть вашей реальной задачи мне не дано.

-- Пт авг 17, 2012 23:56:41 --

Еще раз перечитал ваши посты и подумал, что возможно, вы имеете в виду еще такой вариант постановки:
выяснить, для каких химических элементов бактерия осуществляет внутреннюю регуляцию их концентрации, а для каких нет.
Тогда нужно было бы делать так:
1) рассмотреть какую-то определенную среду, например, морскую воду;
2) "выпустить" в эту среду $N$ штук бактерий;
3) по прошествии срока, начать "вылавливать" бактерии, при этом в том месте, где вылавливается очередная $i$-ая бактерия, определить концентрацию $\mathrm{Na}_i^{[\text{в среде}]}$ натрия в среде, после чего проанализировать концентрацию $\mathrm{Na}_i^{[\text{в бакт.}]}$ натрия в самой этой бактерии;
4) провести тест на однородность для двух выборок
$X_1 = \big(\mathrm{Na}_1^{[\text{в среде}]},\dots, \mathrm{Na}_N^{[\text{в среде}]}\big)$,
$X_2 = \big(\mathrm{Na}_1^{[\text{в бакт.}]},\dots, \mathrm{Na}_N^{[\text{в бакт.}]}\big)$.

Неоднородность будет свидетельствовать в пользу регулирования внутренней концентрации бактерией (опять же, если строго, то только в заданной морской воде и только этим типом бактерии).

То, как есть у вас сейчас, если говорить о
alenov в сообщении #607111 писал(а):
У меня всего 8 измерений составов бактерий. Неизвестно из какой они среды, могут быть из любой.

- не годится, ибо у вас бактерии взяты из неизвестно каких сред, а потому может запросто получиться так:
например, допустим по $\mathrm{Mg}$ "регулирования" нет, то есть, сколько его снаружи в среде, столько и внутри бактерии. Тогда если вы возьмете бактерию из среды с малым содержанием магния, но не будете знать об этом, а потом начнете сравнивать ее состав с составом другой среды, в которой магния много, то по тесту получите неоднородность и сделаете неверный вывод, что регулирование по магнию есть.

 Профиль  
                  
 
 Re: тест Колмогорова-Смирнова?
Сообщение20.08.2012, 17:42 
Аватара пользователя


15/08/12
54
Уважаемый, Хум!

Ей богу мне не понятно, что вам не понятно:)) Должно быть это от моей вопиющей математической безграмотности! Попробую переформулировать свою задачу еще раз: я пытаюсь определить по составу бактерий раствор, в котором формировался их состав. Использование статистических методов не входило в мои планы, я никогда до этого с ними не работал, хотя всегда знал насколько это мощный инструмент, но, к сожалению, преподаватель статистики в университете слишком много пил... и мне мало чему удалось у него научиться:)) Да в моей жизни в тот момент приоритет статистики, к сожалению, был не на первом месте...
Цитата:
Еще раз перечитал ваши посты и подумал, что возможно, вы имеете в виду еще такой вариант постановки:
выяснить, для каких химических элементов бактерия осуществляет внутреннюю регуляцию их концентрации, а для каких нет.
Тогда нужно было бы делать так:
1) рассмотреть какую-то определенную среду, например, морскую воду;
2) "выпустить" в эту среду штук бактерий;
3) по прошествии срока, начать "вылавливать" бактерии, при этом в том месте, где вылавливается очередная -ая бактерия, определить концентрацию натрия в среде, после чего проанализировать концентрацию натрия в самой этой бактерии;
4) провести тест на однородность для двух выборок
,
.

Неоднородность будет свидетельствовать в пользу регулирования внутренней концентрации бактерией (опять же, если строго, то только в заданной морской воде и только этим типом бактерии).

К сожалению это невозможно сделать по многим методическим причинам даже теоритически. Но я придерживаюсь именно этого алгоритма.
Цитата:
не годится, ибо у вас бактерии взяты из неизвестно каких сред

Гипотеза утверждает, что они все из одной среды, но не известно какой, поэтому я не вижу проблемы, почему их 8 составов нельзя попарно сравнить со всеми 4 средами по очереди согласно показанному вами алгоритму.

В общем-то я разобрался с этой проблемой, как мне по крайней мере кажется на данный момент, но у меня есть два вопроса: (1) Может ли быть N различно в сравниваемых выборках (в среде допустим 12, а в бактерии 8)? и (2) Если я знаю, что морская вода имеет всегда постоянный состав, могу ли я взять 8 идентичных значений и сравнить их с 8 измерениями бактерий, те 1 N для морской воды превратить в 8?

Первый вопрос снят, понятно, что количество N в выборках может быть различным.

 Профиль  
                  
 
 Re: тест Колмогорова-Смирнова?
Сообщение20.08.2012, 19:16 


23/12/07
1763
alenov в сообщении #608196 писал(а):
Попробую переформулировать свою задачу еще раз: я пытаюсь определить по составу бактерий раствор, в котором формировался их состав.

Для этого нужно иметь информацию о том, каким образом связаны эти составы. Наподобие: "концентрация натрия в бактерии такая же как в растворе, в котором она обитает", или же "концентрация магния в бактерии описывается функций $n^{\text{бакт.}} = f(n^{\text{среда}})$ ".
На основании этого, имея выборку концентраций $ n^{\text{бакт.}}_1,\dots,n^{\text{бакт.}}_N$ бактерий из одной и той же неизвестной среды, можно было бы тогда путем перерасчета из этой выборки получить выборку концентрации самой неизвестной среды $n^{\text{среда X}}_1,\dots,n^{\text{среда X}}_N$. После чего уже сравнивать эту выборку концентраций неизвестной среды с выборками концентраций из известных сред.
alenov в сообщении #608196 писал(а):
1) Может ли быть N различно в сравниваемых выборках (в среде допустим 12, а в бактерии 8)?

Если вы спрашиваете, можно ли в тесте на однородность Колмогорова-Смирнова сравнивать выборки разных размеров, то ответ - да (см. Kolmogorov-Smirnov test).
alenov в сообщении #608196 писал(а):
(2) Если я знаю, что морская вода имеет всегда постоянный состав, могу ли я взять 8 идентичных значений и сравнить их с 8 измерениями бактерий, те 1 N для морской воды превратить в 8?

Если вопрос в том, можно ли создать выборку размера N просто размножив одно и то же значение N раз, то ответ - нет. Грубо говоря, это аналогично тому, что в задаче сравнения среднегодовой температуры в Москве и Питере вы вместо того, чтобы в течение года каждый день измерять температуру и фиксировать результат в таблице, померяете ее только в один день и "размножите" 365 раз.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 19 ]  На страницу 1, 2  След.

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group