2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему На страницу 1, 2  След.
 
 Нормированное отклонение для уравнивания объемов выборки
Сообщение17.07.2020, 09:34 


17/07/20
8
Здравствуйте. Помогите пожалуйста разобраться с применением метода! Суть такова: в моем исследовании в течение года делались измерения проб, при этом в каждом месяце разное кол-во проб (грубо говоря, в одном месяце 15 проб, в другом 50). Насколько я знаю, выборка $n<30$ считается ненадежной, непригодной для статистической обработки. В статье (на всякий случай, вот оригинал, все в открытом доступе http://eprints.kname.edu.ua/2570/1/%D0%9C%D0%90%D0%9A%D0%A1%D0%98%D0%9C%D0%9E%D0%92%D0%90_%D0%95.%D0%AD..pdf) я нашла описание метода уравнивания выборки для подобных случаев, и решила действовать по аналогии. Написано там следующее:
Цитата:
Обработано 7110 измерений по колифагам и 66106 измерений по кишечной палочке. Все случаи обнаружения ... были сгруппированы в среднемесячные показатели, которые затем для уравнивания объемов выборки ($n=60$) были приведены к нормированному отклонению $t$ по формуле: $t=(x_i-\bar{x})$, где $x_i$ – текущее значение измеряемого показателя; $\bar{x}$ – среднее арифметическое измеряемого показателя, $s_x=\sqrt \frac {\sum {(x_i-\bar{x})}^2}{n-1}$ – среднее квадратическое отклонение измеряемого показателя.

В результате этих преобразований авторы получили по одному значению $t$ на каждый месяц и построили график.
Так вот, помогите пожалуйста разобраться с тем, как применять формулу. В статье подробности опущены,а понять мне нужно следующее:
1. Почему $n=60$? Есть какое-то правило, по которому вычислять, какое должно быть $n$, или исследователь произвольно выбирает любое $n>30$?
2. В формулу для $t$ в качестве $x_i$ вставлять уже усредненные среднемесячные показатели, полученные в предыдущем действии, или исходные данные измерений? Ну и соответственно что тогда $\bar{x}$ - среднее всех измерений за год или за месяц? Я предположила, что $x_i$ - среднемесячный показатель.
3. Среднеквадратическое отклонение какой подборки? Той, что за месяц, или всей, за год? Я предположила, что той, что за месяц, ибо куда-то ведь нужно "впихнуть" $n=60$. Или все-таки нужно вычислить $S_x$ годового массива данных и в качестве $n$ использовать общее количество проб? Но тогда куда вставлять 60?

 Профиль  
                  
 
 Re: Нормированное отклонение для уравнивания объемов выборки
Сообщение18.07.2020, 09:09 
Заслуженный участник
Аватара пользователя


11/03/08
9904
Москва
Что-то у Вас пропущено. Где в формуле использовано $s_x$?

 Профиль  
                  
 
 Re: Нормированное отклонение для уравнивания объемов выборки
Сообщение18.07.2020, 09:45 


17/07/20
8
Евгений Машеров Точно, простите... :facepalm: Правильная формула в нормированном отклонении $t=\frac {x_i-\bar{x}}{s_x}$

 Профиль  
                  
 
 Re: Нормированное отклонение для уравнивания объемов выборки
Сообщение18.07.2020, 10:58 


27/06/20
337
SilverShine

я бегло посмотрел материал по ссылке. Честно, я давно (а возможно никогда) не видел такого нагромождения статистической несуразицы. Я даже не могу сказать, что автор неправильно решил задачу, потому что он вероятно вообще не понимает, что он делает с точки зрения статистики.

А Ваша задача полностью эквивалентна той, что по ссылке? Вам тоже нужно определить статистическую значимость "корреляции" концентрации двух микроорганизмов в воде и возможно выделить сезон, когда она имеет место?
Очень важный вопрос: Ваши "E. coli" и Ваши "фаги" измерялись в одних и тех же пробах воды? Т.е. возможно в некоторых пробах не получилось получить результат по одному или другому показателю из-за технической накладки, но Вы можете сопоставить изменения по индивидуальным пробам (а не только по месяцам)?

1. я предполагаю, что под n=60 имеется в виду количество месяцев в период измерения 1998-2003 гг.
2. у них вероятно за месяц, и то, что они сделали, делать ну никак нельзя
3. я думаю, у них это отклонение в "всевдовыбоке" шестидесяти помесячных средних между собой, и так опять же ну никак делать нельзя (и это ещё многократно хуже, чем то, что они сделали в пункте выше)

 Профиль  
                  
 
 Re: Нормированное отклонение для уравнивания объемов выборки
Сообщение18.07.2020, 11:34 


17/07/20
8
ipgmvq
Почему-то я даже подозревала, что в решении в статье что-то не так... особенно потому, что шаря интернет, никакого такого метода уравнивания подборки не нашла, только в этой статье он и описан...

По условиям задача эквивалентна вплоть до объектов исследования, но не уверена, что дойду до "статистической значимости корреляции", на данном этапе я себе ставила задачу просто получить хоть сколько-нибудь адекватные графики, отражающие сезонную динамику. Если строить графики типа боксплот или барчат на самих данных, тот там одни выбросы и диапазон погрешности больше высоты столбика, т.к. маленькие подборки в основном, да и я не уверена, что их вообще можно строить, когда объемы выборки разные на каждый месяц (а можно ли?; я с мат. статистикой очень "на Вы").
По поводу важного вопроса: частично в одних, частично в разных, т.е. все пробы, исследованные на фаги, исследовались на E. coli, но в целом на E. coli проб исследовано больше. Можно покорпеть и выделить только те пробы, которые исследовались на оба организма, но объем выборок упадет до еще более непригодного. Если по месяцам - то там нельзя сказать точно, повторялись ли те же пробы в разные месяца или это были совершенно разные источники, увы, данные об источнике пробы для меня "засекречены"

1-3: спасибо за пояснение, значит я так делать не буду, как они. Придется мне поискать новый метод для своей задачи

 Профиль  
                  
 
 Re: Нормированное отклонение для уравнивания объемов выборки
Сообщение18.07.2020, 13:33 


27/06/20
337
SilverShine в сообщении #1474326 писал(а):
когда объемы выборки разные на каждый месяц
Это не имеет никакого значения

SilverShine в сообщении #1474326 писал(а):
маленькие подборки в основном
В статистике часто используются два способа решения:
1) точный (не всегда возможен аналитически) и
2) асимптотический (это когда мы знаем, что какое бы распределение ни было у нашей случайной величины, при нарастании числа этих одинаково распределенных случайных величин (размера выборки) некоторые показатели этой выборки (эти показатели выборки называют "статистиками") начинают вести себя всё больше и больше, как будто они имеют нормальное распределение. И при достижении какого-то размера выборки мы делаем вид, что не знаем, что оно ненормальное, и начинаем делать расчеты, как будто оно уже абсолютно нормальное и получаем неточные приближенные результаты, потому что конечно нормальным оно станет только при бесконечном размере выборки (в пределе при размере выборки, стремящемся к бесконечности).
Если Вы по какой-то причине (оракул сообщил) точно знаете, что ваша случайная величина нормальная, то и при n равно 2 Вы абсолютно точно и не приближенно дадите оценку и математическому ожиданию, и дисперсии, и ошибке средней Вашей случайной величины.
Когда же случайная величина ненормальная (а, к примеру, случайная величина, которая принимает только положительные значения (например, КОЭ колиформов на мл в воде), не может в принципе иметь нормального распределения), то тут размер выборки, при котором мы можем "забыть", что это ненормальная случайная величина, зависит от самого распределения. Для некоторых и размер выборки 100 будет давать очень смещенные асимптотические оценки. n > 30 — это rule of thumb и условность, а не абсолютная истина. Если же вы используете непараметрический методы и оцениваете медиану вместо математического ожидания, то и предположение о нормальности и размер выборки Вам становятся безразличными.

SilverShine в сообщении #1474326 писал(а):
на данном этапе я себе ставила задачу просто получить хоть сколько-нибудь адекватные графики, отражающие сезонную динамику
Графики колиформов и фагов отдельно или именно сезонности влияния значения одного показателя на другой?

 Профиль  
                  
 
 Re: Нормированное отклонение для уравнивания объемов выборки
Сообщение18.07.2020, 14:51 


17/07/20
8
ipgmvq
Хорошо, что не имеет, это мне очень выгодно, как я понимаю

Спасибо за подробное пояснение на счет способов решения, многое прояснилось в голове.
Т.е. получается, при моих условиях график можно строить по медианам подборок, чтобы не влиял размер и ненормальность подборки? Я просто уже думала на счет медианы, но я не очень уверена на счет нее, потому что она делит как бы список написанных чисел пополам (если я правильно понимаю), а у меня некоторые подборки имеют вид, при котором 90% выборки - одно число, при чем минимальное (к счастью, не так много фагов). Поэтому подборка за месяц может выглядеть например как: " 1 1 1 1 1 1 1 1 1 150 200", и тогда медиана будет 1, это будет совсем не показательно, кажется

Для начала я хотела получить графики отдельно, чтобы сделать выводы о влиянии разных сезонных факторов на динамику, а потом сравнить эти графики, чтобы сделать выводы, одинаково ли они подвержены этим влияниям.
В идеале я хотела и проверить, есть ли взаимосвязь (корреляция) между их сезонными изменениями, потому что по графику можно сделать ложные предположения, "на глаз вроде похожая линия", а при проверке, как я поняла по статьям, может оказаться недостоверно; правда я не думала как в статье по сезонам, я думала о корреляции годовой динамики в целом. Но это для меня это пока что сверхзадача, т.к. я профан статистики, я не уверена, что потяну корреляцию.

-- 18.07.2020, 19:48 --

ipgmvq
На счет графиков и медианы: я еще думала на счет таких показателей, как среднее геометрическое и размах выборки. Можно ли их использовать для построения графика и будет ли такой график корректным? Или все же лучше медиана?

 Профиль  
                  
 
 Re: Нормированное отклонение для уравнивания объемов выборки
Сообщение18.07.2020, 17:27 
Заслуженный участник
Аватара пользователя


11/03/08
9904
Москва
То, что посчитано - этол t-отношение, используемое в критерии Стьюдента. Оно проверяет гипотезу о том, что отклонение за данный месяц значимо отличается от среднего по всей выборке. Уравнивания объёмов оно не производит.

 Профиль  
                  
 
 Re: Нормированное отклонение для уравнивания объемов выборки
Сообщение18.07.2020, 17:33 


27/06/20
337
SilverShine

Если я правильно понимаю, какого-то правильного решения от Вас не ждут, иначе не стали бы засекречивать источники проб (из каких водоемов их брали — из случайных/неслучайных разных или из одного).
Если из одного, то решить упрощенно и точно не получится.
Если из разных неслучайных (например, человек брал из Селигера в апреле, потому что ездил туда (как и каждый год) на рыбалку, в январе из Мзымты, потому что каждый год ездит кататься на лыжах на Красную Поляну, а в июле из Клязьмы, потому что там дача), то решения вообще не существует.
Да и вообще, что именно измеряет средняя или медиана, если пробы берутся рандомно из разных водоемов на территории РФ в разных климатических зонах, с разным уровнем антибиотиков и канализационных вод в водоемах. Это как средняя температура пациентов по больнице (включая морг) и её суточные колебания. :D И зачем в таком случае изображать ошибку средней (которая кроме всего прочего считается асимптотически).

Главная проблема: здесь временной ряд, а не независимые друг от друга изменения в рамках cross-sectional исследования. В этом ряду (если измерения делались в одном водоеме) каждое последующее измерение зависит от предыдущего. Это как если оценивать сезонность популяции диких кроликов в лесу Австралии на протяжении нескольких лет и не учитывать, что в январе 2019 года их в лесу было, например, 10 пар, а январе 2020 года уже 100, и что февраль 2019 года и февраль 2020 года имеют сильную зависимость от предыдущего месяца. Поэтому обычные статистические техники в отношении этих абсолютных значений не применимы. Что мы тут можем изучать, это то, как, к примеру, месяц или изменение (рост или снижение) КОЭ колиформов влияло на измерение количества фагов относительно предыдущей временной точки. Но для этого идеально, если эти точки во времени расставлены на одинаковом расстоянии. Мы можем сделать коррекцию на разные интервалы, но только если мы уверены, что "ошибка" (эффекты, которые не обусловлены месяцем и количеством колиформов) имеют логарифмически нормальное распределение и стационарны во времени (не имеют разной дисперсии или меняющейся формы распределения). Но тут мы должны исходить из того, что это один и тот же водоем, и в данных должны быть даты и в идеале временные метки забора проб.

Выборка "1 1 1 1 1 1 1 1 1 150 200" прям на глаз не выглядит чересчур нормальной. :shock: Тут конечно нужно изображать непараметрически: медианой, центилями. Мне кажется, медиана - interquartile range - точками outliers, т.е. стандартный боксплот очень подойдёт.

Я знаю только одно применение геометрической средней в статистике: оценка случайного изменения величины во временном ряду для тех, кто предпочитает работать с абсолютными значениями временного ряда, а не с их логарифмами (последнее мне кажется проще, потому что превращает операции умножения и нахождения n-корня в операции сложения и деления на n: логарифм среднего геометрического отношений последовательных абсолютных значений временного ряда равен арифметическому среднему изменений логарифмов этих абсолютных значений). Тут это неприменимо и вероятно ненужно. И опять же мы не сможем легко тестировать статистические гипотезы в отношении геометрической средней, а отношении медианы сможем для любых распределений.

 Профиль  
                  
 
 Re: Нормированное отклонение для уравнивания объемов выборки
Сообщение18.07.2020, 19:32 


17/07/20
8
ipgmvq
ipgmvq в сообщении #1474386 писал(а):
Если я правильно понимаю, какого-то правильного решения от Вас не ждут, иначе не стали бы засекречивать источники проб

Дело в том, что засекретили одни, а ждут другие. Я беру данные местной сан. лаборатории, а политика лаборатории такова, что (видимо, во избежании несанкционированного разглашения того, как у нас плохи дела) даже сами лаборанты, выполняющие анализ, не знают точно откуда проба. В протоколе внесен только код (шифр) пробы, группа (например вода поверхностных водоемов), и еще какое-нибудь указание типа "река", "озеро". В редких случаях может быть название реки. Полные данные знает только заказчик исследования и тот, кто отбирал пробу. А ждут от меня написания магистерской, и там, конечно, все должно быть так, чтоб на защите не к чему было подкопаться.
ipgmvq в сообщении #1474386 писал(а):
из каких водоемов их брали — из случайных/неслучайных разных или из одного)

Не из одного, это я точно знаю. Примерные указания типа река, озеро, водовыпуск, пруд - у меня есть. На счет случайности - не совсем случайные. Во первых - все пробы ограничены территорией нашего края. Можно даже примерно прикинуть, какие реки/озера есть в крае. Во-вторых, отбор тоже обусловлен некоторыми правилами. Есть наверное какая-то периодичность, с которой лаборатория контролирует воду в определенной реке. Поэтому, как я говорю, источник может повторяться в разные месяцы один и тот же, но сопоставить пробы из одного источника я не смогу, потому что код будет каждый раз новый. Т.е. частично пробы повторяются, частично новые пробы.
ipgmvq в сообщении #1474386 писал(а):
Да и вообще, что именно измеряет средняя или медиана, если пробы берутся рандомно из разных водоемов на территории РФ в разных климатических зонах, с разным уровнем антибиотиков и канализационных вод в водоемах. Это как средняя температура пациентов по больнице (включая морг) и её суточные колебания. :D

Я планирую исследовать динамику в открытых поверхностных водоемах своего края) Это несколько ограничивает рандомность, и надеюсь, добавляет смысл такому исследованию. Хотя конечно то, что нельзя наверняка сказать, из каких условий взята проба, и их можно считать лишь приблизительно сходными, это слабое место работы, это я понимаю.
ipgmvq в сообщении #1474386 писал(а):
Но тут мы должны исходить из того, что это один и тот же водоем, и в данных должны быть даты и в идеале временные метки забора проб

Водоем не один. Но даты и временные метки есть.
ipgmvq в сообщении #1474386 писал(а):
Мне кажется, медиана - interquartile range - точками outliers, т.е. стандартный боксплот очень подойдёт

Страдаю от того, что не могу вставить картинку, но дело в том, что я уже делала боксплот
Если вот так получится https://yandex.ru/collections/card/5f1321e2ef0e1163c1811f34/ вот по данным за год
https://yandex.ru/collections/card/5f1321e2ef0e1163c1811f35/ вот за 3 года
Я чувствую, что графики ужасные, даже область 50% изменений не строится, т.к. она вся к оси прилипла, мне кажется, их не примут...
ipgmvq в сообщении #1474386 писал(а):
последнее мне кажется проще, потому что превращает операции умножения и нахождения n-корня в операции сложения и деления на n

Поскольку я не считаю в ручную, а делаю через программу, сложность примерно одинакова, я думаю... но если здесь это не применимо, то ладно, остановлюсь на медианах.

-- 18.07.2020, 23:33 --

Евгений Машеров
Спасибо за пояснение

 Профиль  
                  
 
 Re: Нормированное отклонение для уравнивания объемов выборки
Сообщение18.07.2020, 20:11 


27/06/20
337
SilverShine
SilverShine в сообщении #1474410 писал(а):
даже область 50% изменений не строится, т.к. она вся к оси прилипла
Советую сделать шкалу оси Y логарифмической (десятичным логарифмом) — будут на оси Y степени десяти. Так интерквартильный интервал отлипнет от нуля, и outliers сверху соберутся в кучу.

Спасибо за пояснения. Без идентификатора конкретного водоема, я считаю, Вы не сможете корректно с этим работать с точки зрения выявления эффектов сезонности и корреляции колиформов и фагов.

 Профиль  
                  
 
 Re: Нормированное отклонение для уравнивания объемов выборки
Сообщение19.07.2020, 08:31 
Заслуженный участник
Аватара пользователя


11/03/08
9904
Москва
К замечанию о том, что самый важный момент - как сформирована выборка, полностью присоединяюсь. Сплошное обследование, рандомизированное, серийное, гнездовое... Это существеннейший момент. Если единственная цель работы - квалификационная, показать владение аппаратом анализа, то тут может быть условность, что "данные предоставлены, делайте на них", а практические выводы делаться из них не будут. Но если задача получить какие-то новые закономерности и полезные выводы - надо начинать с выяснения способа формирования выборки.
Величина $n=60$ выглядит довольно загадочно, единственное правдоподобное объяснение, что так неловко высказано утверждение, что точек всего 60 (5 лет по 12 месяцев).
$s_x$ это, безусловно, месячное среднеквадратичное отклонение, а не годовое. В общем-то, это выглядит, как критерий Стьюдента, но задача проверки значимости отклонения от нуля вроде не ставится. Однако это может быть ещё и "разведочный" индикатор, "отношение сигнал/шум", не доказывающий ничего, но указывающий "зоны особого внимания". В которых есть смысл как применить более сложные методы анализа, так и добрать данных. Наконец, это может рассматриваться, как "стандартизующее преобразование", приводящее к постоянной дисперсии. Например, чтобы корреляции считать, между случайными величинами, и не иметь дело с величинами различной дисперсии. Но тогда надо брать не среднеквадратичное отклонение по месячной выборке, а среднеквадратичное отклонение среднего, разделив на корень из $n_i$
И просто корреляции здесь могут быть вполне бесполезны. Кросс-корреляции, учитывающие сдвиг - возможно.

 Профиль  
                  
 
 Re: Нормированное отклонение для уравнивания объемов выборки
Сообщение19.07.2020, 11:21 


17/07/20
8
ipgmvq
Евгений Машеров
Огромное всем спасибо за столь детальные объяснения и время, уделенное моим вопросам

ipgmvq в сообщении #1474417 писал(а):
Без идентификатора конкретного водоема, я считаю, Вы не сможете корректно с этим работать
Евгений Машеров в сообщении #1474465 писал(а):
Если единственная цель работы - квалификационная, показать владение аппаратом анализа, то тут может быть условность, что "данные предоставлены, делайте на них", а практические выводы делаться из них не будут. Но если задача получить какие-то новые закономерности и полезные выводы - надо начинать с выяснения способа формирования выборки.
Да, я вполне сознаю теперь, что выборка сформирована не вполне пригодная, и делать на ней серьезные выводы некорректно. Та статья меня ввела в некоторое заблуждение, ибо судя по разному количеству обработанных данных по разным МО у них выборка была примерно такая же, без идентификации конкретных водоемов, но они делали не ней исследование. Я все же делаю упор на то, что в моей подборке водоемы хотя бы частично повторяются, некоторые особо значимые водоемы проверяются регулярно, набор их в крае достаточно ограничен, а т.к. край не такой уж большой, то и природно-климатические условия достаточно близки. Хотя, если мне удастся получить какие-то выводы, то я все равно буду их позиционировать как "приблизительные начальные основания для выдвижения гипотезы и проведения более детальных исследований в рамках продуманного эксперимента с заданными условиями". На глобальные выводы претендовать не буду. К сожалению, в условиях пандемии экспериментальная моя работа закрыта и приходится спешно адаптироваться к тому, что есть, смиряясь с несуразностью.
ipgmvq в сообщении #1474417 писал(а):
Советую сделать шкалу оси Y логарифмической (десятичным логарифмом) — будут на оси Y степени десяти. Так интерквартильный интервал отлипнет от нуля, и outliers сверху соберутся в кучу.
Спасибо за совет, постараюсь разобраться с таким методом. Собственно, первую попытку уже сделала, выставив log Y в PAST, но пока не совсем поняла, что получилось, ибо на большей части оси вниз уходят просто нули, и появились выбросы вниз. https://yandex.ru/collections/card/5f13f949cc06afd1abdd8fe7/. Предполагаю, что эти нули связаны с длинными числами после запятой, которые программа не хочет выводить на график, почему-то... Впрочем, мне кажется, что у меня на графике не получились степени десяти, ибо едва ли количество фагов могло достигать $10^{100}$, нужно разбираться, что именно выводит программа теперь, но в целом график выглядит куда лучше и действительно "отлип" от оси, спасибо

 Профиль  
                  
 
 Re: Нормированное отклонение для уравнивания объемов выборки
Сообщение19.07.2020, 11:49 


27/06/20
337
SilverShine
это не нули, это вероятно округления (до целого числа) дробей одна сотая, одна десятитысячная, одна миллионная и т.д. Выброс вниз это вероятно так отображаются два нуля в датасете (из которых нельзя брать логарифм). Округление до нуля не подходящим, а значение неправдоподобным для неавтоклавированной воды. Я бы эти нули заменил на точность метода.
Весьма вероятно, что верхние outliers — это временные ряды из одного и того же водоема, а более низкие значения из других. Не зная водоемы, мы это анализировать не сможем, увы: только дескриптивной статистикой описать и нарисовать график.

 Профиль  
                  
 
 Re: Нормированное отклонение для уравнивания объемов выборки
Сообщение19.07.2020, 12:37 


17/07/20
8
ipgmvq
Спасибо, да, там была пара проб, в которых фаги были не обнаружены. Возможно, вода обработана хорошо (зона купания, например), или действительно проблемы с точностью метода, незначительное количество фагов могло быть просто не зафиксировано.
А что касается положительных чисел на оси игрек (100, 1000), я подумала и решила, что это еще не степени десяти, а собственно сами числа как есть, 100 БОЕ, 1000 БОЕ, и степени будут отображаться при больших значениях показателя. Я правильно поняла?

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 17 ]  На страницу 1, 2  След.

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group