2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему На страницу Пред.  1, 2, 3
 
 Re: Анализ главных компонент: 1я ГК имеет маленькую дисперсию
Сообщение26.01.2017, 10:55 


12/01/17
14
Всем желаю здравствовать!
Решил немного поуменьшить таблицу и посмотреть МГК для неё. По-прежнему плохо с объяснённой дисперсией: удалось поднять до 5% у 1-й ГК. Дальше уменьшать таблицу уже нельзя с точки зрения предметной области. По-прежнему нормирую на с.к.о., так как у разных признаков (видов планктона) дисперсия численности по станциям отличается на несколько порядков. Картинки прикладываю. Получается, тут про МГК лучше совсем забыть?

Файл с изображениями: https://drive.google.com/open?id=0ByyhgdYYEKaZbjdhLVRQOG5Id0k

 Профиль  
                  
 
 Re: Анализ главных компонент: 1я ГК имеет маленькую дисперсию
Сообщение26.01.2017, 14:19 


07/10/15

2400
Здравствуйте!
Ну там надо было разные виды планктона разными цветами или разными маркерами помечать, тогда была бы наглядная диаграмма. Может быть что то на ней и проявилось, может даже что то и полезное.

По поводу тому что Вы стремитесь сосредоточить всю "дисперсию" в 2-3 компонентах, так этого может просто и не быть в силу природы самих данных. У меня бывает как минимум 20 - 50 обычно (но у меня сигналы и наверно всё по другому). 5% в первой компоненте на мой взгляд это нормально. В данном случае проблема решается отбором, хотя у Вас это видимо мало что даст.

Как я уже говорил МГК не предназначен для Ваших данных, поэтому ничего хорошего и не получается. Вы вот считаете дисперсию, а ведь у Вас её на самом деле нет, дисперсия - параметр нормального распределения, а у вас совсем не такое. Бывает псевдодисперсия, но это когда распределение хотя бы визуально приближается к нормальному, например более островершинное. А у Вас непонятно какое оно вообще. Единственное, что можно предположить - это биноминальный закон. Вот я Вам и предложил бинаризацию. У Вас нельзя даже сделать оптимальную (равновероятную) бинаризацию, так как нулей в таблице больше половины.

От МГК наверное лучше отказаться. Но есть другие методы: факторный анализ может работать если вы выделите нормально распределённые остатки. Можно попробовать ICA это линейные методы независимых компонент. Их очень много есть видов. Они специально для ненормально распределённых данных. Чтобы Вам всё не проверять сообщаю о своём опыте: fastica работал быстро - но и толку от него было мало, jade - самое лучшее что пробовал, но там нужны ресурсы, на моём компе (64Гб ОЗУ) я выделял не более 200 независимых компонент и то за 4 суток (процессор i7 6700) - это на моментах 4-го порядка. ICA на моментах 2 порядка я не испытывал, т.к. мне показалось что они мне не подойдут.

Для ваших же данных я бы ещё обязательно попробовал анализ соответствий, там на основании таблицы соответствий качественных признаков формируется небольшое число метрических признаков. Это для сокращения размерности и для визуализации применяется. Вот Вашу таблицу соответствий можно так обработать. Там есть парный анализ - когда только 2 признака анализируются, а есть множественный. В нём - можно сразу несколько. Может получится пары признаков хотя бы объединять - таблица будет уменьшаться.

Сообщите что у вас в итоге получилось с анализом бинарных связей? сколько неопределённых пар получается?

 Профиль  
                  
 
 Re: Анализ главных компонент: 1я ГК имеет маленькую дисперсию
Сообщение26.01.2017, 15:00 


12/01/17
14
Спасибо, буду разбираться дальше!

По поводу диаграммы рассеяния на 2 ГК: у меня раньше ещё номера выводились, это всё равно каша. Каждая точка сама по себе (это станции). Можно их сгруппировать по географ. принципу и даже отдельно поисследовать совокупности близких территориально, но отдельные исследования проводились раньше, моя задача выковырять что-то полезное из сборной солянки.

На уровне значимости 0.05 (от самой большой таблицы к самой маленькой; числа - пары признаков, bads - тех, для кого хи-квадрат не применим, relations detected - нулевая гипотеза об отстутствии неслучайных связей по Фишеру отклонена):

bads = 85089, total = 90951, ,
Some relations detected -> 9160 of 90951 total

bads = 32102, total = 37950,
Some relations detected -> 7592 of 37950 total

bads = 20426, total = 26106,
Some relations detected -> 6523 of 26106 total

-- 26.01.2017, 15:28 --

Скажите, пожалуйста, как Вы юзали jade? В Matlab не нашёл. На языке R что-то есть написанное. На R брали или сами писали?

 Профиль  
                  
 
 Re: Анализ главных компонент: 1я ГК имеет маленькую дисперсию
Сообщение26.01.2017, 16:46 
Заслуженный участник
Аватара пользователя


23/11/06
4171
Andrey_Kireew в сообщении #1187472 писал(а):
Вы хотите сказать, что при $p_{value}<\alpha$ OddsRatio гарантированно не выходит за доверительные интервалы ConfidenceInterval? (кстати с ними сравнивается именно OddsRatio, но никак не p-Value)


Где Вы берете то, что я хочу сказать? Я без понятия, что за доверительные интервалы там строятся, но в любом случае скорее наоборот: при $p_{value}>\alpha$ OddsRatio лежит в каких-то границах вокруг единицы. Ещё раз: нулевая гипотеза отвергается при $p_{value}<\alpha$. Или, что то же самое, когда OddsRatio слишком далеко от единицы. Где Вы взяли, что с границами сравнивается $p$-Value?

О, господи, поняла, где. Такой способ прочесть текст мне и присниться не мог:
--mS-- в сообщении #1187464 писал(а):
Значение Alpha ($\alpha$) используется как для построения доверительных интервалов (уровня доверия $1-\alpha$), так и для сравнения с ним значения $p$-value и принятия решения: отвергать ли нулевую гипотезу.

"С ним" - это с Alpha. А не с доверительный интервалом... :facepalm:

(Оффтоп)

Кстати, границы для случайной величины - это совсем не доверительный интервал. Писатели хелпа ни бум-бум в статистике.


Andrey_Kireew в сообщении #1187472 писал(а):
Другими словами OddsRatioэто статистика, а p-Value - это её вероятность, так же как например z - статистика (квантиль нормального распределения) получается 1.6, а доверительная вероятность для неё 0.95. Т.е. z=1.6, а p-Value=0.95 ?

Что такое "её вероятность"? Выше дважды объяснено, что за вероятность $p$-Value. Но Вы опять всё наоборот понимаете.

Пусть, для простоты, у нас есть критерий, для которого распределение статистики критерия нормальное, как у Вас в примере - скажем, критерий для проверки равенства нулю среднего нормальной выборки c единичной дисперсией со статистикой $z=\sqrt{n}\overline X$. Пусть получилось $z=1{,}64$. В таком случае $p$-Value равно
$$p\text{-Value}=\mathsf P_{H_0}(|\sqrt{n}\overline X|>1,64)=0{,}1.$$
В случае, если критическая область односторонняя, то
$$p\text{-Value}=\mathsf P_{H_0}(\sqrt{n}\overline X>1,64)=0{,}05.$$

(Оффтоп)

(Пять сотых, пять, Карл!)


Потому что есть лишь пять процентов шансов, что по выборке из нормального стандартного распределения получится столь же большое или ещё большее значение $z$, чем получилось на нашей выборке. Согласие с проверяемой гипотезой плохое.

 Профиль  
                  
 
 Re: Анализ главных компонент: 1я ГК имеет маленькую дисперсию
Сообщение26.01.2017, 17:07 


12/01/17
14
Уважаемая mS, буду рад, если Вы подскажете по сути: какие методы лучше поюзать для моей матрицы, чтобы выловить закономерности. Желательно, чтобы эти методы были реализованы в мат. пакетах (Matlab, R, ...) или была инфа по ним для... ну не чайников,... кофейников!

Вопросы, которые передо мной стоят: если в пробе есть планктон вида А в кол-ве n штук, то надо оценить вероятность того, что какие-то другие виды будут также присутствовать в этой пробе в кол-ве в сколько-то раз большем/меньшем (хорошо бы оценить эти разы), чем А, или вовсе их не будет. Прикладников интересует, как всегда, конкуренция видов: кто доминирует и мешает коллегам и в какой степени.

Точный критерий Фишера как-то уже пообсудили. Прошу знатоков всё-таки поменьше оффтопить и дискутировать о высоком. Уважаемая mS, выскажитесь, пожалуйста, о предложениях Andrey_Kireew: не юзать PCA (у меня доля дисперсии в процентах вот такая по сс числам:
5.2919
3.9790
3.0540
2.9154
2.5985
2.3975
2.0546
1.9188
1.7892
1.6485 и т.д., оооочень медленно убывают, я за то, чтобы от них отказаться), юзать ICA (jade? где его взять?), юзать множественный анализ соответствий (который опять скатывается, имхо, к svd, который вроде как не надо - в PCA поюзали уже, ничего хорошего).

По поводу дисперсии вообще: уважаемый Andrey_Kireew высказался, что это характеристика нормального распределения. Я не знаю, что он имел в виду, я же везде говорю о дисперсии как о матожидании (или его оценке) квадрата центрированной СВ (предполагаем, конечно, элемент случайности в этих замечательных данных)

 Профиль  
                  
 
 Re: Анализ главных компонент: 1я ГК имеет маленькую дисперсию
Сообщение26.01.2017, 17:56 
Заслуженный участник
Аватара пользователя


23/11/06
4171
Big_Z в сообщении #1187563 писал(а):
Уважаемая mS, буду рад, если Вы подскажете по сути: какие методы лучше поюзать для моей матрицы, чтобы выловить закономерности. Желательно, чтобы эти методы были реализованы в мат. пакетах (Matlab, R, ...) или была инфа по ним для... ну не чайников,... кофейников!

Это вопрос не ко мне. Могу советовать только в пределах своей компетентности.

(Оффтоп)

Big_Z в сообщении #1187563 писал(а):
Точный критерий Фишера как-то уже пообсудили. Прошу знатоков всё-таки поменьше оффтопить и дискутировать о высоком.

Извините, но оставлять без комментариев высказывания Andrey_Kireew не могу.

 Профиль  
                  
 
 Re: Анализ главных компонент: 1я ГК имеет маленькую дисперсию
Сообщение26.01.2017, 22:05 


07/10/15

2400
Что касается моего вопроса mS - то ответ получен и утвердительный, хотя и местами замысловатый. Кстати по поводу
Цитата:
Ещё раз: нулевая гипотеза отвергается при $p_{value}<\alpha$
это конечно в итоге так и есть но лишь в итоге, в статистике принято оперировать доверительными интервалами и значениями вычисленной оценки. На основании их сравнения непосредственно и принимается или отклоняется гипотеза. Вероятности - это уже вторично, они следуют из вычисленной оценки, а не наоборот. Иначе их бы никто и не вычислял. Так что непосредственно доверительную вероятность и p-Value никто не сравнивает, уж не знаю - может конечно mS это ввиду и не имела). Сам я никогда до p-Value и не доходил, мне хватало доверительных вероятностей и критических значений. Потому вопросы такие и возникли. Но теперь слава богу всё прояснилось.

 Профиль  
                  
 
 Re: Анализ главных компонент: 1я ГК имеет маленькую дисперсию
Сообщение26.01.2017, 22:24 
Заслуженный участник


05/08/14
1564
Andrey_Kireew в сообщении #1187609 писал(а):
Так что непосредственно доверительную вероятность и p-Value никто не сравнивает, уж не знаю - может конечно mS это ввиду и не имела). Сам я никогда до p-Value и не доходил, мне хватало доверительных вероятностей и критических значений.

С доверительными интервалами всегда существует соблазн поиграться с изменением уровня доверия. p-Value сразу показывает до каких пор можно играться.

 Профиль  
                  
 
 Re: Анализ главных компонент: 1я ГК имеет маленькую дисперсию
Сообщение26.01.2017, 22:38 


07/10/15

2400
Согласен с Вами. Но всё же традиционно принято именно так как принято. Возможно потому что это помогает избежать ошибок при трактовке результатов. Поиграть то с ними конечно хочется, но не всегда получается. Они ведь обычно прописаны в нормативных документах и это приходится принимать как данность.

 Профиль  
                  
 
 Re: Анализ главных компонент: 1я ГК имеет маленькую дисперсию
Сообщение28.01.2017, 13:55 
Заслуженный участник


05/08/14
1564
Andrey_Kireew в сообщении #1187629 писал(а):
Они ведь обычно прописаны в нормативных документах и это приходится принимать как данность.

Даже если доверительные интервалы прописаны в нормативных документах, p-Value могут быть весьма информативны. Одно дело p-Value $=0.55$ при доверительной вероятности $5\%$, другое дело p-Value $=0.055$. Правда, в последнем случае иногда бывает необходимость скрыть это значение от клиента (начальства, рецензента), чтобы не было лишних вопросов.

 Профиль  
                  
 
 Re: Анализ главных компонент: 1я ГК имеет маленькую дисперсию
Сообщение28.01.2017, 20:10 


07/10/15

2400
Никто и не говорит, что они не информативны. Я о том, что лишняя информация может очень даже сильно помешать, а избавление от неё - сильно облегчить жизнь. Представьте если каждый будет получать результаты при такой надёжности - какую он сочтёт нужным ... Само сопоставление этих результатов потребует серьёзных усилий, и скорее всего не обойдётся без ошибок.

С другой стороны, Вы верно говорите: доверительные вероятности - это что то вроде Т.З., которое определяет клиент а не исполнитель (по крайней мере так должно быть). Какая необходимость необходимость в сокрытии p-Value от клиента без фальсификации результатов до конца понять не могу. Ну, а если не без этого, то и p-Value поставить можно какое угодно ..., наоборот - только прибавит правдоподобия и наукообразия!

-- 28.01.2017, 21:58 --

Кстати, касательно рассматриваемой проблемы, при анализе корреляционных матриц, содержащих несколько оценок p-Value следует повышать, примерно во столько же раз, сколько оценок в ней содержится. Например корреляционная матрица 100х100 содержит 4950 оценок. При доверительной вероятности 95% примерно 247 оценок, даже будучи случайными, выйдут за пределы доверительного интервала. Выглядит это прямо скажем не очень. Я долго над этим "ломал голову". Рассчитываю корреляционную матрицу для многомерной случайной величины (чтобы протестировать алгоритм) и наблюдаю множество значимых корреляций. Сначала грешил на генератор случайных чисел. Оказалось всё проще - значения корреляций распределяются по нормальному закону с нулевым матожиданием и при большом их количестве начинают перепрыгивать через доверительный интервал.
Тут где корреляции значимые, а где нет - нужно ещё 100 раз подумать. Например в моих тестах, где случайные и зависимые величины были заранее заданы, я определил оптимальное значение$\alpha$ позволяющее наилучшим образом разделить значимые и не значимые корреляции как $\alpha=0.002$. Видимо в каждом конкретном случае оно своё.

 Профиль  
                  
 
 Re: Анализ главных компонент: 1я ГК имеет маленькую дисперсию
Сообщение28.01.2017, 21:54 
Заслуженный участник
Аватара пользователя


11/03/08
9538
Москва
Поправка Бонферрони. Хотя Бонферрони это слишком решительно, на 4950 делить. Ну, Холма.

 Профиль  
                  
 
 Re: Анализ главных компонент: 1я ГК имеет маленькую дисперсию
Сообщение29.01.2017, 00:03 


07/10/15

2400
Точно! Проблема множественных сравнений - она уже давно известна и детально проработана. $\alpha/m$ - это всем известная поправка Бон-Ферони. Сейчас посмотрел в сети - там по этому поводу много всего есть, описаны и более надёжные методы решения проблемы. Как говорится век живи - век учись.

 Профиль  
                  
 
 Re: Анализ главных компонент: 1я ГК имеет маленькую дисперсию
Сообщение29.01.2017, 10:25 


07/10/15

2400
Это же и в отборе регрессионных коэффициентов такую поправку нужно использовать. Теперь мне понятно почему я никак не мог отобрать коэффициенты по t - критерию, $\alpha$ нужно было делить на число коэффициентов, или что то вроде того. Вообще, думаю если коэффициентов много, есть смысл протестировать их t - статистики на соответствие распределению Стьюдента. В случае такого соответствия модель в целом можно будет считать незначимой.

-- 29.01.2017, 11:42 --

Точно так и есть. Критическое значение $t_{0.99}=2.3 (nfd=2000)$, есть вроде бы много значимых коэффициентов, но модель не работает. Сейчас построил их распределение (за исключением константы), и вот что получается:
Изображение
Хоть коэффициенты и большие, но распределены нормально (при больших nfd $t\to N(0,1)$

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 44 ]  На страницу Пред.  1, 2, 3

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group