2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему На страницу Пред.  1, 2, 3  След.
 
 Re: Анализ главных компонент: 1я ГК имеет маленькую дисперсию
Сообщение20.01.2017, 19:40 


07/10/15

2400
Из интереса я пробовал посчитать корреляции признаков (тех что 427). Ранговые корреляции вычисляются плохо, не говоря уже о корреляциях Пирсона. Зато после бинаризации корреляции Метьюса получаются вполне адекватными. По критерию Хи квадрат между признаками есть достоверная связь. После преобразования корреляций в расстояния построил дендрограмму. Вот что получилось:
Изображение
Есть очень близкие группы: (67,71,291,420); (71,190); (83,256); (38,130,259); (305,306); (155,173) в паре (205,311) признаки расположены чуть дальше друг от друга, в паре (279,280) ещё в 2 раза дальше.

 Профиль  
                  
 
 Re: Анализ главных компонент: 1я ГК имеет маленькую дисперсию
Сообщение20.01.2017, 23:53 


12/01/17
14
Просто огромнейшее спасибо, Andrey_Kireew! Надо теперь раскуривать, как Вы это получили. Завтра попробую воспроизвести!
У меня ещё несколько подобных таблиц :) Правда, бинарной матрицы в постановке задачи будет маловато. Но уже что-то!

 Профиль  
                  
 
 Re: Анализ главных компонент: 1я ГК имеет маленькую дисперсию
Сообщение21.01.2017, 08:15 
Заслуженный участник
Аватара пользователя


11/03/08
10039
Москва
Если начинать с бинаризации - могут заиграть старые добрые таблицы сопряжённости.

 Профиль  
                  
 
 Re: Анализ главных компонент: 1я ГК имеет маленькую дисперсию
Сообщение21.01.2017, 09:34 


07/10/15

2400
Если Вам недостаточно бинаризации - то можно выделить больше градаций, например 3: 0 - отсутствие, 1 - небольшое количество, 2 - большое количество. Может и 4 градации. Но тут нужно ещё правильно выбрать пороги квантования, их нужно расставить так, чтобы был максимум $\chi^2$ для таблицы сопряженности. Но имейте ввиду: число степеней свободы $\chi^2$ в Вашем случае $nf=(N-1)^2$, где $N$ - число градаций. С увеличением $nf$ увеличивается критическое значение статистики (посмотрите в таблицах кр. значений, они есть в сети), т. е. с увеличением числа градаций достоверность результатов падает. Это делать оправданно только если прирост $\chi^2$ будет перевешивать рост критического значения $\chi^2_кр.$ для выбранного уровня значимости.
Если развивать эту идею дальше - то для каждого признака можно определить своё оптимальное число градаций значений.

Остальное всё делается точно так же, как я делал для квадратной таблицы сопряженности, только вместо корреляций Мэтьюса нужно будет использовать коэффициент сопряженности Чупрова $K=\sqrt{\frac{\chi^2}{n(N-1)}}$, $n$ - число наблюдений в выборке, N - число градаций сравниваемых переменных (предполагается, что оно одинаково).

Вообще у меня сложилось впечатление, что это оптимальный путь. Здесь можно получить статистически обоснованные результаты, другие методы этого сделать не позволят. Параметрическая статистика неприменима - о нормальном распределении говорить не приходится и никакие нелинейные трансформации здесь не помогут. Порядковая статистика тоже работает плохо - слишком много повторяющихся рангов (в первую очередь это касается нулевых значений). Остаётся только номинальная статистика, и она, как я Вам продемонстрировал - работает.
Всё дело в том, что имеющееся у Вас данные не раскрывают в полной мере свойства чисел. Количественные различия здесь анализировать бессмысленно, в них нет никакой статистики (статистика - это в первую очередь многократные повторения). Статистически значимых порядковых различий у Вас очевидно то же не наблюдаются. Все статистически значимые различия только качественные. Их нужно и анализировать. Но всё равно, это намного лучше чем ничего. По крайней мере поставленную задачу Вы решить скорее всего сможете.

 Профиль  
                  
 
 Re: Анализ главных компонент: 1я ГК имеет маленькую дисперсию
Сообщение21.01.2017, 16:59 
Заслуженный участник
Аватара пользователя


11/03/08
10039
Москва
Мне кажется, что тут надо больше ознакомится с содержательной постановкой. В частности, как рассматривать нулевые значения - как подлинный ноль, или как "утерянные значения"?

 Профиль  
                  
 
 Re: Анализ главных компонент: 1я ГК имеет маленькую дисперсию
Сообщение21.01.2017, 17:47 


07/10/15

2400
Разумеется. Но судя потому, что автор темы пытался применить к этим данным метод главных компонент, можно предположить, что это всё же нули. Я так понимаю просто не было совсем такого вида планктона - вот и ноль. Это вполне правдоподобно.

Кстати даже с бинаризацией получается много проблем, которые я сразу не заметил. Дело в том, что во многих клетках таблиц сопряженности получаются очень малые частоты (меньше пяти). В этом случае критерий Хи квадрат неприменим даже с поправкой Йетса. В итоге получается, что большая часть корреляций Мэтьюса на самом деле неопределённые и нельзя сказать есть они или нет.
Тут не совсем обычная ситуация. Три варианта ответа: связь есть, связи нет и связь неопределённая. Причём последний вариант имеет место в большинстве случаев.
Я бы порекомендовал автору попробовать использовать для анализа таблиц сопряженности точный критерий Фишера, который пригоден для меньших частот. Тогда число неопределённостей должно сократиться. Сам я с этим дел никогда не имел, и начинать наверное не буду, так как не вижу реальных приложений к моим задачам.

Если же правы Вы Евгений и нули - это неопределённости, то всё меняется кардинально. Тогда это анализ данных с пропусками. Но пропусков там настолько много, что боюсь никакому анализу эти данные не поддаюся. Кстати, чтобы не было таких недоразумений, неопределённости не стоит обозначать нулями. В matlab например для этого специально предусмотрено значение NaN.

 Профиль  
                  
 
 Re: Анализ главных компонент: 1я ГК имеет маленькую дисперсию
Сообщение21.01.2017, 19:43 


12/01/17
14
И вновь спасибо за высказанные идеи! Нули рассматриваются во всех случаях как отсутствие в пробе (на станции) планктона конкретного вида. Погрешность измерений везде считается одинаковой (но неизвестной :) ).

 Профиль  
                  
 
 Re: Анализ главных компонент: 1я ГК имеет маленькую дисперсию
Сообщение24.01.2017, 18:23 


12/01/17
14
Здравствуйте! Попробовал точный тест Фишера.

Немного количественной информации о разреженности матрицы: 3,7% элементов ненулевые; есть 13 строк, где только 1 ненулевой элемент, 81 строка - менее 5 ненулевых элементов, 227 строк - менее 10 ненулевых; есть 71 столбец, где только 1 ненулевой элемент, 151 столбец - менее 5 не нулей, 198 столбцов - менее 10 не нулей. Всего строк 849, столбцов - 427. Строки соответствуют станциям измерений (пробам), а столбцы - видам планктона. Матрицу делаю бинарной, как советовали ранее (по принципу есть или нет хоть сколько-нибудь планктона).

93% пар признаков (смысл признаков - виды планктона) имеют в таблице сопряжённости значения, меньшие 5.
В Matlab есть функция для вычислений с точным критерием Фишера fishertest. В моих данных для 9160 пар признаков из 90951 пар всего отвергается нулевая гипотеза об отсутствии неслучайных связей (выходной параметр h = 1).

Есть там замечательный параметр stats.OddsRatio. Пусть он равен k. Таблица сопряжённости строится с таким смыслом: строки - 0 и 1 для вида 1, столбцы - 0 и 1 для вида 2.

Правильно ли я понимаю вывод (по help матлаба о курящих/некурящих мужчинах и женщинах): в случае обнаружения вида 1 в пробе вероятность того, что вид 2 также будет представлен в ней в k раз больше, чем вероятность того, что вид 2 будет отсутствовать в этой пробе?

Файл с кодом прикрепляю.
https://drive.google.com/open?id=0ByyhgdYYEKaZRzBoOXNMdl81LXc

-- 24.01.2017, 18:26 --

Наверно так всё-таки:
в случае обнаружения вида 2 в пробе вероятность того, что вид 1 также будет представлен в ней в k раз больше, чем вероятность того, что вид 1 будет отсутствовать в этой пробе?

 Профиль  
                  
 
 Re: Анализ главных компонент: 1я ГК имеет маленькую дисперсию
Сообщение24.01.2017, 19:54 


07/10/15

2400
К сожалению у меня в help matlab нет этой функции (а жаль), наверное версия уже устарела.
Тем не менее я почитал справку в сети, там всё понятно написано

OddsRatio - это значение самой статистики, оно имеет смысл если есть доверительный интервал ConfidenceInterval (он двухсторонний), если значение OddsRatio получается внутри ConfidenceInterval - принимается нулевая гипотеза h=0, иначе она отвергается.

там есть и пример:
Код:
[h,p,stats] = fishertest(x,'Tail','right','Alpha',0.01)

x - таблица сопряженности, 'Alpha',0.01 - критический уровень значимости, по нему определяется доверительный интервал.

Выходные параметры: h - гипотеза (0 или 1), p - вероятность верного принятия нуль-гипотезы, т.е. то что Вам нужно, она вычисляется на основании OddsRatio (которое само по себе как Вы наверное поняли вероятностью не является), stats - структура, содержащая OddsRatio и ConfidenceInterval.

Таблицу сопряженности Вы строите правильно.

Можно поставить 'Alpha',0.05 и нуль-гипотеза об отсутствии связи между сравниваемыми видами будет приниматься при вероятности 95%, т.е. 2 вида планктона не будут встречаться вместе с вероятностью 95% (ну или с какой Вы хотите).
Надо бы ещё проверить при 'Alpha',0.95, т.е. нуль гипотеза будет приниматься с вероятностью всего 5%, зато h=1 2 вида планктона будут появляться вместе с вероятностью 95%.
Всё что остальное - будет зона неопределённости. Я бы сделал так и посмотрел, что получится.
Предполагаю, что зона неопределённости будет большой. В ней будут виды про которые нельзя сказать с заданной вероятностью и что они появляются только вместе, и что они встречаются только отдельно друг от друга.

 Профиль  
                  
 
 Re: Анализ главных компонент: 1я ГК имеет маленькую дисперсию
Сообщение25.01.2017, 14:08 


12/01/17
14
Да, дома стоит Matlab R2013, там тоже не было этого теста, а в 2015 есть.
Получилось при alpha = 0.05 кол-во 9160, а при alpha = 0.95 кол-во 24457.
Ваша интерпретация мне кажется ошибочной: уровень значимости (альфа) же показывает вероятность ошибочного отклонения нулевой гипотезы (ошибка 1 рода, про ошибку 2 рода - мощность этого критерия - информации нет). А наша цель как раз её отклонить. Если я поставлю большую альфу, то ошибусь с отклонением нулевой гипотезы с большой вероятностью.

Отклонение нулевой гипотезы, как я понимаю, приводит к тому, что распределение чисел в таблице сопряжённости статистически значимо.

Так как OddsRatio - это отношение ad к bc, то оно показывает, действительно, во сколько раз вероятность одновременного появления/непоявления двух видов в пробе больше их появления строго по отдельности.

 Профиль  
                  
 
 Re: Анализ главных компонент: 1я ГК имеет маленькую дисперсию
Сообщение25.01.2017, 19:55 


07/10/15

2400
Наверное получается p-Value это и есть мощность критерия и она там тоже вычисляется. Т.е. $p_{value}=1-\beta$, $\beta$ - это и есть вероятность ошибки 2-го рода. Альфа задаётся, p-Value вычисляется. Помню переводил коментарии к одному тесту (на нормальность), там было сказано, что при маленьком p-Value результаты принятия нуль-гипотезы нельзя считать надёжными, но я не придавал тогда значения всему этому и не углублялся в детали, т. к. оно у меня получалось всегда большое. Сейчас посмотрел ещё в другом месте - вроде так и есть p-Value это что то похожее на мощность критерия. Чтобы окончательно убедится надо посмотреть как меняются альфа и p-Value друг с другом, чтобы оба были приемлемыми.

Возможно я действительно заблуждался напрямую связывая p-Value и OddsRatio.

Но интерпретировать результаты так как предлагаете Вы я бы всё же не стал. OddsRatio это всё же соотношение эмпирических частот. По нему нельзя сделать количественные выводы и нельзя сказать во сколько раз вероятность больше. Можно лишь сказать что она скорее больше чем меньше, или наоборот - а это качественный вывод. Объективные оценки вероятностей, по моему мнению (которое может разумеется быть и не верным) нужно делать основываясь на альфа и p-Value (мне почему то кажется, что Вы недооцениваете роль этого показатели, а возможно даже его и не контролируете).

Если Вы берёте большую альфу, то тем самым Вы снижаете $\beta$, это может быть полезно. Просто обычно в стат. тестах мощность не оценивается, или вообще нет возможности её оценить. А тут она вычисляется. Но полной уверенности в том что p-Vlue в этом точном тесте Фишера действительно его мощность у меня всё же нет. Желательно всё перепроверить. Почитайте в help про этот тест по внимательнее, у меня как я уже сообщал, rк сожалению, такой возможности нет.

 Профиль  
                  
 
 Re: Анализ главных компонент: 1я ГК имеет маленькую дисперсию
Сообщение25.01.2017, 21:20 
Заслуженный участник
Аватара пользователя


23/11/06
4171
Andrey_Kireew в сообщении #1187399 писал(а):
Наверное получается p-Value это и есть мощность критерия и она там тоже вычисляется. Т.е. $p_{value}=1-\beta$, $\beta$ - это и есть вероятность ошибки 2-го рода. Альфа задаётся, p-Value вычисляется.

$p$-value - это не мощность, а реально достигнутый уровень значимости. Т.е. вероятность для данных, удовлетворяющих нулевой гипотезе, получить худшее согласие с ней, чем на тестируемых данных.

 Профиль  
                  
 
 Re: Анализ главных компонент: 1я ГК имеет маленькую дисперсию
Сообщение25.01.2017, 23:19 


07/10/15

2400
Получается уровень значимости сначала задаётся, потом рассчитываются доверительные интервалы, а потом снова уточняется уровень значимости? Раньше я так и думал, но начал сомневаться. Ведь нуль-гипотеза принимается и при маленьком p-Value. Как тогда это понимать, заданное изначально $\alpha$ недостижимо? Тогда какие доверительные интервалы используются в принятии нуль-гипотезы, соответствующие p-Value или $\alpha$? Поясните пожалуйста если Вы в этом хорошо разбираетесь, а то лично у меня по этому поводу вопросов больше чем ответов

 Профиль  
                  
 
 Re: Анализ главных компонент: 1я ГК имеет маленькую дисперсию
Сообщение26.01.2017, 06:35 
Заслуженный участник
Аватара пользователя


23/11/06
4171
Нулевая гипотеза не принимается при маленьком $p$-value. Если $p$-value меньше Alpha, критерий отвергает нулевую гипотезу. Значение Alpha для того и задаётся, чтобы машина знала, какие значения $p$-value для исследователя являются малым уровнем значимости, крайне малым или, напротив, большим. Там, где нет возможности (большинство онлайн-калькуляторов) задать Alpha, оно считается равным $0{,}05$.

Реально достигнутый уровень значимости не уточняется, а вычисляется. Это основная характеристика любого критерия согласия. Доверительные интервалы и значение Alpha для его вычисления никак не нужны. Он показывает вероятность получить "худшее" согласие с проверяемой гипотезой на данных, удовлетворяющих ей, по сравнению с нашими данными. Для точного критерия Фишера - это вероятность за счёт случайности получить более "несимметричную" таблицу, чем наша. Грубо говоря, со значением OddsRatio более далёким от единицы, чем на нашей таблице. Значение Alpha ($\alpha$) используется как для построения доверительных интервалов (уровня доверия $1-\alpha$), так и для сравнения с ним значения $p$-value и принятия решения: отвергать ли нулевую гипотезу.

Не знаю, есть ли смысл рисовать, как вычисляется $p$-value. Это описано всюду, и даже в википедии, в том числе в русской.

 Профиль  
                  
 
 Re: Анализ главных компонент: 1я ГК имеет маленькую дисперсию
Сообщение26.01.2017, 08:36 


07/10/15

2400
Вы хотите сказать, что при $p_{value}<\alpha$ OddsRatio гарантированно не выходит за доверительные интервалы ConfidenceInterval? (кстати с ними сравнивается именно OddsRatio, но никак не p-Value)

Другими словами OddsRatioэто статистика, а p-Value - это её вероятность, так же как например z - статистика (квантиль нормального распределения) получается 1.6, а доверительная вероятность для неё 0.95. Т.е. z=1.6, а p-Value=0.95 ?

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 44 ]  На страницу Пред.  1, 2, 3  След.

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
cron
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group