2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему На страницу Пред.  1, 2, 3  След.
 
 Re: Анализ главных компонент: 1я ГК имеет маленькую дисперсию
Сообщение20.01.2017, 19:40 


07/10/15

2400
Из интереса я пробовал посчитать корреляции признаков (тех что 427). Ранговые корреляции вычисляются плохо, не говоря уже о корреляциях Пирсона. Зато после бинаризации корреляции Метьюса получаются вполне адекватными. По критерию Хи квадрат между признаками есть достоверная связь. После преобразования корреляций в расстояния построил дендрограмму. Вот что получилось:
Изображение
Есть очень близкие группы: (67,71,291,420); (71,190); (83,256); (38,130,259); (305,306); (155,173) в паре (205,311) признаки расположены чуть дальше друг от друга, в паре (279,280) ещё в 2 раза дальше.

 Профиль  
                  
 
 Re: Анализ главных компонент: 1я ГК имеет маленькую дисперсию
Сообщение20.01.2017, 23:53 


12/01/17
14
Просто огромнейшее спасибо, Andrey_Kireew! Надо теперь раскуривать, как Вы это получили. Завтра попробую воспроизвести!
У меня ещё несколько подобных таблиц :) Правда, бинарной матрицы в постановке задачи будет маловато. Но уже что-то!

 Профиль  
                  
 
 Re: Анализ главных компонент: 1я ГК имеет маленькую дисперсию
Сообщение21.01.2017, 08:15 
Заслуженный участник
Аватара пользователя


11/03/08
10039
Москва
Если начинать с бинаризации - могут заиграть старые добрые таблицы сопряжённости.

 Профиль  
                  
 
 Re: Анализ главных компонент: 1я ГК имеет маленькую дисперсию
Сообщение21.01.2017, 09:34 


07/10/15

2400
Если Вам недостаточно бинаризации - то можно выделить больше градаций, например 3: 0 - отсутствие, 1 - небольшое количество, 2 - большое количество. Может и 4 градации. Но тут нужно ещё правильно выбрать пороги квантования, их нужно расставить так, чтобы был максимум $\chi^2$ для таблицы сопряженности. Но имейте ввиду: число степеней свободы $\chi^2$ в Вашем случае $nf=(N-1)^2$, где $N$ - число градаций. С увеличением $nf$ увеличивается критическое значение статистики (посмотрите в таблицах кр. значений, они есть в сети), т. е. с увеличением числа градаций достоверность результатов падает. Это делать оправданно только если прирост $\chi^2$ будет перевешивать рост критического значения $\chi^2_кр.$ для выбранного уровня значимости.
Если развивать эту идею дальше - то для каждого признака можно определить своё оптимальное число градаций значений.

Остальное всё делается точно так же, как я делал для квадратной таблицы сопряженности, только вместо корреляций Мэтьюса нужно будет использовать коэффициент сопряженности Чупрова $K=\sqrt{\frac{\chi^2}{n(N-1)}}$, $n$ - число наблюдений в выборке, N - число градаций сравниваемых переменных (предполагается, что оно одинаково).

Вообще у меня сложилось впечатление, что это оптимальный путь. Здесь можно получить статистически обоснованные результаты, другие методы этого сделать не позволят. Параметрическая статистика неприменима - о нормальном распределении говорить не приходится и никакие нелинейные трансформации здесь не помогут. Порядковая статистика тоже работает плохо - слишком много повторяющихся рангов (в первую очередь это касается нулевых значений). Остаётся только номинальная статистика, и она, как я Вам продемонстрировал - работает.
Всё дело в том, что имеющееся у Вас данные не раскрывают в полной мере свойства чисел. Количественные различия здесь анализировать бессмысленно, в них нет никакой статистики (статистика - это в первую очередь многократные повторения). Статистически значимых порядковых различий у Вас очевидно то же не наблюдаются. Все статистически значимые различия только качественные. Их нужно и анализировать. Но всё равно, это намного лучше чем ничего. По крайней мере поставленную задачу Вы решить скорее всего сможете.

 Профиль  
                  
 
 Re: Анализ главных компонент: 1я ГК имеет маленькую дисперсию
Сообщение21.01.2017, 16:59 
Заслуженный участник
Аватара пользователя


11/03/08
10039
Москва
Мне кажется, что тут надо больше ознакомится с содержательной постановкой. В частности, как рассматривать нулевые значения - как подлинный ноль, или как "утерянные значения"?

 Профиль  
                  
 
 Re: Анализ главных компонент: 1я ГК имеет маленькую дисперсию
Сообщение21.01.2017, 17:47 


07/10/15

2400
Разумеется. Но судя потому, что автор темы пытался применить к этим данным метод главных компонент, можно предположить, что это всё же нули. Я так понимаю просто не было совсем такого вида планктона - вот и ноль. Это вполне правдоподобно.

Кстати даже с бинаризацией получается много проблем, которые я сразу не заметил. Дело в том, что во многих клетках таблиц сопряженности получаются очень малые частоты (меньше пяти). В этом случае критерий Хи квадрат неприменим даже с поправкой Йетса. В итоге получается, что большая часть корреляций Мэтьюса на самом деле неопределённые и нельзя сказать есть они или нет.
Тут не совсем обычная ситуация. Три варианта ответа: связь есть, связи нет и связь неопределённая. Причём последний вариант имеет место в большинстве случаев.
Я бы порекомендовал автору попробовать использовать для анализа таблиц сопряженности точный критерий Фишера, который пригоден для меньших частот. Тогда число неопределённостей должно сократиться. Сам я с этим дел никогда не имел, и начинать наверное не буду, так как не вижу реальных приложений к моим задачам.

Если же правы Вы Евгений и нули - это неопределённости, то всё меняется кардинально. Тогда это анализ данных с пропусками. Но пропусков там настолько много, что боюсь никакому анализу эти данные не поддаюся. Кстати, чтобы не было таких недоразумений, неопределённости не стоит обозначать нулями. В matlab например для этого специально предусмотрено значение NaN.

 Профиль  
                  
 
 Re: Анализ главных компонент: 1я ГК имеет маленькую дисперсию
Сообщение21.01.2017, 19:43 


12/01/17
14
И вновь спасибо за высказанные идеи! Нули рассматриваются во всех случаях как отсутствие в пробе (на станции) планктона конкретного вида. Погрешность измерений везде считается одинаковой (но неизвестной :) ).

 Профиль  
                  
 
 Re: Анализ главных компонент: 1я ГК имеет маленькую дисперсию
Сообщение24.01.2017, 18:23 


12/01/17
14
Здравствуйте! Попробовал точный тест Фишера.

Немного количественной информации о разреженности матрицы: 3,7% элементов ненулевые; есть 13 строк, где только 1 ненулевой элемент, 81 строка - менее 5 ненулевых элементов, 227 строк - менее 10 ненулевых; есть 71 столбец, где только 1 ненулевой элемент, 151 столбец - менее 5 не нулей, 198 столбцов - менее 10 не нулей. Всего строк 849, столбцов - 427. Строки соответствуют станциям измерений (пробам), а столбцы - видам планктона. Матрицу делаю бинарной, как советовали ранее (по принципу есть или нет хоть сколько-нибудь планктона).

93% пар признаков (смысл признаков - виды планктона) имеют в таблице сопряжённости значения, меньшие 5.
В Matlab есть функция для вычислений с точным критерием Фишера fishertest. В моих данных для 9160 пар признаков из 90951 пар всего отвергается нулевая гипотеза об отсутствии неслучайных связей (выходной параметр h = 1).

Есть там замечательный параметр stats.OddsRatio. Пусть он равен k. Таблица сопряжённости строится с таким смыслом: строки - 0 и 1 для вида 1, столбцы - 0 и 1 для вида 2.

Правильно ли я понимаю вывод (по help матлаба о курящих/некурящих мужчинах и женщинах): в случае обнаружения вида 1 в пробе вероятность того, что вид 2 также будет представлен в ней в k раз больше, чем вероятность того, что вид 2 будет отсутствовать в этой пробе?

Файл с кодом прикрепляю.
https://drive.google.com/open?id=0ByyhgdYYEKaZRzBoOXNMdl81LXc

-- 24.01.2017, 18:26 --

Наверно так всё-таки:
в случае обнаружения вида 2 в пробе вероятность того, что вид 1 также будет представлен в ней в k раз больше, чем вероятность того, что вид 1 будет отсутствовать в этой пробе?

 Профиль  
                  
 
 Re: Анализ главных компонент: 1я ГК имеет маленькую дисперсию
Сообщение24.01.2017, 19:54 


07/10/15

2400
К сожалению у меня в help matlab нет этой функции (а жаль), наверное версия уже устарела.
Тем не менее я почитал справку в сети, там всё понятно написано

OddsRatio - это значение самой статистики, оно имеет смысл если есть доверительный интервал ConfidenceInterval (он двухсторонний), если значение OddsRatio получается внутри ConfidenceInterval - принимается нулевая гипотеза h=0, иначе она отвергается.

там есть и пример:
Код:
[h,p,stats] = fishertest(x,'Tail','right','Alpha',0.01)

x - таблица сопряженности, 'Alpha',0.01 - критический уровень значимости, по нему определяется доверительный интервал.

Выходные параметры: h - гипотеза (0 или 1), p - вероятность верного принятия нуль-гипотезы, т.е. то что Вам нужно, она вычисляется на основании OddsRatio (которое само по себе как Вы наверное поняли вероятностью не является), stats - структура, содержащая OddsRatio и ConfidenceInterval.

Таблицу сопряженности Вы строите правильно.

Можно поставить 'Alpha',0.05 и нуль-гипотеза об отсутствии связи между сравниваемыми видами будет приниматься при вероятности 95%, т.е. 2 вида планктона не будут встречаться вместе с вероятностью 95% (ну или с какой Вы хотите).
Надо бы ещё проверить при 'Alpha',0.95, т.е. нуль гипотеза будет приниматься с вероятностью всего 5%, зато h=1 2 вида планктона будут появляться вместе с вероятностью 95%.
Всё что остальное - будет зона неопределённости. Я бы сделал так и посмотрел, что получится.
Предполагаю, что зона неопределённости будет большой. В ней будут виды про которые нельзя сказать с заданной вероятностью и что они появляются только вместе, и что они встречаются только отдельно друг от друга.

 Профиль  
                  
 
 Re: Анализ главных компонент: 1я ГК имеет маленькую дисперсию
Сообщение25.01.2017, 14:08 


12/01/17
14
Да, дома стоит Matlab R2013, там тоже не было этого теста, а в 2015 есть.
Получилось при alpha = 0.05 кол-во 9160, а при alpha = 0.95 кол-во 24457.
Ваша интерпретация мне кажется ошибочной: уровень значимости (альфа) же показывает вероятность ошибочного отклонения нулевой гипотезы (ошибка 1 рода, про ошибку 2 рода - мощность этого критерия - информации нет). А наша цель как раз её отклонить. Если я поставлю большую альфу, то ошибусь с отклонением нулевой гипотезы с большой вероятностью.

Отклонение нулевой гипотезы, как я понимаю, приводит к тому, что распределение чисел в таблице сопряжённости статистически значимо.

Так как OddsRatio - это отношение ad к bc, то оно показывает, действительно, во сколько раз вероятность одновременного появления/непоявления двух видов в пробе больше их появления строго по отдельности.

 Профиль  
                  
 
 Re: Анализ главных компонент: 1я ГК имеет маленькую дисперсию
Сообщение25.01.2017, 19:55 


07/10/15

2400
Наверное получается p-Value это и есть мощность критерия и она там тоже вычисляется. Т.е. $p_{value}=1-\beta$, $\beta$ - это и есть вероятность ошибки 2-го рода. Альфа задаётся, p-Value вычисляется. Помню переводил коментарии к одному тесту (на нормальность), там было сказано, что при маленьком p-Value результаты принятия нуль-гипотезы нельзя считать надёжными, но я не придавал тогда значения всему этому и не углублялся в детали, т. к. оно у меня получалось всегда большое. Сейчас посмотрел ещё в другом месте - вроде так и есть p-Value это что то похожее на мощность критерия. Чтобы окончательно убедится надо посмотреть как меняются альфа и p-Value друг с другом, чтобы оба были приемлемыми.

Возможно я действительно заблуждался напрямую связывая p-Value и OddsRatio.

Но интерпретировать результаты так как предлагаете Вы я бы всё же не стал. OddsRatio это всё же соотношение эмпирических частот. По нему нельзя сделать количественные выводы и нельзя сказать во сколько раз вероятность больше. Можно лишь сказать что она скорее больше чем меньше, или наоборот - а это качественный вывод. Объективные оценки вероятностей, по моему мнению (которое может разумеется быть и не верным) нужно делать основываясь на альфа и p-Value (мне почему то кажется, что Вы недооцениваете роль этого показатели, а возможно даже его и не контролируете).

Если Вы берёте большую альфу, то тем самым Вы снижаете $\beta$, это может быть полезно. Просто обычно в стат. тестах мощность не оценивается, или вообще нет возможности её оценить. А тут она вычисляется. Но полной уверенности в том что p-Vlue в этом точном тесте Фишера действительно его мощность у меня всё же нет. Желательно всё перепроверить. Почитайте в help про этот тест по внимательнее, у меня как я уже сообщал, rк сожалению, такой возможности нет.

 Профиль  
                  
 
 Re: Анализ главных компонент: 1я ГК имеет маленькую дисперсию
Сообщение25.01.2017, 21:20 
Заслуженный участник
Аватара пользователя


23/11/06
4171
Andrey_Kireew в сообщении #1187399 писал(а):
Наверное получается p-Value это и есть мощность критерия и она там тоже вычисляется. Т.е. $p_{value}=1-\beta$, $\beta$ - это и есть вероятность ошибки 2-го рода. Альфа задаётся, p-Value вычисляется.

$p$-value - это не мощность, а реально достигнутый уровень значимости. Т.е. вероятность для данных, удовлетворяющих нулевой гипотезе, получить худшее согласие с ней, чем на тестируемых данных.

 Профиль  
                  
 
 Re: Анализ главных компонент: 1я ГК имеет маленькую дисперсию
Сообщение25.01.2017, 23:19 


07/10/15

2400
Получается уровень значимости сначала задаётся, потом рассчитываются доверительные интервалы, а потом снова уточняется уровень значимости? Раньше я так и думал, но начал сомневаться. Ведь нуль-гипотеза принимается и при маленьком p-Value. Как тогда это понимать, заданное изначально $\alpha$ недостижимо? Тогда какие доверительные интервалы используются в принятии нуль-гипотезы, соответствующие p-Value или $\alpha$? Поясните пожалуйста если Вы в этом хорошо разбираетесь, а то лично у меня по этому поводу вопросов больше чем ответов

 Профиль  
                  
 
 Re: Анализ главных компонент: 1я ГК имеет маленькую дисперсию
Сообщение26.01.2017, 06:35 
Заслуженный участник
Аватара пользователя


23/11/06
4171
Нулевая гипотеза не принимается при маленьком $p$-value. Если $p$-value меньше Alpha, критерий отвергает нулевую гипотезу. Значение Alpha для того и задаётся, чтобы машина знала, какие значения $p$-value для исследователя являются малым уровнем значимости, крайне малым или, напротив, большим. Там, где нет возможности (большинство онлайн-калькуляторов) задать Alpha, оно считается равным $0{,}05$.

Реально достигнутый уровень значимости не уточняется, а вычисляется. Это основная характеристика любого критерия согласия. Доверительные интервалы и значение Alpha для его вычисления никак не нужны. Он показывает вероятность получить "худшее" согласие с проверяемой гипотезой на данных, удовлетворяющих ей, по сравнению с нашими данными. Для точного критерия Фишера - это вероятность за счёт случайности получить более "несимметричную" таблицу, чем наша. Грубо говоря, со значением OddsRatio более далёким от единицы, чем на нашей таблице. Значение Alpha ($\alpha$) используется как для построения доверительных интервалов (уровня доверия $1-\alpha$), так и для сравнения с ним значения $p$-value и принятия решения: отвергать ли нулевую гипотезу.

Не знаю, есть ли смысл рисовать, как вычисляется $p$-value. Это описано всюду, и даже в википедии, в том числе в русской.

 Профиль  
                  
 
 Re: Анализ главных компонент: 1я ГК имеет маленькую дисперсию
Сообщение26.01.2017, 08:36 


07/10/15

2400
Вы хотите сказать, что при $p_{value}<\alpha$ OddsRatio гарантированно не выходит за доверительные интервалы ConfidenceInterval? (кстати с ними сравнивается именно OddsRatio, но никак не p-Value)

Другими словами OddsRatioэто статистика, а p-Value - это её вероятность, так же как например z - статистика (квантиль нормального распределения) получается 1.6, а доверительная вероятность для неё 0.95. Т.е. z=1.6, а p-Value=0.95 ?

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 44 ]  На страницу Пред.  1, 2, 3  След.

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: tolstopuz


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group