2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему На страницу 1, 2  След.
 
 COVID-19. Оценка смертности по китайской статистике.
Сообщение12.03.2020, 18:07 
Аватара пользователя


11/12/16
13434
уездный город Н
В теме по корона вирус (от этого сообщения и несколько выше) с уважаемым Dmitriy40 возникла дискуссия на тему "можно ли оценивать уровень смертность от вируса, как отношение умерших к количеству случаев - по всей статистике из Китая, за исключением очага (провинции Хубей)?".

Я считаю, что - можно.

Нужно отметить, что в Китае в больницах остается уже меньше $20 \%$ от зараженных, а в вне очага примерно $10 \%$, то есть (на мой взгляд) статистику можно считать собранной. Искажения из-за отставания количества умерших от количества зараженных уже будут небольшими.

Был выдвинут другой контраргумент - большой разброс коэффициента смертности, посчитанной по каждой провинции в отдельности, что (как я понял контр аргумент) говорит о недостаточности статистики (а это около 13 тысяч случаев).

Ниже в нескольких сообщениях (скажу, когда будет последнее) будет описание моих расчетов, с попыткой опровергнуть этот контраргумент.
Просьба - оценить, насколько это всё адекватно :D

-- 12.03.2020, 18:11 --

1. Датасет

Датасет был взят с известного китайского сайта.
Вроде бы за 10 марта, но может и за 11 марта (что-то не отследил, они уже обновились сегодня или нет, когда забирал данные).
По каждой провинции имеются данные об общем количестве случаев ($C$ - в таблицах, которые будут ниже), и о количестве умерших ($D$)
UPD: кроме данных по провинциям материкового Китая там есть данные по Гонконгу, Макао и Тайваню. Их тоже забрал

-- 12.03.2020, 18:18 --

2. Модель \ нулевая гипотеза

1. Предполагается такой процесс: человек заболевает и с какой-то постоянной вероятностью умирает.
2. Тогда количество умерших при известном количестве заболевших будет описываться биноминальным распределением.
2а. В таблицах будут колонки и с распределением Пуассона, но результат практических не отличается от биноминального распределения.
3. Вероятность умереть оценивается как отношение количества умерших к количеству заболевших, суммарно по всем провинциям
4. Нулевая гипотеза - коэффициент смертности одинаков во всех провинциях и равен оценке (п.3 выше).

-- 12.03.2020, 18:37 --

3. Расчет $\text{P-value}$

1. По определению $\text{P-value}$ - вероятность, что статистика (в данном случае - количество умерших, при известном количестве заболевших и при оцененном коэффициенте смертности) имеет наблюдаемой значение или более экстремальное.
2. Рассчитывалось (Экселем :D ) $P_{\text{left}}=P(x\leqslant t) = F(t)$, где
$P(x\leqslant t)$ - вероятность, что значение количества умерших будет таким же, как наблюдается ($t$) или меньше.
$F(t)$ - функция распределения вероятности для биноминального распределения.
3. Рассчитывалось $P_{\text{right}}=P(x \geqslant t) = 1 - F(t) + f(t)$
$P_{\text{right}}$ - вероятность, что значение количества умерших будет таким же, как наблюдается ($t$) или больше.
$f(t)$ - вероятность того, что значение будет ровно таким, как наблюдается. Так как распределение дискретное, эту поправку нужно учитывать.
4. Рассчитывалось $\text{P-value} = \min (P_{\text{left}}, P_{\text{right}})$
5. Для двусторонней оценки $\text{P-value}$ рекомендуют использовать $2 \min (P_{\text{left}}, P_{\text{right}})$. Но там нужно ещё немного поприседать с поправками на дискретное распределение. Что я и сделал позже. Особо на результаты не повлияло. Эти расчеты выкладывать не буду.

-- 12.03.2020, 18:50 --

4. Выбор критерия статистической значимости и поправки на множественную проверку гипотез.

1. Критерий выбран стандартный - $0.05$
2. Так как проверяем не одну нулевую гипотезу, а много - по одной на каждую. провинцию, а их много (около 30), то требуются поправки на множественности гипотез.
3. Поправки считались по трем методам:
а) Метод Холма (поправка Холма — Бонферрони)
б) Метод Шидака-Холма
в) Метод Бенджамини — Хохберга
подробности, достаточные для их применения, можно почитать тут.
Первые две поправки почти одинаковы и на практике не различаются. Метод Бенджамини — Хохберга более жесткий к гипотезам с небольшим $\text{p-value}$

 Профиль  
                  
 
 Re: COVID-19. Оценка смертности по китайской статистике.
Сообщение12.03.2020, 19:11 


16/08/05
1146
Датасеты и модельки на Kaggle

 Профиль  
                  
 
 Re: COVID-19. Оценка смертности по китайской статистике.
Сообщение12.03.2020, 19:11 
Аватара пользователя


11/12/16
13434
уездный город Н
5. Результаты и их трактовка.

После того, как было проделано всё, что описано выше, получилась такая табличка:

Изображение

Что там видим:
а) Восемь строчек не проходит формальный тест $\text{p-value}>0.05$
б) Две строчки не проходят тест с поправками по Холму — Бонферрони и Шидаку-Холму
в) Шесть строчек не проходят тест с поправкой по Бенджамини — Хохбергу

Отсюда видим, что нельзя сказать, что во всех провинциях можно считать коэффициент смертности одинаковым. Но "выпадающих" не так уж много - две или шесть, в зависимости от того, какую поправку использовать.

-- 12.03.2020, 19:27 --

6. Оценки уровня смертности и некоторые манипуляции с данными

Возникает вопрос: в каком диапазоне находится оценка смертности (может изменяться)?
Чтобы получить ответ сделал такое:

1. Начал выкидывать из данных строчки:
а) с малым $\text{p-value}$ и завышенным уровнем смертности.
б) выкидывал пока тесты (со всеми тремя поправками) по всем оставшимся провинциям "не сошлись".
в) пришлось "выкинуть" три строчки, результат в таблице:

Изображение

г) Коэффициент смертности в этом случае оказался $0.666 \%$ (что-то намекает, что он верный :mrgreen:)

2. Сделал то же самое, но выкидывал строчки с малым $\text{p-value}$ и заниженным уровнем смертности
а) опять же пришлось выкинуть три строчки
Результат в таблице ниже:
Изображение
б) Коэффициент смертности в этом случае оказался $1.096 \%$

Выводы:
1. Оценки смертности от $0.65 \%$ до $1.1 \%$ являются адекватными.
2. Есть основания предполагать, что в Китае таки циркулировало два (или более) штамма вируса с разной смертностью. Но анализ данных это не доказывает.

-- 12.03.2020, 19:29 --

Вот теперь всё.
Прошу высказываться :D
Особенно интересует мнение начальника транспортного цеха уважаемых Otta и Евгений Машеров

 Профиль  
                  
 
 Re: COVID-19. Оценка смертности по китайской статистике.
Сообщение12.03.2020, 19:47 
Заслуженный участник


20/08/14
11295
Россия, Москва
У меня вопрос по таблице из пункта 5.
Там для строки 30 указано $D/C=0.800$ с $p=0.66871$, а для строки 28 указано $D/C=0.872$ с $p=0.58382$. Вопрос: $0.87$ очевидно ближе к $0.88$ чем $0.80$, почему же p меньше? Это ведь грубо говоря вероятность получить такое $D/C$ имея биноминальное распределение. Вероятность получить $0.87$ должна быть больше чем вероятность получить $0.8$, оно же ближе к центру распределения $0.88$, разве нет?

И вопрос более общего характера.
Обычно берут условие $p<0.05$, Вы взяли якобы противоположное $p>0.05$, но разве противоположным будет не $p>0.95$? Тут я ничего не понимаю и могу кардинально ошибаться.

По 6 пункту вообще неясна правомерность выкидывания данных, я в книгах читал что селективная выборка (если ошибся с правильным названием сразу прошу прощения), когда производится манипуляция с данными уже после формулирования гипотезы, это грубая ошибка. Правильно надо формировать новый набор данных, формулировать новую гипотезу и считать всё снова. И подтвердится уже новая гипотеза, а не старая. В этом вопросе хотелось бы тоже подтверждения хорошо знакомых со стат.обработкой данных.
UPD. По этому пункту есть согласие автора, наверное тут уже можно не акцентировать.

PS. Про выводы и адекватность их применения где-либо кроме конкретно этих провинций Китая я пока промолчу.

 Профиль  
                  
 
 Re: COVID-19. Оценка смертности по китайской статистике.
Сообщение12.03.2020, 20:25 
Аватара пользователя


11/12/16
13434
уездный город Н
Dmitriy40 в сообщении #1444533 писал(а):
У меня вопрос по таблице из пункта 5.
Там для строки 30 указано $D/C=0.800$ с $p=0.66871$, а для строки 28 указано $D/C=0.872$ с $p=0.58382$. Вопрос: $0.87$ очевидно ближе к $0.88$ чем $0.80$, почему же p меньше? Это ведь грубо говоря вероятность получить такое $D/C$ имея биноминальное распределение. Вероятность получить $0.87$ должна быть больше чем вероятность получить $0.8$, оно же ближе к центру распределения $0.88$, разве нет?


Вероятность получить какое-то число зависит не только от того, насколько это число близко к ожидаемому. Но и от того, сколько было "измерений" (количества испытаний, в данном случае - от количества зафиксированных случаев).

-- 12.03.2020, 20:28 --

Dmitriy40 в сообщении #1444533 писал(а):
И вопрос более общего характера.
Обычно берут условие $p<0.05$, Вы взяли якобы противоположное $p>0.05$, но разве противоположным будет не $p>0.95$? Тут я ничего не понимаю и могу кардинально ошибаться.


При $p > 0.05$ нулевая гипотеза принимается, при $p < 0.05$ нулевая гипотеза отвергается. То есть я озвучил критерий, при котором нулевая гипотеза принимается (а не отвергается), всего лишь.

-- 12.03.2020, 20:31 --

Dmitriy40 в сообщении #1444533 писал(а):
UPD. По этому пункту есть согласие автора
, наверное тут уже можно не акцентировать.

Таки надо акцентировать. Автору как раз очень интересно мнение профессионалов: насколько адекватны такие упражнения.

-- 12.03.2020, 20:58 --

Dmitriy40 в сообщении #1444533 писал(а):
У меня вопрос по таблице из пункта 5.
Там для строки 30 указано $D/C=0.800$ с $p=0.66871$, а для строки 28 указано $D/C=0.872$ с $p=0.58382$. Вопрос: $0.87$ очевидно ближе к $0.88$ чем $0.80$, почему же p меньше? Это ведь грубо говоря вероятность получить такое $D/C$ имея биноминальное распределение. Вероятность получить $0.87$ должна быть больше чем вероятность получить $0.8$, оно же ближе к центру распределения $0.88$, разве нет?


ИМХО, тут будут уместны более подробные объяснения.
1. В случае непрерывного распределения: если попадаем "в яблочко" - близко к ожидаемому значению, то $\text{p-value}$, рассчитанное по такой методике (как описано выше), будет близко $0.5$ и больше быть не может. Поэтому его рекомендуют умножать на два - тогда будет близко к единице.

2.В случае дискретного распределения (а чем меньше зафиксированных случаев, тем более оно более дискретное) $\text{p-value}$ может быть более $0.5$ и может довольно близко приближаться к $1$, что мы видим на примере последней строчки (Tibet). Поэтому просто умножать его на $2$, как рекомендуют для двусторонней оценки в случае непрерывного распределения нельзя:

EUgeneUS в сообщении #1444521 писал(а):
5. Для двусторонней оценки $\text{P-value}$ рекомендуют использовать $2 \min (P_{\text{left}}, P_{\text{right}})$. Но там нужно ещё немного поприседать с поправками на дискретное распределение. Что я и сделал позже. Особо на результаты не повлияло. Эти расчеты выкладывать не буду.


Если эти приседания аккуратно сделать, то 28 и 30 строки могут и поменяться местами, но рассчитанное\пересчитанное $\text{p-value}$ окажется близко уже к $1$ в обоих случаях.

 Профиль  
                  
 
 Re: COVID-19. Оценка смертности по китайской статистике.
Сообщение12.03.2020, 21:09 
Заслуженный участник


20/08/14
11295
Россия, Москва
EUgeneUS в сообщении #1444543 писал(а):
Dmitriy40 в сообщении #1444533 писал(а):
И вопрос более общего характера.
Обычно берут условие $p<0.05$, Вы взяли якобы противоположное $p>0.05$, но разве противоположным будет не $p>0.95$? Тут я ничего не понимаю и могу кардинально ошибаться.
При $p > 0.05$ нулевая гипотеза принимается, при $p < 0.05$ нулевая гипотеза отвергается. То есть я озвучил критерий, при котором нулевая гипотеза принимается (а не отвергается), всего лишь.

Тут мне осталось непонятным. Опять же в книжках читал что надо аккуратно формулировать нулевую гипотезу, абы какое утверждение брать нельзя. Обычно (или обязательно, тут не уверен) берут нулевой гипотезой что данные объясняются случайным совпадением и соответственно не содержат в себе никаких закономерностей. И если эта гипотеза набирает p-value меньше 5%, то она отвергается и дальше уже можно проверять что же они содержат. Если набирает больше 5%, то ничего из них вытащить нельзя и дальнейший анализ бессмысленен. Какое именно утверждение будет противоположным чтобы оценивать по критерию $p>0.05$ я не уверен. Хотелось бы вердикта более опытных товарищей.

-- 12.03.2020, 21:23 --

EUgeneUS в сообщении #1444543 писал(а):
Вероятность получить какое-то число зависит не только от того, насколько это число близко к ожидаемому. Но и от того, сколько было "измерений" (количества испытаний, в данном случае - от количества зафиксированных случаев).
ОК. Но логика подсказывает что чем больше измерений, тем точнее они располагаются вокруг центра распределения. И 3 точки практически в центре ($0.872$ от $0.880$) должны быть более вероятны чем одна, но заметно дальше. Т.е. больше штук и ближе, всё как бы в одну сторону действует, однако менее вероятны. Парадокс. Всё равно непонятно. Дальнейшее пояснение про какие-то манипуляции только запутывают.
Т.е. если коротко: текущие данные выглядят немного противоречивыми странными, а после неясных "приседаний" получается непонятно что. :-(

 Профиль  
                  
 
 Re: COVID-19. Оценка смертности по китайской статистике.
Сообщение12.03.2020, 21:33 
Аватара пользователя


11/12/16
13434
уездный город Н
Dmitriy40 в сообщении #1444550 писал(а):
Обычно (или обязательно, тут не уверен) берут нулевой гипотезой что данные объясняются случайным совпадением и соответственно не содержат в себе никаких закономерностей.


Собственно, такое утверждение и берется - "данные объясняются случайным биноминальным распределением".
Биноминальное распределение как раз и описывает предполагаемый процесс.
Вот только у биноминального распределения есть параметр - вероятность "вытащить черный шар", его откуда-то надо взять. Он берется как оценка по всей (рассматриваемой) совокупности данных.

 Профиль  
                  
 
 Re: COVID-19. Оценка смертности по китайской статистике.
Сообщение12.03.2020, 21:39 
Заслуженный участник


20/08/14
11295
Россия, Москва
EUgeneUS
Я не возражаю ни против биноминального распределения, ни против оценки $0.880$. Мне непонятно как получились те две строчки. И почему берётся $p>0.05$ вместо обычного $p<0.05$ (возможно так тоже можно, я не уверен). Для меня это намёки, что что-то с расчётами не совсем хорошо. Я не утверждаю что они неправильны, пока лишь что непонятны (да ещё и лично мне).

 Профиль  
                  
 
 Re: COVID-19. Оценка смертности по китайской статистике.
Сообщение12.03.2020, 21:43 
Аватара пользователя


11/12/16
13434
уездный город Н
Dmitriy40 в сообщении #1444550 писал(а):
И 3 точки практически в центре ($0.872$ от $0.880$) должны быть более вероятны чем одно, но заметно дальше.


Вот смотрите. Tibet. Там один случай и ноль смертей.
Вероятность, что будет ноль или меньше смертей при одном случае - в точности равна единица минус используемая оценка смертности (то есть $0.9912$).
Вероятность, что будет ноль или больше смертей при одном случае - в точности равна единице.
Тогда: $\text{p-value} = 0.9912$. Очень близко к единице, хотя смертность (ноль) довольно далека от ожидаемого значения ($0.88 \%$)

-- 12.03.2020, 21:45 --

Dmitriy40 в сообщении #1444559 писал(а):
И почему берётся $p>0.05$ вместо обычного $p<0.05$


Иэх. Это же просто отрицание.
а) $p<0.05$ $\to$ отвергаем нулевую гипотезу
б) НЕ $p<0.05$ $\to$ НЕ отвергаем нулевую гипотезу

-- 12.03.2020, 21:48 --

Dmitriy40 в сообщении #1444559 писал(а):
Мне непонятно как получились те две строчки.

Те две строчки получились, как оценка односторонней вероятности получить то, что имеем, или экстремальнее. То есть
а) вероятность получить то, что имеем - считаем.
б) и считаем "хвост" в сторону, противоположную ожидаемому значению.

 Профиль  
                  
 
 Re: COVID-19. Оценка смертности по китайской статистике.
Сообщение12.03.2020, 22:29 
Заслуженный участник


20/08/14
11295
Россия, Москва
Вернусь к исходному тексту.
EUgeneUS в сообщении #1444521 писал(а):
3. Вероятность умереть оценивается как отношение количества умерших к количеству заболевших, суммарно по всем провинциям
4. Нулевая гипотеза - коэффициент смертности одинаков во всех провинциях и равен оценке (п.3 выше).
Здесь вижу что нулевая гипотеза одна на все провинции. Либо да, либо нет, либо одинаков (и именно $0.880$), либо разный. Определяется только это.
EUgeneUS в сообщении #1444527 писал(а):
После того, как было проделано всё, что описано выше, получилась такая табличка:
...
Что там видим:
а) Восемь строчек не проходит формальный тест $\text{p-value}>0.05$
А здесь p-value считаются уже для каждой провинции. А где обещанное общее?!
EUgeneUS в сообщении #1444527 писал(а):
Отсюда видим, что нельзя сказать, что во всех провинциях можно считать коэффициент смертности одинаковым.
Неа, не видим, общего единственного p-value не посчитано (или я не разглядел) и потому делать вывод рано.

Более того, я не уверен что вообще можно выбирать такую нулевую гипотезу. Там проверяется одновременно два утверждения: одинаков и равен $0.880$. А по слышанным мною правилам утверждение должно быть ровно одно. Хотите проверить два — формулируйте две нулевых гипотезы и проверяйте отдельно. И получите разумеется два p-value и если они оба пройдут порог, вот тогда ... Вероятно можно вторым (равенством $0.880$) поглотить первое (одинаковость), но это стоит уточнить.

Потому спасибо Вам за пояснения, они подробны, но в их правомерности у меня всё равно остаются сомнения. Даже просто про отрицание (хоть про него я скорее всего и неправ).

 Профиль  
                  
 
 Re: COVID-19. Оценка смертности по китайской статистике.
Сообщение12.03.2020, 22:49 
Аватара пользователя


11/12/16
13434
уездный город Н
Dmitriy40 в сообщении #1444570 писал(а):
Здесь вижу что нулевая гипотеза одна на все провинции. Либо да, либо нет, либо одинаков (и именно $0.880$), либо разный. Определяется только это.


Нулевая гипотеза одинаковая для всех провинций. Но их много (так как много провинций).

Dmitriy40 в сообщении #1444570 писал(а):
А здесь p-value считаются уже для каждой провинции. А где обещанное общее?!

Стоп-стоп. Никто не обещал считать "общее p-value". Это просто невозможно:
а) У нас модель - биноминальное распределение.
б) У биноминального распределения есть параметр - вероятность "успеха" (успех тут весьма условный - вероятность умереть). Нам его откуда-то надо взять.
в) Мы его берем (оцениваем), как отношение суммы всех умерших к сумме всех случаев.
г) Если мы посчитаем "общее p-value", оно конечно же окажется хорошим, близким к $0.5$. Просто потому, что мы так оценили параметр биноминального распределения пунктом выше.

-- 12.03.2020, 22:50 --

Dmitriy40 в сообщении #1444570 писал(а):
Потому спасибо Вам за пояснения, они подробны, но в их правомерности у меня всё равно остаются сомнения.


До пункта 5 включительно я практически уверен. Но на 100% верить никому нельзя, даже себе :mrgreen:
Пункт 6 у меня самого вызывает сомнения.

 Профиль  
                  
 
 Re: COVID-19. Оценка смертности по китайской статистике.
Сообщение13.03.2020, 00:34 
Заслуженный участник


20/08/14
11295
Россия, Москва
Я тоже нарисовал табличку, по Вашим данным из 5-го пункта, с оценкой $D/C=0.0088$, без p-value, зато с СКО и сигмами (в предположении что $C$ везде достаточно велико для применения терминов нормального распределения):
Изображение
Половина провинций не попали в одну сигму (должны были попасть $68\%$ или 20шт, на 5 больше), 8шт вылезло за 2 сигмы (вместо 1-2шт), 5шт улетели за 3 сигмы, а одна даже за 4 сигмы (я чуть поокруглял, да). Считаю это невероятный результат. Т.е. или распределение не биноминально, и/или центр не на $0.88\%$.

Вопросов больше не задаю — ощущение что чем больше ответов, тем меньше понимаю. :-( Подождём ещё кого-то компетентного.

 Профиль  
                  
 
 Re: COVID-19. Оценка смертности по китайской статистике.
Сообщение13.03.2020, 05:24 
Заслуженный участник
Аватара пользователя


23/11/06
4171

(Оффтоп)

Я не из компетентных, но у меня просьба: а можно "биноминальное" распределение называть биномиальным?

 Профиль  
                  
 
 Re: COVID-19. Оценка смертности по китайской статистике.
Сообщение13.03.2020, 10:38 
Заслуженный участник
Аватара пользователя


23/07/08
10712
Crna Gora

(Оффтоп)

Живой узус, однако.

 Профиль  
                  
 
 Re: COVID-19. Оценка смертности по китайской статистике.
Сообщение13.03.2020, 12:00 
Аватара пользователя


11/12/16
13434
уездный город Н
--mS--

(Оффтоп)

--mS-- в сообщении #1444629 писал(а):
у меня просьба: а можно "биноминальное" распределение называть биномиальным?

Спасибо. Постараюсь избавиться от этой вредной привычки :roll:

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 19 ]  На страницу 1, 2  След.

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: bublikov


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group