COVID-19. Оценка смертности по китайской статистике.

EUgeneUS · 12.03.2020, 18:07

В теме по корона вирус (от этого сообщения и несколько выше) с уважаемым Dmitriy40 возникла дискуссия на тему "можно ли оценивать уровень смертность от вируса, как отношение умерших к количеству случаев - по всей статистике из Китая, за исключением очага (провинции Хубей)?".

Я считаю, что - можно.

Нужно отметить, что в Китае в больницах остается уже меньше

20 \%

от зараженных, а в вне очага примерно

10 \%

, то есть (на мой взгляд) статистику можно считать собранной. Искажения из-за отставания количества умерших от количества зараженных уже будут небольшими.

Был выдвинут другой контраргумент - большой разброс коэффициента смертности, посчитанной по каждой провинции в отдельности, что (как я понял контр аргумент) говорит о недостаточности статистики (а это около 13 тысяч случаев).

Ниже в нескольких сообщениях (скажу, когда будет последнее) будет описание моих расчетов, с попыткой опровергнуть этот контраргумент.
Просьба - оценить, насколько это всё адекватно

-- 12.03.2020, 18:11 --

1. Датасет

Датасет был взят с известного китайского сайта.
Вроде бы за 10 марта, но может и за 11 марта (что-то не отследил, они уже обновились сегодня или нет, когда забирал данные).
По каждой провинции имеются данные об общем количестве случаев (

C

- в таблицах, которые будут ниже), и о количестве умерших (

D

)
UPD: кроме данных по провинциям материкового Китая там есть данные по Гонконгу, Макао и Тайваню. Их тоже забрал

-- 12.03.2020, 18:18 --

2. Модель \ нулевая гипотеза

1. Предполагается такой процесс: человек заболевает и с какой-то постоянной вероятностью умирает.
2. Тогда количество умерших при известном количестве заболевших будет описываться биноминальным распределением.
2а. В таблицах будут колонки и с распределением Пуассона, но результат практических не отличается от биноминального распределения.
3. Вероятность умереть оценивается как отношение количества умерших к количеству заболевших, суммарно по всем провинциям
4. Нулевая гипотеза - коэффициент смертности одинаков во всех провинциях и равен оценке (п.3 выше).

-- 12.03.2020, 18:37 --

3. Расчет

\text{P-value}

1. По определению

\text{P-value}

- вероятность, что статистика (в данном случае - количество умерших, при известном количестве заболевших и при оцененном коэффициенте смертности) имеет наблюдаемой значение или более экстремальное.
2. Рассчитывалось (Экселем

)

P_{\text{left}}=P(x\leqslant t) = F(t)

, где

P(x\leqslant t)

- вероятность, что значение количества умерших будет таким же, как наблюдается (

t

) или меньше.

F(t)

- функция распределения вероятности для биноминального распределения.
3. Рассчитывалось

P_{\text{right}}=P(x \geqslant t) = 1 - F(t) + f(t)

P_{\text{right}}

- вероятность, что значение количества умерших будет таким же, как наблюдается (

t

) или больше.

f(t)

- вероятность того, что значение будет ровно таким, как наблюдается. Так как распределение дискретное, эту поправку нужно учитывать.
4. Рассчитывалось

\text{P-value} = \min (P_{\text{left}}, P_{\text{right}})

5. Для двусторонней оценки

\text{P-value}

рекомендуют использовать

2 \min (P_{\text{left}}, P_{\text{right}})

. Но там нужно ещё немного поприседать с поправками на дискретное распределение. Что я и сделал позже. Особо на результаты не повлияло. Эти расчеты выкладывать не буду.

-- 12.03.2020, 18:50 --

4. Выбор критерия статистической значимости и поправки на множественную проверку гипотез.

1. Критерий выбран стандартный -

0.05

2. Так как проверяем не одну нулевую гипотезу, а много - по одной на каждую. провинцию, а их много (около 30), то требуются поправки на множественности гипотез.
3. Поправки считались по трем методам:
а) Метод Холма (поправка Холма — Бонферрони)
б) Метод Шидака-Холма
в) Метод Бенджамини — Хохберга
подробности, достаточные для их применения, можно почитать тут.
Первые две поправки почти одинаковы и на практике не различаются. Метод Бенджамини — Хохберга более жесткий к гипотезам с небольшим

\text{p-value}

dmd · 12.03.2020, 19:11

Датасеты и модельки на Kaggle

EUgeneUS · 12.03.2020, 19:11

5. Результаты и их трактовка.

После того, как было проделано всё, что описано выше, получилась такая табличка:

Что там видим:
а) Восемь строчек не проходит формальный тест

\text{p-value}>0.05

б) Две строчки не проходят тест с поправками по Холму — Бонферрони и Шидаку-Холму
в) Шесть строчек не проходят тест с поправкой по Бенджамини — Хохбергу

Отсюда видим, что нельзя сказать, что во всех провинциях можно считать коэффициент смертности одинаковым. Но "выпадающих" не так уж много - две или шесть, в зависимости от того, какую поправку использовать.

-- 12.03.2020, 19:27 --

6. Оценки уровня смертности и некоторые манипуляции с данными

Возникает вопрос: в каком диапазоне находится оценка смертности (может изменяться)?
Чтобы получить ответ сделал такое:

1. Начал выкидывать из данных строчки:
а) с малым

\text{p-value}

и завышенным уровнем смертности.
б) выкидывал пока тесты (со всеми тремя поправками) по всем оставшимся провинциям "не сошлись".
в) пришлось "выкинуть" три строчки, результат в таблице:

г) Коэффициент смертности в этом случае оказался

0.666 \%

(что-то намекает, что он верный :mrgreen:

)

2. Сделал то же самое, но выкидывал строчки с малым

\text{p-value}

и заниженным уровнем смертности
а) опять же пришлось выкинуть три строчки
Результат в таблице ниже:

б) Коэффициент смертности в этом случае оказался

1.096 \%

Выводы:
1. Оценки смертности от

0.65 \%

до

1.1 \%

являются адекватными.
2. Есть основания предполагать, что в Китае таки циркулировало два (или более) штамма вируса с разной смертностью. Но анализ данных это не доказывает.

-- 12.03.2020, 19:29 --

Вот теперь всё.
Прошу высказываться

Особенно интересует мнение начальника транспортного цеха уважаемых Otta и Евгений Машеров

Dmitriy40 · 12.03.2020, 19:47

У меня вопрос по таблице из пункта 5.
Там для строки 30 указано

D/C=0.800

с

p=0.66871

, а для строки 28 указано

D/C=0.872

с

p=0.58382

. Вопрос:

0.87

очевидно ближе к

0.88

чем

0.80

, почему же p меньше? Это ведь грубо говоря вероятность получить такое

D/C

имея биноминальное распределение. Вероятность получить

0.87

должна быть больше чем вероятность получить

0.8

, оно же ближе к центру распределения

0.88

, разве нет?

И вопрос более общего характера.
Обычно берут условие

p<0.05

, Вы взяли якобы противоположное

p>0.05

, но разве противоположным будет не

p>0.95

? Тут я ничего не понимаю и могу кардинально ошибаться.

По 6 пункту вообще неясна правомерность выкидывания данных, я в книгах читал что селективная выборка (если ошибся с правильным названием сразу прошу прощения), когда производится манипуляция с данными уже после формулирования гипотезы, это грубая ошибка. Правильно надо формировать новый набор данных, формулировать новую гипотезу и считать всё снова. И подтвердится уже новая гипотеза, а не старая. В этом вопросе хотелось бы тоже подтверждения хорошо знакомых со стат.обработкой данных.
UPD. По этому пункту есть согласие автора, наверное тут уже можно не акцентировать.

PS. Про выводы и адекватность их применения где-либо кроме конкретно этих провинций Китая я пока промолчу.

EUgeneUS · 12.03.2020, 20:25

Dmitriy40 в сообщении #1444533 писал(а):

У меня вопрос по таблице из пункта 5.
Там для строки 30 указано

D/C=0.800

с

p=0.66871

, а для строки 28 указано

D/C=0.872

с

p=0.58382

. Вопрос:

0.87

очевидно ближе к

0.88

чем

0.80

, почему же p меньше? Это ведь грубо говоря вероятность получить такое

D/C

имея биноминальное распределение. Вероятность получить

0.87

должна быть больше чем вероятность получить

0.8

, оно же ближе к центру распределения

0.88

, разве нет?

Вероятность получить какое-то число зависит не только от того, насколько это число близко к ожидаемому. Но и от того, сколько было "измерений" (количества испытаний, в данном случае - от количества зафиксированных случаев).

-- 12.03.2020, 20:28 --

Dmitriy40 в сообщении #1444533 писал(а):

И вопрос более общего характера.
Обычно берут условие

p<0.05

, Вы взяли якобы противоположное

p>0.05

, но разве противоположным будет не

p>0.95

? Тут я ничего не понимаю и могу кардинально ошибаться.

При

p > 0.05

нулевая гипотеза принимается, при

p < 0.05

нулевая гипотеза отвергается. То есть я озвучил критерий, при котором нулевая гипотеза принимается (а не отвергается), всего лишь.

-- 12.03.2020, 20:31 --

Dmitriy40 в сообщении #1444533 писал(а):

UPD. По этому пункту есть согласие автора
, наверное тут уже можно не акцентировать.

Таки надо акцентировать. Автору как раз очень интересно мнение профессионалов: насколько адекватны такие упражнения.

-- 12.03.2020, 20:58 --

Dmitriy40 в сообщении #1444533 писал(а):

У меня вопрос по таблице из пункта 5.
Там для строки 30 указано

D/C=0.800

с

p=0.66871

, а для строки 28 указано

D/C=0.872

с

p=0.58382

. Вопрос:

0.87

очевидно ближе к

0.88

чем

0.80

, почему же p меньше? Это ведь грубо говоря вероятность получить такое

D/C

имея биноминальное распределение. Вероятность получить

0.87

должна быть больше чем вероятность получить

0.8

, оно же ближе к центру распределения

0.88

, разве нет?

ИМХО, тут будут уместны более подробные объяснения.
1. В случае непрерывного распределения: если попадаем "в яблочко" - близко к ожидаемому значению, то

\text{p-value}

, рассчитанное по такой методике (как описано выше), будет близко

0.5

и больше быть не может. Поэтому его рекомендуют умножать на два - тогда будет близко к единице.

2.В случае дискретного распределения (а чем меньше зафиксированных случаев, тем более оно более дискретное)

\text{p-value}

может быть более

0.5

и может довольно близко приближаться к

1

, что мы видим на примере последней строчки (Tibet). Поэтому просто умножать его на

2

, как рекомендуют для двусторонней оценки в случае непрерывного распределения нельзя:

EUgeneUS в сообщении #1444521 писал(а):

5. Для двусторонней оценки

\text{P-value}

рекомендуют использовать

2 \min (P_{\text{left}}, P_{\text{right}})

. Но там нужно ещё немного поприседать с поправками на дискретное распределение. Что я и сделал позже. Особо на результаты не повлияло. Эти расчеты выкладывать не буду.

Если эти приседания аккуратно сделать, то 28 и 30 строки могут и поменяться местами, но рассчитанное\пересчитанное

\text{p-value}

окажется близко уже к

1

в обоих случаях.

Dmitriy40 · 12.03.2020, 21:09

EUgeneUS в сообщении #1444543 писал(а):

Dmitriy40 в сообщении #1444533 писал(а):

И вопрос более общего характера.
Обычно берут условие

p<0.05

, Вы взяли якобы противоположное

p>0.05

, но разве противоположным будет не

p>0.95

? Тут я ничего не понимаю и могу кардинально ошибаться.

При

p > 0.05

нулевая гипотеза принимается, при

p < 0.05

нулевая гипотеза отвергается. То есть я озвучил критерий, при котором нулевая гипотеза принимается (а не отвергается), всего лишь.

Тут мне осталось непонятным. Опять же в книжках читал что надо аккуратно формулировать нулевую гипотезу, абы какое утверждение брать нельзя. Обычно (или обязательно, тут не уверен) берут нулевой гипотезой что данные объясняются случайным совпадением и соответственно не содержат в себе никаких закономерностей. И если эта гипотеза набирает p-value меньше 5%, то она отвергается и дальше уже можно проверять что же они содержат. Если набирает больше 5%, то ничего из них вытащить нельзя и дальнейший анализ бессмысленен. Какое именно утверждение будет противоположным чтобы оценивать по критерию

p>0.05

я не уверен. Хотелось бы вердикта более опытных товарищей.

-- 12.03.2020, 21:23 --

EUgeneUS в сообщении #1444543 писал(а):

Вероятность получить какое-то число зависит не только от того, насколько это число близко к ожидаемому. Но и от того, сколько было "измерений" (количества испытаний, в данном случае - от количества зафиксированных случаев).

ОК. Но логика подсказывает что чем больше измерений, тем точнее они располагаются вокруг центра распределения. И 3 точки практически в центре (

0.872

от

0.880

) должны быть более вероятны чем одна, но заметно дальше. Т.е. больше штук и ближе, всё как бы в одну сторону действует, однако менее вероятны. Парадокс. Всё равно непонятно. Дальнейшее пояснение про какие-то манипуляции только запутывают.
Т.е. если коротко: текущие данные выглядят немного противоречивыми странными, а после неясных "приседаний" получается непонятно что. :-(

EUgeneUS · 12.03.2020, 21:33

Dmitriy40 в сообщении #1444550 писал(а):

Обычно (или обязательно, тут не уверен) берут нулевой гипотезой что данные объясняются случайным совпадением и соответственно не содержат в себе никаких закономерностей.

Собственно, такое утверждение и берется - "данные объясняются случайным биноминальным распределением".
Биноминальное распределение как раз и описывает предполагаемый процесс.
Вот только у биноминального распределения есть параметр - вероятность "вытащить черный шар", его откуда-то надо взять. Он берется как оценка по всей (рассматриваемой) совокупности данных.

Dmitriy40 · 12.03.2020, 21:39

EUgeneUS
Я не возражаю ни против биноминального распределения, ни против оценки

0.880

. Мне непонятно как получились те две строчки. И почему берётся

p>0.05

вместо обычного

p<0.05

(возможно так тоже можно, я не уверен). Для меня это намёки, что что-то с расчётами не совсем хорошо. Я не утверждаю что они неправильны, пока лишь что непонятны (да ещё и лично мне).

EUgeneUS · 12.03.2020, 21:43

Dmitriy40 в сообщении #1444550 писал(а):

И 3 точки практически в центре (

0.872

от

0.880

) должны быть более вероятны чем одно, но заметно дальше.

Вот смотрите. Tibet. Там один случай и ноль смертей.
Вероятность, что будет ноль или меньше смертей при одном случае - в точности равна единица минус используемая оценка смертности (то есть

0.9912

).
Вероятность, что будет ноль или больше смертей при одном случае - в точности равна единице.
Тогда:

\text{p-value} = 0.9912

. Очень близко к единице, хотя смертность (ноль) довольно далека от ожидаемого значения (

0.88 \%

)

-- 12.03.2020, 21:45 --

Dmitriy40 в сообщении #1444559 писал(а):

И почему берётся

p>0.05

вместо обычного

p<0.05

Иэх. Это же просто отрицание.
а)

p<0.05

\to

отвергаем нулевую гипотезу
б) НЕ

p<0.05

\to

НЕ отвергаем нулевую гипотезу

-- 12.03.2020, 21:48 --

Dmitriy40 в сообщении #1444559 писал(а):

Мне непонятно как получились те две строчки.

Те две строчки получились, как оценка односторонней вероятности получить то, что имеем, или экстремальнее. То есть
а) вероятность получить то, что имеем - считаем.
б) и считаем "хвост" в сторону, противоположную ожидаемому значению.

Dmitriy40 · 12.03.2020, 22:29

Вернусь к исходному тексту.

EUgeneUS в сообщении #1444521 писал(а):

3. Вероятность умереть оценивается как отношение количества умерших к количеству заболевших, суммарно по всем провинциям
4. Нулевая гипотеза - коэффициент смертности одинаков во всех провинциях и равен оценке (п.3 выше).

Здесь вижу что нулевая гипотеза одна на все провинции. Либо да, либо нет, либо одинаков (и именно

0.880

), либо разный. Определяется только это.

EUgeneUS в сообщении #1444527 писал(а):

После того, как было проделано всё, что описано выше, получилась такая табличка:
...
Что там видим:
а) Восемь строчек не проходит формальный тест

\text{p-value}>0.05

А здесь p-value считаются уже для каждой провинции. А где обещанное общее?!

EUgeneUS в сообщении #1444527 писал(а):

Отсюда видим, что нельзя сказать, что во всех провинциях можно считать коэффициент смертности одинаковым.

Неа, не видим, общего единственного p-value не посчитано (или я не разглядел) и потому делать вывод рано.

Более того, я не уверен что вообще можно выбирать такую нулевую гипотезу. Там проверяется одновременно два утверждения: одинаков и равен

0.880

. А по слышанным мною правилам утверждение должно быть ровно одно. Хотите проверить два — формулируйте две нулевых гипотезы и проверяйте отдельно. И получите разумеется два p-value и если они оба пройдут порог, вот тогда ... Вероятно можно вторым (равенством

0.880

) поглотить первое (одинаковость), но это стоит уточнить.

Потому спасибо Вам за пояснения, они подробны, но в их правомерности у меня всё равно остаются сомнения. Даже просто про отрицание (хоть про него я скорее всего и неправ).

EUgeneUS · 12.03.2020, 22:49

Dmitriy40 в сообщении #1444570 писал(а):

Здесь вижу что нулевая гипотеза одна на все провинции. Либо да, либо нет, либо одинаков (и именно

0.880

), либо разный. Определяется только это.

Нулевая гипотеза одинаковая для всех провинций. Но их много (так как много провинций).

Dmitriy40 в сообщении #1444570 писал(а):

А здесь p-value считаются уже для каждой провинции. А где обещанное общее?!

Стоп-стоп. Никто не обещал считать "общее p-value". Это просто невозможно:
а) У нас модель - биноминальное распределение.
б) У биноминального распределения есть параметр - вероятность "успеха" (успех тут весьма условный - вероятность умереть). Нам его откуда-то надо взять.
в) Мы его берем (оцениваем), как отношение суммы всех умерших к сумме всех случаев.
г) Если мы посчитаем "общее p-value", оно конечно же окажется хорошим, близким к

0.5

. Просто потому, что мы так оценили параметр биноминального распределения пунктом выше.

-- 12.03.2020, 22:50 --

Dmitriy40 в сообщении #1444570 писал(а):

Потому спасибо Вам за пояснения, они подробны, но в их правомерности у меня всё равно остаются сомнения.

До пункта 5 включительно я практически уверен. Но на 100% верить никому нельзя, даже себе :mrgreen:

Пункт 6 у меня самого вызывает сомнения.

Dmitriy40 · 13.03.2020, 00:34

Я тоже нарисовал табличку, по Вашим данным из 5-го пункта, с оценкой

D/C=0.0088

, без p-value, зато с СКО и сигмами (в предположении что

C

везде достаточно велико для применения терминов нормального распределения):

Половина провинций не попали в одну сигму (должны были попасть

68\%

или 20шт, на 5 больше), 8шт вылезло за 2 сигмы (вместо 1-2шт), 5шт улетели за 3 сигмы, а одна даже за 4 сигмы (я чуть поокруглял, да). Считаю это невероятный результат. Т.е. или распределение не биноминально, и/или центр не на

0.88\%

.

Вопросов больше не задаю — ощущение что чем больше ответов, тем меньше понимаю. :-(

Подождём ещё кого-то компетентного.

--mS-- · 13.03.2020, 05:24

(Оффтоп)

Я не из компетентных, но у меня просьба: а можно "биноминальное" распределение называть биномиальным?

svv · 13.03.2020, 10:38

(Оффтоп)

Живой узус, однако.

EUgeneUS · 13.03.2020, 12:00

--mS--

(Оффтоп)

--mS-- в сообщении #1444629 писал(а):

у меня просьба: а можно "биноминальное" распределение называть биномиальным?

Спасибо. Постараюсь избавиться от этой вредной привычки :roll:

Научный форум dxdy

COVID-19. Оценка смертности по китайской статистике.