COVID-19. Оценка смертности по китайской статистике.

EUgeneUS · 11/12/16 14950 уездный город Н

В теме по корона вирус (от этого сообщения и несколько выше) с уважаемым Dmitriy40 возникла дискуссия на тему "можно ли оценивать уровень смертность от вируса, как отношение умерших к количеству случаев - по всей статистике из Китая, за исключением очага (провинции Хубей)?".

Я считаю, что - можно.

Нужно отметить, что в Китае в больницах остается уже меньше $20 \%$ от зараженных, а в вне очага примерно $10 \%$ , то есть (на мой взгляд) статистику можно считать собранной. Искажения из-за отставания количества умерших от количества зараженных уже будут небольшими.

Был выдвинут другой контраргумент - большой разброс коэффициента смертности, посчитанной по каждой провинции в отдельности, что (как я понял контр аргумент) говорит о недостаточности статистики (а это около 13 тысяч случаев).

Ниже в нескольких сообщениях (скажу, когда будет последнее) будет описание моих расчетов, с попыткой опровергнуть этот контраргумент.
Просьба - оценить, насколько это всё адекватно

-- 12.03.2020, 18:11 --

1. Датасет

Датасет был взят с известного китайского сайта.
Вроде бы за 10 марта, но может и за 11 марта (что-то не отследил, они уже обновились сегодня или нет, когда забирал данные).
По каждой провинции имеются данные об общем количестве случаев ( $C$ - в таблицах, которые будут ниже), и о количестве умерших ( $D$ )
UPD: кроме данных по провинциям материкового Китая там есть данные по Гонконгу, Макао и Тайваню. Их тоже забрал

-- 12.03.2020, 18:18 --

2. Модель \ нулевая гипотеза

1. Предполагается такой процесс: человек заболевает и с какой-то постоянной вероятностью умирает.
2. Тогда количество умерших при известном количестве заболевших будет описываться биноминальным распределением.
2а. В таблицах будут колонки и с распределением Пуассона, но результат практических не отличается от биноминального распределения.
3. Вероятность умереть оценивается как отношение количества умерших к количеству заболевших, суммарно по всем провинциям
4. Нулевая гипотеза - коэффициент смертности одинаков во всех провинциях и равен оценке (п.3 выше).

-- 12.03.2020, 18:37 --

3. Расчет $\text{P-value}$

1. По определению $\text{P-value}$ - вероятность, что статистика (в данном случае - количество умерших, при известном количестве заболевших и при оцененном коэффициенте смертности) имеет наблюдаемой значение или более экстремальное.
2. Рассчитывалось (Экселем

) $P_{\text{left}}=P(x\leqslant t) = F(t)$ , где
$P(x\leqslant t)$ - вероятность, что значение количества умерших будет таким же, как наблюдается ( $t$ ) или меньше.
$F(t)$ - функция распределения вероятности для биноминального распределения.
3. Рассчитывалось $P_{\text{right}}=P(x \geqslant t) = 1 - F(t) + f(t)$
$P_{\text{right}}$ - вероятность, что значение количества умерших будет таким же, как наблюдается ( $t$ ) или больше.
$f(t)$ - вероятность того, что значение будет ровно таким, как наблюдается. Так как распределение дискретное, эту поправку нужно учитывать.
4. Рассчитывалось $\text{P-value} = \min (P_{\text{left}}, P_{\text{right}})$
5. Для двусторонней оценки $\text{P-value}$ рекомендуют использовать $2 \min (P_{\text{left}}, P_{\text{right}})$ . Но там нужно ещё немного поприседать с поправками на дискретное распределение. Что я и сделал позже. Особо на результаты не повлияло. Эти расчеты выкладывать не буду.

-- 12.03.2020, 18:50 --

4. Выбор критерия статистической значимости и поправки на множественную проверку гипотез.

1. Критерий выбран стандартный - $0.05$
2. Так как проверяем не одну нулевую гипотезу, а много - по одной на каждую. провинцию, а их много (около 30), то требуются поправки на множественности гипотез.
3. Поправки считались по трем методам:
а) Метод Холма (поправка Холма — Бонферрони)
б) Метод Шидака-Холма
в) Метод Бенджамини — Хохберга
подробности, достаточные для их применения, можно почитать тут.
Первые две поправки почти одинаковы и на практике не различаются. Метод Бенджамини — Хохберга более жесткий к гипотезам с небольшим $\text{p-value}$

dmd · 16/08/05 1154

Датасеты и модельки на Kaggle

EUgeneUS · 11/12/16 14950 уездный город Н

5. Результаты и их трактовка.

После того, как было проделано всё, что описано выше, получилась такая табличка:

Что там видим:
а) Восемь строчек не проходит формальный тест $\text{p-value}>0.05$
б) Две строчки не проходят тест с поправками по Холму — Бонферрони и Шидаку-Холму
в) Шесть строчек не проходят тест с поправкой по Бенджамини — Хохбергу

Отсюда видим, что нельзя сказать, что во всех провинциях можно считать коэффициент смертности одинаковым. Но "выпадающих" не так уж много - две или шесть, в зависимости от того, какую поправку использовать.

-- 12.03.2020, 19:27 --

6. Оценки уровня смертности и некоторые манипуляции с данными

Возникает вопрос: в каком диапазоне находится оценка смертности (может изменяться)?
Чтобы получить ответ сделал такое:

1. Начал выкидывать из данных строчки:
а) с малым $\text{p-value}$ и завышенным уровнем смертности.
б) выкидывал пока тесты (со всеми тремя поправками) по всем оставшимся провинциям "не сошлись".
в) пришлось "выкинуть" три строчки, результат в таблице:

г) Коэффициент смертности в этом случае оказался $0.666 \%$ (что-то намекает, что он верный :mrgreen:

)

2. Сделал то же самое, но выкидывал строчки с малым $\text{p-value}$ и заниженным уровнем смертности
а) опять же пришлось выкинуть три строчки
Результат в таблице ниже:

б) Коэффициент смертности в этом случае оказался $1.096 \%$

Выводы:
1. Оценки смертности от $0.65 \%$ до $1.1 \%$ являются адекватными.
2. Есть основания предполагать, что в Китае таки циркулировало два (или более) штамма вируса с разной смертностью. Но анализ данных это не доказывает.

-- 12.03.2020, 19:29 --

Вот теперь всё.
Прошу высказываться

Особенно интересует мнение начальника транспортного цеха уважаемых Otta и Евгений Машеров

Dmitriy40 · 20/08/14 12227 Россия, Москва

У меня вопрос по таблице из пункта 5.
Там для строки 30 указано $D/C=0.800$ с $p=0.66871$ , а для строки 28 указано $D/C=0.872$ с $p=0.58382$ . Вопрос: $0.87$ очевидно ближе к $0.88$ чем $0.80$ , почему же p меньше? Это ведь грубо говоря вероятность получить такое $D/C$ имея биноминальное распределение. Вероятность получить $0.87$ должна быть больше чем вероятность получить $0.8$ , оно же ближе к центру распределения $0.88$ , разве нет?

И вопрос более общего характера.
Обычно берут условие $p<0.05$ , Вы взяли якобы противоположное $p>0.05$ , но разве противоположным будет не $p>0.95$ ? Тут я ничего не понимаю и могу кардинально ошибаться.

По 6 пункту вообще неясна правомерность выкидывания данных, я в книгах читал что селективная выборка (если ошибся с правильным названием сразу прошу прощения), когда производится манипуляция с данными уже после формулирования гипотезы, это грубая ошибка. Правильно надо формировать новый набор данных, формулировать новую гипотезу и считать всё снова. И подтвердится уже новая гипотеза, а не старая. В этом вопросе хотелось бы тоже подтверждения хорошо знакомых со стат.обработкой данных.
UPD. По этому пункту есть согласие автора, наверное тут уже можно не акцентировать.

PS. Про выводы и адекватность их применения где-либо кроме конкретно этих провинций Китая я пока промолчу.

EUgeneUS · 11/12/16 14950 уездный город Н

Dmitriy40 в сообщении #1444533 писал(а):

У меня вопрос по таблице из пункта 5.
Там для строки 30 указано $D/C=0.800$ с $p=0.66871$ , а для строки 28 указано $D/C=0.872$ с $p=0.58382$ . Вопрос: $0.87$ очевидно ближе к $0.88$ чем $0.80$ , почему же p меньше? Это ведь грубо говоря вероятность получить такое $D/C$ имея биноминальное распределение. Вероятность получить $0.87$ должна быть больше чем вероятность получить $0.8$ , оно же ближе к центру распределения $0.88$ , разве нет?

Вероятность получить какое-то число зависит не только от того, насколько это число близко к ожидаемому. Но и от того, сколько было "измерений" (количества испытаний, в данном случае - от количества зафиксированных случаев).

-- 12.03.2020, 20:28 --

Dmitriy40 в сообщении #1444533 писал(а):

И вопрос более общего характера.
Обычно берут условие $p<0.05$ , Вы взяли якобы противоположное $p>0.05$ , но разве противоположным будет не $p>0.95$ ? Тут я ничего не понимаю и могу кардинально ошибаться.

При $p > 0.05$ нулевая гипотеза принимается, при $p < 0.05$ нулевая гипотеза отвергается. То есть я озвучил критерий, при котором нулевая гипотеза принимается (а не отвергается), всего лишь.

-- 12.03.2020, 20:31 --

Dmitriy40 в сообщении #1444533 писал(а):

UPD. По этому пункту есть согласие автора
, наверное тут уже можно не акцентировать.

Таки надо акцентировать. Автору как раз очень интересно мнение профессионалов: насколько адекватны такие упражнения.

-- 12.03.2020, 20:58 --

Dmitriy40 в сообщении #1444533 писал(а):

У меня вопрос по таблице из пункта 5.
Там для строки 30 указано $D/C=0.800$ с $p=0.66871$ , а для строки 28 указано $D/C=0.872$ с $p=0.58382$ . Вопрос: $0.87$ очевидно ближе к $0.88$ чем $0.80$ , почему же p меньше? Это ведь грубо говоря вероятность получить такое $D/C$ имея биноминальное распределение. Вероятность получить $0.87$ должна быть больше чем вероятность получить $0.8$ , оно же ближе к центру распределения $0.88$ , разве нет?

ИМХО, тут будут уместны более подробные объяснения.
1. В случае непрерывного распределения: если попадаем "в яблочко" - близко к ожидаемому значению, то $\text{p-value}$ , рассчитанное по такой методике (как описано выше), будет близко $0.5$ и больше быть не может. Поэтому его рекомендуют умножать на два - тогда будет близко к единице.

2.В случае дискретного распределения (а чем меньше зафиксированных случаев, тем более оно более дискретное) $\text{p-value}$ может быть более $0.5$ и может довольно близко приближаться к $1$ , что мы видим на примере последней строчки (Tibet). Поэтому просто умножать его на $2$ , как рекомендуют для двусторонней оценки в случае непрерывного распределения нельзя:

EUgeneUS в сообщении #1444521 писал(а):

5. Для двусторонней оценки $\text{P-value}$ рекомендуют использовать $2 \min (P_{\text{left}}, P_{\text{right}})$ . Но там нужно ещё немного поприседать с поправками на дискретное распределение. Что я и сделал позже. Особо на результаты не повлияло. Эти расчеты выкладывать не буду.

Если эти приседания аккуратно сделать, то 28 и 30 строки могут и поменяться местами, но рассчитанное\пересчитанное $\text{p-value}$ окажется близко уже к $1$ в обоих случаях.

Dmitriy40 · 20/08/14 12227 Россия, Москва

EUgeneUS в сообщении #1444543 писал(а):

Dmitriy40 в сообщении #1444533 писал(а):

И вопрос более общего характера.
Обычно берут условие $p<0.05$ , Вы взяли якобы противоположное $p>0.05$ , но разве противоположным будет не $p>0.95$ ? Тут я ничего не понимаю и могу кардинально ошибаться.

При $p > 0.05$ нулевая гипотеза принимается, при $p < 0.05$ нулевая гипотеза отвергается. То есть я озвучил критерий, при котором нулевая гипотеза принимается (а не отвергается), всего лишь.

Тут мне осталось непонятным. Опять же в книжках читал что надо аккуратно формулировать нулевую гипотезу, абы какое утверждение брать нельзя. Обычно (или обязательно, тут не уверен) берут нулевой гипотезой что данные объясняются случайным совпадением и соответственно не содержат в себе никаких закономерностей. И если эта гипотеза набирает p-value меньше 5%, то она отвергается и дальше уже можно проверять что же они содержат. Если набирает больше 5%, то ничего из них вытащить нельзя и дальнейший анализ бессмысленен. Какое именно утверждение будет противоположным чтобы оценивать по критерию $p>0.05$ я не уверен. Хотелось бы вердикта более опытных товарищей.

-- 12.03.2020, 21:23 --

EUgeneUS в сообщении #1444543 писал(а):

Вероятность получить какое-то число зависит не только от того, насколько это число близко к ожидаемому. Но и от того, сколько было "измерений" (количества испытаний, в данном случае - от количества зафиксированных случаев).

ОК. Но логика подсказывает что чем больше измерений, тем точнее они располагаются вокруг центра распределения. И 3 точки практически в центре ( $0.872$ от $0.880$ ) должны быть более вероятны чем одна, но заметно дальше. Т.е. больше штук и ближе, всё как бы в одну сторону действует, однако менее вероятны. Парадокс. Всё равно непонятно. Дальнейшее пояснение про какие-то манипуляции только запутывают.
Т.е. если коротко: текущие данные выглядят немного противоречивыми странными, а после неясных "приседаний" получается непонятно что. :-(

EUgeneUS · 11/12/16 14950 уездный город Н

Dmitriy40 в сообщении #1444550 писал(а):

Обычно (или обязательно, тут не уверен) берут нулевой гипотезой что данные объясняются случайным совпадением и соответственно не содержат в себе никаких закономерностей.

Собственно, такое утверждение и берется - "данные объясняются случайным биноминальным распределением".
Биноминальное распределение как раз и описывает предполагаемый процесс.
Вот только у биноминального распределения есть параметр - вероятность "вытащить черный шар", его откуда-то надо взять. Он берется как оценка по всей (рассматриваемой) совокупности данных.

Dmitriy40 · 20/08/14 12227 Россия, Москва

EUgeneUS
Я не возражаю ни против биноминального распределения, ни против оценки $0.880$ . Мне непонятно как получились те две строчки. И почему берётся $p>0.05$ вместо обычного $p<0.05$ (возможно так тоже можно, я не уверен). Для меня это намёки, что что-то с расчётами не совсем хорошо. Я не утверждаю что они неправильны, пока лишь что непонятны (да ещё и лично мне).

EUgeneUS · 11/12/16 14950 уездный город Н

Dmitriy40 в сообщении #1444550 писал(а):

И 3 точки практически в центре ( $0.872$ от $0.880$ ) должны быть более вероятны чем одно, но заметно дальше.

Вот смотрите. Tibet. Там один случай и ноль смертей.
Вероятность, что будет ноль или меньше смертей при одном случае - в точности равна единица минус используемая оценка смертности (то есть $0.9912$ ).
Вероятность, что будет ноль или больше смертей при одном случае - в точности равна единице.
Тогда: $\text{p-value} = 0.9912$ . Очень близко к единице, хотя смертность (ноль) довольно далека от ожидаемого значения ( $0.88 \%$ )

-- 12.03.2020, 21:45 --

Dmitriy40 в сообщении #1444559 писал(а):

И почему берётся $p>0.05$ вместо обычного $p<0.05$

Иэх. Это же просто отрицание.
а) $p<0.05$ $\to$ отвергаем нулевую гипотезу
б) НЕ $p<0.05$ $\to$ НЕ отвергаем нулевую гипотезу

-- 12.03.2020, 21:48 --

Dmitriy40 в сообщении #1444559 писал(а):

Мне непонятно как получились те две строчки.

Те две строчки получились, как оценка односторонней вероятности получить то, что имеем, или экстремальнее. То есть
а) вероятность получить то, что имеем - считаем.
б) и считаем "хвост" в сторону, противоположную ожидаемому значению.

Dmitriy40 · 20/08/14 12227 Россия, Москва

Вернусь к исходному тексту.

EUgeneUS в сообщении #1444521 писал(а):

3. Вероятность умереть оценивается как отношение количества умерших к количеству заболевших, суммарно по всем провинциям
4. Нулевая гипотеза - коэффициент смертности одинаков во всех провинциях и равен оценке (п.3 выше).

Здесь вижу что нулевая гипотеза одна на все провинции. Либо да, либо нет, либо одинаков (и именно $0.880$ ), либо разный. Определяется только это.

EUgeneUS в сообщении #1444527 писал(а):

После того, как было проделано всё, что описано выше, получилась такая табличка:
...
Что там видим:
а) Восемь строчек не проходит формальный тест $\text{p-value}>0.05$

А здесь p-value считаются уже для каждой провинции. А где обещанное общее?!

EUgeneUS в сообщении #1444527 писал(а):

Отсюда видим, что нельзя сказать, что во всех провинциях можно считать коэффициент смертности одинаковым.

Неа, не видим, общего единственного p-value не посчитано (или я не разглядел) и потому делать вывод рано.

Более того, я не уверен что вообще можно выбирать такую нулевую гипотезу. Там проверяется одновременно два утверждения: одинаков и равен $0.880$ . А по слышанным мною правилам утверждение должно быть ровно одно. Хотите проверить два — формулируйте две нулевых гипотезы и проверяйте отдельно. И получите разумеется два p-value и если они оба пройдут порог, вот тогда ... Вероятно можно вторым (равенством $0.880$ ) поглотить первое (одинаковость), но это стоит уточнить.

Потому спасибо Вам за пояснения, они подробны, но в их правомерности у меня всё равно остаются сомнения. Даже просто про отрицание (хоть про него я скорее всего и неправ).

EUgeneUS · 11/12/16 14950 уездный город Н

Dmitriy40 в сообщении #1444570 писал(а):

Здесь вижу что нулевая гипотеза одна на все провинции. Либо да, либо нет, либо одинаков (и именно $0.880$ ), либо разный. Определяется только это.

Нулевая гипотеза одинаковая для всех провинций. Но их много (так как много провинций).

Dmitriy40 в сообщении #1444570 писал(а):

А здесь p-value считаются уже для каждой провинции. А где обещанное общее?!

Стоп-стоп. Никто не обещал считать "общее p-value". Это просто невозможно:
а) У нас модель - биноминальное распределение.
б) У биноминального распределения есть параметр - вероятность "успеха" (успех тут весьма условный - вероятность умереть). Нам его откуда-то надо взять.
в) Мы его берем (оцениваем), как отношение суммы всех умерших к сумме всех случаев.
г) Если мы посчитаем "общее p-value", оно конечно же окажется хорошим, близким к $0.5$ . Просто потому, что мы так оценили параметр биноминального распределения пунктом выше.

-- 12.03.2020, 22:50 --

Dmitriy40 в сообщении #1444570 писал(а):

Потому спасибо Вам за пояснения, они подробны, но в их правомерности у меня всё равно остаются сомнения.

До пункта 5 включительно я практически уверен. Но на 100% верить никому нельзя, даже себе :mrgreen:

Пункт 6 у меня самого вызывает сомнения.

Dmitriy40 · 20/08/14 12227 Россия, Москва

Я тоже нарисовал табличку, по Вашим данным из 5-го пункта, с оценкой $D/C=0.0088$ , без p-value, зато с СКО и сигмами (в предположении что $C$ везде достаточно велико для применения терминов нормального распределения):

Половина провинций не попали в одну сигму (должны были попасть $68\%$ или 20шт, на 5 больше), 8шт вылезло за 2 сигмы (вместо 1-2шт), 5шт улетели за 3 сигмы, а одна даже за 4 сигмы (я чуть поокруглял, да). Считаю это невероятный результат. Т.е. или распределение не биноминально, и/или центр не на $0.88\%$ .

Вопросов больше не задаю — ощущение что чем больше ответов, тем меньше понимаю. :-(

Подождём ещё кого-то компетентного.

--mS-- · 23/11/06 4171

(Оффтоп)

Я не из компетентных, но у меня просьба: а можно "биноминальное" распределение называть биномиальным?

svv · 23/07/08 10929

(Оффтоп)

Живой узус, однако.

EUgeneUS · 11/12/16 14950 уездный город Н

--mS--

(Оффтоп)

--mS-- в сообщении #1444629 писал(а):

у меня просьба: а можно "биноминальное" распределение называть биномиальным?

Спасибо. Постараюсь избавиться от этой вредной привычки :roll:

Научный форум dxdy

Правила форума

COVID-19. Оценка смертности по китайской статистике.

Кто сейчас на конференции