В теме по корона вирус (
от этого сообщения и несколько выше) с уважаемым
Dmitriy40 возникла дискуссия на тему "можно ли оценивать уровень смертность от вируса, как отношение умерших к количеству случаев - по всей статистике из Китая, за исключением очага (провинции Хубей)?".
Я считаю, что - можно.
Нужно отметить, что в Китае в больницах остается уже меньше
![$20 \%$ $20 \%$](https://dxdy-04.korotkov.co.uk/f/b/2/b/b2b122e856527ab2afcdea1798153c5882.png)
от зараженных, а в вне очага примерно
![$10 \%$ $10 \%$](https://dxdy-04.korotkov.co.uk/f/b/1/1/b1132eb45bd3468ee5aec07f065ee3ca82.png)
, то есть (на мой взгляд) статистику можно считать собранной. Искажения из-за отставания количества умерших от количества зараженных уже будут небольшими.
Был выдвинут другой контраргумент - большой разброс коэффициента смертности, посчитанной по каждой провинции в отдельности, что (как я понял контр аргумент) говорит о недостаточности статистики (а это около 13 тысяч случаев).
Ниже в нескольких сообщениях (скажу, когда будет последнее) будет описание моих расчетов, с попыткой опровергнуть этот контраргумент.
Просьба - оценить, насколько это всё адекватно
-- 12.03.2020, 18:11 --1.
ДатасетДатасет был взят с
известного китайского сайта.
Вроде бы за 10 марта, но может и за 11 марта (что-то не отследил, они уже обновились сегодня или нет, когда забирал данные).
По каждой провинции имеются данные об общем количестве случаев (
![$C$ $C$](https://dxdy-02.korotkov.co.uk/f/9/b/3/9b325b9e31e85137d1de765f43c0f8bc82.png)
- в таблицах, которые будут ниже), и о количестве умерших (
![$D$ $D$](https://dxdy-04.korotkov.co.uk/f/7/8/e/78ec2b7008296ce0561cf83393cb746d82.png)
)
UPD: кроме данных по провинциям материкового Китая там есть данные по Гонконгу, Макао и Тайваню. Их тоже забрал
-- 12.03.2020, 18:18 --2. Модель \ нулевая гипотеза1. Предполагается такой процесс: человек заболевает и с какой-то постоянной вероятностью умирает.
2. Тогда количество умерших при известном количестве заболевших будет описываться биноминальным распределением.
2а. В таблицах будут колонки и с распределением Пуассона, но результат практических не отличается от биноминального распределения.
3. Вероятность умереть оценивается как отношение количества умерших к количеству заболевших, суммарно по всем провинциям
4. Нулевая гипотеза - коэффициент смертности одинаков во всех провинциях и равен оценке (п.3 выше).
-- 12.03.2020, 18:37 --3. Расчет ![$\text{P-value}$ $\text{P-value}$](https://dxdy-02.korotkov.co.uk/f/9/2/9/9297edd8df3a68fa2b06305f877fef0482.png)
1. По определению
![$\text{P-value}$ $\text{P-value}$](https://dxdy-02.korotkov.co.uk/f/9/2/9/9297edd8df3a68fa2b06305f877fef0482.png)
- вероятность, что статистика (в данном случае - количество умерших, при известном количестве заболевших и при оцененном коэффициенте смертности) имеет наблюдаемой значение или более экстремальное.
2. Рассчитывалось (Экселем
![Very Happy :D](./images/smilies/icon_biggrin.gif)
)
![$P_{\text{left}}=P(x\leqslant t) = F(t)$ $P_{\text{left}}=P(x\leqslant t) = F(t)$](https://dxdy-03.korotkov.co.uk/f/a/5/2/a524149d9ce102863fe2ce2c77029a7282.png)
, где
![$P(x\leqslant t)$ $P(x\leqslant t)$](https://dxdy-03.korotkov.co.uk/f/6/5/6/6567900bc70b9b975096e06f076b937282.png)
- вероятность, что значение количества умерших будет таким же, как наблюдается (
![$t$ $t$](https://dxdy-01.korotkov.co.uk/f/4/f/4/4f4f4e395762a3af4575de74c019ebb582.png)
) или меньше.
![$F(t)$ $F(t)$](https://dxdy-04.korotkov.co.uk/f/3/d/e/3debff278a0edda69817ea43c5bfd1ab82.png)
- функция распределения вероятности для биноминального распределения.
3. Рассчитывалось
![$P_{\text{right}}=P(x \geqslant t) = 1 - F(t) + f(t)$ $P_{\text{right}}=P(x \geqslant t) = 1 - F(t) + f(t)$](https://dxdy-02.korotkov.co.uk/f/5/9/9/599cc23f38903800db62ecb261f373c582.png)
![$P_{\text{right}}$ $P_{\text{right}}$](https://dxdy-01.korotkov.co.uk/f/4/6/2/462e4c461582e7115d435abed392ed7d82.png)
- вероятность, что значение количества умерших будет таким же, как наблюдается (
![$t$ $t$](https://dxdy-01.korotkov.co.uk/f/4/f/4/4f4f4e395762a3af4575de74c019ebb582.png)
) или больше.
![$f(t)$ $f(t)$](https://dxdy-03.korotkov.co.uk/f/2/7/0/27099e26220f898359382d05f75b941c82.png)
- вероятность того, что значение будет ровно таким, как наблюдается. Так как распределение дискретное, эту поправку нужно учитывать.
4. Рассчитывалось
![$\text{P-value} = \min (P_{\text{left}}, P_{\text{right}})$ $\text{P-value} = \min (P_{\text{left}}, P_{\text{right}})$](https://dxdy-02.korotkov.co.uk/f/d/2/c/d2ced71aeb11fdb246008383e279ab6d82.png)
5. Для двусторонней оценки
![$\text{P-value}$ $\text{P-value}$](https://dxdy-02.korotkov.co.uk/f/9/2/9/9297edd8df3a68fa2b06305f877fef0482.png)
рекомендуют использовать
![$2 \min (P_{\text{left}}, P_{\text{right}})$ $2 \min (P_{\text{left}}, P_{\text{right}})$](https://dxdy-02.korotkov.co.uk/f/1/a/2/1a2a6f07dfa9fa623ae13178003fbec882.png)
. Но там нужно ещё немного поприседать с поправками на дискретное распределение. Что я и сделал позже. Особо на результаты не повлияло. Эти расчеты выкладывать не буду.
-- 12.03.2020, 18:50 --4. Выбор критерия статистической значимости и поправки на множественную проверку гипотез.
1. Критерий выбран стандартный -
![$0.05$ $0.05$](https://dxdy-01.korotkov.co.uk/f/0/9/b/09b35b77d506cef3840e129c2e29ed1f82.png)
2. Так как проверяем не одну нулевую гипотезу, а много - по одной на каждую. провинцию, а их много (около 30), то требуются поправки на множественности гипотез.
3. Поправки считались по трем методам:
а) Метод Холма (поправка Холма — Бонферрони)
б) Метод Шидака-Холма
в) Метод Бенджамини — Хохберга
подробности, достаточные для их применения, можно почитать
тут.
Первые две поправки почти одинаковы и на практике не различаются. Метод Бенджамини — Хохберга более жесткий к гипотезам с небольшим
![$\text{p-value}$ $\text{p-value}$](https://dxdy-02.korotkov.co.uk/f/9/a/5/9a579fc46b73a098260a8c26fb70294c82.png)