2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему На страницу Пред.  1, 2
 
 Re: COVID-19. Оценка смертности по китайской статистике.
Сообщение13.03.2020, 12:40 
Заслуженный участник


20/08/14
11894
Россия, Москва

(Оффтоп)

Я прошу прощения. Биноминальность ассоциируется с много чем в практике программиста. ;-) Но теперь вижу что это скорее с биномом, чем с двойкой. :facepalm:

 Профиль  
                  
 
 Re: COVID-19. Оценка смертности по китайской статистике.
Сообщение13.03.2020, 17:01 
Аватара пользователя


11/12/16
14106
уездный город Н

(иллюстрации к расчету p-value)

Как рассчитывал $\text{p-value}$ писал ранее:

EUgeneUS в сообщении #1444521 писал(а):
1. По определению $\text{P-value}$ - вероятность, что статистика (в данном случае - количество умерших, при известном количестве заболевших и при оцененном коэффициенте смертности) имеет наблюдаемой значение или более экстремальное.
2. Рассчитывалось (Экселем :D ) $P_{\text{left}}=P(x\leqslant t) = F(t)$, где
$P(x\leqslant t)$ - вероятность, что значение количества умерших будет таким же, как наблюдается ($t$) или меньше.
$F(t)$ - функция распределения вероятности для биноминального распределения.
3. Рассчитывалось $P_{\text{right}}=P(x \geqslant t) = 1 - F(t) + f(t)$
$P_{\text{right}}$ - вероятность, что значение количества умерших будет таким же, как наблюдается ($t$) или больше.
$f(t)$ - вероятность того, что значение будет ровно таким, как наблюдается. Так как распределение дискретное, эту поправку нужно учитывать.
4. Рассчитывалось $\text{P-value} = \min (P_{\text{left}}, P_{\text{right}})$


Ниже две картинки (примеры для расчета для двух провинций) для иллюстрации
Изображение


Изображение
Нужно обратить внимание, что вероятность возникновения наблюдаемого значения ("P_center", выделено красным цветом) считается, как в левом "хвосте", так и в правом. Это особенность дискретного распределения, с непрерывным таких сложностей нет. Остальное, вроде бы, понятно из текста выше и картинок.
Если что - спрашивайте.
Спрятал в офф-топик, чтобы не загромождать тему.


-- 13.03.2020, 17:21 --

Dmitriy40 в сообщении #1444614 писал(а):
(в предположении что $C$ везде достаточно велико для применения терминов нормального распределения):

Это излишне оптимистичное предположение. Для биномиального распределения при $p=0.0088$ :
а) только с $n=113$ мода становится больше нуля.
б) при $n$ в несколько сотен мода отлична от нуля, но "колокол" визуально весьма асимметричен
Однако, не смотря на это, Вы пришли к тем же выводам, что и я в пункте 5:

Dmitriy40 в сообщении #1444614 писал(а):
Половина провинций не попали в одну сигму (должны были попасть $68\%$ или 20шт, на 5 больше),

Болд-мой

Dmitriy40 в сообщении #1444614 писал(а):
8шт вылезло за 2 сигмы (вместо 1-2шт)

То есть 6-7 штук "лишних" "вылезло за 2 сигмы"

Dmitriy40 в сообщении #1444614 писал(а):
5шт улетели за 3 сигмы,

Болд-мой

То есть 5-7 семь штук имеют столь малую вероятность, что принять нулевую гипотезу (распределение везде биномиальное с $p=0.088$) не можем.

Тоже самое получилось и у меня "в пятом пункте", если использовать поправку на множественность гипотез по Бенджамини — Хохбергу
EUgeneUS в сообщении #1444527 писал(а):
в) Шесть строчек не проходят тест с поправкой по Бенджамини — Хохбергу


Dmitriy40 в сообщении #1444614 писал(а):
Т.е. или распределение не биноминально, и/или центр не на $0.88\%$.

Мы можем попытаться "подвигать центр", но избавиться от "невероятных" случаев не сможем. Сможем уменьшить их количество, например до 3-4, но вероятность оставшихся станет еще меньше. Что я и попытался сделать в пункте 6.

То есть:
а) либо распределение не биномиальное.
б) либо биномиальное, но параметр распределения $p$ (то есть коэффициент летальности) таки разный в разных провинциях.

 Профиль  
                  
 
 Re: COVID-19. Оценка смертности по китайской статистике.
Сообщение13.03.2020, 18:03 
Заслуженный участник


20/08/14
11894
Россия, Москва
EUgeneUS в сообщении #1444728 писал(а):
Это излишне оптимистичное предположение.
Я осознаю, потому и сделал сразу оговорку, чтобы пользоваться более-менее понятными терминами. Разумеется достоверность следующих выводов страдает, понятно.
EUgeneUS в сообщении #1444728 писал(а):
Однако, не смотря на это, Вы пришли к тем же выводам, что и я в пункте 5:
Только у меня это больше "рукомахательство" (зато понятное мне), чем расчёты. Впрочем критерию $C>113$ (верю Вам) не отвечает лишь одна из улетевших провинций, на основной вывод это не повлияет.

(Оффтоп)

Если честно я уже потерялся что Вы хотите доказать в этой теме. Проверить корректность предположений и правильность расчётов? ОК, я только за, мне тоже будет полезно. С выводом же что ситуация в провинциях не описывается биномиальным распределением с центром $0.880\%$ я полностью согласен. Собственно мне он показался очевидным ещё по тому графику в теме о коронавирусе, но разумеется поддержать его расчётами здесь это великолепно.

Я там ещё другой аргумент приводил, про малость значений $D$ и потому значение $D/C=0.88\%$ не может быть достаточно точным, это надо проверять отдельно, чисто "рукомахательски" я поменял у себя в табличке этот процент на $3\%$ и получил один отрыв почти на 6 сигм, три отрыва на 5 сигм, два чуть больше 4 сигм, два на 3.5 сигмы, остальные практически меньше 2.5 сигм и половину меньше 1.2 сигмы. Причём за редким исключением сигмы большие там где меньше $D$. Тоже плохо, но я бы не сказал что на порядок хуже чем при $0.88\%$, потому делаю субъективный вывод что точность этого коэффициента никакая. Т.е. данных мало и они недостаточно неслучайны и одним коэффициентом надежно не описываются.

 Профиль  
                  
 
 Re: COVID-19. Оценка смертности по китайской статистике.
Сообщение14.03.2020, 09:09 
Аватара пользователя


11/12/16
14106
уездный город Н
Dmitriy40 в сообщении #1444745 писал(а):
Впрочем критерию $C>113$ (верю Вам) не отвечает лишь одна из улетевших провинций, на основной вывод это не повлияет.


Если мода перестает быть в нуле или перемещается в $1$, это совсем не означает, что распределение "стало похожим" на нормальное. Оно всё еще остаётся крайне перекошенным (речь не вообще о биномиальном распределении, а при $p=0.0088$).

Dmitriy40 в сообщении #1444745 писал(а):
Если честно я уже потерялся что Вы хотите доказать в этой теме.

Не удивительно. Так как нет цели что-то конкретное доказать.
Есть желание получить более-менее обоснованный ответ на вопрос в стартовом посте. Лучше "более", чем "менее".

(Оффтоп)

Dmitriy40 в сообщении #1444745 писал(а):
чисто "рукомахательски" я поменял у себя в табличке этот процент на $3\%$ и получил один отрыв почти на 6 сигм, три отрыва на 5 сигм, два чуть больше 4 сигм, два на 3.5 сигмы, остальные практически меньше 2.5 сигм и половину меньше 1.2 сигмы. Причём за редким исключением сигмы большие там где меньше $D$. Тоже плохо, но я бы не сказал что на порядок хуже чем при $0.88\%$, потому делаю субъективный вывод что точность этого коэффициента никакая

Я проводил подобный эксперимент.
Получились так:
1. 15 из 33 не прошли формальный тест $\text{p-value} > 0.05$
2. Удивительно, но ровно столько же не проходят тест с поправками по Бенджамини — Хохбергу.
При этом тест не проходят все провинции, где $C > 500$
3. Тест с более мягкими поправками не проходят 10 провинций.
Вывод - 3% точно не подходит.

Dmitriy40 в сообщении #1444745 писал(а):
Т.е. данных мало и они недостаточно неслучайны и одним коэффициентом надежно не описываются.

Соглашусь только со вторым утверждением.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 19 ]  На страницу Пред.  1, 2

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: confabulez


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group