2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему На страницу Пред.  1, 2
 
 Re: COVID-19. Оценка смертности по китайской статистике.
Сообщение13.03.2020, 12:40 
Заслуженный участник


20/08/14
11708
Россия, Москва

(Оффтоп)

Я прошу прощения. Биноминальность ассоциируется с много чем в практике программиста. ;-) Но теперь вижу что это скорее с биномом, чем с двойкой. :facepalm:

 Профиль  
                  
 
 Re: COVID-19. Оценка смертности по китайской статистике.
Сообщение13.03.2020, 17:01 
Аватара пользователя


11/12/16
13833
уездный город Н

(иллюстрации к расчету p-value)

Как рассчитывал $\text{p-value}$ писал ранее:

EUgeneUS в сообщении #1444521 писал(а):
1. По определению $\text{P-value}$ - вероятность, что статистика (в данном случае - количество умерших, при известном количестве заболевших и при оцененном коэффициенте смертности) имеет наблюдаемой значение или более экстремальное.
2. Рассчитывалось (Экселем :D ) $P_{\text{left}}=P(x\leqslant t) = F(t)$, где
$P(x\leqslant t)$ - вероятность, что значение количества умерших будет таким же, как наблюдается ($t$) или меньше.
$F(t)$ - функция распределения вероятности для биноминального распределения.
3. Рассчитывалось $P_{\text{right}}=P(x \geqslant t) = 1 - F(t) + f(t)$
$P_{\text{right}}$ - вероятность, что значение количества умерших будет таким же, как наблюдается ($t$) или больше.
$f(t)$ - вероятность того, что значение будет ровно таким, как наблюдается. Так как распределение дискретное, эту поправку нужно учитывать.
4. Рассчитывалось $\text{P-value} = \min (P_{\text{left}}, P_{\text{right}})$


Ниже две картинки (примеры для расчета для двух провинций) для иллюстрации
Изображение


Изображение
Нужно обратить внимание, что вероятность возникновения наблюдаемого значения ("P_center", выделено красным цветом) считается, как в левом "хвосте", так и в правом. Это особенность дискретного распределения, с непрерывным таких сложностей нет. Остальное, вроде бы, понятно из текста выше и картинок.
Если что - спрашивайте.
Спрятал в офф-топик, чтобы не загромождать тему.


-- 13.03.2020, 17:21 --

Dmitriy40 в сообщении #1444614 писал(а):
(в предположении что $C$ везде достаточно велико для применения терминов нормального распределения):

Это излишне оптимистичное предположение. Для биномиального распределения при $p=0.0088$ :
а) только с $n=113$ мода становится больше нуля.
б) при $n$ в несколько сотен мода отлична от нуля, но "колокол" визуально весьма асимметричен
Однако, не смотря на это, Вы пришли к тем же выводам, что и я в пункте 5:

Dmitriy40 в сообщении #1444614 писал(а):
Половина провинций не попали в одну сигму (должны были попасть $68\%$ или 20шт, на 5 больше),

Болд-мой

Dmitriy40 в сообщении #1444614 писал(а):
8шт вылезло за 2 сигмы (вместо 1-2шт)

То есть 6-7 штук "лишних" "вылезло за 2 сигмы"

Dmitriy40 в сообщении #1444614 писал(а):
5шт улетели за 3 сигмы,

Болд-мой

То есть 5-7 семь штук имеют столь малую вероятность, что принять нулевую гипотезу (распределение везде биномиальное с $p=0.088$) не можем.

Тоже самое получилось и у меня "в пятом пункте", если использовать поправку на множественность гипотез по Бенджамини — Хохбергу
EUgeneUS в сообщении #1444527 писал(а):
в) Шесть строчек не проходят тест с поправкой по Бенджамини — Хохбергу


Dmitriy40 в сообщении #1444614 писал(а):
Т.е. или распределение не биноминально, и/или центр не на $0.88\%$.

Мы можем попытаться "подвигать центр", но избавиться от "невероятных" случаев не сможем. Сможем уменьшить их количество, например до 3-4, но вероятность оставшихся станет еще меньше. Что я и попытался сделать в пункте 6.

То есть:
а) либо распределение не биномиальное.
б) либо биномиальное, но параметр распределения $p$ (то есть коэффициент летальности) таки разный в разных провинциях.

 Профиль  
                  
 
 Re: COVID-19. Оценка смертности по китайской статистике.
Сообщение13.03.2020, 18:03 
Заслуженный участник


20/08/14
11708
Россия, Москва
EUgeneUS в сообщении #1444728 писал(а):
Это излишне оптимистичное предположение.
Я осознаю, потому и сделал сразу оговорку, чтобы пользоваться более-менее понятными терминами. Разумеется достоверность следующих выводов страдает, понятно.
EUgeneUS в сообщении #1444728 писал(а):
Однако, не смотря на это, Вы пришли к тем же выводам, что и я в пункте 5:
Только у меня это больше "рукомахательство" (зато понятное мне), чем расчёты. Впрочем критерию $C>113$ (верю Вам) не отвечает лишь одна из улетевших провинций, на основной вывод это не повлияет.

(Оффтоп)

Если честно я уже потерялся что Вы хотите доказать в этой теме. Проверить корректность предположений и правильность расчётов? ОК, я только за, мне тоже будет полезно. С выводом же что ситуация в провинциях не описывается биномиальным распределением с центром $0.880\%$ я полностью согласен. Собственно мне он показался очевидным ещё по тому графику в теме о коронавирусе, но разумеется поддержать его расчётами здесь это великолепно.

Я там ещё другой аргумент приводил, про малость значений $D$ и потому значение $D/C=0.88\%$ не может быть достаточно точным, это надо проверять отдельно, чисто "рукомахательски" я поменял у себя в табличке этот процент на $3\%$ и получил один отрыв почти на 6 сигм, три отрыва на 5 сигм, два чуть больше 4 сигм, два на 3.5 сигмы, остальные практически меньше 2.5 сигм и половину меньше 1.2 сигмы. Причём за редким исключением сигмы большие там где меньше $D$. Тоже плохо, но я бы не сказал что на порядок хуже чем при $0.88\%$, потому делаю субъективный вывод что точность этого коэффициента никакая. Т.е. данных мало и они недостаточно неслучайны и одним коэффициентом надежно не описываются.

 Профиль  
                  
 
 Re: COVID-19. Оценка смертности по китайской статистике.
Сообщение14.03.2020, 09:09 
Аватара пользователя


11/12/16
13833
уездный город Н
Dmitriy40 в сообщении #1444745 писал(а):
Впрочем критерию $C>113$ (верю Вам) не отвечает лишь одна из улетевших провинций, на основной вывод это не повлияет.


Если мода перестает быть в нуле или перемещается в $1$, это совсем не означает, что распределение "стало похожим" на нормальное. Оно всё еще остаётся крайне перекошенным (речь не вообще о биномиальном распределении, а при $p=0.0088$).

Dmitriy40 в сообщении #1444745 писал(а):
Если честно я уже потерялся что Вы хотите доказать в этой теме.

Не удивительно. Так как нет цели что-то конкретное доказать.
Есть желание получить более-менее обоснованный ответ на вопрос в стартовом посте. Лучше "более", чем "менее".

(Оффтоп)

Dmitriy40 в сообщении #1444745 писал(а):
чисто "рукомахательски" я поменял у себя в табличке этот процент на $3\%$ и получил один отрыв почти на 6 сигм, три отрыва на 5 сигм, два чуть больше 4 сигм, два на 3.5 сигмы, остальные практически меньше 2.5 сигм и половину меньше 1.2 сигмы. Причём за редким исключением сигмы большие там где меньше $D$. Тоже плохо, но я бы не сказал что на порядок хуже чем при $0.88\%$, потому делаю субъективный вывод что точность этого коэффициента никакая

Я проводил подобный эксперимент.
Получились так:
1. 15 из 33 не прошли формальный тест $\text{p-value} > 0.05$
2. Удивительно, но ровно столько же не проходят тест с поправками по Бенджамини — Хохбергу.
При этом тест не проходят все провинции, где $C > 500$
3. Тест с более мягкими поправками не проходят 10 провинций.
Вывод - 3% точно не подходит.

Dmitriy40 в сообщении #1444745 писал(а):
Т.е. данных мало и они недостаточно неслучайны и одним коэффициентом надежно не описываются.

Соглашусь только со вторым утверждением.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 19 ]  На страницу Пред.  1, 2

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group