2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему
 
 Дисперсионный анализ [Медико-биологическая статистика]
Сообщение19.09.2017, 15:42 


19/09/17
3
Всем добрый день!
Прошу форумчан в помощи при решении задачи 3.4 из книги "Медико-биологическая статистика Стэнтона Гланца"

Задача:
Марихуана — наркотик, поэтому исследовать курение марихуаны на добровольцах невозможно. Исследования такого рода проводят на лабораторных животных. Г. Хубер и соавт. (G. Huber et al. Marijuana, tetrahydrocannabinol, and pulmonary arterial antibacterial defenses. Chest, 77:403—410, 1980) изучали влияние марихуаны на антибактериальную защиту у крыс. После ингаляционного введения бактерий крыс помещали в камеру, где специальная машина окуривала их сигаретами с марихуаной. Забив крыс, исследователи извлекали легкие и подсчиты- вали процент погибших бактерий, который и служил показателем состояния антибактериальной защиты. Чтобы установить, что именно влияет на антибактериальную защиту — тетрагидроканнабинолы (вещества, которые обусловливают наркотическое действие марихуаны) или просто дым одну из групп окури- вали сигаретами, из которых тетрагидроканнабинолы были удалены. В каждой группе было по 36 крыс. Являются ли различия статистически значимыми?
Изображение

Мое текущее решение:
Для проведения дисперсионного анализа я нахожу внутригрупповую дисперсию и междугрупповую, чтобы поделить их друг на друга и получить значение F.
$S_{w} =  380.8$
$S_{b} =  20269.44$
$df_{w} =  245$
$df_{b} =  6$
Количество степеней свободы у меня совпадают с ответом, но итоговый F у меня с ответом не совпадает.(2173.5 против 60.37 в ответе)
Подскажите, в чем я ошибся,пожалуйста.

 Профиль  
                  
 
 Re: Дисперсионный анализ
Сообщение19.09.2017, 22:46 
Заслуженный участник


12/07/07
4534
У меня получилось то же значение отношения.
Я напомню себе формулы в общем случае, а потом перейду к частному случаю.
В общем случае
Обозначения
$r$ — число групп; $n_i$ — число наблюдений в $i$-ой группе; $n = \sum_{i=1}^r n_i$ — общее число элементов.
$S_{\text{int}}^2$ — внутригрупповая «сумма квадратов отклонений», делённая на ранг соответствующей формы;
$S_e^2$ — межгрупповая «сумма квадратов отклонений», делённая на ранг соответствующей формы.

$S_{\text{int}}^2 = \frac 1 {n-r} \sum\limits_{i=1}^r \sum\limits_{j=1}^{n_i} (X_{ij} - \bar X_i)^2$, где $\bar X_i = \frac 1 {n_i} \sum\limits_{j=1}^{n_i} X_{ij}$, $\bar X = \frac 1 {n} \sum\limits_{i=1}^r\sum\limits_{j=1}^{n_i} X_{ij}$
или
$S_{\text{int}}^2 = \frac 1 {n-r} \sum\limits_{i=1}^r (n_i-1) S_i^2$, где $S_{i}^2 = \frac 1 {n_i - 1} \sum\limits_{j=1}^{n_i} (X_{ij} - \bar X_i)^2$.
$S_e^2 = \frac 1 {r-1}\sum\limits_{i=1}^r n_i(\bar X_i - \bar X)^2$.

Если все группы содержат одно число наблюдений $n_0$, то выражение для $S_{\text{int}}^2$ упрощается
$S_{\text{int}}^2 = \frac {n_0-1} {n_0r - r} \sum\limits_{i=1}^r S_i^2 = \frac 1 r \sum\limits_{i=1}^r S_i^2$.

В данном случае $n_0 = 36$, $r=7$.
$s_{\text{int}}^2 \approx 1.554285714$, $ s_e^2 \approx 3378.24 $, $f^*= s_e^2/s_{\text{int}}^2 \approx 2173.5$.

(Вроде без опечаток набрал, но всё может быть. [Upd] Потерял в одной из формул квадрат. Но в расчетах это не участвовало. Результаты не изменились. Просто при наборе формул в сообщении забыл добавить. Исправил на следующий день. [/Upd])

 Профиль  
                  
 
 Re: Дисперсионный анализ
Сообщение20.09.2017, 07:20 


19/09/17
3
GAA, спасибо большое за помощь.
И у меня такие же цифры по сумме квадратов отклонений по внутригрупповой и межгрупповой дисперсии. Я вот думаю, что здесь наверно в качестве независимой переменной нужно также брать и количество сигарет, и наличие в них тетрагидроканнабинолов...Учитывать и их влияние...
Это получается многофакторный дисп. анализ, я пока такой не умею проводить.)

 Профиль  
                  
 
 Re: Дисперсионный анализ
Сообщение20.09.2017, 12:34 
Заслуженный участник


12/07/07
4534
Для сравнения посмотрел задачу 3.2 из той же книги.
    «Курение считают основным фактором, предрасполагающим к хроническим обструктивным заболеваниям легких. Что касается пассивного курения, оно таким фактором обычно не считаетчя. Дж. Уайт и Г. Фреб усомнились в безвредности пассивного курения и исследовали проходимость дыхательных путей у некурящих, пассивных и активных курильщиков (J. White, H. Froeb. Small-airways dysfunction in nonsmokers chronically exposed to tobacco smoke. N. Engl. J. Med., 302:720—723, 1980). Для характеристики состояния дыхательных путей взяли один из показателей функций внешнего дыхания — максимальную объёмную скорость середины выдоха, которую измеряли во время профилактического осмотра сотрудников Калифорнийского университета в Сан-Диего. Уменьшение этого показателя — признак нарушения проходимости дыхательных путей. Данные обследования представлены в таблице. (Таблица по сравнению с книгой упрощена, но данные переданы.)
    Код:
    Группа                               Среднее Стандартное отклонение
    Некурящие
      работающие в помещении, где не курят  3.17       0.74
      работающие в накуренном помещении     2.72       0.71
    Курящие
      выкуривающие небольшое число сигарет  2.63       0.73
      выкуривающие среднее число сигарет    2.29       0.70
      выкуривающие большое число сигарет    2.21       0.72
    Число обследованных в каждой группе равно 200.
    Можно ли считать максимальную скорость середины выдоха одинаковой для всех групп.»

В данном случае $r=5$, $ n_0 = 200$. Выполнив подсчеты как в предыдущем примере, получил расхождение с ответом в книге. А именно, если формально удерживать в вычислениях только две цифры, то $f^*=60$, три цифры — $f^*=56.9$, четыре цифры — $f^*= 56.73$, В книге: $64.18$.

Для вычисления межгрупповой суммы квадратов отклонений Стентон в приложении A (с. 423 в электронной версии) записывает межгрупповую сумму квадратов отклонений через «разность квадратов». Это может приводить к ошибкам вычислений, но в данном случае не приводит. При расчете с тремя цифрами у меня получились значения для первого и второго слагаемого: 6880 и 6760. В результате получается $f^* = 57.9$. Если специально вычислять внутригрупповую сумму квадратов отклонений с двумя цифрами, а всё остальное с тремя, то получим $60$.
Пока не нашёл у себя ошибки.


При переписывании условия была допущена ошибка. В последней строке столбца "Среднее" должно быть 2.12. После исправления ответ совпадает с приведенным в книге.

 Профиль  
                  
 
 Re: Дисперсионный анализ
Сообщение20.09.2017, 13:07 
Заслуженный участник
Аватара пользователя


11/03/08
10043
Москва
В последнем столбце не стандартное отклонение, а стандартная ошибка среднего $\sigma_{mean}=\frac {\sigma} {\sqrt n}$
Если учесть этот факт, то ответ уменьшается в 36 раз и равен 60.375, что совпадает с ответом в учебнике, если учесть возможные ошибки округления.

 Профиль  
                  
 
 Re: Дисперсионный анализ
Сообщение20.09.2017, 16:03 
Заслуженный участник


12/07/07
4534
Евгений Машеров, я пропустил этот важный момент. В 3.4 $36f^*=2173.5$ (точно). После деления на 36 и округления получаем 60.37. Все сошлось. Спасибо!

-- Ср 20.09.2017 15:10:21 --

Но в 3.2 так исправить не получается.

 Профиль  
                  
 
 Re: Дисперсионный анализ
Сообщение20.09.2017, 18:21 
Заслуженный участник


12/07/07
4534
В 3.2 допустил ошибку при переписывании условия. В последней строке столбца "Среднее" должно быть не 2.21, а 2.12. После исправления всё с ответом сошлось. Виноват, был невнимательным, каюсь.

 Профиль  
                  
 
 Re: Дисперсионный анализ
Сообщение20.09.2017, 21:45 


19/09/17
3
Евгений Машеров
Спасибо Вам большое!
GAA
Спасибо!

Невнимательность тоже =(

 Профиль  
                  
 
 Re: Дисперсионный анализ [Медико-биологическая статистика]
Сообщение21.09.2017, 08:46 
Заслуженный участник
Аватара пользователя


11/03/08
10043
Москва
Дело в том, что это частое место путаницы - среднеквадратическое отклонение выборки, стандартная ошибка среднего и доверительный интервал. Второе меньше первого в корень из эн раз, третье получается из второго домножением на коэффициент, взятый из таблиц Стьюдента (в предположении нормальности). А при публикации, бывает, указывают нечто $5\pm0.2$, и гадай, что из трёх (или вообще девяносто седьмое, известное лишь автору :wink: )
То, что в одной задаче приведено одно, а в другой другое, полагаю, не небрежность составителя, а педагогический приём - даны, как это часто на практике бывает, полуобработанные данные, и прежде чем завершать обработку, нужно не забыть понять, что, собственно, представлено.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 9 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: talash


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group