2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему
 
 Дисперсионный анализ [Медико-биологическая статистика]
Сообщение19.09.2017, 15:42 


19/09/17
3
Всем добрый день!
Прошу форумчан в помощи при решении задачи 3.4 из книги "Медико-биологическая статистика Стэнтона Гланца"

Задача:
Марихуана — наркотик, поэтому исследовать курение марихуаны на добровольцах невозможно. Исследования такого рода проводят на лабораторных животных. Г. Хубер и соавт. (G. Huber et al. Marijuana, tetrahydrocannabinol, and pulmonary arterial antibacterial defenses. Chest, 77:403—410, 1980) изучали влияние марихуаны на антибактериальную защиту у крыс. После ингаляционного введения бактерий крыс помещали в камеру, где специальная машина окуривала их сигаретами с марихуаной. Забив крыс, исследователи извлекали легкие и подсчиты- вали процент погибших бактерий, который и служил показателем состояния антибактериальной защиты. Чтобы установить, что именно влияет на антибактериальную защиту — тетрагидроканнабинолы (вещества, которые обусловливают наркотическое действие марихуаны) или просто дым одну из групп окури- вали сигаретами, из которых тетрагидроканнабинолы были удалены. В каждой группе было по 36 крыс. Являются ли различия статистически значимыми?
Изображение

Мое текущее решение:
Для проведения дисперсионного анализа я нахожу внутригрупповую дисперсию и междугрупповую, чтобы поделить их друг на друга и получить значение F.
$S_{w} =  380.8$
$S_{b} =  20269.44$
$df_{w} =  245$
$df_{b} =  6$
Количество степеней свободы у меня совпадают с ответом, но итоговый F у меня с ответом не совпадает.(2173.5 против 60.37 в ответе)
Подскажите, в чем я ошибся,пожалуйста.

 Профиль  
                  
 
 Re: Дисперсионный анализ
Сообщение19.09.2017, 22:46 
Заслуженный участник


12/07/07
4448
У меня получилось то же значение отношения.
Я напомню себе формулы в общем случае, а потом перейду к частному случаю.
В общем случае
Обозначения
$r$ — число групп; $n_i$ — число наблюдений в $i$-ой группе; $n = \sum_{i=1}^r n_i$ — общее число элементов.
$S_{\text{int}}^2$ — внутригрупповая «сумма квадратов отклонений», делённая на ранг соответствующей формы;
$S_e^2$ — межгрупповая «сумма квадратов отклонений», делённая на ранг соответствующей формы.

$S_{\text{int}}^2 = \frac 1 {n-r} \sum\limits_{i=1}^r \sum\limits_{j=1}^{n_i} (X_{ij} - \bar X_i)^2$, где $\bar X_i = \frac 1 {n_i} \sum\limits_{j=1}^{n_i} X_{ij}$, $\bar X = \frac 1 {n} \sum\limits_{i=1}^r\sum\limits_{j=1}^{n_i} X_{ij}$
или
$S_{\text{int}}^2 = \frac 1 {n-r} \sum\limits_{i=1}^r (n_i-1) S_i^2$, где $S_{i}^2 = \frac 1 {n_i - 1} \sum\limits_{j=1}^{n_i} (X_{ij} - \bar X_i)^2$.
$S_e^2 = \frac 1 {r-1}\sum\limits_{i=1}^r n_i(\bar X_i - \bar X)^2$.

Если все группы содержат одно число наблюдений $n_0$, то выражение для $S_{\text{int}}^2$ упрощается
$S_{\text{int}}^2 = \frac {n_0-1} {n_0r - r} \sum\limits_{i=1}^r S_i^2 = \frac 1 r \sum\limits_{i=1}^r S_i^2$.

В данном случае $n_0 = 36$, $r=7$.
$s_{\text{int}}^2 \approx 1.554285714$, $ s_e^2 \approx 3378.24 $, $f^*= s_e^2/s_{\text{int}}^2 \approx 2173.5$.

(Вроде без опечаток набрал, но всё может быть. [Upd] Потерял в одной из формул квадрат. Но в расчетах это не участвовало. Результаты не изменились. Просто при наборе формул в сообщении забыл добавить. Исправил на следующий день. [/Upd])

 Профиль  
                  
 
 Re: Дисперсионный анализ
Сообщение20.09.2017, 07:20 


19/09/17
3
GAA, спасибо большое за помощь.
И у меня такие же цифры по сумме квадратов отклонений по внутригрупповой и межгрупповой дисперсии. Я вот думаю, что здесь наверно в качестве независимой переменной нужно также брать и количество сигарет, и наличие в них тетрагидроканнабинолов...Учитывать и их влияние...
Это получается многофакторный дисп. анализ, я пока такой не умею проводить.)

 Профиль  
                  
 
 Re: Дисперсионный анализ
Сообщение20.09.2017, 12:34 
Заслуженный участник


12/07/07
4448
Для сравнения посмотрел задачу 3.2 из той же книги.
    «Курение считают основным фактором, предрасполагающим к хроническим обструктивным заболеваниям легких. Что касается пассивного курения, оно таким фактором обычно не считаетчя. Дж. Уайт и Г. Фреб усомнились в безвредности пассивного курения и исследовали проходимость дыхательных путей у некурящих, пассивных и активных курильщиков (J. White, H. Froeb. Small-airways dysfunction in nonsmokers chronically exposed to tobacco smoke. N. Engl. J. Med., 302:720—723, 1980). Для характеристики состояния дыхательных путей взяли один из показателей функций внешнего дыхания — максимальную объёмную скорость середины выдоха, которую измеряли во время профилактического осмотра сотрудников Калифорнийского университета в Сан-Диего. Уменьшение этого показателя — признак нарушения проходимости дыхательных путей. Данные обследования представлены в таблице. (Таблица по сравнению с книгой упрощена, но данные переданы.)
    Код:
    Группа                               Среднее Стандартное отклонение
    Некурящие
      работающие в помещении, где не курят  3.17       0.74
      работающие в накуренном помещении     2.72       0.71
    Курящие
      выкуривающие небольшое число сигарет  2.63       0.73
      выкуривающие среднее число сигарет    2.29       0.70
      выкуривающие большое число сигарет    2.21       0.72
    Число обследованных в каждой группе равно 200.
    Можно ли считать максимальную скорость середины выдоха одинаковой для всех групп.»

В данном случае $r=5$, $ n_0 = 200$. Выполнив подсчеты как в предыдущем примере, получил расхождение с ответом в книге. А именно, если формально удерживать в вычислениях только две цифры, то $f^*=60$, три цифры — $f^*=56.9$, четыре цифры — $f^*= 56.73$, В книге: $64.18$.

Для вычисления межгрупповой суммы квадратов отклонений Стентон в приложении A (с. 423 в электронной версии) записывает межгрупповую сумму квадратов отклонений через «разность квадратов». Это может приводить к ошибкам вычислений, но в данном случае не приводит. При расчете с тремя цифрами у меня получились значения для первого и второго слагаемого: 6880 и 6760. В результате получается $f^* = 57.9$. Если специально вычислять внутригрупповую сумму квадратов отклонений с двумя цифрами, а всё остальное с тремя, то получим $60$.
Пока не нашёл у себя ошибки.


При переписывании условия была допущена ошибка. В последней строке столбца "Среднее" должно быть 2.12. После исправления ответ совпадает с приведенным в книге.

 Профиль  
                  
 
 Re: Дисперсионный анализ
Сообщение20.09.2017, 13:07 
Заслуженный участник
Аватара пользователя


11/03/08
9541
Москва
В последнем столбце не стандартное отклонение, а стандартная ошибка среднего $\sigma_{mean}=\frac {\sigma} {\sqrt n}$
Если учесть этот факт, то ответ уменьшается в 36 раз и равен 60.375, что совпадает с ответом в учебнике, если учесть возможные ошибки округления.

 Профиль  
                  
 
 Re: Дисперсионный анализ
Сообщение20.09.2017, 16:03 
Заслуженный участник


12/07/07
4448
Евгений Машеров, я пропустил этот важный момент. В 3.4 $36f^*=2173.5$ (точно). После деления на 36 и округления получаем 60.37. Все сошлось. Спасибо!

-- Ср 20.09.2017 15:10:21 --

Но в 3.2 так исправить не получается.

 Профиль  
                  
 
 Re: Дисперсионный анализ
Сообщение20.09.2017, 18:21 
Заслуженный участник


12/07/07
4448
В 3.2 допустил ошибку при переписывании условия. В последней строке столбца "Среднее" должно быть не 2.21, а 2.12. После исправления всё с ответом сошлось. Виноват, был невнимательным, каюсь.

 Профиль  
                  
 
 Re: Дисперсионный анализ
Сообщение20.09.2017, 21:45 


19/09/17
3
Евгений Машеров
Спасибо Вам большое!
GAA
Спасибо!

Невнимательность тоже =(

 Профиль  
                  
 
 Re: Дисперсионный анализ [Медико-биологическая статистика]
Сообщение21.09.2017, 08:46 
Заслуженный участник
Аватара пользователя


11/03/08
9541
Москва
Дело в том, что это частое место путаницы - среднеквадратическое отклонение выборки, стандартная ошибка среднего и доверительный интервал. Второе меньше первого в корень из эн раз, третье получается из второго домножением на коэффициент, взятый из таблиц Стьюдента (в предположении нормальности). А при публикации, бывает, указывают нечто $5\pm0.2$, и гадай, что из трёх (или вообще девяносто седьмое, известное лишь автору :wink: )
То, что в одной задаче приведено одно, а в другой другое, полагаю, не небрежность составителя, а педагогический приём - даны, как это часто на практике бывает, полуобработанные данные, и прежде чем завершать обработку, нужно не забыть понять, что, собственно, представлено.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 9 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group