Задачи по мат. статистике на проверку гипотез.

Voxman · 04/05/12 5

Здравствуйте!

Помогите, пожалуйста, понять условие следующих задач (плохо владею английским языком): 1) ... randomly selected a sample of 200 accounts each for A and B. ... 79 percent of the accounts opened when A, and 89 percent of accounts opened when B over a 6-month period. Use these data to test whether Px 79 percent is statistically different from Py 89 percent. Do a 5 percent test.

Что требуется проверить?

2) n - 100, выборочное среднее 1075, дисперсия (standart deviation) 100. Use a 0,05 - level of significance (уровень значимости гипотезы) to test the hypothesis that mean is greather than 1000.

Если ... does not know ... standart deviation... uses sample standart deviations (выборочная дисперсия, или исправленное выборочная дисперсия?) Измениться ли ответ задачи, или нет?

Как я думаю, когда нам известна дисперсия, мы используем такой критерий статистики:
$U = \frac{\bar{x}-a_0}{ \sigma} \cdot \sqrt{n}$

Если исправленная выборочная дисперсия, то:
$T = \frac{\bar{x}-a_0}{ s} \cdot \sqrt{n}$

И к тому же для проверки в одном случае используется функция Лапласа, а в другом критические точки распределения Стьюдента.

Как мне это можно использовать?

--mS-- · 23/11/06 4171

1) Есть две независимых бернуллиевских выборки, каждая объёмом $200$ . В первой $79\%$ единиц, во второй $89\%$ . Проверить, являются ли эти различия статистически значимыми на уровне пять процентов.

Voxman в сообщении #567374 писал(а):

Если ... does not know ... standart deviation... uses sample standart deviations (выборочная дисперсия, или исправленное выборочная дисперсия?) Измениться ли ответ задачи, или нет?

Как я думаю, когда нам известна дисперсия, мы используем такой критерий статистики:
$U = \frac{\bar{x}-a_0}{ \sigma} \cdot \sqrt{n}$

Если исправленная выборочная дисперсия, то:
$T = \frac{\bar{x}-a_0}{ s} \cdot \sqrt{n}$

И к тому же для проверки в одном случае используется функция Лапласа, а в другом критические точки распределения Стьюдента.

Как мне это можно использовать?

Если исправленная выборочная дисперсия дана, посчитать статистику критерия и квантили указанных распределений уровня $0{,}95$ . Проверить, принимается ли гипотеза в том и другом случаях, и ответить, изменится ли вывод.

Voxman · 04/05/12 5

--mS-- в сообщении #567442 писал(а):

1) Есть две независимых бернуллиевских выборки, каждая объёмом $200$ . В первой $79\%$ единиц, во второй $89\%$ . Проверить, являются ли эти различия статистически значимыми на уровне пять процентов.

Voxman в сообщении #567374 писал(а):

Если ... does not know ... standart deviation... uses sample standart deviations (выборочная дисперсия, или исправленное выборочная дисперсия?) Измениться ли ответ задачи, или нет?

Как я думаю, когда нам известна дисперсия, мы используем такой критерий статистики:
$U = \frac{\bar{x}-a_0}{ \sigma} \cdot \sqrt{n}$

Если исправленная выборочная дисперсия, то:
$T = \frac{\bar{x}-a_0}{ s} \cdot \sqrt{n}$

И к тому же для проверки в одном случае используется функция Лапласа, а в другом критические точки распределения Стьюдента.

Как мне это можно использовать?

Если исправленная выборочная дисперсия дана, посчитать статистику критерия и квантили указанных распределений уровня $0{,}95$ . Проверить, принимается ли гипотеза в том и другом случаях, и ответить, изменится ли вывод.

Спасибо за ответ.

2) Не дано конкретное значение исправленной выборочной дисперсии, и взять его не откуда.

Там, дословно, написано так: suppose that the quality control engineer in question #задачи does not what the standard deviation is and therefore uses the sample standart deviation. Does your answer to question #вопроса change? Why or why not?

Задача на которую ссылаются вот: A quality control engineer is interested in testing the mean life of light bulbs. A sample 100 light bulbs is taken, and the sample mean of these light bulbs is found to be 1075 hours. Suppose the standart deviation is known and is 100 hours. Use a .05 level of significance to test the hypothesis that mean life of the new bulbs is greater than 1000 hours.

Вот её решение:

$n = 100, \sigma^2 = 100, \sigma = 10, \sqrt{n} = 10, \bar{x} = 1075, \theta_0 = 1000, \alpha = 0.05$
$H_0 : \theta > \theta_0, H_1 : \theta \leqslant \theta_0$
$U = \frac {\bar{x} - \theta_0 }{ \sigma} \sqrt{n} = \frac {1075-1000}{10} 10 = 75$
$\Phi_0(\mu_{kr}) = \frac{1}{2} - \alpha = 0.45, \mu_{kr} = 1.645$
$U > -1.645,$ значит гипотеза $H_0$ верна для $\alpha = 0.05$

Но меня это решение смущает в нескольких местах:
1) Для произвольного $\alpha$ гипотеза $H_0$ будет верна.
2) Не очень понимаю, почему при выборе такой гипотезы, надо брать такую тестовую статистику и как искать $\mu_{kr}$ . Смотрел в несколько учебников, но, честно говоря, не очень понял.

3) У меня были и другие задачи, но я их решил, правда я не уверен, что правильно понял условия, вот:

When we construct a 90 percent confidence interval for, say, a mean, we build a range that has an upper bound and a lower bound, and we write the confidence interval as

$P(lower bound < mean < upper bound) = 90%$

Would you say the probability that the mean occurs between the upper and lower bounds is 90 percent?

Ответ: Нет, я хочу сказать, что доверительная вероятность 90% указывает на то, что если произведено достаточно большое число выборок (одинакового объёма), то в 90% оцениваемый параметр будет заключён в интервале (lower bound, upper bound), в 10% случаев он может выйти за доверительный интервал.

Александрович · 21/01/09 3948 Дивногорск

Voxman в сообщении #567374 писал(а):

Если ... does not know ... standart deviation... uses sample standart deviations (выборочная дисперсия, или исправленное выборочная дисперсия?)

Исправленная.

-- Сб май 05, 2012 10:45:03 --

Voxman в сообщении #567452 писал(а):

Ответ: Нет, я хочу сказать, что доверительная вероятность 90% указывает на то, что если произведено достаточно большое число выборок (одинакового объёма), то в 90% оцениваемый параметр будет заключён в интервале (lower bound, upper bound), в 10% случаев он может выйти за доверительный интервал.

Доверительный интервал накрывает матожидание в 90% случаев.

--mS-- · 23/11/06 4171

Voxman в сообщении #567452 писал(а):

Там, дословно, написано так: suppose that the quality control engineer in question #задачи does not what the standard deviation is and therefore uses the sample standart deviation. Does your answer to question #вопроса change? Why or why not?

Положительной-то статистика критерия останется в любом случае, так что ответ не изменится.

Voxman в сообщении #567452 писал(а):

Вот её решение:

$n = 100, \sigma^2 = 100, \sigma = 10, \sqrt{n} = 10, \bar{x} = 1075, \theta_0 = 1000, \alpha = 0.05$

Стандартное отклонение - это $\sigma$ , а не $\sigma^2$ . Соответственно, $U=7.5$ .

Voxman в сообщении #567452 писал(а):

Но меня это решение смущает в нескольких местах:
1) Для произвольного $\alpha$ гипотеза $H_0$ будет верна.

И это логично. В статистике всегда нужны очень веские основания, чтобы отвергнуть проверяемую гипотезу. Таким основанием могло бы быть значение выборочного среднего существенно меньшее, чем предполагаемая нижняя граница. У нас же - большее. Вообще ни одного основания нет отвергнуть гипотезу.

Voxman в сообщении #567452 писал(а):

2) Не очень понимаю, почему при выборе такой гипотезы, надо брать такую тестовую статистику и как искать $\mu_{kr}$ . Смотрел в несколько учебников, но, честно говоря, не очень понял.

Выше критическое значение Вы правильно искали.

По поводу статистики: Вам шашечки или ехать? :-)

Если шашечки, то ответ такой: потому что наиболее мощный критерий, построенный по лемме Неймана - Пирсона (как критерий отношения правдоподобия) для проверки гипотезы $\{\theta=\theta_0\}$ при альтернативе $\{\theta=\theta_1 < \theta_0\}$ является, из-за монотонности отношения правдоподобия, равномерно наиболее мощным критерием для проверки гипотезы $\{\theta > \theta_0\}$ при альтернативе $\{\theta \leqslant \theta_0\}$ . См., например, теорему 1 параграфа 5 гл.3 учебника А.А.Боровкова "Математическая статистика" (1984). А этот критерий как раз и есть критерий с критической областью (областью принятия альтернативы) вида $\overline x \leqslant C$ , или $\frac{\overline x - \theta_0}{\sigma}\sqrt{n} \leqslant -\mu_{kr}$ , где $-\mu_{kr}$ - квантиль стандартного нормального распределения уровня $\alpha$ , т.е. такая точка, что вероятность стандартной нормальной величине быть меньше неё равна $\alpha$ .

Если "ехать", то ответ проще. Гипотеза $\{\theta > \theta_0\}$ должна приниматься, когда выборочное среднее больше чего-либо, альтернатива $\{\theta \leqslant \theta_0\}$ - наоборот, когда среднее меньше либо равно чего-либо. Поэтому критическая область должна иметь вид $\overline x \leqslant C$ .

Основная гипотеза у нас является не простой, а сложной: она включает все нормальные распределения $\textrm N(\theta,\sigma^2), \theta > \theta_0$ . Уровень значимости критерия (ошибка 1-го рода) есть супремум по всем $\theta > \theta_0$ вероятности попадания в критическую область: $\alpha = \sup_{\theta >\theta_0}\mathsf P_{\textrm N(\theta,\sigma^2)}(\overline x < C)$ . Этот супремум достигается, очевидно, на границе - при $\theta=\theta_0$ .

Чтобы теперь вероятность попадания в критическую область $\mathsf P_{\theta=\theta_0}(\overline x < C)$ равнялась альфа, нужно воспользоваться свойствами нормального распределения и выразить эту вероятность через функцию распределения стандартного нормального закона. Величина $\overline x$ под знаком вероятности имеет нормальное распределение с параметрами $\theta_0$ и $\frac{\sigma^2}{n}$ . Поэтому неравенство $\overline x < C$ можно преобразовать к виду $U=\frac{\overline x - \theta_0}{\sigma}\sqrt{n} < \frac{C-\theta_0}{\sigma}\sqrt{n}=-\mu_{kr}$ , где левая часть имеет нормальное стандартное распределение, и вероятность этого неравенства как раз и должна равняться альфа.

Voxman в сообщении #567452 писал(а):

Would you say the probability that the mean occurs between the upper and lower bounds is 90 percent?

Ответ: Нет, я хочу сказать, что доверительная вероятность 90% указывает на то, что если произведено достаточно большое число выборок (одинакового объёма), то в 90% оцениваемый параметр будет заключён в интервале (lower bound, upper bound), в 10% случаев он может выйти за доверительный интервал.

Это верно. Не очень понятно, что имеется в виду под нижней и верхней границами - то ли это случайные величины, то ли уже числа для конкретных числовых выборок. Если числа - то Ваш ответ верен, если случайные величины, то я бы (как и Александрович сообщением выше) ждала другой ответ: "нет, т.к. параметр (истинное среднее) не является случайной величиной (а лишь неизвестным числом), он не может попасть или не попасть в доверительный интервал. Это доверительный интервал с вероятностью 0,9 накрывает или не накрывает это число".

Научный форум dxdy

Правила форума

Задачи по мат. статистике на проверку гипотез.

Кто сейчас на конференции