2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


В этом разделе нельзя создавать новые темы.



Начать новую тему Ответить на тему
 
 Объём выборки раз и навсегда
Сообщение24.11.2007, 12:48 
Аватара пользователя


06/01/06
967
Многие учебные задачки содержат примерно такие условия: "... Провели проверку выборки объёмом в 100 лампочек. Ровно 11 из них не горят. ..."
Почему 100? Почему не 99 или не 98?

С лампочками или какими-нибудь деталями можно ещё допустить завышенный объём выборки. А как поступать в случае, например, испытания нового медицинского препарата на добровольцах? Ведь в этом случае каждый испытуемый на счету, т.к. медикамент ещё не производится массово и поэтому очень дорог.

Поэтому хотелось бы иметь простые и надёжные формулы для определения объёма выборки (sample size) для любой ситуации. Кто знает, где можно найти в интернете эту информацию в доступной для понимания форме?

Заранее спасибо.


Цитата:
Объём выборки
Объём выборки — число случаев, включённых в выборочную совокупность. Из статистических соображений рекомендуется, чтобы число случаев составляло не менее 30—35.

Википедия
:cry:

 Профиль  
                  
 
 Re: Объём выборки раз и навсегда
Сообщение24.11.2007, 14:11 
Заслуженный участник


15/05/05
3445
USA
faruk писал(а):
...хотелось бы иметь простые и надёжные формулы для определения объёма выборки для любой ситуации. Кто знает, где можно найти в интернете эту информацию в доступной для понимания форме?

Такая формула "для любой ситуации" вряд ли существует. Пусть у Вас есть две выборки, контрольная и экспериментальная. Вы хотите выяснить, насколько значима разница средних по группам значений измеряемого параметра. Тогда Вам нужно применить критерий Стьюдента. Проблема в том, что уровень значимости зависит не только от заранее определяемых размеров выборок, но и от фактической разницы между вычисленными средними, полученной по рез-там эксперимента.

Весь этот круг вопросов изучается в математической статистике (theoretical statistics). Любой учебник подойдет, но есть и специальные, вроде "Статистика для биологов", "Медицинская статистика".

Самое сложное в Вашем вопросе - это требование "в доступной для понимания форме". Очень уж оно нечеткое. Статья "Sample size" из Википедии - это доступная форма или нет? В этой статье есть ссылки на две статьи, посвященные Вашему вопросу: "NIST: Selecting Sample Sizes" и "Raven Analytics: Sample Size Calculations" - Вы их прочитали?

 Профиль  
                  
 
 
Сообщение24.11.2007, 22:22 


10/01/07
285
Санкт-Петербург
В практических расчетах зачастую используется минимальный объем выборки, обеспечивающий требуемую "точность" вычислений и "достоверность" (вероятностью обеспечения этой "точности").
Кроме того, есть теория планирования эксперимента, часть которой посвящена интересующему вас вопросу.
Ну и, наконец, есть теория статистических решений. Например, вот очень хорошая и доступная для понимания книжка: М. Де Гроот. Оптимальные статистические решения. М., 1974.

 Профиль  
                  
 
 
Сообщение24.11.2007, 22:27 
Супермодератор
Аватара пользователя


29/07/05
8248
Москва
Совсем универсального не бывает. В разных задачах по-разному. Конечно же, это изучается. Бывает так, что можно заранее (до получения собственно данных) указать зависимость точности-надежности от объема выборки. Тогда можно и заранее выбрать минимально возможный объем, удовлетворяющий требованиям. Бывает так, что этом можно сделать приближенно либо получить оценку сверху на этот минимально требуемый объем (т.е. указать такой объем выборки, что его гарантированно хватит, хотя может быть было бы достаточно и меньше).

 Профиль  
                  
 
 
Сообщение27.11.2007, 11:35 


07/02/07
56
В связи с этим, можно поставить вопрос следующим образом
Пусть имеется некий параметр $\theta$, и его оценка $\theta_0$. Известно, что эта оценка сходится к истинному параметру в некотором смысле (пусть для примера почти наверное), т.е. $\theta\to\theta_0$.

Требуется оценить объём выборки, необходимый для обеспечения следующего неравенства
\mathcal{P}\left(|\theta-\theta_0|<\delta\right)=1-\alpha, где
$\alpha,\theta$ - заданные величины.

Вопрос в этой постановке имеет решение (для случая с возвращением и без возвращения, а также для расслоенной и нет выборки). Например, для однослойнной выборки с возвращением определяется след. образом
$n=\left(\frac{z_{1-\frac{\alpha}{2}}}{\delta}\right)^2p(1-p)\leq\left(\frac{z_{1-\frac{\alpha}{2}}}{\delta}^2\right)/4$.

Всё это известно. Эти формулы допускают соответствующее обобщение. Вопрос в другом. Есть ли какие-нибудь способы для связи (определения, оценки и пр.) для величин
$\alpha,\theta$. Понятно, что это дело "заказчиков". В принципе, они могут быть оценены исходя из возможных рисков (затрат) в данном конкретном случае. Но вот есть ли что-нибудь о связи(в некотором смысле оптимальной) между собой этих величин?

 Профиль  
                  
 
 
Сообщение28.11.2007, 15:59 


10/01/07
285
Санкт-Петербург
ZheniaM писал(а):
Но вот есть ли что-нибудь о связи(в некотором смысле оптимальной) между собой этих величин?

По-моему, тут сделать ничего путного нельзя кроме как отослать к упомянутым вами эфемерным "заказчикам". Ну, можно, как любят экономисты, вести некоторое отношение предпочтения (например, посредством функции полезности $U(\delta ,\alpha )$) на множестве ($\delta$, $\alpha$). И для заданного $n$ найти недоминируемую пару ($\delta$,$\alpha$) (максимизировать $U$ по $\delta$, $\alpha$). Или ввести $n$ в число параметров, например, учитывая плату за наблюдение, и найти недоминируемую тройку ($\delta$,$\alpha$,$n$)...

 Профиль  
                  
 
 
Сообщение29.11.2007, 09:10 


07/02/07
56
Ну это да...но тут всё упирается в эту загадочную "функию полезности". Которая не известна. Конечно, есть методы, позволяющие на основе некоторого "анкетирования" узнать функцию полезности "заказчика". Но дело это довольно дорогое, да и зачастую не дающее реального эффекта.

Как мне кажется, всё-таки что-то можно сказать о связи $\alpha$ и $\delta$. Согласитесь, если речь идёт о реальном нахожеднии гарантирующего числа испытаний, то разумно предположить, что $\alpha$ должно быть маленькое, тоесть $1-\alpha$ должно быть порядка 0.99 и выше. Но если это так, то нет никакого смысла выбирать большое $\delta$. Так как при этом теряется весь смысл исследования. Но и выбирать его слишком маленьким тоже не имеет смысла, так как должен существовать некий порог $\delta_0$ зависящий, само собой, от $\alpha$, ниже которого уменьшать не следует, так как это не увеличит точность.

Поэтому, как мне кажется, есть некая связь между этими параметрами. Но вот какая?...и как бы формолизовать этот вопрос?

 Профиль  
                  
 
 
Сообщение29.11.2007, 11:49 


10/01/07
285
Санкт-Петербург
А мне кажется это от лукавого. Любая "оптимальная взаимосвязь" между параметрами будет "оптимальной" лишь для конкретного заказчика.

 Профиль  
                  
 
 
Сообщение29.11.2007, 12:29 


07/02/07
56
Да, конечно от "заказчика". А ещё и от природы самой величины $\theta$, и от стоимости опроса. Это понятно.

Но мне кажется, что можно выделить некий класс задач (например, связанных с обеспечением высокой точности, скажем, посадка самолётов), для которых логичным было бы $\alpha\to 0,\delta\to 0$. Но чем меньше эти параметры, тем больше необходимо опытов. А если затраты (финансовые или временные) на проведение опыта большие, то нужно каким-то образом согласовать эти параметры. А "заказчик", зачастую, не может сказать чему равны эти параметры. Так как для него нет разницы между $1-\alpha=0.99$ и $1-\alpha=0.999$ (Хотя тут можно сделать некую частотную интерпритацию). А вот с $\delta$ сложнее.

Не думаю, что я не первый кто обратил на это внимание. Хотелось бы почитать что-нибудь по этой тематике, или хотя бы ключевые слова для поиска. Если кто-нибудь сталкивался с чем-нибудь подобным - был бы благодарен за информацию.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 9 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group