2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему
 
 Оценить объем всей совокупности по объему выборки и дублям
Сообщение18.01.2023, 12:01 
Заслуженный участник


08/04/08
8562
Есть известный сюжет в статистике.
Есть город с неизвестным количеством жителей, которое надо найти. Исследователь выбирает жителей города независимо и случайно, с повторением. В результате он набирает некоторую выборку жителей, в которой есть дубли - некоторые жители повторяются. Надо по объему этой выборке и по числу дублей (или по числу уникальных жителей в выборке) оценить количество всех жителей в городе.

И я просто не могу нагуглить эту задачу или найти в книгах - не помню названия и ключевые слова!
Нахожу только какую-то жесть на stats.stackoverflow или жуть вида https://dimchansky.github.io/posts/2014 ... perloglog/
Памагити!! :facepalm:

 Профиль  
                  
 
 Re: Оценить объем всей совокупности по объему выборки и дублям
Сообщение18.01.2023, 12:23 
Заслуженный участник
Аватара пользователя


13/08/08
14495
Мне кажется, что можно так моделировать задачу:Есть число $N$. Исследователь $k$ раз выбирает случайное натуральное число из отрезка $[1,N]$, причём не зная этого $N$. И тут важно (или нет), какая информация ему выдаётся. Количество номеров, встречающихся по одному разу или же полная "гистограмма" — в выборке из 1000 номеров 666 одиночных, 120 двойных, 26 тройных и один встретился 16 раз, выскочка.
Потом можно сравнивать :?: :?: :?:

 Профиль  
                  
 
 Re: Оценить объем всей совокупности по объему выборки и дублям
Сообщение18.01.2023, 12:49 
Заслуженный участник
Аватара пользователя


11/03/08
9904
Москва
"Учет численности стада путем мечения"
http://aqualib.ru/books/item/f00/s00/z0 ... t075.shtml

 Профиль  
                  
 
 Re: Оценить объем всей совокупности по объему выборки и дублям
Сообщение18.01.2023, 13:45 
Заслуженный участник


08/04/08
8562
Забыл сказать - желательна оценка ошибки погрешности такого метода. Т.е. ясно, что пока у нас вообще нет дублей, мы оценку сверху на количество жителей города сделать вообще не можем.

gris в сообщении #1577737 писал(а):
И тут важно (или нет), какая информация ему выдаётся. Количество номеров, встречающихся по одному разу или же полная "гистограмма" — в выборке из 1000 номеров 666 одиночных, 120 двойных, 26 тройных и один встретился 16 раз, выскочка.
Давайте считать, что у нас есть вся гистограмма (просто потому что у нас есть вся выборка)

Евгений Машеров в сообщении #1577750 писал(а):
"Учет численности стада путем мечения" http://aqualib.ru/books/item/f00/s00/z0 ... t075.shtml
Если я не ошибся, то это немного не та история :)
Насколько я понял, тут есть 2 независимые выборки:
1) выловленные
2) помеченные
По одной выборке считаем долю дублей и переносим ее на другую выборку за счет независимости.
А у меня выборка всего одна.
Или я не понимаю?
В формуле 4 числа, а у меня есть всего 2.

 Профиль  
                  
 
 Re: Оценить объем всей совокупности по объему выборки и дублям
Сообщение18.01.2023, 14:02 
Заслуженный участник
Аватара пользователя


11/03/08
9904
Москва
А Вы просто считайте всякого попавшего в выборку помеченным.

 Профиль  
                  
 
 Re: Оценить объем всей совокупности по объему выборки и дублям
Сообщение18.01.2023, 16:56 
Заслуженный участник


18/09/21
1756
Можно самостоятельно прикинуть.
Опустим хвост гистограммы, считая количество опрошенных $n$ много меньше полного количества $N$.
Т.е. учитываем только тех, кто был опрошен дважды, считая матожидание количества тех кто был опрошен более дух раз исчезающе малым.

Вероятность для данного человека быть опрошенным за 1 раз $\frac{1}{N}$.
Матожидание количества раз быть опрошенным для него за $n$ раз будет примерно $\frac{n}{N}$.
Суммируем эти матожидания по всем людям, будет $N\frac{n}{N}=n$.

Вероятность для данного человека быть опрошенным дважды после $n$ опросов примерно $\frac{n^2}{2N^2}$ (оно же матожидание количества).
Суммируем эти матожидания по всем людям, будет $N\frac{n^2}{2N^2}=\frac{n^2}{2N}$.

Т.е. оценка для $N$ будет $\frac{n^2}{2n_2}$.

Для точности $n_2$ должно быть большим (но не слишком, чтобы хвост гистограммы не мешал). Его вариация примерно $\sqrt{n_2}$.
Относительная погрешность для оценки $N$ примерно $\frac{1}{\sqrt n_2}$

 Профиль  
                  
 
 Re: Оценить объем всей совокупности по объему выборки и дублям
Сообщение18.01.2023, 17:52 
Заслуженный участник
Аватара пользователя


13/08/08
14495
позволю себе помоделировать честно 10 раз по сорок
for 40 numbers look at: 1 times, 2 times, etc
32 4
32 4
29 4 1
32 4
34 3
29 4 1
27 3 1 1
30 5
32 4
32 4

И сколько всего народу?
для пущей статистики
for 60 numbers look at: 1 times, 2 times, etc
44 8
for 80 numbers look at: 1 times, 2 times, etc
39 16 3

 Профиль  
                  
 
 Re: Оценить объем всей совокупности по объему выборки и дублям
Сообщение18.01.2023, 17:58 
Заслуженный участник


18/09/21
1756
$\frac{40^2}{2\cdot 4}=200$

 Профиль  
                  
 
 Re: Оценить объем всей совокупности по объему выборки и дублям
Сообщение18.01.2023, 18:36 
Заслуженный участник
Аватара пользователя


13/08/08
14495
я бы хвост учитывал как двушки :?:
тогда будет $\dfrac{40^2}9\approx 177$
довольно близко! 164.
формула работает :!:
а вот если $N\gg n$?
увеличим надои!
for 300 numbers look at: 1 times, 2 times, etc
266 14 2

$\dfrac{300^2}{2\cdot 16}\approx 2800\;\mathrm{vs}\;2342$
Ура, товарищи! <бпапво>

 Профиль  
                  
 
 Re: Оценить объем всей совокупности по объему выборки и дублям
Сообщение21.01.2023, 18:48 
Заслуженный участник


08/04/08
8562
Ладно, ссылки никто не дает. Видимо действительно придется решать самим.

Я благодарю всех за помощь, но текущее решение меня не удовлетворяет: соотношения используют условия и недостаточно точны. Поэтому буду пилить дальше.
Я нашел следующее.
Обозначим $p(s,n)$ - вероятность получить ровно $s$ уникальных значений в выборке из $n$ элементов. $a^{\underline{b}}:=a(a-1)...(a-b+1)$
Тогда $p(s,n)=\dfrac{N^{\underline{s}}}{N^n}\left\{n\atop k\right\}$, где $\left\{n\atop s\right\}$ - числа Стирлинга 2-го рода.
Теперь, по идее, мы должны оценить $N$ методом максимального правдоподобия. Чтобы заюзать ММП нужна какая-то статистика, но у меня всего 2 числа: $n, s$, ну или максимум гистограмма, но чего-то другого. Можно выборку нарезать на куски, но так мы не учтем часть информации о дублях между кусками выборки. Можно найти $\arg\max\limits_{N} p(s,n,N)$, но это будет только точечная оценка, а желательна интервальная с какой-то точностью.
Если кто знает, пните в нужном направлении, пожалуйста.

 Профиль  
                  
 
 Re: Оценить объем всей совокупности по объему выборки и дублям
Сообщение21.01.2023, 19:04 


10/03/16
4444
Aeroport
Sonic86 в сообщении #1578218 писал(а):
Теперь, по идее, мы должны оценить $N$ методом максимального правдоподобия. Чтобы заюзать ММП нужна какая-то статистика, но у меня всего 2 числа: $n, s$, ну или максимум гистограмма, но чего-то другого.


Я скорее всего идиот, но вот что мне подумалось: ваша вероятность

Sonic86 в сообщении #1578218 писал(а):
$p(s,n)=\dfrac{N^{\underline{s}}}{N^n}\left\{n\atop k\right\}$


зависит от трех чисел: $n, s$ и $N$. (Там, кста, скорее всего ошибка - $k$ вместо $s$.) И когда Вы подставите свои $n$ и $s$, она превратится в функцию одной переменной $N$. Найдя, при каком аргументе она достигает максимума, Вы получите ММП-оценку. Не так? :o

Другое дело, что там может быть ряд максимумов более-менее одной высоты, но сам принцип?

 Профиль  
                  
 
 Re: Оценить объем всей совокупности по объему выборки и дублям
Сообщение21.01.2023, 21:25 
Заслуженный участник


08/04/08
8562
ozheredov в сообщении #1578219 писал(а):
Там, кста, скорее всего ошибка - $k$ вместо $s$.
Спасибо, исправил.

Sonic86 в сообщении #1578218 писал(а):
Тогда $p(s,n)=\dfrac{N^{\underline{s}}}{N^n}\left\{n\atop k\right\}$, где $\left\{n\atop s\right\}$ - числа Стирлинга 2-го рода.
Правильно читать $p(s,n)=\dfrac{N^{\underline{s}}}{N^n}\left\{n\atop s\right\}$, где $\left\{n\atop s\right\}$ - числа Стирлинга 2-го рода.

ozheredov в сообщении #1578219 писал(а):
зависит от трех чисел: $n, s$ и $N$.
ну да: зависит, от трех.

ozheredov в сообщении #1578219 писал(а):
И когда Вы подставите свои $n$ и $s$, она превратится в функцию одной переменной $N$. Найдя, при каком аргументе она достигает максимума, Вы получите ММП-оценку. Не так? :o
Так, только она точечная будет. Хотя надо же с чего-то начинать. Попробую...

-- Сб янв 21, 2023 19:08:10 --

Вот если грубо делать, то получим похожую оценку:

$\frac{N^{\underline{s}}}{N^n} \to \max$
$-n \ln N + \sum\limits_{k=0}^{s-1} \ln (N-k) \to \max$
$\frac{d}{dN}:$
$-\frac{n}{N} + \sum\limits_{k=0}^{s-1} \frac{1}{N-k}=0$
1-е слагаемое только растет, 2-е при $N\geqslant s$ падает, значит корень (и максимум) единственный
Сумму оценим грубо: $\sum\limits_{k=0}^{s-1} \frac{1}{N-k} \approx \frac{s}{N-s/2}$
$\frac{n}{N}=\frac{s}{N-s/2}$
$n(N-s/2)=Ns$
$N(n-s)=ns/2$
$N\approx\frac{ns}{2(n-s)}$
Сравним с решением выше: $n-s=n_2$, а при небольших $n_2$ получим $s = n-n_2\sim n$, значит снова $N=\frac{n^2}{2n_2}$ (значит вряд ли я ошибся), но у меня можно получить бОльшую точность + мне не нужна гипотеза о небольших $n_2$ и что-то там еще.

Остается интервал. А как его искать? я не знаю...

 Профиль  
                  
 
 Re: Оценить объем всей совокупности по объему выборки и дублям
Сообщение21.01.2023, 22:26 
Заслуженный участник


08/04/08
8562
Чуть получше - грубая оценка не нужна:
$-\frac{n}{N} + \sum\limits_{k=0}^{s-1} \frac{1}{N-k}=0$
$\frac{n}{N}=\sum\limits_{k=0}^{s-1} \frac{1}{N-k}$
$n=\sum\limits_{k=0}^{s-1} \frac{1}{1-k/N}=\sum\limits_{k=0}^{s-1} 1 + \frac{k}{N} + O(N^{-2}) = s + \frac{s(s-1)}{2N} + O(sN^{-2})$
$n\approx s + \frac{s(s-1)}{2N}$
$N\approx \frac{s(s-1)}{2(n-s)}$

 Профиль  
                  
 
 Re: Оценить объем всей совокупности по объему выборки и дублям
Сообщение23.01.2023, 22:05 
Заслуженный участник
Аватара пользователя


07/03/06
1898
Москва
Можно свести к тождественной формулировке:
"В корзине имеется $N$ шаров, $n$ раз мы вынимаем из корзины по одному шару, помечаем его, если он не был помечен, и возвращаем обратно в корзину. По результату этого эксперимента мы фиксируем число $s$ - сколько раз из этих $n$ был выбран помеченный шар. "
Обозначим через $p(N,n,s)$ - вероятность получить в $n$ экспериментах $s$ помеченных шаров.

У меня получилась следующая рекуррентная формула (страшненькая, но точная):

$$p(N,n,s)=\frac{N-s+1}{N}\cdot p(N,n-1,s-1)+\frac{s}{N}\cdot p(N,n-1,s),$$
$$p(N,n,1)=\frac{1}{N^{n-1}},p(N,n,n)=\frac{(N-1)!}{(N-n)!\cdot N^{n-1}}$$

Тут еще вопрос, что делать, если $n>N$, но вроде она работает и в этом случае.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 14 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
cron
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group