2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему
 
 Оценить объем всей совокупности по объему выборки и дублям
Сообщение18.01.2023, 12:01 
Заслуженный участник


08/04/08
8556
Есть известный сюжет в статистике.
Есть город с неизвестным количеством жителей, которое надо найти. Исследователь выбирает жителей города независимо и случайно, с повторением. В результате он набирает некоторую выборку жителей, в которой есть дубли - некоторые жители повторяются. Надо по объему этой выборке и по числу дублей (или по числу уникальных жителей в выборке) оценить количество всех жителей в городе.

И я просто не могу нагуглить эту задачу или найти в книгах - не помню названия и ключевые слова!
Нахожу только какую-то жесть на stats.stackoverflow или жуть вида https://dimchansky.github.io/posts/2014 ... perloglog/
Памагити!! :facepalm:

 Профиль  
                  
 
 Re: Оценить объем всей совокупности по объему выборки и дублям
Сообщение18.01.2023, 12:23 
Заслуженный участник
Аватара пользователя


13/08/08
14450
Мне кажется, что можно так моделировать задачу:Есть число $N$. Исследователь $k$ раз выбирает случайное натуральное число из отрезка $[1,N]$, причём не зная этого $N$. И тут важно (или нет), какая информация ему выдаётся. Количество номеров, встречающихся по одному разу или же полная "гистограмма" — в выборке из 1000 номеров 666 одиночных, 120 двойных, 26 тройных и один встретился 16 раз, выскочка.
Потом можно сравнивать :?: :?: :?:

 Профиль  
                  
 
 Re: Оценить объем всей совокупности по объему выборки и дублям
Сообщение18.01.2023, 12:49 
Заслуженный участник
Аватара пользователя


11/03/08
9540
Москва
"Учет численности стада путем мечения"
http://aqualib.ru/books/item/f00/s00/z0 ... t075.shtml

 Профиль  
                  
 
 Re: Оценить объем всей совокупности по объему выборки и дублям
Сообщение18.01.2023, 13:45 
Заслуженный участник


08/04/08
8556
Забыл сказать - желательна оценка ошибки погрешности такого метода. Т.е. ясно, что пока у нас вообще нет дублей, мы оценку сверху на количество жителей города сделать вообще не можем.

gris в сообщении #1577737 писал(а):
И тут важно (или нет), какая информация ему выдаётся. Количество номеров, встречающихся по одному разу или же полная "гистограмма" — в выборке из 1000 номеров 666 одиночных, 120 двойных, 26 тройных и один встретился 16 раз, выскочка.
Давайте считать, что у нас есть вся гистограмма (просто потому что у нас есть вся выборка)

Евгений Машеров в сообщении #1577750 писал(а):
"Учет численности стада путем мечения" http://aqualib.ru/books/item/f00/s00/z0 ... t075.shtml
Если я не ошибся, то это немного не та история :)
Насколько я понял, тут есть 2 независимые выборки:
1) выловленные
2) помеченные
По одной выборке считаем долю дублей и переносим ее на другую выборку за счет независимости.
А у меня выборка всего одна.
Или я не понимаю?
В формуле 4 числа, а у меня есть всего 2.

 Профиль  
                  
 
 Re: Оценить объем всей совокупности по объему выборки и дублям
Сообщение18.01.2023, 14:02 
Заслуженный участник
Аватара пользователя


11/03/08
9540
Москва
А Вы просто считайте всякого попавшего в выборку помеченным.

 Профиль  
                  
 
 Re: Оценить объем всей совокупности по объему выборки и дублям
Сообщение18.01.2023, 16:56 


18/09/21
1683
Можно самостоятельно прикинуть.
Опустим хвост гистограммы, считая количество опрошенных $n$ много меньше полного количества $N$.
Т.е. учитываем только тех, кто был опрошен дважды, считая матожидание количества тех кто был опрошен более дух раз исчезающе малым.

Вероятность для данного человека быть опрошенным за 1 раз $\frac{1}{N}$.
Матожидание количества раз быть опрошенным для него за $n$ раз будет примерно $\frac{n}{N}$.
Суммируем эти матожидания по всем людям, будет $N\frac{n}{N}=n$.

Вероятность для данного человека быть опрошенным дважды после $n$ опросов примерно $\frac{n^2}{2N^2}$ (оно же матожидание количества).
Суммируем эти матожидания по всем людям, будет $N\frac{n^2}{2N^2}=\frac{n^2}{2N}$.

Т.е. оценка для $N$ будет $\frac{n^2}{2n_2}$.

Для точности $n_2$ должно быть большим (но не слишком, чтобы хвост гистограммы не мешал). Его вариация примерно $\sqrt{n_2}$.
Относительная погрешность для оценки $N$ примерно $\frac{1}{\sqrt n_2}$

 Профиль  
                  
 
 Re: Оценить объем всей совокупности по объему выборки и дублям
Сообщение18.01.2023, 17:52 
Заслуженный участник
Аватара пользователя


13/08/08
14450
позволю себе помоделировать честно 10 раз по сорок
for 40 numbers look at: 1 times, 2 times, etc
32 4
32 4
29 4 1
32 4
34 3
29 4 1
27 3 1 1
30 5
32 4
32 4

И сколько всего народу?
для пущей статистики
for 60 numbers look at: 1 times, 2 times, etc
44 8
for 80 numbers look at: 1 times, 2 times, etc
39 16 3

 Профиль  
                  
 
 Re: Оценить объем всей совокупности по объему выборки и дублям
Сообщение18.01.2023, 17:58 


18/09/21
1683
$\frac{40^2}{2\cdot 4}=200$

 Профиль  
                  
 
 Re: Оценить объем всей совокупности по объему выборки и дублям
Сообщение18.01.2023, 18:36 
Заслуженный участник
Аватара пользователя


13/08/08
14450
я бы хвост учитывал как двушки :?:
тогда будет $\dfrac{40^2}9\approx 177$
довольно близко! 164.
формула работает :!:
а вот если $N\gg n$?
увеличим надои!
for 300 numbers look at: 1 times, 2 times, etc
266 14 2

$\dfrac{300^2}{2\cdot 16}\approx 2800\;\mathrm{vs}\;2342$
Ура, товарищи! <бпапво>

 Профиль  
                  
 
 Re: Оценить объем всей совокупности по объему выборки и дублям
Сообщение21.01.2023, 18:48 
Заслуженный участник


08/04/08
8556
Ладно, ссылки никто не дает. Видимо действительно придется решать самим.

Я благодарю всех за помощь, но текущее решение меня не удовлетворяет: соотношения используют условия и недостаточно точны. Поэтому буду пилить дальше.
Я нашел следующее.
Обозначим $p(s,n)$ - вероятность получить ровно $s$ уникальных значений в выборке из $n$ элементов. $a^{\underline{b}}:=a(a-1)...(a-b+1)$
Тогда $p(s,n)=\dfrac{N^{\underline{s}}}{N^n}\left\{n\atop k\right\}$, где $\left\{n\atop s\right\}$ - числа Стирлинга 2-го рода.
Теперь, по идее, мы должны оценить $N$ методом максимального правдоподобия. Чтобы заюзать ММП нужна какая-то статистика, но у меня всего 2 числа: $n, s$, ну или максимум гистограмма, но чего-то другого. Можно выборку нарезать на куски, но так мы не учтем часть информации о дублях между кусками выборки. Можно найти $\arg\max\limits_{N} p(s,n,N)$, но это будет только точечная оценка, а желательна интервальная с какой-то точностью.
Если кто знает, пните в нужном направлении, пожалуйста.

 Профиль  
                  
 
 Re: Оценить объем всей совокупности по объему выборки и дублям
Сообщение21.01.2023, 19:04 


10/03/16
3995
Aeroport
Sonic86 в сообщении #1578218 писал(а):
Теперь, по идее, мы должны оценить $N$ методом максимального правдоподобия. Чтобы заюзать ММП нужна какая-то статистика, но у меня всего 2 числа: $n, s$, ну или максимум гистограмма, но чего-то другого.


Я скорее всего идиот, но вот что мне подумалось: ваша вероятность

Sonic86 в сообщении #1578218 писал(а):
$p(s,n)=\dfrac{N^{\underline{s}}}{N^n}\left\{n\atop k\right\}$


зависит от трех чисел: $n, s$ и $N$. (Там, кста, скорее всего ошибка - $k$ вместо $s$.) И когда Вы подставите свои $n$ и $s$, она превратится в функцию одной переменной $N$. Найдя, при каком аргументе она достигает максимума, Вы получите ММП-оценку. Не так? :o

Другое дело, что там может быть ряд максимумов более-менее одной высоты, но сам принцип?

 Профиль  
                  
 
 Re: Оценить объем всей совокупности по объему выборки и дублям
Сообщение21.01.2023, 21:25 
Заслуженный участник


08/04/08
8556
ozheredov в сообщении #1578219 писал(а):
Там, кста, скорее всего ошибка - $k$ вместо $s$.
Спасибо, исправил.

Sonic86 в сообщении #1578218 писал(а):
Тогда $p(s,n)=\dfrac{N^{\underline{s}}}{N^n}\left\{n\atop k\right\}$, где $\left\{n\atop s\right\}$ - числа Стирлинга 2-го рода.
Правильно читать $p(s,n)=\dfrac{N^{\underline{s}}}{N^n}\left\{n\atop s\right\}$, где $\left\{n\atop s\right\}$ - числа Стирлинга 2-го рода.

ozheredov в сообщении #1578219 писал(а):
зависит от трех чисел: $n, s$ и $N$.
ну да: зависит, от трех.

ozheredov в сообщении #1578219 писал(а):
И когда Вы подставите свои $n$ и $s$, она превратится в функцию одной переменной $N$. Найдя, при каком аргументе она достигает максимума, Вы получите ММП-оценку. Не так? :o
Так, только она точечная будет. Хотя надо же с чего-то начинать. Попробую...

-- Сб янв 21, 2023 19:08:10 --

Вот если грубо делать, то получим похожую оценку:

$\frac{N^{\underline{s}}}{N^n} \to \max$
$-n \ln N + \sum\limits_{k=0}^{s-1} \ln (N-k) \to \max$
$\frac{d}{dN}:$
$-\frac{n}{N} + \sum\limits_{k=0}^{s-1} \frac{1}{N-k}=0$
1-е слагаемое только растет, 2-е при $N\geqslant s$ падает, значит корень (и максимум) единственный
Сумму оценим грубо: $\sum\limits_{k=0}^{s-1} \frac{1}{N-k} \approx \frac{s}{N-s/2}$
$\frac{n}{N}=\frac{s}{N-s/2}$
$n(N-s/2)=Ns$
$N(n-s)=ns/2$
$N\approx\frac{ns}{2(n-s)}$
Сравним с решением выше: $n-s=n_2$, а при небольших $n_2$ получим $s = n-n_2\sim n$, значит снова $N=\frac{n^2}{2n_2}$ (значит вряд ли я ошибся), но у меня можно получить бОльшую точность + мне не нужна гипотеза о небольших $n_2$ и что-то там еще.

Остается интервал. А как его искать? я не знаю...

 Профиль  
                  
 
 Re: Оценить объем всей совокупности по объему выборки и дублям
Сообщение21.01.2023, 22:26 
Заслуженный участник


08/04/08
8556
Чуть получше - грубая оценка не нужна:
$-\frac{n}{N} + \sum\limits_{k=0}^{s-1} \frac{1}{N-k}=0$
$\frac{n}{N}=\sum\limits_{k=0}^{s-1} \frac{1}{N-k}$
$n=\sum\limits_{k=0}^{s-1} \frac{1}{1-k/N}=\sum\limits_{k=0}^{s-1} 1 + \frac{k}{N} + O(N^{-2}) = s + \frac{s(s-1)}{2N} + O(sN^{-2})$
$n\approx s + \frac{s(s-1)}{2N}$
$N\approx \frac{s(s-1)}{2(n-s)}$

 Профиль  
                  
 
 Re: Оценить объем всей совокупности по объему выборки и дублям
Сообщение23.01.2023, 22:05 
Заслуженный участник
Аватара пользователя


07/03/06
1898
Москва
Можно свести к тождественной формулировке:
"В корзине имеется $N$ шаров, $n$ раз мы вынимаем из корзины по одному шару, помечаем его, если он не был помечен, и возвращаем обратно в корзину. По результату этого эксперимента мы фиксируем число $s$ - сколько раз из этих $n$ был выбран помеченный шар. "
Обозначим через $p(N,n,s)$ - вероятность получить в $n$ экспериментах $s$ помеченных шаров.

У меня получилась следующая рекуррентная формула (страшненькая, но точная):

$$p(N,n,s)=\frac{N-s+1}{N}\cdot p(N,n-1,s-1)+\frac{s}{N}\cdot p(N,n-1,s),$$
$$p(N,n,1)=\frac{1}{N^{n-1}},p(N,n,n)=\frac{(N-1)!}{(N-n)!\cdot N^{n-1}}$$

Тут еще вопрос, что делать, если $n>N$, но вроде она работает и в этом случае.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 14 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: LILILILILI


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group