2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему На страницу 1, 2  След.
 
 Определение «границы» и поиск «мошенников»
Сообщение12.07.2018, 21:24 


23/04/15
9
Всем привет. Не уверен точно, в математику или программирование. Есть задача, которая простым языком формулируется следующим образом:
Есть некое физическое действие, есть «испытуемые», которые выполняют это действие и записывают время выполнения в общий журнал. Ну, например, преодолеть стометровку: то есть, испытуемый пробегает стометровку, записывает свое время в общий журнал и уходит. Один испытуемый - одна запись. Верхней границы на время выполнения действия нет, да и она нас не интересует. Нижняя граница же для данного действия существует (нельзя пробежать стометровку быстрее, чем мировой рекорд), однако мы её не знаем. Несмотря на это, мы можем легко дать ей оценку, используя данные журнала, так как очевидно что $T \leqslant t_\min$. А теперь в эксперимент вступают "мошенники", которые действие не выполняют, но время в журнал записывают, и поскольку они ничего не знают про $T, то вписать они могут любое достаточно случайное время, даже такое что t$ \leqslant $T. Собственно задача звучит следующим образом: можно ли, имея такой журнал установить данное $T и вычислить всех "мошенников" (тех, у которых t$ \leqslant $T)?

 Профиль  
                  
 
 Re: Определение «границы» и поиск «мошенников»
Сообщение12.07.2018, 21:37 
Заслуженный участник
Аватара пользователя


16/07/14
9264
Цюрих
Без дополнительных уточнений - очевидно нет. Ситуации $T = 10$, один честный испытуемый с $t = 11$ и $T = 12$, один мошенник с $t = 11$ по нашим наблюдениям не отличаются.

 Профиль  
                  
 
 Re: Определение «границы» и поиск «мошенников»
Сообщение12.07.2018, 21:41 
Заслуженный участник
Аватара пользователя


01/09/13
4699
Ситуация усугубляется тем, что стометровку у Вас могут бежать диванные плюшки (в основном), олимпийская сборная и пяток велогонщиков на своих велосипедах....

 Профиль  
                  
 
 Re: Определение «границы» и поиск «мошенников»
Сообщение12.07.2018, 21:44 


23/04/15
9
Совсем забыл написать, что речь о большом наборе записей :facepalm: . Число записей ~1000-100000. Точный процент мошенников при этом не известен, однако с некой уверенностью можно дать ему верхнюю оценку, скажем в 5%.

 Профиль  
                  
 
 Re: Определение «границы» и поиск «мошенников»
Сообщение12.07.2018, 21:47 
Заслуженный участник
Аватара пользователя


16/07/14
9264
Цюрих
dnxx в сообщении #1326344 писал(а):
Совсем забыл написать, что речь о большом наборе записей
Всё равно нужны какие-то дополнительные предположения - $T$ ненаблюдаемо, но влияет на ответ.
Скажем, если сказать, что результаты честных людей распределены обрезанно нормально, а мошенников - просто нормально с другим мат. ожиданием - то можно оценивать параметры распределений и куда каждая точка более вероятно относится (на точный ответ рассчитывать всё равно не приходится понятно).

 Профиль  
                  
 
 Re: Определение «границы» и поиск «мошенников»
Сообщение12.07.2018, 22:12 


23/04/15
9
mihaild, к сожалению пока нет данных или графиков под рукой, чтобы можно было взглянуть, однако есть некие предположения: кажется что должна быть некая концентрация результатов в районе $T$, причем чем ближе к $T$, тем меньше должны отличаться результаты (мировой рекорд улучшить все тяжелее и тяжелее), при этом с другой стороны перед испытуемыми не стоит задачи побить рекорд и в общей массе они будут подчиняться нормальному распределению. То есть эдакое нормальное распределение "диванных плюшек", которые не гонятся за результатом, плюс нормальное распределение (нормальное ли?) "олимпийской сборной" сконцентрированное в районе $T$, которые так или иначе хотят показать лучший результат, плюс случайное распределение мошенников (понятно что результат мошенника который больше чем $T$ неотличим от честного результата, поэтому не будем концентрировать на них внимание) в интервале
0 \leqslant t \leqslant T : вот они нам и интересны. Вообще до того как писал вопрос, я думал что тут можно свести задачу к фильтрации шума от полезного сигнала. Но сейчас кажется что без конкретных данных и графиков это будет гадание на кофейной гуще.

 Профиль  
                  
 
 Re: Определение «границы» и поиск «мошенников»
Сообщение12.07.2018, 22:16 
Заслуженный участник
Аватара пользователя


01/09/13
4699
dnxx в сообщении #1326357 писал(а):
кажется что должна быть некая концентрация результатов в районе $T$, причем чем ближе к $T$, тем меньше должны отличаться результаты

Это "артефакт" того, что, на самом деле, распределение надо смотреть в $1/T$...

 Профиль  
                  
 
 Re: Определение «границы» и поиск «мошенников»
Сообщение12.07.2018, 22:24 
Заслуженный участник
Аватара пользователя


16/07/14
9264
Цюрих
Ну в таком виде (наличие сгущения в районе $T$) очевидная идея - найти такое $T$, что в интервале $[T; T + \vareps]$ больше всего результатов среди всех отрезков такой длины и предположить, что это примерно и есть рекорд.

 Профиль  
                  
 
 Re: Определение «границы» и поиск «мошенников»
Сообщение12.07.2018, 22:38 
Заслуженный участник


06/07/11
5627
кран.набрать.грамота
dnxx в сообщении #1326333 писал(а):
Один испытуемый - одна запись.
...
и вычислить всех "мошенников"
Кажется, в такой постановке вопроса - ответ будет "точно нет".
Если бы каждый испытуемый мог делать много записей (плюс свой уникальный идентификатор), мы могли бы собрать распределение по каждому испытуемому и в некоторых случаях определить мошенников (если, например, честные испытуемые дают нормальное распределение или что-то вроде того, а мошенники пишут наугад что в голову придет без попыток подогнать результат).

 Профиль  
                  
 
 Re: Определение «границы» и поиск «мошенников»
Сообщение12.07.2018, 23:13 
Заслуженный участник
Аватара пользователя


23/07/05
18013
Москва
dnxx в сообщении #1326357 писал(а):
кажется что должна быть некая концентрация результатов в районе $T$, причем чем ближе к $T$, тем меньше должны отличаться результаты (мировой рекорд улучшить все тяжелее и тяжелее)
Если у Вас бегают обычные слабо тренированные граждане, то никакого сгущения в районе $T$ не будет.

 Профиль  
                  
 
 Re: Определение «границы» и поиск «мошенников»
Сообщение13.07.2018, 09:52 
Заслуженный участник
Аватара пользователя


11/03/08
10046
Москва
Geen в сообщении #1326358 писал(а):
Это "артефакт" того, что, на самом деле, распределение надо смотреть в $1/T$...


В $1/(t-T)$, но значение T неизвестно...

 Профиль  
                  
 
 Re: Определение «границы» и поиск «мошенников»
Сообщение13.07.2018, 10:08 
Заслуженный участник


27/04/09
28128
rockclimber в сообщении #1326364 писал(а):
Кажется, в такой постановке вопроса - ответ будет "точно нет".
Это только без предположений о том, каково распределение честных людей. Если их много, вполне разумно предположить что-нибудь, как выше. :-)

 Профиль  
                  
 
 Re: Определение «границы» и поиск «мошенников»
Сообщение13.07.2018, 10:16 
Заслуженный участник


06/07/11
5627
кран.набрать.грамота
arseniiv
Это я так к словам придираюсь. Вопрос был - "вычислить всех мошенников". Как только хотя бы один мошенник пишет результат, совпадающий с результатом честного человека (или даже лежащий между двух честных), так у нас пропадает возможность его вычислить. Следовательно, пропадает возможность вычислить всех. Дальше - только с какой-то вероятностью определить $t_{min}$, а потом для каждого результата подсчитать вероятность мошенничества. Ну или я что-то не понимаю.

 Профиль  
                  
 
 Re: Определение «границы» и поиск «мошенников»
Сообщение13.07.2018, 10:32 
Заслуженный участник


27/04/09
28128
Ай. Я читал вчера и забыл, и решил, что надо определить $T$. :D

 Профиль  
                  
 
 Re: Определение «границы» и поиск «мошенников»
Сообщение13.07.2018, 10:51 
Заслуженный участник
Аватара пользователя


01/09/13
4699
Евгений Машеров в сообщении #1326413 писал(а):
Geen в сообщении #1326358 писал(а):
Это "артефакт" того, что, на самом деле, распределение надо смотреть в $1/T$...


В $1/(t-T)$, но значение T неизвестно...

Извиняюсь, описался - имел в виду тэ маленькое...

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 25 ]  На страницу 1, 2  След.

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group