2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




На страницу 1, 2  След.
 
 Определение «границы» и поиск «мошенников»
Сообщение12.07.2018, 21:24 
Всем привет. Не уверен точно, в математику или программирование. Есть задача, которая простым языком формулируется следующим образом:
Есть некое физическое действие, есть «испытуемые», которые выполняют это действие и записывают время выполнения в общий журнал. Ну, например, преодолеть стометровку: то есть, испытуемый пробегает стометровку, записывает свое время в общий журнал и уходит. Один испытуемый - одна запись. Верхней границы на время выполнения действия нет, да и она нас не интересует. Нижняя граница же для данного действия существует (нельзя пробежать стометровку быстрее, чем мировой рекорд), однако мы её не знаем. Несмотря на это, мы можем легко дать ей оценку, используя данные журнала, так как очевидно что $T \leqslant t_\min$. А теперь в эксперимент вступают "мошенники", которые действие не выполняют, но время в журнал записывают, и поскольку они ничего не знают про $T, то вписать они могут любое достаточно случайное время, даже такое что t$ \leqslant $T. Собственно задача звучит следующим образом: можно ли, имея такой журнал установить данное $T и вычислить всех "мошенников" (тех, у которых t$ \leqslant $T)?

 
 
 
 Re: Определение «границы» и поиск «мошенников»
Сообщение12.07.2018, 21:37 
Аватара пользователя
Без дополнительных уточнений - очевидно нет. Ситуации $T = 10$, один честный испытуемый с $t = 11$ и $T = 12$, один мошенник с $t = 11$ по нашим наблюдениям не отличаются.

 
 
 
 Re: Определение «границы» и поиск «мошенников»
Сообщение12.07.2018, 21:41 
Аватара пользователя
Ситуация усугубляется тем, что стометровку у Вас могут бежать диванные плюшки (в основном), олимпийская сборная и пяток велогонщиков на своих велосипедах....

 
 
 
 Re: Определение «границы» и поиск «мошенников»
Сообщение12.07.2018, 21:44 
Совсем забыл написать, что речь о большом наборе записей :facepalm: . Число записей ~1000-100000. Точный процент мошенников при этом не известен, однако с некой уверенностью можно дать ему верхнюю оценку, скажем в 5%.

 
 
 
 Re: Определение «границы» и поиск «мошенников»
Сообщение12.07.2018, 21:47 
Аватара пользователя
dnxx в сообщении #1326344 писал(а):
Совсем забыл написать, что речь о большом наборе записей
Всё равно нужны какие-то дополнительные предположения - $T$ ненаблюдаемо, но влияет на ответ.
Скажем, если сказать, что результаты честных людей распределены обрезанно нормально, а мошенников - просто нормально с другим мат. ожиданием - то можно оценивать параметры распределений и куда каждая точка более вероятно относится (на точный ответ рассчитывать всё равно не приходится понятно).

 
 
 
 Re: Определение «границы» и поиск «мошенников»
Сообщение12.07.2018, 22:12 
mihaild, к сожалению пока нет данных или графиков под рукой, чтобы можно было взглянуть, однако есть некие предположения: кажется что должна быть некая концентрация результатов в районе $T$, причем чем ближе к $T$, тем меньше должны отличаться результаты (мировой рекорд улучшить все тяжелее и тяжелее), при этом с другой стороны перед испытуемыми не стоит задачи побить рекорд и в общей массе они будут подчиняться нормальному распределению. То есть эдакое нормальное распределение "диванных плюшек", которые не гонятся за результатом, плюс нормальное распределение (нормальное ли?) "олимпийской сборной" сконцентрированное в районе $T$, которые так или иначе хотят показать лучший результат, плюс случайное распределение мошенников (понятно что результат мошенника который больше чем $T$ неотличим от честного результата, поэтому не будем концентрировать на них внимание) в интервале
0 \leqslant t \leqslant T : вот они нам и интересны. Вообще до того как писал вопрос, я думал что тут можно свести задачу к фильтрации шума от полезного сигнала. Но сейчас кажется что без конкретных данных и графиков это будет гадание на кофейной гуще.

 
 
 
 Re: Определение «границы» и поиск «мошенников»
Сообщение12.07.2018, 22:16 
Аватара пользователя
dnxx в сообщении #1326357 писал(а):
кажется что должна быть некая концентрация результатов в районе $T$, причем чем ближе к $T$, тем меньше должны отличаться результаты

Это "артефакт" того, что, на самом деле, распределение надо смотреть в $1/T$...

 
 
 
 Re: Определение «границы» и поиск «мошенников»
Сообщение12.07.2018, 22:24 
Аватара пользователя
Ну в таком виде (наличие сгущения в районе $T$) очевидная идея - найти такое $T$, что в интервале $[T; T + \vareps]$ больше всего результатов среди всех отрезков такой длины и предположить, что это примерно и есть рекорд.

 
 
 
 Re: Определение «границы» и поиск «мошенников»
Сообщение12.07.2018, 22:38 
dnxx в сообщении #1326333 писал(а):
Один испытуемый - одна запись.
...
и вычислить всех "мошенников"
Кажется, в такой постановке вопроса - ответ будет "точно нет".
Если бы каждый испытуемый мог делать много записей (плюс свой уникальный идентификатор), мы могли бы собрать распределение по каждому испытуемому и в некоторых случаях определить мошенников (если, например, честные испытуемые дают нормальное распределение или что-то вроде того, а мошенники пишут наугад что в голову придет без попыток подогнать результат).

 
 
 
 Re: Определение «границы» и поиск «мошенников»
Сообщение12.07.2018, 23:13 
Аватара пользователя
dnxx в сообщении #1326357 писал(а):
кажется что должна быть некая концентрация результатов в районе $T$, причем чем ближе к $T$, тем меньше должны отличаться результаты (мировой рекорд улучшить все тяжелее и тяжелее)
Если у Вас бегают обычные слабо тренированные граждане, то никакого сгущения в районе $T$ не будет.

 
 
 
 Re: Определение «границы» и поиск «мошенников»
Сообщение13.07.2018, 09:52 
Аватара пользователя
Geen в сообщении #1326358 писал(а):
Это "артефакт" того, что, на самом деле, распределение надо смотреть в $1/T$...


В $1/(t-T)$, но значение T неизвестно...

 
 
 
 Re: Определение «границы» и поиск «мошенников»
Сообщение13.07.2018, 10:08 
rockclimber в сообщении #1326364 писал(а):
Кажется, в такой постановке вопроса - ответ будет "точно нет".
Это только без предположений о том, каково распределение честных людей. Если их много, вполне разумно предположить что-нибудь, как выше. :-)

 
 
 
 Re: Определение «границы» и поиск «мошенников»
Сообщение13.07.2018, 10:16 
arseniiv
Это я так к словам придираюсь. Вопрос был - "вычислить всех мошенников". Как только хотя бы один мошенник пишет результат, совпадающий с результатом честного человека (или даже лежащий между двух честных), так у нас пропадает возможность его вычислить. Следовательно, пропадает возможность вычислить всех. Дальше - только с какой-то вероятностью определить $t_{min}$, а потом для каждого результата подсчитать вероятность мошенничества. Ну или я что-то не понимаю.

 
 
 
 Re: Определение «границы» и поиск «мошенников»
Сообщение13.07.2018, 10:32 
Ай. Я читал вчера и забыл, и решил, что надо определить $T$. :D

 
 
 
 Re: Определение «границы» и поиск «мошенников»
Сообщение13.07.2018, 10:51 
Аватара пользователя
Евгений Машеров в сообщении #1326413 писал(а):
Geen в сообщении #1326358 писал(а):
Это "артефакт" того, что, на самом деле, распределение надо смотреть в $1/T$...


В $1/(t-T)$, но значение T неизвестно...

Извиняюсь, описался - имел в виду тэ маленькое...

 
 
 [ Сообщений: 25 ]  На страницу 1, 2  След.


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group