2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему
 
 Сомнительная терминология в задаче по мат.стат.
Сообщение17.11.2020, 00:08 
Заслуженный участник
Аватара пользователя


18/01/13
12065
Казань
На одном сайте (не хочу его называть) прочла такой вопрос по математической статистике:
Цитата:
Вопрос: У вас есть набор данных. Он содержит недостающие значения, которые распределены вдоль 1 стандартного отклонения от медианы. Какой процент данных останется неизменным? Почему?

Я, конечно, не большой специалист в мат.стате, но, честно говоря, меня поразили эти термины.
Тем не менее, авторы считают их вполне прозрачными:

Цитата:
Ответ: В этом вопросе есть подсказка, которая подтолкнёт вас к решению. Так как данные распределены по медиане, то можно предположить, что речь идёт о нормальном распределении. Нам известно, что при нормальном распределении ~68% данных лежит в 1 стандартном отклонении от медианы, а значит ~32% данных остается неизменным. Таким образом, ~32% данных останется неизменным при недостающих значениях.

Подскажите, пожалуйста, это я недоучилась или авторы говорят на каком-то своем языке?

 Профиль  
                  
 
 Re: Сомнительная терминология в задаче по мат.стат.
Сообщение17.11.2020, 00:22 
Заслуженный участник
Аватара пользователя


22/06/12
2129
/dev/zero
1) Набор данных содержит недостающие значения.
2) Какой процент данных останется неизменным. -- если что именно с этим набором сделать?

Моя русская языка трудно понимай статистика, ага?

 Профиль  
                  
 
 Re: Сомнительная терминология в задаче по мат.стат.
Сообщение17.11.2020, 11:08 
Заслуженный участник
Аватара пользователя


11/03/08
9904
Москва
:facepalm: Дивно...
Самое благоприятное для авторов сайта предположение - что они нашли некоторый текст на иностранном языке и перевели его неспециализированным переводчиком. Или вообще переводили на другой язык и обратно, чтобы замаскировать тот факт, что текст откуда-то украден.
"Недостающие значения" термин вполне существующий, но тут, похоже, исходно речь шла о цензурованных значениях, о которых было известно, что они лежат в интервале плюс-минус одно стандартное отклонение от медианы, но неизвестно точное значение (опять же - в предположении, что изначально был осмысленный текст, который исказили и обессмыслили, а не чистый "сок мозга").
"Распределены вдоль", наверно, можно сказать, описывая многомерную величину и имея в виду, что точки в многомерном пространстве принадлежат некоторой прямой, но для одномерной величины это совершенно лишено смысла.
Можно предположить, что хотели сказать "сосредоточены в интервале с центром в медиане и полушириной в одно стандартное отклонение", а сказали нечто вовсе непонятное.
Вопрос относительно "останется неизменным" решительно загадочен. При какой действии останется неизменным? Элементы выборки нам даны, и уже поэтому неизменны. А если вводится какая-то операция над ними - нехудо было бы её хотя бы упомянуть, а лучше определить точно.
"По медиане" ничего не распределяется, медиана это число, распределить можно "по такому-то вероятностному закону". Медиана характеристика всех вообще вероятностных распределений, так что её использование ничего о нормальности нам не говорит. Более того, если используется медиана, можно предположить, что распределение заведомо ненормальное, так что среднее арифметическое не лучшая оценка параметра положения (скажем, для распределения Лапласа лучшая как раз медиана, правда, тогда стандартное отклонение не лучшая оценка параметра масштаба).
Если постулировать нормальность распределения, то в силу его (и не только его) симметричности медиана совпадает со средним (теоретическая медиана с теоретическим средним, выборочные вправе отличаться), так что утверждение "68% лежит в интервале плюс-минус СКО от медианы" верно, поскольку совпадает с "68% лежит в интервале плюс-минус СКО от матожидания", выполняющимся для нормального распределения. Но ни из чего приведенного в условии нормальность не следует, разве что можно говорить о существовании второго момента, то есть Коши отпадает, и распределение Стьюдента с 2 степенями свободы тоже отпадает, и ещё некоторые, за вычетом которых всё равно бесконечно много вариантов распределений.
Если изначально было нечто осмысленное, и только волей пересказчиков и переводчиков обессмыслилось, то можно реконструировать нечто вроде:
"Измерялись лишь те значения, отклонения которых от медианы превышали 1 СКО (скажем, в ходе контроля качества). Принимая, что распределение нормальное (что обычное имплицитное предположение в задачах контроля качества), оценить, какой процент наблюдений не был подвергнут измерению".

 Профиль  
                  
 
 Re: Сомнительная терминология в задаче по мат.стат.
Сообщение17.11.2020, 11:38 
Заслуженный участник
Аватара пользователя


16/07/14
9151
Цюрих
Русский вариант легко находится, а там даже есть ссылка на английский. Который лучше, но не очень сильно.
Цитата:
Q3. You are given a data set. The data set has missing values which spread along 1 standard deviation from the median. What percentage of data would remain unaffected? Why?
Answer: This question has enough hints for you to start thinking! Since, the data is spread across median, let’s assume it’s a normal distribution. We know, in a normal distribution, ~68% of the data lies in 1 standard deviation from mean (or mode, median), which leaves ~32% of the data unaffected. Therefore, ~32% of the data would remain unaffected by missing values.

 Профиль  
                  
 
 Re: Сомнительная терминология в задаче по мат.стат.
Сообщение18.11.2020, 10:55 
Заслуженный участник
Аватара пользователя


11/03/08
9904
Москва
Поискал я первоисточник. Это какой-то курс Big Data.
Я понимаю, что поговорка: "В Big Data идут те, кто не осилил статистику" продиктовала неизбывной завистью к окладам дэйтасциентистов, но как-то она этим иллюстрируется...

 Профиль  
                  
 
 Re: Сомнительная терминология в задаче по мат.стат.
Сообщение20.11.2020, 17:27 
Заслуженный участник
Аватара пользователя


18/01/13
12065
Казань
В общем, как я и подумала, галиматья...
Цитата:
Ротор поля наподобие дивергенции градуирует себя вдоль спина и там, внутре, обращает материю вопроса в спиритуальные электрические вихри, из коих и возникает синекдоха отвечания...

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 6 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group