2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему
 
 Полигон частот для непрерывного распределения
Сообщение25.11.2024, 01:14 


26/02/24
12
Что будет, если построить полигон частот для непрерывного распределения, как для дискретного (то есть каждому значению выборки будет соответствовать его частота встречаемости в этой выборке)?
Построив график на Питоне, я получила прямую линию со значением $\frac{1}{size}$ ($size$ - размер выборки), то есть такое значение соответствует каждому значению выборки (я попробовала сделать это для равномерного непрерывного и нормального распределений). Я думаю, что такая ситуация будет складываться при любом непрерывном распределении (потому что значения разбрасываются с одинаковой вероятностью и их бесконечно много на интервале), однако два вопроса моего преподавателя заставили меня сомневаться в полученных мною результатах:
1) "Разве всегда будет прямая линия?"
2) "Когда можно/применимо строить полигон частот для непрерывного распределения именно так, как описано выше, а не как это делается обычно (строится линия, соединяющая середины столбцов гистограммы)?"
Помогите, пожалуйста, разобраться с вопросами (особенно с первым, так как второй вопрос, думаю, вытекает из первого). Просто мне кажется, что описанная мною ситуация верна для любого непрерывного распределения, однако вопрос преподавателя заставил меня в этом сомневаться, к сожалению.

 Профиль  
                  
 
 Re: Полигон частот для непрерывного распределения
Сообщение25.11.2024, 01:20 
Аватара пользователя


22/11/22
757
А как преподаватель вообще отнесся к идее строить полигон для непрерывного распределения?
moonruleni9ne в сообщении #1662766 писал(а):
Построив график на Питоне, я получила прямую линию со значением $\frac{1}{size}$

то есть $y=1/n$?

 Профиль  
                  
 
 Re: Полигон частот для непрерывного распределения
Сообщение25.11.2024, 08:31 


26/02/24
12
Combat Zone в сообщении #1662767 писал(а):
то есть $y=1/n$?

Да, то есть каждое значение имеет такую частоту, то есть встретилось в выборке по одному разу.

 Профиль  
                  
 
 Re: Полигон частот для непрерывного распределения
Сообщение25.11.2024, 09:54 
Заслуженный участник
Аватара пользователя


11/03/08
10092
Москва
Для непрерывного распределения предложенный график будет отличен от прямой, если какие-то значения повторяются. Для широко употребительных распределений (нормальное, равномерное, экспоненциальное...) такая ситуация не невозможна, но вероятность стремится к нулю ("множество меры нуль"). Распределение, для которого это не так, придумать можно, но это будет несколько искусственно. Скажем, случайная величина с вероятностью 50% принимает значение 0, и 50% - равна нормально распределённой величине с нулевым средним (либо у нас данные заведомо точные, либо точные недоступны, и мы измеряем, внося ошибку измерения). Или - у пациента скорее всего нет опухоли, размер пишем 0, но если она есть - размер имеет логнормальное распределение. То есть это некая композиция из дискретного и непрерывного распределения, но формально оно непрерывное.
Другая ситуация, при которой возможен смысл в построении полигона для непрерывного распределения - если оно формально непрерывное, но представлено нам в виде измерений с довольно грубой шкалой. Соответственно, вероятность того, что несколько измерений окажутся равны (с доступной нам точностью) ненулевая. Но по сути это означает, что мы пользуемся гистограммой, только шаг и начальный отсчёт выбраны не нами.
Задача - представить непрерывное распределение графически, и чтобы график был "плавный" - востребована, но общепринятого подхода нет. Один вариант - использовать подгонку распределением, которое при различных значениях параметров может соответствовать встречающимся в нашей задаче распределениям (скажем, есть система кривых Пирсона, в которых оценивают, помимо среднего и дисперсии, также асимметрию и эксцесс, вычисляют параметры дифуравнения для плотности распределения, и в зависимости от этих параметров получают 12 вариантов, среди которых бета-, гамма-, Стьюдента, равномерное, нормальное, показательное и несколько не имеющих собственных названий; и рисуют плотность распределения для оценённой кривой). Другой вариант - непараметрические "ядерные оценки", в которых каждый отсчёт выборки как бы "размывают", используя ядро (например, выбирая ядро гауссианом).

 Профиль  
                  
 
 Re: Полигон частот для непрерывного распределения
Сообщение26.11.2024, 16:48 
Аватара пользователя


22/11/22
757
moonruleni9ne в сообщении #1662766 писал(а):
Я думаю, что такая ситуация будет складываться при любом непрерывном распределении (потому что значения разбрасываются с одинаковой вероятностью и их бесконечно много на интервале)

Как вы измеряете вероятность значения?
Взяли значение, пусть $a$. С какой вероятностью $P(X=a)$?
Да, вот именно, что их бесконечно много, и это не объем выборки. То, что считаете вы - это частота. Да, бывает, что частота каждого значения один (и относительная $1/n$).
Но смотрите. Зайдем с другого конца. Пусть есть два распределения. Распределение хи-квадрат с тремя степенями свободы и показательное распределение с параметром 1.
Постройте графики их плотности. Посмотрите внимательно. Они, конечно, разные, и отличаются (плеоназм) распределением вероятностей значений, которое и иллюстрирует плотность - в местах, где плотность имеет большие значения, подынтегральная площадь трапеции с основанием $h$ будет больше, чем там, где плотность меньше по значению. Эта площадь/плотность распределения и отражают как плотно набиты значения в каждый такой промежуток длины $h$ для фиксированного распределения, как они, значения с.в. - именно они расположены по оси абсцисс - распределены, так что информации о единичных значениях не просто недостаточно, она вообще ничего не дает.

Так, если у нас образовалась выборка с неповторяющимися неотрицательными значениями - то по единичным значениям никак невозможно сказать, которое это будет, скорее всего, распределение - хи-квадрат или показательное, нужно как-то понять, с какой плотностью они наполняют разные интервалы, а эту задачу лучше выполняет гистограмма.

В любом случае, это первичный тест, задачу о выявлении распределения (с той или иной вероятностью) по выборке выполняют окончательно различные критерии, чаще всего, непараметрические.

Вопросы 1-2 преподавателем были заданы не потому, что ответ на них имеет значение, а потому, что в таких ситуациях теряешься. Объяснять все это - это объяснять фактически с нуля, и каждый это понимает. Так что смело их игнорируйте, второй раз он их не повторит. Стройте гистограмму. Если так уж требуют полигон (а обычно для непрерывных не требуют) - стройте как положено, а не так, как придумали. Гистограмма вполне отражает, где значения накапливаются чаще, где реже - то есть вполне соответствует эмпирической плотности (хоть эти слова особо и не в ходу).

 Профиль  
                  
 
 Re: Полигон частот для непрерывного распределения
Сообщение27.11.2024, 15:15 
Заслуженный участник
Аватара пользователя


23/07/05
18016
Москва
moonruleni9ne в сообщении #1662766 писал(а):
Просто мне кажется, что описанная мною ситуация верна для любого непрерывного распределения, однако вопрос преподавателя заставил меня в этом сомневаться, к сожалению.

Скорее всего, преподаватель хотел обратить внимание студентов на то, что полигон частот в случае непрерывного распределения никакой полезной информации о распределении не даёт.

 Профиль  
                  
 
 Re: Полигон частот для непрерывного распределения
Сообщение28.11.2024, 00:34 
Аватара пользователя


22/11/22
757
Someone
Не факт. Потому что если бы дело обстояло именно так, то самое разумное для преподавателя было бы - не рассказывать, как для непрерывных распределений строятся полигоны (по гистограмме)
moonruleni9ne в сообщении #1662766 писал(а):
2) "Когда можно/применимо строить полигон частот для непрерывного распределения именно так, как описано выше, а не как это делается обычно (строится линия, соединяющая середины столбцов гистограммы)?"

В норме этого не делается вовсе, и возражения преподавателя тогда были б много короче.

Поскольку действительно построение полигона для непрерывных распределений смысла не имеет, но объяснить это тяжелее, чем просто директивно запретить вовремя. И приходится задавать странные вопросы.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 7 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group