2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему
 
 Полигон частот для непрерывного распределения
Сообщение25.11.2024, 01:14 


26/02/24
12
Что будет, если построить полигон частот для непрерывного распределения, как для дискретного (то есть каждому значению выборки будет соответствовать его частота встречаемости в этой выборке)?
Построив график на Питоне, я получила прямую линию со значением $\frac{1}{size}$ ($size$ - размер выборки), то есть такое значение соответствует каждому значению выборки (я попробовала сделать это для равномерного непрерывного и нормального распределений). Я думаю, что такая ситуация будет складываться при любом непрерывном распределении (потому что значения разбрасываются с одинаковой вероятностью и их бесконечно много на интервале), однако два вопроса моего преподавателя заставили меня сомневаться в полученных мною результатах:
1) "Разве всегда будет прямая линия?"
2) "Когда можно/применимо строить полигон частот для непрерывного распределения именно так, как описано выше, а не как это делается обычно (строится линия, соединяющая середины столбцов гистограммы)?"
Помогите, пожалуйста, разобраться с вопросами (особенно с первым, так как второй вопрос, думаю, вытекает из первого). Просто мне кажется, что описанная мною ситуация верна для любого непрерывного распределения, однако вопрос преподавателя заставил меня в этом сомневаться, к сожалению.

 Профиль  
                  
 
 Re: Полигон частот для непрерывного распределения
Сообщение25.11.2024, 01:20 
Аватара пользователя


22/11/22
757
А как преподаватель вообще отнесся к идее строить полигон для непрерывного распределения?
moonruleni9ne в сообщении #1662766 писал(а):
Построив график на Питоне, я получила прямую линию со значением $\frac{1}{size}$

то есть $y=1/n$?

 Профиль  
                  
 
 Re: Полигон частот для непрерывного распределения
Сообщение25.11.2024, 08:31 


26/02/24
12
Combat Zone в сообщении #1662767 писал(а):
то есть $y=1/n$?

Да, то есть каждое значение имеет такую частоту, то есть встретилось в выборке по одному разу.

 Профиль  
                  
 
 Re: Полигон частот для непрерывного распределения
Сообщение25.11.2024, 09:54 
Заслуженный участник
Аватара пользователя


11/03/08
10092
Москва
Для непрерывного распределения предложенный график будет отличен от прямой, если какие-то значения повторяются. Для широко употребительных распределений (нормальное, равномерное, экспоненциальное...) такая ситуация не невозможна, но вероятность стремится к нулю ("множество меры нуль"). Распределение, для которого это не так, придумать можно, но это будет несколько искусственно. Скажем, случайная величина с вероятностью 50% принимает значение 0, и 50% - равна нормально распределённой величине с нулевым средним (либо у нас данные заведомо точные, либо точные недоступны, и мы измеряем, внося ошибку измерения). Или - у пациента скорее всего нет опухоли, размер пишем 0, но если она есть - размер имеет логнормальное распределение. То есть это некая композиция из дискретного и непрерывного распределения, но формально оно непрерывное.
Другая ситуация, при которой возможен смысл в построении полигона для непрерывного распределения - если оно формально непрерывное, но представлено нам в виде измерений с довольно грубой шкалой. Соответственно, вероятность того, что несколько измерений окажутся равны (с доступной нам точностью) ненулевая. Но по сути это означает, что мы пользуемся гистограммой, только шаг и начальный отсчёт выбраны не нами.
Задача - представить непрерывное распределение графически, и чтобы график был "плавный" - востребована, но общепринятого подхода нет. Один вариант - использовать подгонку распределением, которое при различных значениях параметров может соответствовать встречающимся в нашей задаче распределениям (скажем, есть система кривых Пирсона, в которых оценивают, помимо среднего и дисперсии, также асимметрию и эксцесс, вычисляют параметры дифуравнения для плотности распределения, и в зависимости от этих параметров получают 12 вариантов, среди которых бета-, гамма-, Стьюдента, равномерное, нормальное, показательное и несколько не имеющих собственных названий; и рисуют плотность распределения для оценённой кривой). Другой вариант - непараметрические "ядерные оценки", в которых каждый отсчёт выборки как бы "размывают", используя ядро (например, выбирая ядро гауссианом).

 Профиль  
                  
 
 Re: Полигон частот для непрерывного распределения
Сообщение26.11.2024, 16:48 
Аватара пользователя


22/11/22
757
moonruleni9ne в сообщении #1662766 писал(а):
Я думаю, что такая ситуация будет складываться при любом непрерывном распределении (потому что значения разбрасываются с одинаковой вероятностью и их бесконечно много на интервале)

Как вы измеряете вероятность значения?
Взяли значение, пусть $a$. С какой вероятностью $P(X=a)$?
Да, вот именно, что их бесконечно много, и это не объем выборки. То, что считаете вы - это частота. Да, бывает, что частота каждого значения один (и относительная $1/n$).
Но смотрите. Зайдем с другого конца. Пусть есть два распределения. Распределение хи-квадрат с тремя степенями свободы и показательное распределение с параметром 1.
Постройте графики их плотности. Посмотрите внимательно. Они, конечно, разные, и отличаются (плеоназм) распределением вероятностей значений, которое и иллюстрирует плотность - в местах, где плотность имеет большие значения, подынтегральная площадь трапеции с основанием $h$ будет больше, чем там, где плотность меньше по значению. Эта площадь/плотность распределения и отражают как плотно набиты значения в каждый такой промежуток длины $h$ для фиксированного распределения, как они, значения с.в. - именно они расположены по оси абсцисс - распределены, так что информации о единичных значениях не просто недостаточно, она вообще ничего не дает.

Так, если у нас образовалась выборка с неповторяющимися неотрицательными значениями - то по единичным значениям никак невозможно сказать, которое это будет, скорее всего, распределение - хи-квадрат или показательное, нужно как-то понять, с какой плотностью они наполняют разные интервалы, а эту задачу лучше выполняет гистограмма.

В любом случае, это первичный тест, задачу о выявлении распределения (с той или иной вероятностью) по выборке выполняют окончательно различные критерии, чаще всего, непараметрические.

Вопросы 1-2 преподавателем были заданы не потому, что ответ на них имеет значение, а потому, что в таких ситуациях теряешься. Объяснять все это - это объяснять фактически с нуля, и каждый это понимает. Так что смело их игнорируйте, второй раз он их не повторит. Стройте гистограмму. Если так уж требуют полигон (а обычно для непрерывных не требуют) - стройте как положено, а не так, как придумали. Гистограмма вполне отражает, где значения накапливаются чаще, где реже - то есть вполне соответствует эмпирической плотности (хоть эти слова особо и не в ходу).

 Профиль  
                  
 
 Re: Полигон частот для непрерывного распределения
Сообщение27.11.2024, 15:15 
Заслуженный участник
Аватара пользователя


23/07/05
18016
Москва
moonruleni9ne в сообщении #1662766 писал(а):
Просто мне кажется, что описанная мною ситуация верна для любого непрерывного распределения, однако вопрос преподавателя заставил меня в этом сомневаться, к сожалению.

Скорее всего, преподаватель хотел обратить внимание студентов на то, что полигон частот в случае непрерывного распределения никакой полезной информации о распределении не даёт.

 Профиль  
                  
 
 Re: Полигон частот для непрерывного распределения
Сообщение28.11.2024, 00:34 
Аватара пользователя


22/11/22
757
Someone
Не факт. Потому что если бы дело обстояло именно так, то самое разумное для преподавателя было бы - не рассказывать, как для непрерывных распределений строятся полигоны (по гистограмме)
moonruleni9ne в сообщении #1662766 писал(а):
2) "Когда можно/применимо строить полигон частот для непрерывного распределения именно так, как описано выше, а не как это делается обычно (строится линия, соединяющая середины столбцов гистограммы)?"

В норме этого не делается вовсе, и возражения преподавателя тогда были б много короче.

Поскольку действительно построение полигона для непрерывных распределений смысла не имеет, но объяснить это тяжелее, чем просто директивно запретить вовремя. И приходится задавать странные вопросы.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 7 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: artur_k, sydorov


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group