Статистика?

javros · 05.06.2009, 23:09

Господа!
Есть у меня список слов, упорядоченный по их весу.
Как определить некое число X так, чтобы все слова, которые имеют вес меньший этого Х, не попадали в финальный набор?
Допустим, есть у меня три слова с весами 0,9 и 97 слов с весами 0,05. Вот и нужно правило, по которому бы всякая мелочь ненужная в набор не попадала. Набор может быть другим по наполнению, например, вначале много-много слов с весами от 0.6, а затем штук сто слов с весом не более 0.1.
Мне нужно, чтобы в наборе оказались как можно более "увесистые" слова.

Если будут идеи, напишите пожалуйста. Я в статистике полный профан, к сожалению.

worm2 · 06.06.2009, 13:59

Например, так:
1) Находим суммарный вес всех слов S.
2) Опять начинаем складывать веса, начиная с наименее весомых чисел (они же у нас упорядочены по весу). Как только текущий суммарный вес превысит S/2 (например), обозреваем вес слова, которое стало "последней каплей" и объявляем его искомым X.

Например:

Наша - 1
Таня - 1
Громко - 2
Плакать - 2
Уронить - 3
Речка - 4
Мячик - 6
Тише - 7
Утонуть - 10

Складываем: S = 36.
1+1+2+2+3+4+6 = 19 > S/2 => X = 6

-- Сб июн 06, 2009 17:01:14 --

То, что я нарисовал, в статистике называется медианой. Она является частным случаем т.н.

\alpha

-квантилей (ну, это когда S умножается не на 1/2, а на какой-то другой коэффициент

\alpha

от 0 до 1).

NO++ · 07.06.2009, 18:21

Считаешь производную и находишь ее всплеск.
То есть на графике весов будет постепенно снижающийся участок, а потом резкое падение. Считаешь разность каждого следующего веса и предыдущего, получается столбик типа производной от столбика весов. Там резкое падение заметно как увеличение значения, то есть разности между весом предудущего слова и текущего, падение будет большим отрицательным значением.
График весов у слов обычно похож на функцию 1/x, сначала изменения большие, потом все меньше, мусором оказывается почти все. Чтобы его выпрямить можно например прибавить весам эту 1/x, где x номер слова в упорядоченном списке. Тогда график будет более горизонтальным, а падение веса будет более заметным.

Sergey-Cop · 23.07.2009, 12:46

javros в сообщении #219943 писал(а):

Есть у меня список слов, упорядоченный по их весу.
Как определить некое число X так, чтобы все слова, которые имеют вес меньший этого Х, не попадали в финальный набор?

Я не понял в чём проблема. Слова упорядочены по весам… причем здесь статистика?

Пожалуй, так, если перемешаны два статистических закона в одном наборе данных, то формально никак. Как вариант, это как здесь указано:

NO++ в сообщении #220413 писал(а):

Считаешь производную и находишь ее всплеск…

Но в целом, это сначала надо визуально проанализировать, как распределяются значения, либо просмотрев список, либо изобразив точки на графике и т.п. А потом — принимать решение, каким способом отделять одно от другого.

Хорошо, если есть видимый провал между группами значений, тогда берем любой алгоритм поиска этого провала. Но алгоритм обязательно должен начинаться с проверки этого условия, что есть провал между группами значений.

А в целом, если два статистических закона перемешаны, то отделить их друг от друга проблематично, если вообще возможно. А в итоге, если получилось отделить, то результат будет примерно такой: «есть у меня три слова с весами 0,9», из них одно слово случайно попало туда (этой группе не принадлежит). Но какое это слово — статистически неопределимо.

Вывод: совершенствовать методы вычисления весовых коэффициентов слов так, чтобы группы располагались бы далеко друг от друга. Добавлять еще какие-то признаки и пр.

-- 23 июл 2009, 14:03 --

javros в сообщении #219943 писал(а):

Мне нужно, чтобы в наборе оказались как можно более "увесистые" слова.

Если будут идеи, напишите, пожалуйста. Я в статистике полный профан, к сожалению.

Если это вопрос к статистике, то это поиск новых признаков для слов с целью обнаружить статистические зависимости. Это вопрос о том, на основе чего вычисляются эти весовые коэффициенты.

Если же вопрос стоит только лишь об алгоритме поиска "как можно более "увесистых" слов", то это на тему искусственного интеллекта, оперирующего нечеткой логикой, понятиями "много - мало", "далеко - близко".

Научный форум dxdy

Статистика?