Есть у меня список слов, упорядоченный по их весу.
Как определить некое число X так, чтобы все слова, которые имеют вес меньший этого Х, не попадали в финальный набор?
Я не понял в чём проблема. Слова упорядочены по весам… причем здесь статистика?
Пожалуй, так, если перемешаны два статистических закона в одном наборе данных, то формально никак. Как вариант, это как здесь указано:
Считаешь производную и находишь ее всплеск…
Но в целом, это сначала надо визуально проанализировать, как распределяются значения, либо просмотрев список, либо изобразив точки на графике и т.п. А потом — принимать решение, каким способом отделять одно от другого.
Хорошо, если есть видимый провал между группами значений, тогда берем любой алгоритм поиска этого провала. Но алгоритм обязательно должен начинаться с проверки этого условия, что есть провал между группами значений.
А в целом, если два статистических закона перемешаны, то отделить их друг от друга проблематично, если вообще возможно. А в итоге, если получилось отделить, то результат будет примерно такой: «есть у меня три слова с весами 0,9», из них одно слово случайно попало туда (этой группе не принадлежит). Но какое это слово — статистически неопределимо.
Вывод: совершенствовать методы вычисления весовых коэффициентов слов так, чтобы группы располагались бы далеко друг от друга. Добавлять еще какие-то признаки и пр.
-- 23 июл 2009, 14:03 --Мне нужно, чтобы в наборе оказались как можно более "увесистые" слова.
Если будут идеи, напишите, пожалуйста. Я в статистике полный профан, к сожалению.
Если это вопрос к статистике, то это поиск новых признаков для слов с целью обнаружить статистические зависимости. Это вопрос о том, на основе чего вычисляются эти весовые коэффициенты.
Если же вопрос стоит только лишь об алгоритме поиска "как можно более "увесистых" слов", то это на тему искусственного интеллекта, оперирующего нечеткой логикой, понятиями "много - мало", "далеко - близко".