Цитата:
гауссиана это хоть в каком-то приближении или нет;
Далеко не обязательно. Просто случайные цифры, зависящие от тысячи мелких факторов. Разброс от 50 до 100 (грубый min/max).
В таблице последние 100-200 событий (логи).
Надо хоть-как-нибудь проанализировать и сказать - "в среднем от от 64 до 89 минут" или "около 82 минут".
Человек такие прогнозы "на раз" выдает...
Например: Через сколько будет следующий автобус? Когда-то было пару случаев что следом шли ( = 0 минут), а когда-то аж 2 часа ждал, но... обычно от 5 до 10 минут, в среднем рассчитывай на 8 минут ожидания... Никакой "гауссианы"! Но "усредненное по "недавней" статистике можно дать... Вот и я такое хочу по своей таблице получить!
Цитата:
2) надо ли искать моду распределения или матожидание специально или точность такая, что достаточно посмотреть на картинку (для пары сотен значений второй сценарий более вероятен);
На "картинку" смотреть "некому". Нужно накопить таблицу, загнать в алгоритм, а потом "выдать ПРИМЕРНЫЙ прогноз" ожидающему "оператору"(устройства, станка или кнопки на компьютере), который первый раз выполняет задачу и не знает "сколько ему ждать даже примерно". Хватит погрешности и в 20-30%, но хоть какая-то цифра будет...
Цитата:
3) нужны ли сколько-нибудь математические методы или достаточно численно найти симметричный относительно моды диапазон, в который помещается нужная часть результатов.
Задача для компа! Мне ее еще предстоит в код перевести. И там "интегралы" или "бесконечные числовые ряды" будут не в тему! ))
Нужны максимально простые формулы (типа тех что прячутся за абривиатурами в командах "статистики" в Екселе)
Цитата:
Просто упорядочьте все значения по возрастанию. В качестве "центра" возьмите середину в этом ряду (по научному, медиану), для получения диапазона с надежностью, например, 60%, выбросьте первые 20% ряда и последние 20% ряда и т.п.
Можешь поподробнее??? Чую что алгоритм не сложный, но не знаю с чего начать...
Медиана между 50 и 100 = 75!
Но
(допустим) из 200 значений в таблице: в диапазоне 0..20 всего 2 попадания, в 80-100 всего 80 попаданий, а большинство "собрались" вокруг 85... и между 70 и 90...Как найти эти 70/85/90?
Допустим средняя арифметическая будет 85, но как поймать 70 и 90?
Нагло отрезать 20% около 50 отрежет 3%, а около 100 отрежет все 40% - и где тогда "средняя?
Допустим получил таблицу из 50 цифр (100-50 = [50..100]) (предположим пока что все значения целые - на самом деле дробные) с "попаданиями" - из "значений".
А дальше что? На отрезки разбивать? И как их сравнивать? Особенно если "мелких пиков" несколько вокруг средне-арифметического?