С точки зрения дилетанта…еще раз про болванки, у которых контролируется длина. Всегда есть некоторые допуски на эту длину, т.е. существует допустимый диапазон длин, скажем от
до
.
1. Если на производстве контролируется каждая болванка, то не попавшие в диапазон от
до
изделия бракуются.
2. Если каждую болванку проверить нет возможности, то проверка делается на выборке (части болванок). Задается приемлемый уровень брака в партии - если вероятностная оценка превышает этот порог - бракуется вся партия.
2.1 Если предполагается нормальное распределение (есть тесты проверки, то это распределение, или не то), то на выборке вычисляются среднее и дисперсия. Прикинуть, сколько «сигмов» нужно, чтобы обеспечить приемлемый уровень брака, можно посмотреть на картинке
здесь. Если среднее не смещено, среднее то плюс-минус «2 сигма» должно попасть в диапазон
и
- в этом случае качество партии приемлемо.
2.2 Если имеет место смещение среднего, то нужно на график плотности распределения наложить
и
и посчитать площадь «хвостов» - это и будет оценка процента брака.
2.3 Если распределение не нормальное – накладываем на плотность
и
и считаем хвосты. Если они дают приемлемый уровень брака – то Ok.
3. Если погрешность задана на несколько параметров или "формулу" (скажем, на длину, ширину и площадь), то можно построить 3 вероятностных модели и оценить соответствие заданным требованиям (что будет не совсем корректно, но не суть).
4. Существует множество случаев, когда вероятностные модели просто не работают. Пример – распознавание ключевого слова по голосу. Эта задача относится к классу Data Mining и связана с обучением более сложным, чем наивная статистика. Во-первых собирается статистика – набор из пар «произнесенное слово» и «аудио-файл». В простейшем случае данные делятся на обучающие и тестовые. На обучающих данных подбирается функция/алгоритм распознавания, на тестовых делается проверка. Часто используется площадь
ROC-кривой или индекс Джини.
Подбор алгоритма/функции в таких задачах обычно состоит из двух шагов:
* Подбор признаков
* Подбор вида функции (логистическая модель, случайные деревья и т.д.)
Статистические модели здесь обычно не работают, т.к. признаков может быть очень много, а функции весьма сложны и выявить их на глаз в многомерном пространстве невозможно.