Контроль качества на производстве

Bridgeport · 11.06.2015, 22:33

Добрый день,

Что-то я совсем запутался в статистике, так что извиняйте за неграмотный вопрос. На практике можно часто столкнуться со следующей ситуацией. У нас есть производственная линия изготавливающая болванки. На контроле качества замеряют длину болванки. Допустим что у нас уже есть распределение длин болванок и допустим, что оно $N(\mu, \sigma)$ . Если длина болванки в пределах $\mu +/- 2\sigma$ , то пропускаюти, иначе - бракуют.

Так вот меня интересуют вопрос, что если у нас не нормальное распределение, а какое-нибудь бимодальное или еще хитрее. Можно задать вопрос и потруднее, если у нас замеряется сразу длина и ширина болванки и распределение опять какое-то хитрое. Как контролировать качество в этом случае?

Имеет ли смысл мой вопрос, или я черезмерно усложняю?

Поделитесь знаниями.
Спасибо!!

grizzly · 12.06.2015, 01:18

Bridgeport
Мне приходилось заниматься вопросами управления качеством, хотя и не с такими. Впрочем, Ваши примеры и вопросы не совсем понятны и, вероятно, могут быть интерпретированы по-разному. Попытаюсь прокомментировать в пределах своих остаточных знаний и понимания.

В первой ситуации, как я понимаю, на выходе имеется серия болванок с, пусть, бимодальным распределением длины. И по-прежнему требуются только $\mu \pm 2\sigma$ , остальные бракуются. На практике это скорее всего означает, что у Вас в процессе производства имеются причины возникновения обнаруженной кластеризации (простейшая гипотеза: один станок или форма даёт чуть больше, другой -- чуть меньше). Теперь задача службы качества решить, что с этим делать:
либо определить эти причины и по возможности устранить их, приведя распределение к нормальному (если оно того стоит по деньгам -- что не факт),
либо просто продолжать контролировать ситуацию, отслеживая статистику.

Если Вы говорили не об этом, то лучше конкретизировать Ваш пример или идею.

По второму варианту я придумал вполне правдоподобный пример. Можно представить себе ситуацию, в которой мы класс шероховатости поверхности определяли бы не по отдельным характеристикам профиля, а по какой-то интегральной величине. И что средство измерения определяло бы сразу эту интегральную величину, а не отдельные характеристики. А годными считались бы те детали, у которых она находится в определённых пределах. Ну вот пример я вроде придумал адекватный, а в чём Ваш вопрос теперь не понятно. Ну, меряем одним измерением всё вкупе, ну пропускаем в годное какое-то своё интегральное $\mu \pm 2\sigma$ и что? Как и зачем можно усложнить эту ситуацию, не соображу.

Bridgeport · 12.06.2015, 04:54

Спасибо, grizzly!

Да, я пожалуй излишне усложнил ситуацию. Скорее всего такое не встречается в жизни. Просто мне любопытен сам факт, что для нормального распределения мы можем говорить о том что какая-то единичная величина (длинна болванки) является более вероятной если она нaходится в интервале $\mu +/- 2\sigma$ . Для некоторых распределиений это невозможно (ну или я просто с этим не знаком)

Deggial · 12.06.2015, 08:10

i	Bridgeport Bridgeport в сообщении #1026254 писал(а): $\mu +/- 2\sigma$ . grizzly в сообщении #1026241 писал(а): $\mu \pm 2\sigma$ пишите формулу нормально

iifat · 12.06.2015, 12:04

Скорее, по-моему, недодумали. Ситуации, описанные grizzly, вполне, имхо, возможны, так что вопрос вполне себе имеет отношение к жизни. Следующий вопрос: что с этим делать и надо ли что-то с этим делать? На эти вопросы можете ответить только вы, как непосредственный участник.

epros · 12.06.2015, 22:43

Bridgeport в сообщении #1026206 писал(а):

Имеет ли смысл мой вопрос, или я черезмерно усложняю?

Не знаю что тут сложного, но и смысла пока не увидел. Диапазон допустимых значений, за пределами которого продукт отбраковывается, вообще говоря не имеет никакого отношения к сигме. Допустимые отклонения определяются требованиями заказчика, а сигма -- условиями производства. Соотношение между одним и другим влияет на процент брака. Есть такие случаи, когда брак не должен превышать миллионные доли процента, а есть и такие, когда 99% продукции идёт в брак (и это считается допустимым).

Bridgeport · 13.06.2015, 00:23

Да, товарищи математики, похоже, вы совсем чужие мысли читать не умеете. ;-)

Хорошо, я попробую переформулировать вопрос. Вот мы наблюдаем за болванками и если длинны болванок лежат в пределах $\mu \pm 2 \sigma$ , мы считаем, что станок (производящий болванки работает нормально), если мы определяем, что длина болванки не лежит в вышеуказанных пределах, то надо перенастраивать станок. Как вы считаете, такая постановка контроля уместна?

Если она уместна, меня интересует немного теоретический (абстрактный вопрос). Удивительно, что для нормального распределения мы можем говорить о каких-то исходах (например в пределах $\mu \pm 2 \sigma$ ) как более вероятных, а о каких-то как менее вероятных.

А если допустить что длинны болванок логнормально распределены, как определить интервал длин болванок когда надо перенастраивать станок? Здесь можно поразмыслить и пересчитать логнормальное распределение в нормально, взять тот же интервал и перенести его обратно на случай логнормального распределения (просто предложил, не знаю имеет ли этот подход какой-то смысл) А что если взять распределение посложнее?

Понятно, что в случае более сложного распределения надо смотреть на данные и искать откуда произрастает это сложное распределение как и предложил grizzly. (Здесь под более сложным распределение понимается распределение отличное от нормального - кривовато сказано, но как-то так). Однако, интересно, можно ли для любого произведения говорить об интервалах более вероятных значений и об интервалах менее вероятных значений?

Спасибо!

grizzly · 13.06.2015, 01:51

Bridgeport
Здесь проблема в самих мыслях, а не в их чтении :)
Вы пытаетесь плясать от математики, совершенно не заботясь о том, чтобы используемые Вами понятия имели хоть какое-то отношение к реальной жизни. Вам уже разъяснил epros, что обычно никто не ставит себе целью отбраковывать ровно 5% изделий, а Вы опять за своё.

Bridgeport в сообщении #1026585 писал(а):

длинны болванок лежат в пределах $\mu \pm 2 \sigma$ ... если мы определяем, что длина болванки не лежит в вышеуказанных пределах, то надо перенастраивать станок. Как вы считаете, такая постановка контроля уместна?

Нет, не уместна. Исходить нужно от требований к болванкам. Если 100% выходящих с нашего станка болванок удовлетворяют необходимым требованиям, тогда ничего перенастраивать не нужно независимо от того, сколько болванок не попало в очерченные Вами пределы. Или обратная ситуация: 100% болванок не удовлетворяют требованиям, а с указанным Вами распределением всё идеально -- чистое $N(\mu, \sigma)$ . В этом случае нужно срочно что-то перенастраивать.
Ту же логику нужно применять и в случае "плохого" распределения. Тип и параметры распределения могут помочь нам понять причины происходящего, но не являются критериями к отбраковке продукции или перенастройке процессов. Хотя стремление поддерживать на выходе определённое (скажем, нормальное) распределение может быть оправданно само по себе.

Bridgeport · 13.06.2015, 19:49

Ну неужели это все плод моего больного воображения?

Хорошо, надеюсь это последняя попытка.

У нас имеется компьютерная система, которая распознает пользователя по голосу и открывает доступ к каким-либо ресурсам. Пользователь произносит секретное слово, и система его проверяет. Предварительно происходит обучение системы, т.е. пользователь многократно произносит секретное слово, и система его фиксирует. Процесс обучения продолжается и после этой предварительной стадии, но уже в рабочем режиме. Система идентификации продолжает аккумулировать знания и произнесении секретного слова. Очевидно, что секретное слово произнесенное пользователем не является какой-то константой, а представляет собой какое-то распределение. Здесь случай посложнее, чем с болванкой, так что, наверное, следует говорить и разложение в частотный ряд секретного слова, ну или какой-то иной квантификации звука, здесь я пока ничего конкретного сказать не могу.

Так вот задачи системы отличить настоящего пользователя по звуку. Я уже боюсь формулировать какое-либо статистическое утверждение. Здесь есть польза от изученного распределения? Имеет ли смысл говорить о каких-либо интервалах для параметров звука?

Спасибо.

mserg · 13.06.2015, 22:09

С точки зрения дилетанта…еще раз про болванки, у которых контролируется длина. Всегда есть некоторые допуски на эту длину, т.е. существует допустимый диапазон длин, скажем от $a$ до $b$ .

1. Если на производстве контролируется каждая болванка, то не попавшие в диапазон от $a$ до $b$ изделия бракуются.

2. Если каждую болванку проверить нет возможности, то проверка делается на выборке (части болванок). Задается приемлемый уровень брака в партии - если вероятностная оценка превышает этот порог - бракуется вся партия.
2.1 Если предполагается нормальное распределение (есть тесты проверки, то это распределение, или не то), то на выборке вычисляются среднее и дисперсия. Прикинуть, сколько «сигмов» нужно, чтобы обеспечить приемлемый уровень брака, можно посмотреть на картинке здесь. Если среднее не смещено, среднее то плюс-минус «2 сигма» должно попасть в диапазон $a$ и $b$ - в этом случае качество партии приемлемо.
2.2 Если имеет место смещение среднего, то нужно на график плотности распределения наложить $a$ и $b$ и посчитать площадь «хвостов» - это и будет оценка процента брака.
2.3 Если распределение не нормальное – накладываем на плотность $a$ и $b$ и считаем хвосты. Если они дают приемлемый уровень брака – то Ok.

3. Если погрешность задана на несколько параметров или "формулу" (скажем, на длину, ширину и площадь), то можно построить 3 вероятностных модели и оценить соответствие заданным требованиям (что будет не совсем корректно, но не суть).

4. Существует множество случаев, когда вероятностные модели просто не работают. Пример – распознавание ключевого слова по голосу. Эта задача относится к классу Data Mining и связана с обучением более сложным, чем наивная статистика. Во-первых собирается статистика – набор из пар «произнесенное слово» и «аудио-файл». В простейшем случае данные делятся на обучающие и тестовые. На обучающих данных подбирается функция/алгоритм распознавания, на тестовых делается проверка. Часто используется площадь ROC-кривой или индекс Джини.
Подбор алгоритма/функции в таких задачах обычно состоит из двух шагов:
* Подбор признаков
* Подбор вида функции (логистическая модель, случайные деревья и т.д.)
Статистические модели здесь обычно не работают, т.к. признаков может быть очень много, а функции весьма сложны и выявить их на глаз в многомерном пространстве невозможно.

upgrade · 13.06.2015, 22:19

Bridgeport в сообщении #1026783 писал(а):

Очевидно, что секретное слово произнесенное пользователем не является какой-то константой, а представляет собой какое-то распределение.

пусть одно слово - случайная величина (исход, реализация с.в., ...).
у разных людей разные распределения звучания слов?

grizzly · 13.06.2015, 22:26

Bridgeport
Я думаю, mserg дело говорит. Да, когда речь идёт о выборке из партий, мы по результатам измерений можем всяко-разно использовать статистику полученных результатов и принимать по этой статистике различные решения для всей партии (в зависимости от политики качества). Хороший пример.

По распознаванию голоса и другим относительно сложным примерам тоже соглашусь -- это всё творческие задачи, требующие индивидуального подхода к решению. Вряд ли их стоит обсуждать в канве общераспространённых задач стат.методов в управлении качеством. Впрочем, здесь уже я совсем дилетант.

mserg · 13.06.2015, 22:40

Кстати, есть такой сайт kaggle, где есть подходящие "соревнования":
* Digit Recognizer (распознавание цифр)
* Facial Keypoints Detection (определение ключевых точек лица)
Чем они интересны. Они просты, также содержат начальное руководства с примерами на языке R. Разумеется, есть базы изображений и оценки (формулы оценки качества).

Еще там было такое смешное соревнование - распознавание, кто пользовался "девайсом" (Accelerometer Biometric Competition). У девайса есть измерители ускорений по трем координатам (когда девайс лежит на столе, то "ускорение" равно 9.8g и направлено вверх). Идея состояла в том, что каждый пользует девайс в своей манере - держит под углом, трясет, двигает - три датчика ускорения это фиксируют. Задача была в распознавании человека по манере пользования.

Еще одно забавное соревнование - предсказание судорог по энцефалограмме (American Epilepsy Society Seizure Prediction Challenge). На ихних форумах выкладывают решения, также делают публикации в журналах.

Так что материал для вхождения в тему есть.

Научный форум dxdy

Контроль качества на производстве