Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 Доверительный интервал для поиска оптимального порога
Мы ищем оптимальный порог (p) для отсеивания результатов работы нейронной сети. Сеть обучена на единственном классе. На вход сеть получает некоторый объект, а на выходе сообщает, принадлежит объект нашему классу или нет. Для нас важно минимизировать количество ложных срабатываний. В процессе родилось такое решение.

  1. пробегаем значения порога p в цикле, от 0 до 100% (для простоты примера, с шагом 10%);
  2. для каждого значения вычисляем количество правильных срабатываний (true-positive, TP) и ложно-положительных (false-positive, FP);
  3. для TP и FP вычисляем доверительный интервал (DOWN - UP);
  4. выбираем тот порог, у которого нижняя граница (DOWN) наибольшая.

Интуитивно, смысл таков.
Доверительный интервал отражает вероятность того, что ответ нейронной сети не будет ложным срабатыванием.
Для перестраховки берем нижнее значение интервала.
В итоге, выбираем тот порог, у которого процент ложного срабатывания наименьший.

Вот "живые" числа. Мы остановились на интервале Уилсона с уровнем доверия 95%:

Код:
| p, % | TP  | FP  | DOWN, % | UP, % |
|------|-----|-----|------|------|
| 0    | 361 | 576 | 35   | 42   |
| 10   | 269 | 225 | 50   | 59   |
| 20   | 225 | 142 | 56   | 66   |
| 30   | 180 | 88  | 61   | 73   |
| 40   | 140 | 60  | 63   | 76   |
| 50   | 111 | 40  | 66   | 80   |
| 60   | 81  | 26  | 66   | 83   |
| 70   | 59  | 13  | 71   | 90   |
| 80   | 31  | 3   | 75   | 98   |
| 90   | 8   | 0   | 60   | 99   |
| 100  | 0   | 0   | 0    | 100  |


Основываясь на данных таблицы, выбираем порог 80%.

При этом, мы понимаем, что уменьшаем общую частоту срабатывания нейронной сети. Но, повторюсь, для нас важна минимизация "фальстартов".

Насколько такой подход корректен?

 Re: Доверительный интервал для поиска оптимального порога
Ваша таблица не очень наглядно представляет данные. TP и FP, судя по всему, у Вас в абсолютных величинах, а границы доверительного интервала в %. Чтобы перевести TP и FP в % нужно знать объём выборки, ещё лучше - если Вы представите TP и FP сразу в %, исправив таблицу. Поверьте, пересчитывать всё это самостоятельно не так уж интересно.
Во вторых - Вы пишите, что построили доверительные интервалы, но в таблице представлен только один интервал. Какой оценке соответствует этот интервал? Рискну предположить, что для 1-FP в процентах. Но, чтобы не "гадать" уж лучше уточните этот момент.

 Re: Доверительный интервал для поиска оптимального порога
Аватара пользователя
tulfora в сообщении #1350227 писал(а):
минимизировать количество ложных срабатываний
Количество ложных срабатываний или долю ложных срабатываний среди всех срабатываний (FDR, false discovery rate)?
Количество минимизируется выкидыванием вообще всех срабатываний.
Если минимизируете FDR - то нужно уточнять, что именно хочется, от этого будет зависеть, брать границу доверительного интервала или просто абсолютное значение.

 [ Сообщений: 3 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group