2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 Доверительный интервал для поиска оптимального порога
Сообщение30.10.2018, 13:07 
Мы ищем оптимальный порог (p) для отсеивания результатов работы нейронной сети. Сеть обучена на единственном классе. На вход сеть получает некоторый объект, а на выходе сообщает, принадлежит объект нашему классу или нет. Для нас важно минимизировать количество ложных срабатываний. В процессе родилось такое решение.

  1. пробегаем значения порога p в цикле, от 0 до 100% (для простоты примера, с шагом 10%);
  2. для каждого значения вычисляем количество правильных срабатываний (true-positive, TP) и ложно-положительных (false-positive, FP);
  3. для TP и FP вычисляем доверительный интервал (DOWN - UP);
  4. выбираем тот порог, у которого нижняя граница (DOWN) наибольшая.

Интуитивно, смысл таков.
Доверительный интервал отражает вероятность того, что ответ нейронной сети не будет ложным срабатыванием.
Для перестраховки берем нижнее значение интервала.
В итоге, выбираем тот порог, у которого процент ложного срабатывания наименьший.

Вот "живые" числа. Мы остановились на интервале Уилсона с уровнем доверия 95%:

Код:
| p, % | TP  | FP  | DOWN, % | UP, % |
|------|-----|-----|------|------|
| 0    | 361 | 576 | 35   | 42   |
| 10   | 269 | 225 | 50   | 59   |
| 20   | 225 | 142 | 56   | 66   |
| 30   | 180 | 88  | 61   | 73   |
| 40   | 140 | 60  | 63   | 76   |
| 50   | 111 | 40  | 66   | 80   |
| 60   | 81  | 26  | 66   | 83   |
| 70   | 59  | 13  | 71   | 90   |
| 80   | 31  | 3   | 75   | 98   |
| 90   | 8   | 0   | 60   | 99   |
| 100  | 0   | 0   | 0    | 100  |


Основываясь на данных таблицы, выбираем порог 80%.

При этом, мы понимаем, что уменьшаем общую частоту срабатывания нейронной сети. Но, повторюсь, для нас важна минимизация "фальстартов".

Насколько такой подход корректен?

 
 
 
 Re: Доверительный интервал для поиска оптимального порога
Сообщение30.10.2018, 21:14 
Ваша таблица не очень наглядно представляет данные. TP и FP, судя по всему, у Вас в абсолютных величинах, а границы доверительного интервала в %. Чтобы перевести TP и FP в % нужно знать объём выборки, ещё лучше - если Вы представите TP и FP сразу в %, исправив таблицу. Поверьте, пересчитывать всё это самостоятельно не так уж интересно.
Во вторых - Вы пишите, что построили доверительные интервалы, но в таблице представлен только один интервал. Какой оценке соответствует этот интервал? Рискну предположить, что для 1-FP в процентах. Но, чтобы не "гадать" уж лучше уточните этот момент.

 
 
 
 Re: Доверительный интервал для поиска оптимального порога
Сообщение30.10.2018, 21:25 
Аватара пользователя
tulfora в сообщении #1350227 писал(а):
минимизировать количество ложных срабатываний
Количество ложных срабатываний или долю ложных срабатываний среди всех срабатываний (FDR, false discovery rate)?
Количество минимизируется выкидыванием вообще всех срабатываний.
Если минимизируете FDR - то нужно уточнять, что именно хочется, от этого будет зависеть, брать границу доверительного интервала или просто абсолютное значение.

 
 
 [ Сообщений: 3 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group