Нужна математика, которая даст возможность анализировать аудио сигнал с максимальной точностью частотно временной локализации.
Фурье анализ имеет не зависимое от частоты временное окно, что делает его не самым точным.
Вейвлеты - кандидаты, но максимум что я нашел, Rational-Dilation Wavelet Transforms, не позволяют мне разбить частотную область на нужные диапазоны. Либо я не понял как это сделать.
Всякие общего характера банки фильтров вероятно тоже кандидаты, но не нашел того что мне нужно.
А нужно мне разбить частотный диапазон на октавы и каждую октаву на 12 диапазонов, точно так как это происходит в музыке. Тоесть

,

меняется скажем от 1 до 60 (5 октав). При этом иметь максимально допустимую на каждой частоте локализацию по времени тоже.
Может ктото сталкивался, либо знает куда копать?