Есть пакеты speech-to-text, которые хотя и не 100% надежны, но в Вашем случае должны работать. Если «кустарно», то делаем преобразование Fourier, отчищаем от «шумов» и смотрим, на "долгие" звуки, в том смысле что можно ввести порог на длительность: если превышает, значит гласная.
|