Записи делались в условиях тишины. Система заработала, команды распознаются, но только в условиях тишины. Как сделать систему более толерантную к окружающему шуму?
Какой вообще правильный алгоритм создания датасета и обучения сетки? Читал, что как то подмешивают шум - добавляют файлы с записями шумов в датасет, но толковой инфы не нашел.
О, это та еще опупея...
Читал, помнится, статью, по тестированию автоматического вождения... Тестировщик фильтрацией изображения добился того, что автомобиль хотел поехать за ограждение в пропасть. При этом картинка оставалась хорошего качества, и было явно видно, куда нужно ехать. Хотя вероятность такого поведения мала, но достаточно одного мига, чтобы улететь в пропасть. Поэтому для пополнения обучающей выборки они "корежили" видео.
С аудио, видимо, та же картина. Насчет добавления шума - есть шумовые библиотеки. Нужно найти их, выбрать те, которые будут иметь место на практике, и подмешиваться фрагменты из этих файлов к обучающим сигналам. Тут семь пядей во лбу не нужно. Можно подмешивать одни сигналы исходной обучающей выборки к другим в качестве шума.
Если поискать "Характеристики голоса", то находится, что основные характеристики голоса
"Сила", "Высота" и "Тембр".
Амплитуду можно принять за "Силу", частоты - за "Высоту". Для пополнения обучающей выборки можно сформировать новые сигналы из исходных, воспроизводя из с разной скоростью и разным коэффициентом усиления. "Тембр" характеризуется обертонами, который можно варьировать с помощью частотных фильтров. Наверное, для изменения тембра еще можно подрезать верхние частоты с добавлением высших гармоник для низших частот.
Также есть второстепенные характеристики голоса:
* Речевой тон и подвижность - вроде как тоже описывается вариативным изменением амплитуды и скорости воспроизведения сигнала. Возможно, здесь как-то может быть использован "сэмплинг" - вырезание или добавление повторяющихся смежных фрагментов сигнала.
* Темп речи - это "сэмплинг" пауз
* Дефекты речи, осиплость и т.п. - также частично моделируется частотной фильтрацией
И т.д. Идей то полно, только не ясно, насколько все это работает и насколько сложно реализуется.