Может, кто-то - в общих чертах может осветить современное состояние данной проблемы (примерно как решается, в какой мере она решена). По моим скудным сведениям пока достаточно легко решается задача распознавания слов, и фраз, произнесенных одним и тем же человеком. Т.е. фактически производится сравнение некоторой эталонной записи с тем, что человек произносит. Сравнение не буквальное (ИМХО, в энтом-то вся хитрость), поскольку одну и ту же фразу человек не в состоянии произнести абсолютно одинаково.
Или сейчас уже решена задача распознования речи вне зависимости от того, какой человек ее произносит?

Сорри, по указанным ссылкам пока не смотрел...