Посоветуйте программу для построения спектрограммы речи.

VIP · 10.10.2012, 22:39

Фонемы выделять? Конечно же таких нет. Даже аллофоны какого-то языка затруднительно очень.
Это настолько когнитивная функция человека, что даже суперкомпьютеры плохо справляются - специальные клястеры суперкомпьютеров ищят оптимальные алгоритмы на основе нейросетей.
Иначе бы мы уже вводили тексты голосом, разговаривали бы с процами в живую. Ведь выделил фонему и напечатал ее вот и всё что нужно - ну словарем поправил через обычный Word. Даже самые современные программы распознают произвольную речь плохо.

longstreet · 10.10.2012, 22:48

Да, то что выделение фонем основывается иногда на нейрональных сетях - слышал.
Я думал, что фонемы легче выделять, чем аллофоны. Почему нет? Ведь фонема - вещь более общая, чем аллофоны, и различать их поэтому должно быть легче (потому что они "крупнее").

-- 10.10.2012, 22:50 --

Что касается распознавания речи. Вроде неплохо с этим справляются. Особенно для английского языка (например, Siri). Хотя и не думаю, что там пофонемно идёт распознавание, может сразу слогами-словами как-нибудь.

-- 10.10.2012, 22:51 --

VIP в сообщении #629318 писал(а):

Фонемы выделять? Конечно же таких нет.

А почему специалисты могут выделять из речи фонемы, а компьютер не может? Здесь же никакого искусства нет.

VIP · 10.10.2012, 23:11

longstreet в сообщении #629330 писал(а):

Я думал, что фонемы легче выделять, чем аллофоны. Почему нет? Ведь фонема - вещь более общая, чем аллофоны, и различать их поэтому должно быть легче (потому что они "крупнее").

Это только кажется. Наоборот, фонемы "мельче" - аллофонов множество, их море и они позиционно разные, но только часть признаков существенны.
Фонема по определению это набор признаков что отделяют их от других фонем. То есть признаков у аллофофонов тысячи, но только единицы из них существенны.

Цитата:

Что касается распознавания речи. Вроде неплохо с этим справляются. Особенно для английского языка (например, Siri). Хотя и не думаю, что там пофонемно идёт распознавание, может сразу слогами-словами как-нибудь.

Да она распознает слова. Такие программы есть уже давно. Сейчас их совершенствуют за счет искусственного интеллекта.

Цитата:

А почему специалисты могут выделять из речи фонемы, а компьютер не может? Здесь же никакого искусства нет.

Это могут даже дети трех лет для родного языка.
А вот для чужого языка на слух нужны годы практики для этого языка.
Специалисты десятилетиями настраивают слух для выделения аллофонов в потоке речи - ну а описать фонемы языка чрезвычайно сложно (архисложно), тратится десятилетия исследований. Даже обыденный язык такой как русский вызывает огромные сложности ср. МФШ vs. ЛФШ.
Фонема - одно из сложнейших понятий лингвистики, языка, и высшей человеческой деятельности.

longstreet · 10.10.2012, 23:39

VIP в сообщении #629354 писал(а):

Фонема - одно из сложнейших понятий лингвистики, языка, и высшей человеческой деятельности.

Ёкрнбабай!

-- 10.10.2012, 23:47 --

На этой картинке изображена осцилограмма. Я сначала думал что там относительно горизонтальной оси просто симметрично отображены частоты звука, однако, как оказалось - нет. Значит, есть в физическом звуковом потоке места, где давление воздуха падает ниже "комнатного", правильно? Т.е. бывает отрицательным значение давления воздуха? Но как так, частота же не может быть отрицательной (это же количество колебаний в секунду)!? В чём же дело?

-- 10.10.2012, 23:48 --

Там вообще в герцах по вертикальной оси частота измерена, или как?

arseniiv · 11.10.2012, 00:02

longstreet в сообщении #629256 писал(а):

Громкость в речи не играет большой роли.

Имел в виду относительную громкость частот.

longstreet в сообщении #629256 писал(а):

Т.е. именно спектрограмму дают (я так думаю), а не картинку спектрограммы.

Тогда остаются только мои последние предположения про «нечеловечность» работы. :-)

longstreet в сообщении #629256 писал(а):

Компьютеру сравнивать частоты со справочными - не проблема. Мы же про компьютерные программы говорим.

Показалось, что вы тут:

longstreet в сообщении #629175 писал(а):

Вроде бы даже специалисты плохо "читают" спектрограммы, в основном, насколько я понял, люди большей частью догадываются (иногда в помощь задаётся контекст).

имели в виду людей, вот и плясал от этого.

(Оффтоп)

Что-то мне сегодня слишком много кажется. Надо отдохнуть и не пугать людей. :lol:

-- Чт окт 11, 2012 03:08:39 --

longstreet в сообщении #629365 писал(а):

Значит, есть в физическом звуковом потоке места, где давление воздуха падает ниже "комнатного", правильно?

Да. Ненамного падает, как и растёт тоже.

longstreet в сообщении #629365 писал(а):

Т.е. бывает отрицательным значение давления воздуха?

Не, зачем. Весьма удобно для глаза и счёта провести ноль в том месте, где он получается, если брать разницу между измеряемым давлением и атмосферным, или измерять положение датчика относительно начального.

longstreet · 11.10.2012, 00:25

А, стоп! На этой картинке не частота по вертикальной оси. Это ведь осцилограмма. Частота по вертикальной оси на спектрограмме. Или как? :oops:

-- 11.10.2012, 00:26 --

Т.е. тут по вертикальной оси именно давление воздуха, а оно может быть отрицательным относительно "комнатного" давления.

-- 11.10.2012, 00:28 --

VIP в сообщении #629354 писал(а):

Специалисты десятилетиями настраивают слух для выделения аллофонов в потоке речи

То есть, поскольку выделить компьютером нельзя, приходится "вручную", настраивать слух десятилетиями?... omg omg omg

-- 11.10.2012, 00:32 --

arseniiv в сообщении #629370 писал(а):

Что-то мне сегодня слишком много кажется.

Нет, вы правы, порядок всё. Это я подразумевал не то, о чём последние сообщения писал.

arseniiv · 11.10.2012, 13:55

longstreet в сообщении #629374 писал(а):

А, стоп! На этой картинке не частота по вертикальной оси. Это ведь осцилограмма. Частота по вертикальной оси на спектрограмме. Или как? :oops:

На спектрограмме частота, на «осцилограмме» громкость — обычно давление не используют, т. к. чтобы его получить, надо знать характеристики микрофона, а точное его знание ничего полезного не добавляет.

longstreet в сообщении #629374 писал(а):

То есть, поскольку выделить компьютером нельзя, приходится "вручную", настраивать слух десятилетиями?... omg omg omg

Мне кажется, там некоторый перебор. Полно людей, владеющих какими-нибудь языками достаточно хорошо, чтобы другие носители этих языков отклонений не замечали. На слух они, конечно, тоже понимают. Фонетистам просто приходится иметь дело с бо́льшим набором звуков — но на десятилетия всё это растягиваться не должно.

-- Чт окт 11, 2012 16:58:52 --

Да и компьютером выделить можно, просто надо применить одновременно хорошо подходящий алгоритм распознавания образов с хорошо подобранными обучающими данными. Даже если такого алгоритма ещё нет (в чём я сомневаюсь), он когда-нибудь появится. И не обязательно этот алгоритм будет основан на нейронных сетях — на них свет клином не сошёлся, и у них тоже есть недостатки и неприменимости.

Научный форум dxdy

Посоветуйте программу для построения спектрограммы речи.