2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




На страницу Пред.  1, 2
 
 Re: Посоветуйте программу для построения спектрограммы речи.
Сообщение10.10.2012, 22:39 
Аватара пользователя
Фонемы выделять? Конечно же таких нет. Даже аллофоны какого-то языка затруднительно очень.
Это настолько когнитивная функция человека, что даже суперкомпьютеры плохо справляются - специальные клястеры суперкомпьютеров ищят оптимальные алгоритмы на основе нейросетей.
Иначе бы мы уже вводили тексты голосом, разговаривали бы с процами в живую. Ведь выделил фонему и напечатал ее вот и всё что нужно - ну словарем поправил через обычный Word. Даже самые современные программы распознают произвольную речь плохо.

 
 
 
 Re: Посоветуйте программу для построения спектрограммы речи.
Сообщение10.10.2012, 22:48 
Да, то что выделение фонем основывается иногда на нейрональных сетях - слышал.
Я думал, что фонемы легче выделять, чем аллофоны. Почему нет? Ведь фонема - вещь более общая, чем аллофоны, и различать их поэтому должно быть легче (потому что они "крупнее").

-- 10.10.2012, 22:50 --

Что касается распознавания речи. Вроде неплохо с этим справляются. Особенно для английского языка (например, Siri). Хотя и не думаю, что там пофонемно идёт распознавание, может сразу слогами-словами как-нибудь.

-- 10.10.2012, 22:51 --

VIP в сообщении #629318 писал(а):
Фонемы выделять? Конечно же таких нет.

А почему специалисты могут выделять из речи фонемы, а компьютер не может? Здесь же никакого искусства нет.

 
 
 
 Re: Посоветуйте программу для построения спектрограммы речи.
Сообщение10.10.2012, 23:11 
Аватара пользователя
longstreet в сообщении #629330 писал(а):
Я думал, что фонемы легче выделять, чем аллофоны. Почему нет? Ведь фонема - вещь более общая, чем аллофоны, и различать их поэтому должно быть легче (потому что они "крупнее").

Это только кажется. Наоборот, фонемы "мельче" - аллофонов множество, их море и они позиционно разные, но только часть признаков существенны.
Фонема по определению это набор признаков что отделяют их от других фонем. То есть признаков у аллофофонов тысячи, но только единицы из них существенны.

Цитата:
Что касается распознавания речи. Вроде неплохо с этим справляются. Особенно для английского языка (например, Siri). Хотя и не думаю, что там пофонемно идёт распознавание, может сразу слогами-словами как-нибудь.

Да она распознает слова. Такие программы есть уже давно. Сейчас их совершенствуют за счет искусственного интеллекта.

Цитата:
А почему специалисты могут выделять из речи фонемы, а компьютер не может? Здесь же никакого искусства нет.

Это могут даже дети трех лет для родного языка.
А вот для чужого языка на слух нужны годы практики для этого языка.
Специалисты десятилетиями настраивают слух для выделения аллофонов в потоке речи - ну а описать фонемы языка чрезвычайно сложно (архисложно), тратится десятилетия исследований. Даже обыденный язык такой как русский вызывает огромные сложности ср. МФШ vs. ЛФШ.
Фонема - одно из сложнейших понятий лингвистики, языка, и высшей человеческой деятельности.

 
 
 
 Re: Посоветуйте программу для построения спектрограммы речи.
Сообщение10.10.2012, 23:39 
VIP в сообщении #629354 писал(а):
Фонема - одно из сложнейших понятий лингвистики, языка, и высшей человеческой деятельности.

Ёкрнбабай!

-- 10.10.2012, 23:47 --

Изображение

На этой картинке изображена осцилограмма. Я сначала думал что там относительно горизонтальной оси просто симметрично отображены частоты звука, однако, как оказалось - нет. Значит, есть в физическом звуковом потоке места, где давление воздуха падает ниже "комнатного", правильно? Т.е. бывает отрицательным значение давления воздуха? Но как так, частота же не может быть отрицательной (это же количество колебаний в секунду)!? В чём же дело?

-- 10.10.2012, 23:48 --

Там вообще в герцах по вертикальной оси частота измерена, или как?

 
 
 
 Re: Посоветуйте программу для построения спектрограммы речи.
Сообщение11.10.2012, 00:02 
longstreet в сообщении #629256 писал(а):
Громкость в речи не играет большой роли.
Имел в виду относительную громкость частот.

longstreet в сообщении #629256 писал(а):
Т.е. именно спектрограмму дают (я так думаю), а не картинку спектрограммы.
Тогда остаются только мои последние предположения про «нечеловечность» работы. :-)

longstreet в сообщении #629256 писал(а):
Компьютеру сравнивать частоты со справочными - не проблема. Мы же про компьютерные программы говорим.
Показалось, что вы тут:
longstreet в сообщении #629175 писал(а):
Вроде бы даже специалисты плохо "читают" спектрограммы, в основном, насколько я понял, люди большей частью догадываются (иногда в помощь задаётся контекст).
имели в виду людей, вот и плясал от этого.

(Оффтоп)

Что-то мне сегодня слишком много кажется. Надо отдохнуть и не пугать людей. :lol:


-- Чт окт 11, 2012 03:08:39 --

longstreet в сообщении #629365 писал(а):
Значит, есть в физическом звуковом потоке места, где давление воздуха падает ниже "комнатного", правильно?
Да. Ненамного падает, как и растёт тоже.

longstreet в сообщении #629365 писал(а):
Т.е. бывает отрицательным значение давления воздуха?
Не, зачем. Весьма удобно для глаза и счёта провести ноль в том месте, где он получается, если брать разницу между измеряемым давлением и атмосферным, или измерять положение датчика относительно начального.

 
 
 
 Re: Посоветуйте программу для построения спектрограммы речи.
Сообщение11.10.2012, 00:25 
А, стоп! На этой картинке не частота по вертикальной оси. Это ведь осцилограмма. Частота по вертикальной оси на спектрограмме. Или как? :oops: :oops: :oops:

-- 11.10.2012, 00:26 --

Т.е. тут по вертикальной оси именно давление воздуха, а оно может быть отрицательным относительно "комнатного" давления.

-- 11.10.2012, 00:28 --

VIP в сообщении #629354 писал(а):
Специалисты десятилетиями настраивают слух для выделения аллофонов в потоке речи

:shock: :shock: :shock: То есть, поскольку выделить компьютером нельзя, приходится "вручную", настраивать слух десятилетиями?... omg omg omg

-- 11.10.2012, 00:32 --

arseniiv в сообщении #629370 писал(а):
Что-то мне сегодня слишком много кажется.

Нет, вы правы, порядок всё. Это я подразумевал не то, о чём последние сообщения писал. :|

 
 
 
 Re: Посоветуйте программу для построения спектрограммы речи.
Сообщение11.10.2012, 13:55 
longstreet в сообщении #629374 писал(а):
А, стоп! На этой картинке не частота по вертикальной оси. Это ведь осцилограмма. Частота по вертикальной оси на спектрограмме. Или как? :oops: :oops: :oops:
На спектрограмме частота, на «осцилограмме» громкость — обычно давление не используют, т. к. чтобы его получить, надо знать характеристики микрофона, а точное его знание ничего полезного не добавляет.

longstreet в сообщении #629374 писал(а):
То есть, поскольку выделить компьютером нельзя, приходится "вручную", настраивать слух десятилетиями?... omg omg omg
Мне кажется, там некоторый перебор. Полно людей, владеющих какими-нибудь языками достаточно хорошо, чтобы другие носители этих языков отклонений не замечали. На слух они, конечно, тоже понимают. Фонетистам просто приходится иметь дело с бо́льшим набором звуков — но на десятилетия всё это растягиваться не должно.

-- Чт окт 11, 2012 16:58:52 --

Да и компьютером выделить можно, просто надо применить одновременно хорошо подходящий алгоритм распознавания образов с хорошо подобранными обучающими данными. Даже если такого алгоритма ещё нет (в чём я сомневаюсь), он когда-нибудь появится. И не обязательно этот алгоритм будет основан на нейронных сетях — на них свет клином не сошёлся, и у них тоже есть недостатки и неприменимости.

 
 
 [ Сообщений: 22 ]  На страницу Пред.  1, 2


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group