2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему На страницу Пред.  1, 2
 
 Re: Посоветуйте программу для построения спектрограммы речи.
Сообщение10.10.2012, 22:39 
Аватара пользователя


05/10/12

122
Фонемы выделять? Конечно же таких нет. Даже аллофоны какого-то языка затруднительно очень.
Это настолько когнитивная функция человека, что даже суперкомпьютеры плохо справляются - специальные клястеры суперкомпьютеров ищят оптимальные алгоритмы на основе нейросетей.
Иначе бы мы уже вводили тексты голосом, разговаривали бы с процами в живую. Ведь выделил фонему и напечатал ее вот и всё что нужно - ну словарем поправил через обычный Word. Даже самые современные программы распознают произвольную речь плохо.

 Профиль  
                  
 
 Re: Посоветуйте программу для построения спектрограммы речи.
Сообщение10.10.2012, 22:48 


28/11/11
2884
Да, то что выделение фонем основывается иногда на нейрональных сетях - слышал.
Я думал, что фонемы легче выделять, чем аллофоны. Почему нет? Ведь фонема - вещь более общая, чем аллофоны, и различать их поэтому должно быть легче (потому что они "крупнее").

-- 10.10.2012, 22:50 --

Что касается распознавания речи. Вроде неплохо с этим справляются. Особенно для английского языка (например, Siri). Хотя и не думаю, что там пофонемно идёт распознавание, может сразу слогами-словами как-нибудь.

-- 10.10.2012, 22:51 --

VIP в сообщении #629318 писал(а):
Фонемы выделять? Конечно же таких нет.

А почему специалисты могут выделять из речи фонемы, а компьютер не может? Здесь же никакого искусства нет.

 Профиль  
                  
 
 Re: Посоветуйте программу для построения спектрограммы речи.
Сообщение10.10.2012, 23:11 
Аватара пользователя


05/10/12

122
longstreet в сообщении #629330 писал(а):
Я думал, что фонемы легче выделять, чем аллофоны. Почему нет? Ведь фонема - вещь более общая, чем аллофоны, и различать их поэтому должно быть легче (потому что они "крупнее").

Это только кажется. Наоборот, фонемы "мельче" - аллофонов множество, их море и они позиционно разные, но только часть признаков существенны.
Фонема по определению это набор признаков что отделяют их от других фонем. То есть признаков у аллофофонов тысячи, но только единицы из них существенны.

Цитата:
Что касается распознавания речи. Вроде неплохо с этим справляются. Особенно для английского языка (например, Siri). Хотя и не думаю, что там пофонемно идёт распознавание, может сразу слогами-словами как-нибудь.

Да она распознает слова. Такие программы есть уже давно. Сейчас их совершенствуют за счет искусственного интеллекта.

Цитата:
А почему специалисты могут выделять из речи фонемы, а компьютер не может? Здесь же никакого искусства нет.

Это могут даже дети трех лет для родного языка.
А вот для чужого языка на слух нужны годы практики для этого языка.
Специалисты десятилетиями настраивают слух для выделения аллофонов в потоке речи - ну а описать фонемы языка чрезвычайно сложно (архисложно), тратится десятилетия исследований. Даже обыденный язык такой как русский вызывает огромные сложности ср. МФШ vs. ЛФШ.
Фонема - одно из сложнейших понятий лингвистики, языка, и высшей человеческой деятельности.

 Профиль  
                  
 
 Re: Посоветуйте программу для построения спектрограммы речи.
Сообщение10.10.2012, 23:39 


28/11/11
2884
VIP в сообщении #629354 писал(а):
Фонема - одно из сложнейших понятий лингвистики, языка, и высшей человеческой деятельности.

Ёкрнбабай!

-- 10.10.2012, 23:47 --

Изображение

На этой картинке изображена осцилограмма. Я сначала думал что там относительно горизонтальной оси просто симметрично отображены частоты звука, однако, как оказалось - нет. Значит, есть в физическом звуковом потоке места, где давление воздуха падает ниже "комнатного", правильно? Т.е. бывает отрицательным значение давления воздуха? Но как так, частота же не может быть отрицательной (это же количество колебаний в секунду)!? В чём же дело?

-- 10.10.2012, 23:48 --

Там вообще в герцах по вертикальной оси частота измерена, или как?

 Профиль  
                  
 
 Re: Посоветуйте программу для построения спектрограммы речи.
Сообщение11.10.2012, 00:02 
Заслуженный участник


27/04/09
28128
longstreet в сообщении #629256 писал(а):
Громкость в речи не играет большой роли.
Имел в виду относительную громкость частот.

longstreet в сообщении #629256 писал(а):
Т.е. именно спектрограмму дают (я так думаю), а не картинку спектрограммы.
Тогда остаются только мои последние предположения про «нечеловечность» работы. :-)

longstreet в сообщении #629256 писал(а):
Компьютеру сравнивать частоты со справочными - не проблема. Мы же про компьютерные программы говорим.
Показалось, что вы тут:
longstreet в сообщении #629175 писал(а):
Вроде бы даже специалисты плохо "читают" спектрограммы, в основном, насколько я понял, люди большей частью догадываются (иногда в помощь задаётся контекст).
имели в виду людей, вот и плясал от этого.

(Оффтоп)

Что-то мне сегодня слишком много кажется. Надо отдохнуть и не пугать людей. :lol:


-- Чт окт 11, 2012 03:08:39 --

longstreet в сообщении #629365 писал(а):
Значит, есть в физическом звуковом потоке места, где давление воздуха падает ниже "комнатного", правильно?
Да. Ненамного падает, как и растёт тоже.

longstreet в сообщении #629365 писал(а):
Т.е. бывает отрицательным значение давления воздуха?
Не, зачем. Весьма удобно для глаза и счёта провести ноль в том месте, где он получается, если брать разницу между измеряемым давлением и атмосферным, или измерять положение датчика относительно начального.

 Профиль  
                  
 
 Re: Посоветуйте программу для построения спектрограммы речи.
Сообщение11.10.2012, 00:25 


28/11/11
2884
А, стоп! На этой картинке не частота по вертикальной оси. Это ведь осцилограмма. Частота по вертикальной оси на спектрограмме. Или как? :oops: :oops: :oops:

-- 11.10.2012, 00:26 --

Т.е. тут по вертикальной оси именно давление воздуха, а оно может быть отрицательным относительно "комнатного" давления.

-- 11.10.2012, 00:28 --

VIP в сообщении #629354 писал(а):
Специалисты десятилетиями настраивают слух для выделения аллофонов в потоке речи

:shock: :shock: :shock: То есть, поскольку выделить компьютером нельзя, приходится "вручную", настраивать слух десятилетиями?... omg omg omg

-- 11.10.2012, 00:32 --

arseniiv в сообщении #629370 писал(а):
Что-то мне сегодня слишком много кажется.

Нет, вы правы, порядок всё. Это я подразумевал не то, о чём последние сообщения писал. :|

 Профиль  
                  
 
 Re: Посоветуйте программу для построения спектрограммы речи.
Сообщение11.10.2012, 13:55 
Заслуженный участник


27/04/09
28128
longstreet в сообщении #629374 писал(а):
А, стоп! На этой картинке не частота по вертикальной оси. Это ведь осцилограмма. Частота по вертикальной оси на спектрограмме. Или как? :oops: :oops: :oops:
На спектрограмме частота, на «осцилограмме» громкость — обычно давление не используют, т. к. чтобы его получить, надо знать характеристики микрофона, а точное его знание ничего полезного не добавляет.

longstreet в сообщении #629374 писал(а):
То есть, поскольку выделить компьютером нельзя, приходится "вручную", настраивать слух десятилетиями?... omg omg omg
Мне кажется, там некоторый перебор. Полно людей, владеющих какими-нибудь языками достаточно хорошо, чтобы другие носители этих языков отклонений не замечали. На слух они, конечно, тоже понимают. Фонетистам просто приходится иметь дело с бо́льшим набором звуков — но на десятилетия всё это растягиваться не должно.

-- Чт окт 11, 2012 16:58:52 --

Да и компьютером выделить можно, просто надо применить одновременно хорошо подходящий алгоритм распознавания образов с хорошо подобранными обучающими данными. Даже если такого алгоритма ещё нет (в чём я сомневаюсь), он когда-нибудь появится. И не обязательно этот алгоритм будет основан на нейронных сетях — на них свет клином не сошёлся, и у них тоже есть недостатки и неприменимости.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 22 ]  На страницу Пред.  1, 2

Модераторы: Karan, Toucan, PAV, maxal, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group