Моделирование русского языка

4th-otaku · 05.09.2010, 06:23

Собственно, лингвисты "всё уже придумали до нас".

Многабукв (разрисовал петитом/болдом для удобочитаемости):

Апресян Ю.Д. в Лексическая семантика (1995) писал(а):

Люди, знающие тот или иной естественный язык, могут выполнять с его помощью следующие операции:

1) Строить на этом языке текст, выражающий нужное значение (способность говорения), а также извлекать значение из воспринимаемого текста (способность понимания). Неумение выбрать слова и конструкции, выражающие требуемое значение, приводит к семантической ошибке, например, такой: Преступники угнали несколько государственных и собственных машин. Это предложение либо неправильно (надо было сказать частных, а не собственных), либо правильно, но нелепо (преступники обокрали себя, угнав свои собственные машины). Ошибка объясняется тем, что автор приведенного высказывания спутал два близких, но не совпадающих по значению слова: частный X = ' X, принадлежащий отдельному лицу' и собственный X = 'принадлежащий тому лицу, которое пользуется Х-ом'.

2) Соединять слова друг с другом идиоматично, т. е. в соответствии со сложившимися в данном языке и подчас трудно мотивируемыми нормами синтаксической, семантической и лексической сочетаемости. По-русски нельзя сказать транжирить или мотать деньгами (надо: транжирить или мотать деньги), приходить в хандру (надо: впадать в хандру), хотя никакой семантической ошибки тут нет: форма творительного падежа деньгами может иметь требуемое по смыслу объектное значение (ср. сорить или бросаться деньгами), а глагол приходить - требуемое по смыслу значение 'начинать находиться в состоянии, обозначенном зависимым существительным' (ср. приходить в ярость).

3) Устанавливать различные семантические отношения между высказываниями, в частности: а) отношения синонимии, ср. Нет на свете дела, более трудного, чем составление словаря = Составление словаря - самое труднoe дело на свете; б) отношения логического следования, ср. Мальчик вылечился => Мальчик выздоровел => Мальчик здоров. При говорении эта способность проявляется в умении перифразировать построенный текст многими различными способами, оставляя неизменным его содержание или меняя последнее строго определенным способом, а при понимании - в умении увидеть полное или частичное семантическое тождество внешне различных текстов.

4) Устанавливать различные семантические свойства предложений, в частности: а) отличать семантически правильные предложения от семантически неправильных, б) отличать семантически связные тексты от семантически несвязных.

Подчеркнем, что здесь имеются в виду умения, основанные на владении чисто языковой (словарной и грамматической), а не энциклопедической информацией. Текст Он проплыл 100 метров кролем за 45 секунд для всякого носителя русского языка значит: 'Плывя стилем «кроль», он покрыл расстояние в сто метров и затратил на это 45 секунд'. Для тех, кто знает не только русский язык, но и таблицу мировых достижений в плавании (элемент энциклопедической, а не языковой информации), то же самое предложение может оказаться гораздо содержательнее. Оно может быть воспринято как сенсационное сообщение о феноменальном мировом рекорде, как напоминание о безграничных физических возможностях человека и т. п.

Достаточно знать только грамматику языка и словарные значения слов, чтобы построить перифразы Стометровую дистанцию (стометровку) он проплыл кролем за 45 секунд, На сто метров кролем у него ушло 45 секунд, Стометровку он прошел кролем за 45 секунд, Он затратил 45 секунд на то, чтобы пройти кролем расстояние в 100 метров, Стометровку он проплыл кролем за 3/4 минуты и очень многие другие. К услугам знатока спорта будут и совершенно иные возможности перифразирования: Кратчайшую олимпийскую дистанцию он проплыл кролем за 45 секунд, На стометровой дистанции кролем он на 10 секунд улучшил прежний мировой рекорд и т. д.

Если человек владеет только языковой информацией, он не сумеет сказать, являются ли семантически связными тексты: Он проплыл 100 метров кролем за 45 секунд, установив, таким образом, феноменальный мировой рекорд и Он проплыл 100 метров кролем за 45 секунд, едва выполнив, таким образом, норму третьего разряда. Если же человек владеет и соответствующей энциклопедической информацией, первое предложение будет для него семантически связно, хотя и неправдоподобно, а второе - несвязно или ложно.

Итак, речь идет лишь о моделировании знания языка, а не знания действительности. В указанных рамках носители языка выполняют все перечисленные операции интуитивно и не отдают себе отчета в том, на каком основании они выбирают то или иное решение. Рассмотрим, например, предложение Хороший кондитер не жарит хворост на газовой плите. Его значение непосредственно очевидно всякому человеку, владеющему русским языком, хотя можно сомневаться в том, что рядовой носитель языка сумеет теоретически удовлетворительно объяснить существо закона, который он интуитивно использует при понимании данного предложения.

Однако модель не может апеллировать к интуиции, которой у нее нет, и если мы хотим, чтобы она выполняла доступные человеку операции с текстами, мы должны заложить в нее необходимую информацию в явном виде. Эта информация складывается прежде всего из знания фонетических, морфологических и синтаксических единиц и правил и знания словаря, но, конечно, не исчерпывается этим. Существуют еще некие семантические правила интерпретации текстов; ниже мы эксплицируем одно из них, допустив, что синтаксическая структура предложения и значения входящих в него слов уже известны <...>.

Оставляя в стороне многозначность слов хороший, не, на, выпишем в столбец значения всех других слов.[*]

[*] Значения сформулированы здесь очень приблизительно.

кондитер
1. 'тот, кто изготовляет сласти'
2. 'торговец сластями'
3. 'владелец кондитерской'

жарить
1. 'изготовлять пищу нагреванием на/в масле'
2. 'обдавать зноем'

хворост
1. 'сухие отпавшие ветви'
2. 'печенье, изготовленное кипячением в масле'

газовый
1. 'состоящий из газа' (облако)
2. 'производящий газ'
3. 'работающий на энергии сжигаемого газа'

плита
1. 'плоский кусок твердого материала'
2. 'нагревательное устройство для изготовления пищи'

Если модель не знает закона, по которому из значений слов строится значение предложения, ничто не помешает ей понять это высказывание, например, в следующем смысле: 'Хороший торговец сластями не обдает зноем сухие отпавшие ветви на плоском куске металла, производящем газ'. Это осмысление получается в результате такой комбинации значений: кондитер 2, жарить 2, хворост 1, газовый 2, плита 1; общее же число принципиально мыс-лимых комбинаций значений и, следовательно, принципиально возможных прочтений предложения в пределах заданной информации достигает 3 x 2 x 2 х 3 х 2 = 72. Из них лишь одно является оптимальным по своей информативности и естественности.

Чтобы сформулировать закон, на основании которого носитель языка безошибочно выбирает именно его, присмотримся вни-мательнее к значениям слов, дающим оптимальное осмысление предложения. Это значения кондитер 1, жарить 1, хворост 2, газовый 3 и плита 2; характерным для них является наличие ряда общих семантических элементов, а именно элемента 'изготовлять' ('тот, кто изготовляет', 'изготовлять пищу', 'изготовленное', 'для изготовления пищи'), элемента 'нагревание' ('нагреванием на/в масле', 'изготовленное кипячением', 'энергия сжигаемого газа', 'нагревательное устройство'), элемента 'пища' ('сласти', 'изготовлять пищу', 'кипячением в масле'). Выбор названных значений обеспечивает максимальную повторяемость семантических элементов в пределах предложения; легко убедиться, что при любом другом осмыслении предложения повторяемость се-мантических элементов будет менее высокой.

Это и есть основной семантический закон, регулирующий правильное понимание текстов слушающим: выбирается такое осмысление данного предложения, при котором повторяемость семантических элементов достигает максимума. Этот закон представляет собой строгую формулировку старого принципа, в силу которого нужное значение многозначного слова «ясно из контекста»; иногда он называется правилом семантического согласования (Гак 1972).[*]

[*] Если пользоваться этим термином, то следует иметь в виду, что между грамматическим и семантическим согласованием имеется существенное различие: слово А, грамматически согласованное с В, заимствует у последнего определенные значения в данном тексте; между тем семантически согласованные друг с другом слова A и В не приобретают общие смысловые элементы в тексте, а имеют их еще в словаре. Бесспорно, однако, что понятие согласования (повторяемости каких-то элементов языковой информации) может быть обобщено таким образом, что грамматическое и семантическое согласование предстанут как его частные случаи.

Теперь можно формально эксплицировать, хотя бы в первом и самом грубом приближении, и понятие семантической связности текста: текст семантически связен, если в лексических значениях синтаксически связанных слов имеются повторяющиеся смысловые компоненты; если ни для одной пары синтаксически связанных друг с другом слов это правило не соблюдено, текст семантически не связен.

Уже этот пример показывает, что попытка смоделировать понимание человеком семантически связных текстов или его умение отличать семантически связные тексты от несвязных приводит к постановке серьезного вопроса о языке, на котором описываются значения слов. Очевидно, например, что, поскольку повторяться в тексте могут только части сложных значений, а не эти значения целиком, каждое из сложных значений должно быть представлено в виде комбинации более простых значений, а каждое из этих простых значений должно (в формальном языке) всегда называться одинаково: если одно и то же простое значение будет называться по-разному в зависимости от того, входит ли оно в сложное значение 'А' или 'В', факт его повторяемости в словосочетании АВ не может быть непосредственно установлен.

Сказанное позволяет заключить, что искомый язык существенно отличается от естественного языка хотя бы тем, что его слова семантически гораздо проще слов естественного языка и не имеют синонимов. В дальнейшем мы займемся этим вопросом подробнее; здесь же достаточно подчеркнуть, что к точно таким же выводам мы бы неминуемо пришли, если бы рассматривали требования, вытекающие из формальной постановки проблемы моделирования любой другой способности из числа тех, которые в совокупности составляют «владение языком». В частности, не имея специального языка для записи значений, невозможно формально смоделировать умение носителя языка строить тексты с заданным содержанием.

Неудивительно поэтому, что вопрос о языке для записи значений слов и - шире - целых высказываний оказался в центре внимания многих современных школ и направлений семантики, которой теперь отводится очень важная роль: она не просто «изучает значения слов», но отвечает за разработку языка для записи семантической информации и (отчасти) правил перехода от предложений этого языка к предложениям естественного языка. В связи с этим выделяется по крайней мере два уровня представления высказываний: семантический (у некоторых авторов - глубинно-синтаксический) и поверхностно-синтаксический (ср. Жолковский и Мельчук 1965, 1967, Лэмб 1966, Вежбицка 1967б, Лайонс 1967, Лаков 1968, МакКоли 1968б, Филмор 1969, Брекле 1969, Беллерт 1969, Богуславский 1970, Шаумян 1971, Бархударов 1973). В работах последних лет (см. в особенности Мельчук 1974а, 19746) число уровней возрастает до пяти-шести: семантический, глубинно-синтаксический, поверхностно-синтаксический, глубинно-морфологический, поверхностно-морфологический, фонологический.
<...>

Дальше, наверное, следует курить собственно Мельчука с его теорией «Смысл ↔ Текст». Можно ещё пожевать что-нибудь вроде Я.Г.Тестелец. "Введение в общий синтаксис" (2001) (особенно "Часть 2. Синтаксические теории" - там обзор разных подходов к формализации, в т.ч. и мельчуковского). Все книги есть в сети (нашёл даже сканы ТКС/1984 (увы, неполные) - надо будет выложить на Инфанату).

PS. Насчёт "моделирования знания языка, а не знания действительности" Апресян слишком оптимистичен - Ленат сперва как раз и пытался такое провернуть. Пришёл к выводу, что без common sense таки не обойтись.

Rasool · 06.09.2010, 14:06

Меня интересует прикладной аспект подобных исследований. Можно ли будет использовать языковые базы знаний в поисковых системах, например, в системах электронного документооборота? Как вы думаете?

4th-otaku · 05.10.2010, 21:39

Rasool в сообщении #350071 писал(а):

Меня интересует прикладной аспект подобных исследований. Можно ли будет использовать языковые базы знаний в поисковых системах, например, в системах электронного документооборота? Как вы думаете?

Может быть. По идее, оно должно быть полезно в тех случаях, когда требуются экспертные системы с поддержкой диалога на естественном языке или с возможностью извлечения информации из корпуса текстов. Хотя качество будет во многом зависеть от полноты лексикографической, семантической и энциклопедической информации в системе.

Из публичных проектов, основанных на БЗ, можно привести те же TrueKnowledge или Наносемантику.

4th-otaku · 06.10.2010, 00:02

Padawan в сообщении #332078 писал(а):

Предлагаю создать он-лайн проект по выделению типов лексико-синтаксических связей в русском языке.

Хорошо бы сделать такую он-лайн программу, чтобы каждый мог записывать свое предложение, делать его синтаксический разбор, используя уже существующие связи, и создавать новые -- разбивать существующие на подтипы, более тонко отражающие смысл связи. По каждой связи будет создаваться католог предложений, где она встречается.

Хорошо бы, чтобы это было вроде википедии -- с возможность свободно редактировать и обсуждать.

Предлагаю пока что делать это на основе Викисловаря (если, конечно, тамошние будут не против). См. проект.

По-видимому, достаточно будет создать два сворачивающихся шаблона (аналогичных блоку переводов): "модель управления слова" и "лексические функции слова". И применять их затем примерно таким же образом, как сейчас применяются блоки переводов. Семантику слов, имхо, правильнее всего было бы описывать с помощью перевода на Илакш (в том же блоке переводов).

См. также Синтаксически размеченный корпус русского языка.

PS. Позже можно будет поднять где-нибудь собственно БЗ с более-менее удобным интерфейсом редактирования лексикографических (семантика, комбинаторика) и общих знаний (онтология, правила вывода). Для web-интерфейса лично я бы, пожалуй, предпочёл использовать движок TiddlyWeb.

4th-otaku · 06.10.2010, 05:16

4th-otaku в сообщении #359571 писал(а):

Семантику слов, имхо, правильнее всего было бы описывать с помощью перевода на Илакш (в том же блоке переводов).

Думаю, стоит уточнить... Илакш в данном случае предлагается не как панацея, а лишь как некоторый катализатор, позволяющий лучше понять взаимоотношения формальных и естественных понятий.

Padawan · 06.10.2010, 07:24

4th-otaku в сообщении #359571 писал(а):

Padawan в сообщении #332078 писал(а):

Предлагаю создать он-лайн проект по выделению типов лексико-синтаксических связей в русском языке.

Хорошо бы сделать такую он-лайн программу, чтобы каждый мог записывать свое предложение, делать его синтаксический разбор, используя уже существующие связи, и создавать новые -- разбивать существующие на подтипы, более тонко отражающие смысл связи. По каждой связи будет создаваться католог предложений, где она встречается.

Хорошо бы, чтобы это было вроде википедии -- с возможность свободно редактировать и обсуждать.

По-видимому, достаточно будет создать два сворачивающихся шаблона (аналогичных блоку переводов): "модель управления слова" и "лексические функции слова". И применять их затем примерно таким же образом, как сейчас применяются блоки переводов. Семантику слов, имхо, правильнее всего было бы описывать с помощью перевода на Илакш (в том же блоке переводов).

Надо куда-то явно список связей записывать. Т.е. главное -- выделить связи. А уже потом для каждого слова выбирать из этого списка возможные сочетаемости. Семантических словарей ведь полно - любой толковый словарь.

-- Ср окт 06, 2010 09:48:47 --

4th-otaku в сообщении #359571 писал(а):

См. также Синтаксически размеченный корпус русского языка.

Вот это отличная ссылка. Это я и имею ввиду. Только

Цитата:

Особенностью синтаксической модели, на основе которой строятся структуры в данном корпусе, является то, что в ней различается много(?!) типов конструкций и, соответственно, используется большое число отношений (около 65).

Маловато будет! :-)

Вот и надо за основу взять эту модель. Не зря же люди работали! И дальше её дробить.

-- Ср окт 06, 2010 10:21:54 --

Цитата:

1.1. Предикативное СинтО (предик) связывает сказуемое X в качестве хоязина с подлежащим Y в качестве слуги.

В самом простом случае, когда сказуемое выражено личным глаголом в действительном залоге, а подлежащее — существительным в им. падеже, подлежащее заполняет первую синтаксическую валентность сказуемого (ср. Петя [Y] читает [X]). Если сказуемое выражено личным глаголом в страдательном залоге, то подлежащее в именительном падеже заполняет вторую синтаксическую валентность сказуемого (ср. Комитет изучает заявку — Заявка [Y] изучается [X]).

В более сложных предикативных конструкциях сказуемое может быть не только глагольным, а подлежащее — не только существительным в именительном падеже. Примерами неглагольного сказуемого могут служить:
1. существительные (Москва [Y] — столица [X] России);
2. прилагательные (Петя [Y] какой-то странный [X]; Вы [Y] очень добры [X]; Я [Y] должен [X] уходить);
3. краткие причастия (Письмо [Y] доставлено [X]);
4. наречия (Иван [Y] все еще там [X]).

Примерами «неименительного» подлежащего могут служить:
1. существительное в род. или парт. падеже: Хлеба [Y] не оказалось [X]; Сахару [Y] хватит [X] на всех;
2. распределительная или аппроксимативная предложная группа (Пришло [X] до [Y] десяти человек; Нам досталось [X] по [Y] груше);
3. группа, вводимая количественным наречием (В углу стояло [X] много [Y] стульев);
4. инфинитив (Дозвониться [Y] до него стало [X] проблемой, тебя невозможно [X] узнать [Y]);
5. придаточное-подлежащее, вводимое союзом (Мне нравится [X], что [Y] Вы больны не мной), союзным словом (Любопытно [X], куда он пошел [Y]) или вопросительной частицей (Приедет [X] ли он, большой вопрос [Y]).

Каждый из этих примеров связи требует отдельного названия и разбора.

4th-otaku · 26.10.2010, 21:45

Padawan в сообщении #359587 писал(а):

Надо куда-то явно список связей записывать.

Можно создать подстраницу.

Цитата:

Семантических словарей ведь полно - любой толковый словарь.

Любой - не надо... Нужно брать достаточно толковый.

Скажем, в идеографических словарях слова сортируются по смыслу, и все синонимы оказываются рядом. См., например,

Русский семантический словарь. В 6 т. Под ред. Н.Ю.Шведовой (1998)

Есть объяснительные словари синонимов. В

Ю.Д.Апресян и др. Новый объяснительный словарь синонимов русского языка (2004)

про каждый синонимический ряд написано по несколько килобайт с детальным разбором семантических и комбинаторных отличий каждого слова.

Есть исследовательские лингвистические работы. В том же

Ю.Д.Апресян (ред.). Языковая картина мира и системная лексикография (2006)

собственно теоретический материал (Глава 1. Основные принципы и понятия системной лексикографии, Глава 2. Фундаментальная классификация предикатов, Глава 3. Правила взаимодействия значений) - всего 140 страниц из 800, всё остальное - опять-таки детальный разбор конкретных лексико-семантических классов и каждого синонимического ряда в отдельности.

Цитата:

Маловато будет! :-)

Вот и надо за основу взять эту модель. Не зря же люди работали! И дальше её дробить.

Дробить тоже нужно с умом. Не зря же люди разделили все зависимости по уровням - поверхностный синтаксис, глубинный и семантика. Имея, скажем, (M*N) мудрёных типов отношений и расщепив их на два уровня, можно получить всего (M+N) комбинаторных "кирпичиков".

Как я понял, в ТСТ на поверхностном уровне для каждого слова указывается лишь несколько основных связей (валентностей), напрямую влияющих на синтаксис - они составляют т.н. модель управления слова. Смысл же всех прочих возможных видов присоединений (зависимостей) считается частью семантики соответствующих зависимых слов.

Cybersoph · 11.12.2010, 03:32

Моделирование любого языка в рамках современных возможностей лингвистики НЕДОСТИЖИМО!

4th-otaku · 26.01.2011, 14:22

Padawan в сообщении #332078 писал(а):

Предлагаю создать он-лайн проект по выделению типов лексико-синтаксических связей в русском языке. (см. мое последнее сообщение в этой теме http://dxdy.ru/post217791.html#p217791).

Хорошо бы сделать такую он-лайн программу, чтобы каждый мог записывать свое предложение, делать его синтаксический разбор, используя уже существующие связи, и создавать новые -- разбивать существующие на подтипы, более тонко отражающие смысл связи.
По каждой связи будет создаваться католог предложений, где она встречается.

Хорошо бы, чтобы это было вроде википедии -- с возможность свободно редактировать и обсуждать.

"Всё уже придумано до нас", часть 3.

http://www.unlweb.net/

http://en.wikipedia.org/wiki/Universal_ ... g_Language
Что такое UNL?
Универсальный словарь концептов

Проект под эгидой ООН, почти вики-открытость (доступ на запись в базу после прохождения обучающего теста), результаты под CC-BY-SA, вклад участников даже немного оплачивается.

4th-otaku · 26.01.2011, 17:24

Cybersoph в сообщении #386022 писал(а):

Моделирование любого языка в рамках современных возможностей лингвистики НЕДОСТИЖИМО!

Машину по впитыванию в себя хокк Басё, заметьте, никто создавать и не собирается. (Хотя работы ведутся и в этом направлении.)

С другой стороны, вот, к примеру, система автоматической генерации программного кода из описания ситуации на естественном языке (некоторый аналог SHRDLU). Вполне себе работает, в рамках своей узкой области. Так то.

4th-otaku · 04.02.2011, 20:51

4th-otaku в сообщении #404801 писал(а):

"Всё уже придумано до нас", часть 3.

Более того, UNL уже пытаются встроить в веб-страницы. Для этого под эгидой W3C разрабатывается Common Web Language (CWL).

W3C предлагает «семантический эсперанто» для Всемирной паутины
М.Р. Когаловский, Ю.Е. Хохлов. Стандарты всемирной паутины в разработках электронного правительства (см. п. "8. Перспективы развития стандартов Всемирной паутины")

4th-otaku · 10.02.2011, 10:25

Расшифровка замечательного разговора с конференции Диалог-2009 о текущей ситуации в эхотажной области.

См. также:

bigarcus · 08.07.2011, 17:48

скажите, а язык - это, собственно, что?
Грамматика? Словарь(лексика)?
Или все в месте?

Rasool · 19.07.2011, 16:12

незваный гость в сообщении #34966 писал(а):

:evil:
Г. С. Цейтин посвятил несколько работ семантическим сетям.

Интересно, где можно прочитать его труды?

longstreet · 21.03.2012, 01:17

Padawan, вся эта интересная работа заглохла?

Научный форум dxdy

Моделирование русского языка