Моделирование русского языка

Сомик · 30.11.2006, 02:36

Хм.. ИМХО нереальная задача. Вот у нас на кафедре бьются над проблемой автоматического решателся математических задач http://intsys.msu.ru/invest/solver/ И что-то сделали, но до настоящего и окончательного продукта еще далеко. Я это тут к тому упоминаю, что формальный математический язык куда проще русского - в нем, как минимум, однозначная трактовка, и то проблем уже очень много. А в русском трактовка не однозначная. Ну вот к примеру - "кран номер один поднимает кран номер два". Так какой кран тут собственно поднимает ? =))
На самом деле русский язык куда сложнее английского в этом смысле. Если для английского можно ну хоть в некотором виде сделать распознаватель речи, то для русского это (по крайней мере на современных компах) не реальная задача. Это связано с очень "размытым" строением русского языка.
Хотя в этой размытости есть свой философский смысл. Он более направлен на внутренний мир человека. Сейчас объясню, что имею в виду. В английском языке 9 времен (или даже больше) И основная проблема для русского человека начинающего изучать английский - это разобраться с этми времинами. Он их попросту не "видит" - мировоззрение человека зависит от языка на котором он говорит (человек видит мир, через язык на котором говорит). Однако англичанен "видит" эти времина - английски язык более точно ориентирован на внешней мир. Однако англичанину, очеть сложно объяснить что такое "духовность" - точного аналога в английском языке нет.
Я это все к тому говорю, что язык тесно связан с семантикой, со смыслом, и если рассматривать русский язык в целом, то задача построения модели языка влечет построения модели семантики языка. А это очень сложно! По сему, на мой взгляд, есть смыл попытаться строить модель не всего языка, а только некоторой его "части". Например "язык книг для дошкольников" - язык там проще, слов используется не так много, семантика не очень сложна и скорее всего не будет не однозначности в трактовках.

незваный гость · 30.11.2006, 02:56

Оно, конечно, верно, о разнице между английским и русским. Ох, верно. Но…

1) Если ничего не делать (считая, что компы не вытянут), то и результата не будет. Аналитические языки (типа английского) в чем-то проще, но в чем-то сложнее синтетических (типа русского). Но некоторые из нас говорят на обоих — что говорит о том, что и компьютерная программа может быть сопоставимой сложности. Мне, как я уже говорил, очень импонирует подход Д.Слитора (который, в частности, подчеркивает линейность текста во времени и сочетаемость слов (управление) ).

2) Японцы тихой сапой занимаются проблемой неоднозначности давно и успешно. Причем основная задача, которую они решают, это перевод с японского на … японский. А точнее, перевод из катаканы (и хироганы) в кандзи. Для них это весьма актуально, поскольку кандзи плохо подходит для клавиатуры. А вот слоговые азбуки — вполне.

После этого проблему трансляции между японским и английским они считают простой

.

3) Что же касается духовности и времен, то, по моему мнению, это особенность многих абстрактных понятий. Духовность перевести трудно, но тоже относится и к smart, wise, lore. Вряд ли Вы найдете однозначное соответствие между языками.

CrazyArcher · 01.12.2006, 00:03

Перевод из катаканы в кандзи? :shock:

Впервые слышу о таком проекте, весьма интересная идея.

По сабжу: Очевидно, что нужно задать системе определения всех видов связей в языке, чтобы система была обучаемой. Очевидно также что нужна какая-то начальная база. Возникает дилемма - будет ли эффективнее дать большую базу, чтобы ускорить обучение системы, или минимализировать время на создание базы и использовать остаток на "наверстывание упущеного"?

незваный гость · 01.12.2006, 00:40

CrazyArcher писал(а):

Перевод из катаканы в кандзи? :shock:

Впервые слышу о таком проекте, весьма интересная идея. :smile:

Катакана — письмо фонетическое. Поэтому при переводе в кандзи необходимо, как мимнимум, разрешать омонимию (которой, по-видимому, хватает). Отсюда и проблемы трансляции — она не может быть сделана без знания семантики текста.

А начать проще всего, наверное, с чтения статьи Д. Слитора. И с маленькой системы о трех глаголах. С частотных словарей и разбора детских книг. С поиска филологов для помощи. У них, филологов, есть специфические «туземные» навыки. (Например, они могу предложить большие грамматические классы куздр и бокров с более или менее стандартизованными моделями согласования (интерфейсами). В этом и прелесть русского (в отличии от анлийского) — за редким исключением, мы можем угадать многие свойства слова по его форме {префикс}корень{суффикс}[оккончание]. Да и словарь русского заметно меньше.)

4th-otaku · 05.06.2007, 14:57

Padawan писал(а):

1) Создание формализованного русского языка (Ф для краткости) на уровне перевода текста с него на русский (Р) и обратно. Здесь же - описание правил перевода. Перевод может быть не однозначным, но смысл русской фразы при переводе Р->Ф->Р не должен сильно искажатся (что значит сильно еще надо уточнять, но там разберемся, я думаю).

Т.е., короче говоря, хочется получить автоматический семантический анализ (и синтез) текста на естественном языке, так?

worm2 писал(а):

Padawan писал(а):

2) Создание базы знаний (например в виде какого-нибудь графа ), которая бы отражала смысловые связи между словами в русском языке.
Пример: Там могут быть записаны такие высказывания: Мужчины обычно носят брюки. Если мужчина носит юбку, то вероятно он шотландец. И т.д.

Это уже, на мой взгляд, чистой воды ИИ. И по моему сугубо личному мнению, такая база знаний будет сильно тяготеть к тому, чтобы включить в себя вообще все известные знания.

Именно. Более того, такие базы знаний (т.н. common sense knowledge bases) давно существуют - тот же Cyc (OpenCyc) ведёт свою историю ещё с 80-х годов (являясь преемником системы [url=http://www.nigma.ru/index.php?q=Ленат+Эвриско]"Эвриско"[/url] Дугласа Лената).
Сейчас это весьма обширный (сотни тысяч понятий, миллионы утверждений) каркас из общефундаментальных знаний - как об окружающем мире, так и о весьма абстрактных вещах; все знания в базе структурируются в виде онтологического дерева контекстов-"микротеорий" (с учётом того, что в разных контекстах одно и тоже утверждение может иметь различные смыслы, либо вообще не иметь смысла).

Padawan писал(а):

3) Поиск знаний на заданную тему.

4) Создание правил вывода в Ф, аналогичным правилам вывода в математической логике.

Hу, ядро Cyc (его inference engine) как раз и является, грубо говоря, очень продвинутым экспертным движком. Значительная часть нужных правил вывода (в том числе все общелогические) там уже есть - т.е., как и в любой [url=http://ru.wikipedia.org/wiki/Экспертная_система]ЭС[/url], можно задавать "вопросы" (на Лиспо-подобном CycL, аналоге твоего Ф) и получать разумный ответ. (Кстати говоря - спецификация CycL, afair, рассматривается сейчас в качестве черновика стандарта на онтологическое представление знаний.)

В общем, как я понимаю, для решения твоей задачи достаточно:

написать NL-парсер (aka мат. модель aka микротеорию) русского языка - т.е. правила перевода Р->Ф(->Р), в твоих терминах;
объяснить смысл используемых русских слов, т.е. ассоциировать их с соответствующими CycL-понятиями из базы знаний (толковый словарь Р->Ф; словарь Ф->Р должен получиться автоматически).

NL-парсер английского, кстати говоря, там уже работает (свободно пока не доступен - как я понял, включат в следующий open source-релиз).

Добавлено спустя 16 минут 48 секунд:

Сомик писал(а):

Хм.. ИМХО нереальная задача. Вот у нас на кафедре бьются над проблемой автоматического решателся математических задач http://intsys.msu.ru/invest/solver/ И что-то сделали, но до настоящего и окончательного продукта еще далеко.

"Что-то сделали" и у нас в политехе на кафедре ИТАС. Причём утверждается, что созданная мат. модель русского языка успешно работает и решает любую задачу из школьных учебников (кроме т.н. "олимпиадных" - там уже не с русским языком проблемы, а, скорее, с нехваткой "интуиции" - тех самых common sense-знаний, о которых писалось выше).

Сомик писал(а):

Я это тут к тому упоминаю, что формальный математический язык куда проще русского - в нем, как минимум, однозначная трактовка, и то проблем уже очень много. А в русском трактовка не однозначная. Hу вот к примеру - "кран номер один поднимает кран номер два". Так какой кран тут собственно поднимает ? =))

Первый. Вполне однозначная трактовка (за отсутствием остального контекста). А если будет другой контекст - возможно, будет другая трактовка. Hичего страшного.

Сомик писал(а):

Hа самом деле русский язык куда сложнее английского в этом смысле. Если для английского можно ну хоть в некотором виде сделать распознаватель речи, то для русского это (по крайней мере на современных компах) не реальная задача.

По-моему, ты слишком преувеличиваешь сложность русского языка (точнее, преуменьшаешь сложность английского). И там и там достаточно проблем - но это общие проблемы, возникающие при переводе естественных текстов на формальные языки.

Koichi · 06.03.2008, 14:50

Отпишите, у кого-нибудь что-то получилось, есть исходники работающие с моделью русского языка?

Добавлено спустя 2 часа 15 минут 20 секунд:

Padawan, ты не мог бы подробнее прокомментировать программу Грамматика связей (Link Grammar) Сергея Протасова, в чём её реальные недостатки?
Как бы ты сам написал что-то подобное, исходя из чего?

Gafield · 15.03.2008, 16:29

Цитата:

1) Создание формализованного русского языка (Ф для краткости) на уровне перевода текста с него на русский (Р) и обратно. Здесь же - описание правил перевода. Перевод может быть не однозначным, но смысл русской фразы при переводе Р->Ф->Р не должен сильно искажатся ( что значит сильно еще надо уточнять, но там разберемся, я думаю).

Может, имеет смысл посмотреть, что сделано в коммерческих продуктах по переводу на обычные языки? Там, по крайней мере, все доведено до практического воплощения. Например, Prompt:

PROMT работает по так называемой традиционной технологии перевода и основан на алгоритмах анализа и синтеза (Rule-Based Machine Translation Technology). Процесс перевода с помощью PROMT можно разделить на четыре этапа.

1) PROMT выделяет предложение и сопоставляет все найденные в нем слова со статьями, хранящимися в словарях. На этой стадии система анализирует слова только с точки зрения морфологии (определяет число и род имен, лицо местоимений, время и вид глаголов и т.д.). Основная трудность на этом этапе заключается в том, что многие слова имеют несколько вариантов перевода или при одинаковом написании могут относиться к разным частям речи. 2) СМП объединяет слова в небольшие группы по признаку морфологического соответствия форм. Поиск продолжается до тех пор, пока не будет определена вся группа (например, глагол и относящиеся к нему зависимые слова или несколько однородных членов предложения).
3) PROMT определяет роли членов предложения, границы и типы связи между простыми предложениями. В первую очеми, хранящимися в словарях. На этой стадии система анализирует слова только с точки зрения морфологии (определяет число и род имен, лицо местоимений, время и вид глаголов и т.д.). СМП объединяет слова в небольшие группы по признаку морфологического соответствия форм. PROMT определяет роли членов предложения, границы и типы связи между простыми предложениями. В первую очередь СМП ищет сказуемое и только после этого приступает к поиску подлежащего, опираясь на уже известную морфологию сказуемого. Затем выполняются классификация и идентификация второстепенных членов предложения.
4) В заключение работы СМП еще раз уточняет взаимосвязи между членами предложения, анализирует отрицания и т.д. На этом этапе также происходит окончательное согласование всех словоформ как внутри их собственных групп, так и между различными группами (например, группами подлежащего и сказуемого). Закончив проверку, PROMT определяет порядок слов в каждом выходном предложении и вырабатывает окончательный вариант перевода.

BigPuppy · 06.05.2008, 05:07

Мы тоже работаем над похожими проблемами. Не все достижения можем ещё опубликовать, т.к. только начали процесс международного патентования, однако рады освободить вас от излишних проблем и путаницы.
Так, например, нами показана полнейшая семантическая путаница (путаница определений), лежащая в самих основах наук о языке и мышлении:
http://www.intellect.yakov-lev.com/?1-1-0-00000004-000-0-0
Прочитайте - и обходите эти "грабли", как мы это делаем.

Ответственные деятельные люди приглашаются к обсуждению и сотрудничеству
.

Padawan · 28.05.2009, 14:21

Попытаюсь возобновить интерес к теме.

После долгого перерыва, опять задумался о синтаксическом разборе текста.
На этот раз основное внимание я уделяю именно тонкому синтаксическому разбору - попытаться проклассифицировать все виды грамматической синтаксической связи в русском языке. При этом трудность тут в том, что тип синтаксической связи тесно связан с семантикой. Пример: лисий хвост и лисий ум. Это разные связи, и они должны обслуживаться разными правилами вывода. Первое означает - хвост лисы, второе - как у лисы. Так что, параллельно надо думать, как организован словарь и как он используется при синтаксическом разборе. В словаре должны быть для каждого слова указаны шаблоны словосочетаний, синтаксически разобранные. И разбирая текст, программа будет пытаться состыковать эти кусочки, как паззл.

Пример синтаксического разбора.

Цифра обозначает связываемые слова, буквы - тип связи, - , =, или == - роль слова в данной связи. Связь может соединять больше, чем два слова.

Как даются названия связям. Сначала грубо несколько типов связи К, С, Д ... потом каждая дробится на несколько частей, более точно отражающих смысл связи и т.д.

По сути это чисто филологическая работа. Требуется чувство языка . И филологические знания очень помогают выделять смысл связи и давать правильные названия.

Кому интересно - присоединяйтесь, будем вместе классифицировать и выделять типы связей в русском языке.

Программа Сергея Протасова нормально работает, но там слишком мало связей, все связи в одной куче. Хотя не знаю, как она работает. Это тоже важно.
------------------------------------------
СВЯЗИ
------------------------------------------

И и
ИО и однородные члены предложения
ИС и сложносочиненное предложение =
ИТ и он (он тоже)
ИУ и (усиление)
ИП и сказал... (последовательность)

Ил или

А а =
Но но =

Ч что
ЧП пропущенное что

Ктл как только =

Чб чтобы =
Кг когда =
Тч так, чтобы =
Тк такой, как =
Ткт тот, который
Кт который =

Ру раз уж =
Пн пока не =
Уж уж
Ну ну

Крз как раз

В вопросительное слово

Пр прямая речь

Ни ни
НиН ни , ни
Не не
Же же
ЖеУ же (усиление)
ЖеС же (соединение)
Пс пусть (побудительная частица)
Дж даже (усилительная частица)
Тл только

Сам сам

К качество, какой, как, чей, куда, когда (признак)
КП приложение (добавочное имя)
КПд причастие действительное
КПс причастие страдательное
КО обстоятельство действия
КЧ сколько (числительное)
КР родительный падеж

П предлог =
ПО обстоятельство действия =

Д дополнение
ДВ винительный падеж (объект действия)

С сказуемое (что говорится о предмете речи)
СБ был/будет (я был ... )
СН неопределенно-личное сказуемое
СИ именное сказуемое (что-то является чем-то, каким-то)
Сд должен (я должен)
Со обязан (я обязан)

Г глагол-глагол
Гд должен (должен сделать)
Го обязан (обязан сделать)

Б был/будет (был кем-то, каким-то)
ББ было/будет (безличное)

Сл связь внутри составного предлога, союза и т.д. Нумеруется тем же числом.

+ для знаков препинания
? (пока без названия, не думал)

------------------------------------------
ТЕКСТ
------------------------------------------
1
Король\2КПс\12С, сильно\1К- раздосадованный\1КПс-\2К-\3Ч, что\3Ч- сын\4С\5КР\7К его\6К- кучера\5КР-\6К Джек\7К- тащил\3Ч=\4С-\8ПО\9ДВ из\8ПО- замка\8ПО= все\9ДВ-\10Ч, что\10Ч- ни\11Ни попало\10Ч=\11Ни, приказал\12С-\13Д\14Г отцу\13Д- обучить\14Г-\15Д\17ДВ молодого\16К- мошенника\15ДВ-\16К какому-нибудь\18К- ремеслу\17Д-\18К\19К\21Кт - любому\19К-, которое\21Кт- тот\20С выберет\21Кт=\20С-.

2
Но\1Но-, чтобы\3Чб- заслужить\3Чб=\4ДВ\6Д\5ПО у\5ПО- короля\5ПО= прощение\4ДВ-\23К себе\23К-\6Д-\7ИО- и\7ИО своему\8К- отцу\7ИО-\8К\23К-, юный\10К- плут\9СБ\10К должен\2Б-\11Гд был\1Но=\2Б\3Чб\9СБ- к\20ПО- концу\20ПО=\21КР семилетнего\22К- обучения\21КР-\22К так\14КО-\15Тч овладеть\11Гд-\12Д\14КО\20ПО своим\13К- ремеслом\12Д-\13К, чтобы\15Тч- выполнить\15Тч=\16ДВ любые\18К- три\19КЧ- задания\16ДВ-\17КР\18К\19КЧ короля\17КР-.

3
Раз\2Ру-\2Сл уж\2Сл Джеку\3Д- предоставили\0СН\2Ру=\3Д\4ДВ полный\5К- выбор\4ДВ-\5К, он\6С последовал\2Ру\6С-\7Д\9ИО- своим\8К- наклонностям\7Д-\8К и\9ИО остановился\9ИО-\10ПО\6С- на\10ПО- воровстве\10ПО=.

4
Вместе\2П-\2Сл с\2Сл отцом\2П= они\2П\3С отправились\3С-\4ПО\5ИО- в\4ПО- путь\4ПО= и\5ИО путешествовали\1Пн\5ИО-\3С-, пока\1Пн-\1Сл не\1Сл встретили\1Пн=\6ПО\8ДВ в\6ПО- далекой\7К- стране\6ПО=\7К вора\8ДВ-\9П из\9П- воров\9П=.

5
И\1ИП тот\2С согласился\1ИП-\2С-\3ПО\4Г за\3ПО- верную\5К- семилетнюю\6К- службу\3ПО=\5К\6К сделать\4Г-\7ПО\8ДВ из\7ПО- Джека\7ПО= такого\9ЖеС\10Тк\15К- же\9ЖеС- мастера\8ДВ-\13КР\15К своего\14К- дела\13КР-\14К, как\10Тк- и\11ИТ- он\10Тк=\11ИТ\12Сам сам\12Сам-.

6
К\10ПО- концу\9КР\10ПО= седьмого\8К- года\8К\9КР- Джек\1С вернулся\1С-\2КО\3ИС-\10ПО домой\2КО-, и\3ИС отец\4С отвел\3ИС-\4С-\5ДВ\6ПО\7ПО его\5ДВ- к\6ПО- королю\6ПО= для\7ПО- испытания\7ПО=.

7
- Какое\1В\2Пр- ремесло\1В-\4ДВ- он\3С выбрал\3С-\4ДВ ?\1В+ - спросил\2Пр\5С-\6ПО король\5С у\6ПО- отца\6ПО=.

8
- Воровство\1К-. Теперь\4КО-\5Уж уж\5Уж- он\3СИ мастер\2К\3СИ-\4КО воровать\2К-!

9
- Ну\1Ну-, это\7ДВ- мы\2С еще\4КО- посмотрим\1Ну\2С-\3Пр-\4КО\7ДВ , - сказал\3Пр\5Пр\6С- король\6С. - Завтра\9КО- я\8С посылаю\5Пр-\8С-\9КО\10ПО\11ДВ\14Чб в\10ПО- Дублин\10ПО= моего\12КР- верного\13К- пастуха\11ДВ-\12КР\13К, чтобы\14Чб- он\15С купил\14Чб=\15С-\16ПО\18ДВ для\16ПО- меня\16ПО= две\17КЧ- дюжины\17КЧ\18ДВ-\19КР овец\19КР-.

10
Учти\3ЧП, когда\1Кг- он\4С отправляется\1Кг=\4С-\5ПО в\5ПО- путь\5ПО=, он\6С не\2Не- расстается\1Кг\2Не\3ЧП-\6С-\7ПО с\7ПО- заряженным\8КПс- мушкетом\7ПО=\8КПс!

11
Ты\1Сд должен\1Сд-\2Гд\14Но завтра\6ЖеУ\7КО- же\6ЖеУ- украсть\2Гд-\3ДВ\5ПО\7КО\8КО у\5ПО- него\5ПО= этих\4К- овец\3ДВ-\4К, но\14Но- так\8КО-\9Тч, чтобы\9Тч- не\10Не- нанести\9Тч=\10Не\11ДВ\12Д\14Но= вреда\11ДВ- ни\13НиН-\13Сл себе\12Д-\13НиН, ни\13Сл ему\13НиН=.

12
Пусть\1Пс- он\6С даже\3Дж- и\4ИУ- не\2Не- узнает\1Пс\2Не\3Дж\4ИУ\5ПО\6С- об\5ПО- этом\5ПО=.

13
И\1ИО привести\1ИО-\2ДВ\3ПО овец\2ДВ- ко\3ПО- мне\3ПО=.

14
В\2ПО- ту\1ЖеУ\3К- же\1ЖеУ- ночь\2ПО=\3К Джек\4С стащил\2ПО\4С-\5ПО\9ИО- у\5ПО- королевского\6К- сапожника\5ПО=\6К лучшую\8К- пару\7КР\8К башмаков\7КР- и\9ИО взял\9ИО-\4С-\10ДВ\11ПО\12ПО их\10ДВ- с\11ПО- собой\11ПО= на\12ПО- дублинскую\13К- дорогу\12ПО=\13К.

15
Там\4КО- он\5С взобрался\1Чб\4КО\5С-\6ПО на\6ПО- холм\6ПО=, чтобы\1Чб- ему\3Д- повиднее\2К- было\1Чб=\0ББ\2К\3Д.

16
Как\1Ктл-\1Сл только\1Сл он\3С завидел\1Ктл=\2ДВ\3С- пастуха\2ДВ-\4КПд, возвращавшегося\4КПд-\5ПО со\5ПО- стадом\5ПО=\6КР овец\6КР-, он\7С\21С\24Сам бросил\1Ктл\7С-\8ДВ\11ПО\18Но\26А посреди\11ПО- дороги\11ПО= один\9КЧ- красавец\10КП- башмак\8ДВ-\9КЧ\10КП, но\18Но- перед\19ПО- тем\19ПО= до\20ПО- безобразия\20ПО= измазал\18Но=\19ПО\20ПО\21С-\22ДВ\23Д его\22ДВ- грязью\23Д-, а\26А- сам\24Сам-\25С отошел\17ИО-\25С-\26А=\27КО\28ПО немного\27КО- по\28ПО-\28Сл направлению\28Сл к\28Сл замку\28ПО= и\17ИО положил\13ПО\15ПО\16ДВ-\17ИО-\25С- на\15ПО- дорогу\15ПО= второй башмак\16ДВ-, как\14Крз-\14Сл раз\14Сл на\13ПО-\14Крз самую\12К- середину\12К\13ПО=.

17
Потом\3КО- спрятался\1С-\2КО\3КО поблизости\2КО-.

18
И\22ИУ- уж\23Уж- будьте\22ИУ\23Уж\24Б\25СБ- уверены\1ЧП\24Б-, когда\11Кг- честный\16К- пастух\13С\16К дошел\11Кг=\13С-\14ПО до\14ПО- первого\15К- башмака\14ПО=\15К, он\2С взглянул\1ЧП-\2С-\3ИО-\11Кг\15ПО на\15ПО- него\15ПО=, перевернул\2С-\3ИО-\4ДВ\5Д\11Кг испачканный\6КПс башмак\4ДВ-\6КПс ногой\5Д- и\3ИО в\7ПО- душе\7ПО= обругал\2С-\3ИО-\7ПО\11Кг\12ДВ того\8К-\9Ткт- дурака\8К\12ДВ-, который\9Ткт- потерял\9Ткт=\10Ил- или\10Ил бросил\9Ткт=\10Ил-\17ПО\18ДВ на\17ПО- дороге\17ПО= только\21Тл один\20КЧ-\21Тл красавец\19КП- башмак\18ДВ-\19КП\20КЧ: ну\26Ну- кому\26Ну он\27СИ нужен\27СИ-, если нет пары?

ApxeoMeTp · 23.09.2009, 13:58

Padawan в сообщении #35502 писал(а):

Базу знаний можно организовать так (основная структура, можно добавит еще полно рёбер: синонимы, ассоциации и т.д.):

Вершины двух сортов - слова и фразы (знания и отражающие семантику русского языка - все вместе). Ребро соединяет слово с фразой, если слово присутствует во фразе. ПРИ ЭТОМ ребро подписывается номером значения, в котором данное слово выступает во фразе (подавляющее большинство слов многозначны, и чем чаще слово употребляется, тем у него больше значений) .

2 незваный гость: Я приступил к созданию link grammar для русского языка, и решил что правила вывода будут оперировать именно такими графоподобными структурами.

Я поступаю так : Беру толковый словарь. Беру любой большой текст. Выписываю каждое предложение и расставляю в нём связи. Каждый новый тип связи нумерую, составляю параллельно список типов связи с подробным комментариями, чтоб не запутаться.

Работа действительно кропотливая, и очень интересная. На каждом шагу приходится влезать в такие смысловые и синтаксические тонкости! Но это, я думаю, в начале.

2 PAV, B.O. : парадокс: когда пытаешься моделировать только предложения с простой структурой и ограниченным запасом слов, то НИЧЕГО не получается ! А когда работаешь с русским языком во всей его сложности, то результаты есть, по крайней мере много мыслей приходит в голову.
Я думаю это потому что, мыслим мы на русском, а когда пытаешься мыслить на еще не созданном языке..... )

Добавлено спустя 19 минут 50 секунд:

Меня взяло сомнение: стоит ли объединять в одной базе фразы, описывающие семантику языка, и собственно знания. Вышеприведенный пример про брюки и шотландцев собственно к языку не относится.

Кто нибудь знает про толковые словари, в которых все слова обьясняются при помощи сравнительно небольшого набора (~2000) базовых слов. Для английского языка у меня такой словарь есть. Издательсва Longman по-моему.

Мы мыслим корнями Священного языка, т.е. древнего "иЪврита", из которого состоят и русские, и английские слова.
Самый лучший толковый словарь русского языка - это иврито-русский словарь Михаэля Дрора.
Если кого заинтересует, могу продолжить

Padawan · 17.06.2010, 07:46

Предлагаю создать он-лайн проект по выделению типов лексико-синтаксических связей в русском языке. (см. мое последнее сообщение в этой теме http://dxdy.ru/post217791.html#p217791).

Хорошо бы сделать такую он-лайн программу, чтобы каждый мог записывать свое предложение, делать его синтаксический разбор, используя уже существующие связи, и создавать новые -- разбивать существующие на подтипы, более тонко отражающие смысл связи.
По каждой связи будет создаваться католог предложений, где она встречается.

Хорошо бы, чтобы это было вроде википедии -- с возможность свободно редактировать и обсуждать.

palem · 07.08.2010, 00:53

Парни вы просто зажгли!
Реально! Спасибо вам большое!

P.M.D. · 11.08.2010, 21:14

http://aot.ru/demo/graph.html - анализирует связи в предложении на русском. На сайте есть документация по алгоритму.

Rasool · 27.08.2010, 19:32

Есть любопытная статья в "Data & Knowledge Engineering" (скачал в свое время):
"New research directions for data and knowledge engineering: A philosophy of language approach" ("Новые направления исследований для инженерии данных и знаний: философия языкового направления"):
http://www.sciencedirect.com/science?_ob=ArticleURL&_udi=B6TYX-4SM629C-2&_user=10&_coverDate=11%2F30%2F2008&_rdoc=5&_fmt=high&_orig=browse&_srch=doc-info%28%23toc%235630%232008%23999329997%23697654%23FLA%23display%23Volume%29&_cdi=5630&_sort=d&_docanchor=&_ct=7&_acct=C000050221&_version=1&_urlVersion=0&_userid=10&md5=7604d9b220dfa050f770c085aeaaae89.
Могу прислать текст статьи на email.

4th-otaku · 02.09.2010, 00:46

Padawan в сообщении #217791 писал(а):

После долгого перерыва, опять задумался о синтаксическом разборе текста.
На этот раз основное внимание я уделяю именно тонкому синтаксическому разбору - попытаться проклассифицировать все виды грамматической синтаксической связи в русском языке. При этом трудность тут в том, что тип синтаксической связи тесно связан с семантикой. Пример: лисий хвост и лисий ум. Это разные связи, и они должны обслуживаться разными правилами вывода. Первое означает - хвост лисы, второе - как у лисы. Так что, параллельно надо думать, как организован словарь и как он используется при синтаксическом разборе.

Тут нужно учитывать, что "лисий ум" - это не просто словосочетание (в отличие от "лисий хвост"). Это фразема.
В статье [url]http://ru.wikipedia.org/wiki/Фразеологизм[/url] есть классификация фразем по Мельчуку, может пригодиться.

Цитата:

В словаре должны быть для каждого слова указаны шаблоны словосочетаний, синтаксически разобранные. И разбирая текст, программа будет пытаться состыковать эти кусочки, как паззл.

В диссере Копотев М.В. Принципы синтаксической идиоматизации приведён список русских синтаксических фразем (79 штук). Примеры:

Научный форум dxdy

Моделирование русского языка