2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему На страницу Пред.  1, 2, 3, 4, 5  След.
 
 
Сообщение30.11.2006, 02:36 
Аватара пользователя


27/11/06
141
Москва
Хм.. ИМХО нереальная задача. Вот у нас на кафедре бьются над проблемой автоматического решателся математических задач http://intsys.msu.ru/invest/solver/ И что-то сделали, но до настоящего и окончательного продукта еще далеко. Я это тут к тому упоминаю, что формальный математический язык куда проще русского - в нем, как минимум, однозначная трактовка, и то проблем уже очень много. А в русском трактовка не однозначная. Ну вот к примеру - "кран номер один поднимает кран номер два". Так какой кран тут собственно поднимает ? =))
На самом деле русский язык куда сложнее английского в этом смысле. Если для английского можно ну хоть в некотором виде сделать распознаватель речи, то для русского это (по крайней мере на современных компах) не реальная задача. Это связано с очень "размытым" строением русского языка.
Хотя в этой размытости есть свой философский смысл. Он более направлен на внутренний мир человека. Сейчас объясню, что имею в виду. В английском языке 9 времен (или даже больше) И основная проблема для русского человека начинающего изучать английский - это разобраться с этми времинами. Он их попросту не "видит" - мировоззрение человека зависит от языка на котором он говорит (человек видит мир, через язык на котором говорит). Однако англичанен "видит" эти времина - английски язык более точно ориентирован на внешней мир. Однако англичанину, очеть сложно объяснить что такое "духовность" - точного аналога в английском языке нет.
Я это все к тому говорю, что язык тесно связан с семантикой, со смыслом, и если рассматривать русский язык в целом, то задача построения модели языка влечет построения модели семантики языка. А это очень сложно! По сему, на мой взгляд, есть смыл попытаться строить модель не всего языка, а только некоторой его "части". Например "язык книг для дошкольников" - язык там проще, слов используется не так много, семантика не очень сложна и скорее всего не будет не однозначности в трактовках.

 Профиль  
                  
 
 
Сообщение30.11.2006, 02:56 
Заслуженный участник
Аватара пользователя


17/10/05
3709
:evil:
Оно, конечно, верно, о разнице между английским и русским. Ох, верно. Но…

1) Если ничего не делать (считая, что компы не вытянут), то и результата не будет. Аналитические языки (типа английского) в чем-то проще, но в чем-то сложнее синтетических (типа русского). Но некоторые из нас говорят на обоих — что говорит о том, что и компьютерная программа может быть сопоставимой сложности. Мне, как я уже говорил, очень импонирует подход Д.Слитора (который, в частности, подчеркивает линейность текста во времени и сочетаемость слов (управление) ).

2) Японцы тихой сапой занимаются проблемой неоднозначности давно и успешно. Причем основная задача, которую они решают, это перевод с японского на … японский. А точнее, перевод из катаканы (и хироганы) в кандзи. Для них это весьма актуально, поскольку кандзи плохо подходит для клавиатуры. А вот слоговые азбуки — вполне.

После этого проблему трансляции между японским и английским они считают простой :).

3) Что же касается духовности и времен, то, по моему мнению, это особенность многих абстрактных понятий. Духовность перевести трудно, но тоже относится и к smart, wise, lore. Вряд ли Вы найдете однозначное соответствие между языками.

 Профиль  
                  
 
 
Сообщение01.12.2006, 00:03 


30/11/06
45
Перевод из катаканы в кандзи? :shock: Впервые слышу о таком проекте, весьма интересная идея. :)

По сабжу: Очевидно, что нужно задать системе определения всех видов связей в языке, чтобы система была обучаемой. Очевидно также что нужна какая-то начальная база. Возникает дилемма - будет ли эффективнее дать большую базу, чтобы ускорить обучение системы, или минимализировать время на создание базы и использовать остаток на "наверстывание упущеного"?

 Профиль  
                  
 
 
Сообщение01.12.2006, 00:40 
Заслуженный участник
Аватара пользователя


17/10/05
3709
:evil:
CrazyArcher писал(а):
Перевод из катаканы в кандзи? :shock: Впервые слышу о таком проекте, весьма интересная идея. :smile:

Катакана — письмо фонетическое. Поэтому при переводе в кандзи необходимо, как мимнимум, разрешать омонимию (которой, по-видимому, хватает). Отсюда и проблемы трансляции — она не может быть сделана без знания семантики текста.

А начать проще всего, наверное, с чтения статьи Д. Слитора. И с маленькой системы о трех глаголах. С частотных словарей и разбора детских книг. С поиска филологов для помощи. У них, филологов, есть специфические «туземные» навыки. (Например, они могу предложить большие грамматические классы куздр и бокров с более или менее стандартизованными моделями согласования (интерфейсами). В этом и прелесть русского (в отличии от анлийского) — за редким исключением, мы можем угадать многие свойства слова по его форме {префикс}корень{суффикс}[оккончание]. Да и словарь русского заметно меньше.)

 Профиль  
                  
 
 Re: Моделирование русского языка
Сообщение05.06.2007, 14:57 


05/06/07
16
Пермь
Padawan писал(а):
1) Создание формализованного русского языка (Ф для краткости) на уровне перевода текста с него на русский (Р) и обратно. Здесь же - описание правил перевода. Перевод может быть не однозначным, но смысл русской фразы при переводе Р->Ф->Р не должен сильно искажатся (что значит сильно еще надо уточнять, но там разберемся, я думаю).

Т.е., короче говоря, хочется получить автоматический семантический анализ (и синтез) текста на естественном языке, так?

worm2 писал(а):
Padawan писал(а):
2) Создание базы знаний (например в виде какого-нибудь графа ), которая бы отражала смысловые связи между словами в русском языке.
Пример: Там могут быть записаны такие высказывания: Мужчины обычно носят брюки. Если мужчина носит юбку, то вероятно он шотландец. И т.д.

Это уже, на мой взгляд, чистой воды ИИ. И по моему сугубо личному мнению, такая база знаний будет сильно тяготеть к тому, чтобы включить в себя вообще все известные знания.

Именно. Более того, такие базы знаний (т.н. common sense knowledge bases) давно существуют - тот же Cyc (OpenCyc) ведёт свою историю ещё с 80-х годов (являясь преемником системы [url=http://www.nigma.ru/index.php?q=Ленат+Эвриско]"Эвриско"[/url] Дугласа Лената).
Сейчас это весьма обширный (сотни тысяч понятий, миллионы утверждений) каркас из общефундаментальных знаний - как об окружающем мире, так и о весьма абстрактных вещах; все знания в базе структурируются в виде онтологического дерева контекстов-"микротеорий" (с учётом того, что в разных контекстах одно и тоже утверждение может иметь различные смыслы, либо вообще не иметь смысла).

Padawan писал(а):
3) Поиск знаний на заданную тему.

4) Создание правил вывода в Ф, аналогичным правилам вывода в математической логике.

Hу, ядро Cyc (его inference engine) как раз и является, грубо говоря, очень продвинутым экспертным движком. Значительная часть нужных правил вывода (в том числе все общелогические) там уже есть - т.е., как и в любой [url=http://ru.wikipedia.org/wiki/Экспертная_система]ЭС[/url], можно задавать "вопросы" (на Лиспо-подобном CycL, аналоге твоего Ф) и получать разумный ответ. (Кстати говоря - спецификация CycL, afair, рассматривается сейчас в качестве черновика стандарта на онтологическое представление знаний.)

В общем, как я понимаю, для решения твоей задачи достаточно:
  1. написать NL-парсер (aka мат. модель aka микротеорию) русского языка - т.е. правила перевода Р->Ф(->Р), в твоих терминах;
  2. объяснить смысл используемых русских слов, т.е. ассоциировать их с соответствующими CycL-понятиями из базы знаний (толковый словарь Р->Ф; словарь Ф->Р должен получиться автоматически).
NL-парсер английского, кстати говоря, там уже работает (свободно пока не доступен - как я понял, включат в следующий open source-релиз).

Добавлено спустя 16 минут 48 секунд:

Сомик писал(а):
Хм.. ИМХО нереальная задача. Вот у нас на кафедре бьются над проблемой автоматического решателся математических задач http://intsys.msu.ru/invest/solver/ И что-то сделали, но до настоящего и окончательного продукта еще далеко.

"Что-то сделали" и у нас в политехе на кафедре ИТАС. Причём утверждается, что созданная мат. модель русского языка успешно работает и решает любую задачу из школьных учебников (кроме т.н. "олимпиадных" - там уже не с русским языком проблемы, а, скорее, с нехваткой "интуиции" - тех самых common sense-знаний, о которых писалось выше).

Сомик писал(а):
Я это тут к тому упоминаю, что формальный математический язык куда проще русского - в нем, как минимум, однозначная трактовка, и то проблем уже очень много. А в русском трактовка не однозначная. Hу вот к примеру - "кран номер один поднимает кран номер два". Так какой кран тут собственно поднимает ? =))

Первый. Вполне однозначная трактовка (за отсутствием остального контекста). А если будет другой контекст - возможно, будет другая трактовка. Hичего страшного.

Сомик писал(а):
Hа самом деле русский язык куда сложнее английского в этом смысле. Если для английского можно ну хоть в некотором виде сделать распознаватель речи, то для русского это (по крайней мере на современных компах) не реальная задача.

По-моему, ты слишком преувеличиваешь сложность русского языка (точнее, преуменьшаешь сложность английского). И там и там достаточно проблем - но это общие проблемы, возникающие при переводе естественных текстов на формальные языки.

 Профиль  
                  
 
 
Сообщение06.03.2008, 14:50 


06/03/08
1
Отпишите, у кого-нибудь что-то получилось, есть исходники работающие с моделью русского языка?

Добавлено спустя 2 часа 15 минут 20 секунд:

Padawan, ты не мог бы подробнее прокомментировать программу Грамматика связей (Link Grammar) Сергея Протасова, в чём её реальные недостатки?
Как бы ты сам написал что-то подобное, исходя из чего?

 Профиль  
                  
 
 
Сообщение15.03.2008, 16:29 
Заслуженный участник


22/01/07
605
Цитата:
1) Создание формализованного русского языка (Ф для краткости) на уровне перевода текста с него на русский (Р) и обратно. Здесь же - описание правил перевода. Перевод может быть не однозначным, но смысл русской фразы при переводе Р->Ф->Р не должен сильно искажатся ( что значит сильно еще надо уточнять, но там разберемся, я думаю).


Может, имеет смысл посмотреть, что сделано в коммерческих продуктах по переводу на обычные языки? Там, по крайней мере, все доведено до практического воплощения. Например, Prompt:

PROMT работает по так называемой традиционной технологии перевода и основан на алгоритмах анализа и синтеза (Rule-Based Machine Translation Technology). Процесс перевода с помощью PROMT можно разделить на четыре этапа.

1) PROMT выделяет предложение и сопоставляет все найденные в нем слова со статьями, хранящимися в словарях. На этой стадии система анализирует слова только с точки зрения морфологии (определяет число и род имен, лицо местоимений, время и вид глаголов и т.д.). Основная трудность на этом этапе заключается в том, что многие слова имеют несколько вариантов перевода или при одинаковом написании могут относиться к разным частям речи. 2) СМП объединяет слова в небольшие группы по признаку морфологического соответствия форм. Поиск продолжается до тех пор, пока не будет определена вся группа (например, глагол и относящиеся к нему зависимые слова или несколько однородных членов предложения).
3) PROMT определяет роли членов предложения, границы и типы связи между простыми предложениями. В первую очеми, хранящимися в словарях. На этой стадии система анализирует слова только с точки зрения морфологии (определяет число и род имен, лицо местоимений, время и вид глаголов и т.д.). СМП объединяет слова в небольшие группы по признаку морфологического соответствия форм. PROMT определяет роли членов предложения, границы и типы связи между простыми предложениями. В первую очередь СМП ищет сказуемое и только после этого приступает к поиску подлежащего, опираясь на уже известную морфологию сказуемого. Затем выполняются классификация и идентификация второстепенных членов предложения.
4) В заключение работы СМП еще раз уточняет взаимосвязи между членами предложения, анализирует отрицания и т.д. На этом этапе также происходит окончательное согласование всех словоформ как внутри их собственных групп, так и между различными группами (например, группами подлежащего и сказуемого). Закончив проверку, PROMT определяет порядок слов в каждом выходном предложении и вырабатывает окончательный вариант перевода.

 Профиль  
                  
 
 
Сообщение06.05.2008, 05:07 
Заблокирован
Аватара пользователя


04/05/08

26
Мы тоже работаем над похожими проблемами. Не все достижения можем ещё опубликовать, т.к. только начали процесс международного патентования, однако рады освободить вас от излишних проблем и путаницы.
Так, например, нами показана полнейшая семантическая путаница (путаница определений), лежащая в самих основах наук о языке и мышлении:
http://www.intellect.yakov-lev.com/?1-1-0-00000004-000-0-0
Прочитайте - и обходите эти "грабли", как мы это делаем. :)
Ответственные деятельные люди приглашаются к обсуждению и сотрудничеству
.

 Профиль  
                  
 
 Типы синтаксических связей в русском языке
Сообщение28.05.2009, 14:21 
Заслуженный участник


13/12/05
4519
Попытаюсь возобновить интерес к теме.

После долгого перерыва, опять задумался о синтаксическом разборе текста.
На этот раз основное внимание я уделяю именно тонкому синтаксическому разбору - попытаться проклассифицировать все виды грамматической синтаксической связи в русском языке. При этом трудность тут в том, что тип синтаксической связи тесно связан с семантикой. Пример: лисий хвост и лисий ум. Это разные связи, и они должны обслуживаться разными правилами вывода. Первое означает - хвост лисы, второе - как у лисы. Так что, параллельно надо думать, как организован словарь и как он используется при синтаксическом разборе. В словаре должны быть для каждого слова указаны шаблоны словосочетаний, синтаксически разобранные. И разбирая текст, программа будет пытаться состыковать эти кусочки, как паззл.


Пример синтаксического разбора.

Цифра обозначает связываемые слова, буквы - тип связи, - , =, или == - роль слова в данной связи. Связь может соединять больше, чем два слова.

Как даются названия связям. Сначала грубо несколько типов связи К, С, Д ... потом каждая дробится на несколько частей, более точно отражающих смысл связи и т.д.

По сути это чисто филологическая работа. Требуется чувство языка . И филологические знания очень помогают выделять смысл связи и давать правильные названия.

Кому интересно - присоединяйтесь, будем вместе классифицировать и выделять типы связей в русском языке.

Программа Сергея Протасова нормально работает, но там слишком мало связей, все связи в одной куче. Хотя не знаю, как она работает. Это тоже важно.
------------------------------------------
СВЯЗИ
------------------------------------------


И и
ИО и однородные члены предложения
ИС и сложносочиненное предложение =
ИТ и он (он тоже)
ИУ и (усиление)
ИП и сказал... (последовательность)

Ил или

А а =
Но но =


Ч что
ЧП пропущенное что

Ктл как только =


Чб чтобы =
Кг когда =
Тч так, чтобы =
Тк такой, как =
Ткт тот, который
Кт который =

Ру раз уж =
Пн пока не =
Уж уж
Ну ну

Крз как раз

В вопросительное слово

Пр прямая речь

Ни ни
НиН ни , ни
Не не
Же же
ЖеУ же (усиление)
ЖеС же (соединение)
Пс пусть (побудительная частица)
Дж даже (усилительная частица)
Тл только

Сам сам


К качество, какой, как, чей, куда, когда (признак)
КП приложение (добавочное имя)
КПд причастие действительное
КПс причастие страдательное
КО обстоятельство действия
КЧ сколько (числительное)
КР родительный падеж


П предлог =
ПО обстоятельство действия =

Д дополнение
ДВ винительный падеж (объект действия)

С сказуемое (что говорится о предмете речи)
СБ был/будет (я был ... )
СН неопределенно-личное сказуемое
СИ именное сказуемое (что-то является чем-то, каким-то)
Сд должен (я должен)
Со обязан (я обязан)

Г глагол-глагол
Гд должен (должен сделать)
Го обязан (обязан сделать)

Б был/будет (был кем-то, каким-то)
ББ было/будет (безличное)


Сл связь внутри составного предлога, союза и т.д. Нумеруется тем же числом.

+ для знаков препинания
? (пока без названия, не думал)

------------------------------------------
ТЕКСТ
------------------------------------------
1
Король\2КПс\12С, сильно\1К- раздосадованный\1КПс-\2К-\3Ч, что\3Ч- сын\4С\5КР\7К его\6К- кучера\5КР-\6К Джек\7К- тащил\3Ч=\4С-\8ПО\9ДВ из\8ПО- замка\8ПО= все\9ДВ-\10Ч, что\10Ч- ни\11Ни попало\10Ч=\11Ни, приказал\12С-\13Д\14Г отцу\13Д- обучить\14Г-\15Д\17ДВ молодого\16К- мошенника\15ДВ-\16К какому-нибудь\18К- ремеслу\17Д-\18К\19К\21Кт - любому\19К-, которое\21Кт- тот\20С выберет\21Кт=\20С-.

2
Но\1Но-, чтобы\3Чб- заслужить\3Чб=\4ДВ\6Д\5ПО у\5ПО- короля\5ПО= прощение\4ДВ-\23К себе\23К-\6Д-\7ИО- и\7ИО своему\8К- отцу\7ИО-\8К\23К-, юный\10К- плут\9СБ\10К должен\2Б-\11Гд был\1Но=\2Б\3Чб\9СБ- к\20ПО- концу\20ПО=\21КР семилетнего\22К- обучения\21КР-\22К так\14КО-\15Тч овладеть\11Гд-\12Д\14КО\20ПО своим\13К- ремеслом\12Д-\13К, чтобы\15Тч- выполнить\15Тч=\16ДВ любые\18К- три\19КЧ- задания\16ДВ-\17КР\18К\19КЧ короля\17КР-.

3
Раз\2Ру-\2Сл уж\2Сл Джеку\3Д- предоставили\0СН\2Ру=\3Д\4ДВ полный\5К- выбор\4ДВ-\5К, он\6С последовал\2Ру\6С-\7Д\9ИО- своим\8К- наклонностям\7Д-\8К и\9ИО остановился\9ИО-\10ПО\6С- на\10ПО- воровстве\10ПО=.

4
Вместе\2П-\2Сл с\2Сл отцом\2П= они\2П\3С отправились\3С-\4ПО\5ИО- в\4ПО- путь\4ПО= и\5ИО путешествовали\1Пн\5ИО-\3С-, пока\1Пн-\1Сл не\1Сл встретили\1Пн=\6ПО\8ДВ в\6ПО- далекой\7К- стране\6ПО=\7К вора\8ДВ-\9П из\9П- воров\9П=.

5
И\1ИП тот\2С согласился\1ИП-\2С-\3ПО\4Г за\3ПО- верную\5К- семилетнюю\6К- службу\3ПО=\5К\6К сделать\4Г-\7ПО\8ДВ из\7ПО- Джека\7ПО= такого\9ЖеС\10Тк\15К- же\9ЖеС- мастера\8ДВ-\13КР\15К своего\14К- дела\13КР-\14К, как\10Тк- и\11ИТ- он\10Тк=\11ИТ\12Сам сам\12Сам-.

6
К\10ПО- концу\9КР\10ПО= седьмого\8К- года\8К\9КР- Джек\1С вернулся\1С-\2КО\3ИС-\10ПО домой\2КО-, и\3ИС отец\4С отвел\3ИС-\4С-\5ДВ\6ПО\7ПО его\5ДВ- к\6ПО- королю\6ПО= для\7ПО- испытания\7ПО=.

7
- Какое\1В\2Пр- ремесло\1В-\4ДВ- он\3С выбрал\3С-\4ДВ ?\1В+ - спросил\2Пр\5С-\6ПО король\5С у\6ПО- отца\6ПО=.

8
- Воровство\1К-. Теперь\4КО-\5Уж уж\5Уж- он\3СИ мастер\2К\3СИ-\4КО воровать\2К-!

9
- Ну\1Ну-, это\7ДВ- мы\2С еще\4КО- посмотрим\1Ну\2С-\3Пр-\4КО\7ДВ , - сказал\3Пр\5Пр\6С- король\6С. - Завтра\9КО- я\8С посылаю\5Пр-\8С-\9КО\10ПО\11ДВ\14Чб в\10ПО- Дублин\10ПО= моего\12КР- верного\13К- пастуха\11ДВ-\12КР\13К, чтобы\14Чб- он\15С купил\14Чб=\15С-\16ПО\18ДВ для\16ПО- меня\16ПО= две\17КЧ- дюжины\17КЧ\18ДВ-\19КР овец\19КР-.

10
Учти\3ЧП, когда\1Кг- он\4С отправляется\1Кг=\4С-\5ПО в\5ПО- путь\5ПО=, он\6С не\2Не- расстается\1Кг\2Не\3ЧП-\6С-\7ПО с\7ПО- заряженным\8КПс- мушкетом\7ПО=\8КПс!

11
Ты\1Сд должен\1Сд-\2Гд\14Но завтра\6ЖеУ\7КО- же\6ЖеУ- украсть\2Гд-\3ДВ\5ПО\7КО\8КО у\5ПО- него\5ПО= этих\4К- овец\3ДВ-\4К, но\14Но- так\8КО-\9Тч, чтобы\9Тч- не\10Не- нанести\9Тч=\10Не\11ДВ\12Д\14Но= вреда\11ДВ- ни\13НиН-\13Сл себе\12Д-\13НиН, ни\13Сл ему\13НиН=.

12
Пусть\1Пс- он\6С даже\3Дж- и\4ИУ- не\2Не- узнает\1Пс\2Не\3Дж\4ИУ\5ПО\6С- об\5ПО- этом\5ПО=.

13
И\1ИО привести\1ИО-\2ДВ\3ПО овец\2ДВ- ко\3ПО- мне\3ПО=.

14
В\2ПО- ту\1ЖеУ\3К- же\1ЖеУ- ночь\2ПО=\3К Джек\4С стащил\2ПО\4С-\5ПО\9ИО- у\5ПО- королевского\6К- сапожника\5ПО=\6К лучшую\8К- пару\7КР\8К башмаков\7КР- и\9ИО взял\9ИО-\4С-\10ДВ\11ПО\12ПО их\10ДВ- с\11ПО- собой\11ПО= на\12ПО- дублинскую\13К- дорогу\12ПО=\13К.

15
Там\4КО- он\5С взобрался\1Чб\4КО\5С-\6ПО на\6ПО- холм\6ПО=, чтобы\1Чб- ему\3Д- повиднее\2К- было\1Чб=\0ББ\2К\3Д.

16
Как\1Ктл-\1Сл только\1Сл он\3С завидел\1Ктл=\2ДВ\3С- пастуха\2ДВ-\4КПд, возвращавшегося\4КПд-\5ПО со\5ПО- стадом\5ПО=\6КР овец\6КР-, он\7С\21С\24Сам бросил\1Ктл\7С-\8ДВ\11ПО\18Но\26А посреди\11ПО- дороги\11ПО= один\9КЧ- красавец\10КП- башмак\8ДВ-\9КЧ\10КП, но\18Но- перед\19ПО- тем\19ПО= до\20ПО- безобразия\20ПО= измазал\18Но=\19ПО\20ПО\21С-\22ДВ\23Д его\22ДВ- грязью\23Д-, а\26А- сам\24Сам-\25С отошел\17ИО-\25С-\26А=\27КО\28ПО немного\27КО- по\28ПО-\28Сл направлению\28Сл к\28Сл замку\28ПО= и\17ИО положил\13ПО\15ПО\16ДВ-\17ИО-\25С- на\15ПО- дорогу\15ПО= второй башмак\16ДВ-, как\14Крз-\14Сл раз\14Сл на\13ПО-\14Крз самую\12К- середину\12К\13ПО=.

17
Потом\3КО- спрятался\1С-\2КО\3КО поблизости\2КО-.

18
И\22ИУ- уж\23Уж- будьте\22ИУ\23Уж\24Б\25СБ- уверены\1ЧП\24Б-, когда\11Кг- честный\16К- пастух\13С\16К дошел\11Кг=\13С-\14ПО до\14ПО- первого\15К- башмака\14ПО=\15К, он\2С взглянул\1ЧП-\2С-\3ИО-\11Кг\15ПО на\15ПО- него\15ПО=, перевернул\2С-\3ИО-\4ДВ\5Д\11Кг испачканный\6КПс башмак\4ДВ-\6КПс ногой\5Д- и\3ИО в\7ПО- душе\7ПО= обругал\2С-\3ИО-\7ПО\11Кг\12ДВ того\8К-\9Ткт- дурака\8К\12ДВ-, который\9Ткт- потерял\9Ткт=\10Ил- или\10Ил бросил\9Ткт=\10Ил-\17ПО\18ДВ на\17ПО- дороге\17ПО= только\21Тл один\20КЧ-\21Тл красавец\19КП- башмак\18ДВ-\19КП\20КЧ: ну\26Ну- кому\26Ну он\27СИ нужен\27СИ-, если нет пары?

 Профиль  
                  
 
 Re:
Сообщение23.09.2009, 13:58 


23/09/09
25
Padawan в сообщении #35502 писал(а):
Базу знаний можно организовать так (основная структура, можно добавит еще полно рёбер: синонимы, ассоциации и т.д.):

Вершины двух сортов - слова и фразы (знания и отражающие семантику русского языка - все вместе). Ребро соединяет слово с фразой, если слово присутствует во фразе. ПРИ ЭТОМ ребро подписывается номером значения, в котором данное слово выступает во фразе (подавляющее большинство слов многозначны, и чем чаще слово употребляется, тем у него больше значений) .

2 незваный гость: Я приступил к созданию link grammar для русского языка, и решил что правила вывода будут оперировать именно такими графоподобными структурами.

Я поступаю так : Беру толковый словарь. Беру любой большой текст. Выписываю каждое предложение и расставляю в нём связи. Каждый новый тип связи нумерую, составляю параллельно список типов связи с подробным комментариями, чтоб не запутаться.

Работа действительно кропотливая, и очень интересная. На каждом шагу приходится влезать в такие смысловые и синтаксические тонкости! Но это, я думаю, в начале.

2 PAV, B.O. : парадокс: когда пытаешься моделировать только предложения с простой структурой и ограниченным запасом слов, то НИЧЕГО не получается ! А когда работаешь с русским языком во всей его сложности, то результаты есть, по крайней мере много мыслей приходит в голову.
Я думаю это потому что, мыслим мы на русском, а когда пытаешься мыслить на еще не созданном языке..... )

Добавлено спустя 19 минут 50 секунд:

Меня взяло сомнение: стоит ли объединять в одной базе фразы, описывающие семантику языка, и собственно знания. Вышеприведенный пример про брюки и шотландцев собственно к языку не относится.

Кто нибудь знает про толковые словари, в которых все слова обьясняются при помощи сравнительно небольшого набора (~2000) базовых слов. Для английского языка у меня такой словарь есть. Издательсва Longman по-моему.

Мы мыслим корнями Священного языка, т.е. древнего "иЪврита", из которого состоят и русские, и английские слова.
Самый лучший толковый словарь русского языка - это иврито-русский словарь Михаэля Дрора.
Если кого заинтересует, могу продолжить

 Профиль  
                  
 
 Re: Типы синтаксических связей в русском языке
Сообщение17.06.2010, 07:46 
Заслуженный участник


13/12/05
4519
Предлагаю создать он-лайн проект по выделению типов лексико-синтаксических связей в русском языке. (см. мое последнее сообщение в этой теме http://dxdy.ru/post217791.html#p217791).

Хорошо бы сделать такую он-лайн программу, чтобы каждый мог записывать свое предложение, делать его синтаксический разбор, используя уже существующие связи, и создавать новые -- разбивать существующие на подтипы, более тонко отражающие смысл связи.
По каждой связи будет создаваться католог предложений, где она встречается.

Хорошо бы, чтобы это было вроде википедии -- с возможность свободно редактировать и обсуждать.

 Профиль  
                  
 
 Re: Моделирование русского языка
Сообщение07.08.2010, 00:53 


07/08/10
1
Парни вы просто зажгли!
Реально! Спасибо вам большое!

 Профиль  
                  
 
 Re: Моделирование русского языка
Сообщение11.08.2010, 21:14 


22/03/09
8
Ворнежский Гос. Университет
http://aot.ru/demo/graph.html - анализирует связи в предложении на русском. На сайте есть документация по алгоритму.

 Профиль  
                  
 
 Re: Моделирование русского языка
Сообщение27.08.2010, 19:32 


20/09/09
1901
Уфа
Есть любопытная статья в "Data & Knowledge Engineering" (скачал в свое время):
"New research directions for data and knowledge engineering: A philosophy of language approach" ("Новые направления исследований для инженерии данных и знаний: философия языкового направления"):
http://www.sciencedirect.com/science?_ob=ArticleURL&_udi=B6TYX-4SM629C-2&_user=10&_coverDate=11%2F30%2F2008&_rdoc=5&_fmt=high&_orig=browse&_srch=doc-info%28%23toc%235630%232008%23999329997%23697654%23FLA%23display%23Volume%29&_cdi=5630&_sort=d&_docanchor=&_ct=7&_acct=C000050221&_version=1&_urlVersion=0&_userid=10&md5=7604d9b220dfa050f770c085aeaaae89.
Могу прислать текст статьи на email.

 Профиль  
                  
 
 Re: Типы синтаксических связей в русском языке
Сообщение02.09.2010, 00:46 


05/06/07
16
Пермь
Padawan в сообщении #217791 писал(а):
После долгого перерыва, опять задумался о синтаксическом разборе текста.
На этот раз основное внимание я уделяю именно тонкому синтаксическому разбору - попытаться проклассифицировать все виды грамматической синтаксической связи в русском языке. При этом трудность тут в том, что тип синтаксической связи тесно связан с семантикой. Пример: лисий хвост и лисий ум. Это разные связи, и они должны обслуживаться разными правилами вывода. Первое означает - хвост лисы, второе - как у лисы. Так что, параллельно надо думать, как организован словарь и как он используется при синтаксическом разборе.

Тут нужно учитывать, что "лисий ум" - это не просто словосочетание (в отличие от "лисий хвост"). Это фразема.
В статье [url]http://ru.wikipedia.org/wiki/Фразеологизм[/url] есть классификация фразем по Мельчуку, может пригодиться.

Цитата:
В словаре должны быть для каждого слова указаны шаблоны словосочетаний, синтаксически разобранные. И разбирая текст, программа будет пытаться состыковать эти кусочки, как паззл.

В диссере Копотев М.В. Принципы синтаксической идиоматизации приведён список русских синтаксических фразем (79 штук). Примеры:
    6. Вот (тебе) и + N/Adj/V. (Вот тебе и сбежали! Вот тебе и приятели!)
    34. Pro, N + ли + Inf (Ему ли знать)
    56. …, но Vinf + Vfin (Ничего не обещаю, но попытаться попытаюсь)
    76. N.nom + из N.gen + Adj (Учитель из Петрова плохой)
    77. N.nom + за N.inst (Слово за президентом)
    78. Ну + Inf (Ну кричать)

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 68 ]  На страницу Пред.  1, 2, 3, 4, 5  След.

Модераторы: Karan, Toucan, PAV, maxal, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group