Собственно, лингвисты "всё уже придумали до нас".
Многабукв (разрисовал петитом/болдом для удобочитаемости):
Люди, знающие тот или иной естественный язык, могут выполнять с его помощью следующие операции:
1) Строить на этом языке текст, выражающий нужное значение (способность говорения), а также извлекать значение из воспринимаемого текста (способность понимания). Неумение выбрать слова и конструкции, выражающие требуемое значение, приводит к семантической ошибке, например, такой: Преступники угнали несколько государственных и собственных машин. Это предложение либо неправильно (надо было сказать частных, а не собственных), либо правильно, но нелепо (преступники обокрали себя, угнав свои собственные машины). Ошибка объясняется тем, что автор приведенного высказывания спутал два близких, но не совпадающих по значению слова: частный X = ' X, принадлежащий отдельному лицу' и собственный X = 'принадлежащий тому лицу, которое пользуется Х-ом'.
2) Соединять слова друг с другом идиоматично, т. е. в соответствии со сложившимися в данном языке и подчас трудно мотивируемыми нормами синтаксической, семантической и лексической сочетаемости. По-русски нельзя сказать транжирить или мотать деньгами (надо: транжирить или мотать деньги), приходить в хандру (надо: впадать в хандру), хотя никакой семантической ошибки тут нет: форма творительного падежа деньгами может иметь требуемое по смыслу объектное значение (ср. сорить или бросаться деньгами), а глагол приходить - требуемое по смыслу значение 'начинать находиться в состоянии, обозначенном зависимым существительным' (ср. приходить в ярость).
3) Устанавливать различные семантические отношения между высказываниями, в частности: а) отношения синонимии, ср. Нет на свете дела, более трудного, чем составление словаря = Составление словаря - самое труднoe дело на свете; б) отношения логического следования, ср. Мальчик вылечился => Мальчик выздоровел => Мальчик здоров. При говорении эта способность проявляется в умении перифразировать построенный текст многими различными способами, оставляя неизменным его содержание или меняя последнее строго определенным способом, а при понимании - в умении увидеть полное или частичное семантическое тождество внешне различных текстов.
4) Устанавливать различные семантические свойства предложений, в частности: а) отличать семантически правильные предложения от семантически неправильных, б) отличать семантически связные тексты от семантически несвязных.
Подчеркнем, что здесь имеются в виду умения, основанные на владении чисто языковой (словарной и грамматической), а не энциклопедической информацией. Текст Он проплыл 100 метров кролем за 45 секунд для всякого носителя русского языка значит: 'Плывя стилем «кроль», он покрыл расстояние в сто метров и затратил на это 45 секунд'. Для тех, кто знает не только русский язык, но и таблицу мировых достижений в плавании (элемент энциклопедической, а не языковой информации), то же самое предложение может оказаться гораздо содержательнее. Оно может быть воспринято как сенсационное сообщение о феноменальном мировом рекорде, как напоминание о безграничных физических возможностях человека и т. п.
Достаточно знать только грамматику языка и словарные значения слов, чтобы построить перифразы Стометровую дистанцию (стометровку) он проплыл кролем за 45 секунд, На сто метров кролем у него ушло 45 секунд, Стометровку он прошел кролем за 45 секунд, Он затратил 45 секунд на то, чтобы пройти кролем расстояние в 100 метров, Стометровку он проплыл кролем за 3/4 минуты и очень многие другие. К услугам знатока спорта будут и совершенно иные возможности перифразирования: Кратчайшую олимпийскую дистанцию он проплыл кролем за 45 секунд, На стометровой дистанции кролем он на 10 секунд улучшил прежний мировой рекорд и т. д.
Если человек владеет только языковой информацией, он не сумеет сказать, являются ли семантически связными тексты: Он проплыл 100 метров кролем за 45 секунд, установив, таким образом, феноменальный мировой рекорд и Он проплыл 100 метров кролем за 45 секунд, едва выполнив, таким образом, норму третьего разряда. Если же человек владеет и соответствующей энциклопедической информацией, первое предложение будет для него семантически связно, хотя и неправдоподобно, а второе - несвязно или ложно.
Итак, речь идет лишь о моделировании знания языка, а не знания действительности. В указанных рамках носители языка выполняют все перечисленные операции интуитивно и не отдают себе отчета в том, на каком основании они выбирают то или иное решение. Рассмотрим, например, предложение Хороший кондитер не жарит хворост на газовой плите. Его значение непосредственно очевидно всякому человеку, владеющему русским языком, хотя можно сомневаться в том, что рядовой носитель языка сумеет теоретически удовлетворительно объяснить существо закона, который он интуитивно использует при понимании данного предложения.
Однако модель не может апеллировать к интуиции, которой у нее нет, и если мы хотим, чтобы она выполняла доступные человеку операции с текстами, мы должны заложить в нее необходимую информацию в явном виде. Эта информация складывается прежде всего из знания фонетических, морфологических и синтаксических единиц и правил и знания словаря, но, конечно, не исчерпывается этим. Существуют еще некие семантические правила интерпретации текстов; ниже мы эксплицируем одно из них, допустив, что синтаксическая структура предложения и значения входящих в него слов уже известны <...>.
Оставляя в стороне многозначность слов хороший, не, на, выпишем в столбец значения всех других слов.[*]
[*] Значения сформулированы здесь очень приблизительно.
кондитер
1. 'тот, кто изготовляет сласти'
2. 'торговец сластями'
3. 'владелец кондитерской'
жарить
1. 'изготовлять пищу нагреванием на/в масле'
2. 'обдавать зноем'
хворост
1. 'сухие отпавшие ветви'
2. 'печенье, изготовленное кипячением в масле'
газовый
1. 'состоящий из газа' (облако)
2. 'производящий газ'
3. 'работающий на энергии сжигаемого газа'
плита
1. 'плоский кусок твердого материала'
2. 'нагревательное устройство для изготовления пищи'
Если модель не знает закона, по которому из значений слов строится значение предложения, ничто не помешает ей понять это высказывание, например, в следующем смысле: 'Хороший торговец сластями не обдает зноем сухие отпавшие ветви на плоском куске металла, производящем газ'. Это осмысление получается в результате такой комбинации значений: кондитер 2, жарить 2, хворост 1, газовый 2, плита 1; общее же число принципиально мыс-лимых комбинаций значений и, следовательно, принципиально возможных прочтений предложения в пределах заданной информации достигает 3 x 2 x 2 х 3 х 2 = 72. Из них лишь одно является оптимальным по своей информативности и естественности.
Чтобы сформулировать закон, на основании которого носитель языка безошибочно выбирает именно его, присмотримся вни-мательнее к значениям слов, дающим оптимальное осмысление предложения. Это значения кондитер 1, жарить 1, хворост 2, газовый 3 и плита 2; характерным для них является наличие ряда общих семантических элементов, а именно элемента 'изготовлять' ('тот, кто изготовляет', 'изготовлять пищу', 'изготовленное', 'для изготовления пищи'), элемента 'нагревание' ('нагреванием на/в масле', 'изготовленное кипячением', 'энергия сжигаемого газа', 'нагревательное устройство'), элемента 'пища' ('сласти', 'изготовлять пищу', 'кипячением в масле'). Выбор названных значений обеспечивает максимальную повторяемость семантических элементов в пределах предложения; легко убедиться, что при любом другом осмыслении предложения повторяемость се-мантических элементов будет менее высокой.
Это и есть основной семантический закон, регулирующий правильное понимание текстов слушающим: выбирается такое осмысление данного предложения, при котором повторяемость семантических элементов достигает максимума. Этот закон представляет собой строгую формулировку старого принципа, в силу которого нужное значение многозначного слова «ясно из контекста»; иногда он называется правилом семантического согласования (Гак 1972).[*]
[*] Если пользоваться этим термином, то следует иметь в виду, что между грамматическим и семантическим согласованием имеется существенное различие: слово А, грамматически согласованное с В, заимствует у последнего определенные значения в данном тексте; между тем семантически согласованные друг с другом слова A и В не приобретают общие смысловые элементы в тексте, а имеют их еще в словаре. Бесспорно, однако, что понятие согласования (повторяемости каких-то элементов языковой информации) может быть обобщено таким образом, что грамматическое и семантическое согласование предстанут как его частные случаи.
Теперь можно формально эксплицировать, хотя бы в первом и самом грубом приближении, и понятие семантической связности текста: текст семантически связен, если в лексических значениях синтаксически связанных слов имеются повторяющиеся смысловые компоненты; если ни для одной пары синтаксически связанных друг с другом слов это правило не соблюдено, текст семантически не связен.
Уже этот пример показывает, что попытка смоделировать понимание человеком семантически связных текстов или его умение отличать семантически связные тексты от несвязных приводит к постановке серьезного вопроса о языке, на котором описываются значения слов. Очевидно, например, что, поскольку повторяться в тексте могут только части сложных значений, а не эти значения целиком, каждое из сложных значений должно быть представлено в виде комбинации более простых значений, а каждое из этих простых значений должно (в формальном языке) всегда называться одинаково: если одно и то же простое значение будет называться по-разному в зависимости от того, входит ли оно в сложное значение 'А' или 'В', факт его повторяемости в словосочетании АВ не может быть непосредственно установлен.
Сказанное позволяет заключить, что искомый язык существенно отличается от естественного языка хотя бы тем, что его слова семантически гораздо проще слов естественного языка и не имеют синонимов. В дальнейшем мы займемся этим вопросом подробнее; здесь же достаточно подчеркнуть, что к точно таким же выводам мы бы неминуемо пришли, если бы рассматривали требования, вытекающие из формальной постановки проблемы моделирования любой другой способности из числа тех, которые в совокупности составляют «владение языком». В частности, не имея специального языка для записи значений, невозможно формально смоделировать умение носителя языка строить тексты с заданным содержанием.
Неудивительно поэтому, что вопрос о языке для записи значений слов и - шире - целых высказываний оказался в центре внимания многих современных школ и направлений семантики, которой теперь отводится очень важная роль: она не просто «изучает значения слов», но отвечает за разработку языка для записи семантической информации и (отчасти) правил перехода от предложений этого языка к предложениям естественного языка. В связи с этим выделяется по крайней мере два уровня представления высказываний: семантический (у некоторых авторов - глубинно-синтаксический) и поверхностно-синтаксический (ср. Жолковский и Мельчук 1965, 1967, Лэмб 1966, Вежбицка 1967б, Лайонс 1967, Лаков 1968, МакКоли 1968б, Филмор 1969, Брекле 1969, Беллерт 1969, Богуславский 1970, Шаумян 1971, Бархударов 1973). В работах последних лет (см. в особенности Мельчук 1974а, 19746) число уровней возрастает до пяти-шести: семантический, глубинно-синтаксический, поверхностно-синтаксический, глубинно-морфологический, поверхностно-морфологический, фонологический.
<...>
Дальше, наверное, следует курить собственно Мельчука с его
теорией «Смысл ↔ Текст». Можно ещё пожевать что-нибудь вроде
Я.Г.Тестелец. "Введение в общий синтаксис" (2001) (особенно "Часть 2. Синтаксические теории" - там обзор разных подходов к формализации, в т.ч. и мельчуковского). Все книги есть в сети (нашёл даже сканы ТКС/1984 (увы, неполные) - надо будет выложить на Инфанату).
PS. Насчёт "моделирования знания языка, а не знания действительности" Апресян слишком оптимистичен - Ленат
сперва как раз и пытался такое провернуть. Пришёл к выводу, что без common sense таки не обойтись.