Имхо, слов набереться с нетрадиционным использованием очень даже много.
Имхо, у каждого свой словарь, и если хочеться, чтобы тебя поняли, это нужно учитывать
(словарь синонимов сильно расширил мои горизонты, когда выдал для слова друзья «братва» и «авоська и нахренаська»). Т.е. это я могу сказать "друзья", подразумевая известный американский сериал, а реципиент может понять в контексте сериала "бригада".
Вот я занимаюсь локализацией программ на украинский (для ясности контекта). Убирая проблему управления территориями через промывку мозгов (отдельная тема, не мат. лингвистики, а метауровня).
С переводом все понятно. Особенно если нет адекватных сущностей. Можно придумать новое слово, оно должно быть принято носителями и применяться согласно правилам конкретного языка. Правда, не только в украинском есть проблемы с адекватными носителями: и имплементация подкачала, и с репрезентацией сущности (как бы, чёрный кофе ака кофий).
Короче. Много-много выдающихся математических лингвистов в Московском универе, Ноам Хомский форева, меня же вдохновила фирма Microsoft (Text Classification using SQL Server 2005 Beta2 Data Mining) и всяческие автоматические переводчики с русского на украинский (после чего и возникают дурные гэбешные шутки о проблемах с мозгами, но кит и кіт – это разные слова, так же как язик и мова). Проблема только в ресурсах, но идея такая (особенно для не аналитических) языков (начнем с русского и украинского, далее проблема излагается без применения контекста мат. лингвистики):
Берем текст-высказывание. Полная информация включает (без языка тела и визуализации):
- звуки – слова (со всей своей морфологией) в контексте – последовательность и управление (группа подлежащего, сказуемого, всяческие дополнения) – контекст – смысл.
Как разобраться что есть слово написал Хомский, эту проблему решаем просто (есть пробелы и знаки препинания).
Слова – это сущности, отношения, атрибуты, модификаторы, другими словами, нужно определить часть речи (далее – падежи, склонения, спряжения и т.д.). В русском языке падеж существительного может многое сказать (избыточность), в английском проще с морфологией, но дополнительно нужно анализировать порядок слов и т.д. Сложного ничего нет, а в аналитических языках все гораздо проще, слово как бы есть простой тип (а не куча окончаний, которые управляют другими окончаниями; и только с глаголами, если это английский, иногда нужно искать связанный предлог-модификатор).
Другими словами, просто слов которые в контексте сложности перевода не побеждаются. Иногда же адекватно высказаться можно только с потерей ясности или краткости. Причем, спорить долго об этом не нужно – можно доказать перебором всех допустимых смысловых конструкций.
Потому, имхо, что нужно сделать:
---------------------------------
Написать программу, которая строит матрицу – словарь с использованием скормленной информации (возможно, для простоты, уже со знанием семантики, грамматики языка):
- части речи ~ сущности (состояния), атрибуты, модификаторы, функции и т.д
– допустимые связи каждый с каждым (связи сложные: управление, согласование, характерный generic атрибут или поэзия, или бессмыслица для полноты)
Информация в высказывании: - последовательность морфем (в устной речи – тон, обертон, сила и т.д.) – слова (состояния) – связи – контекст - смысл.
Высказывание – траектория, вообще говоря в многомерном пространстве интерпретаций (граф) с учетом синонимии и модификации значения с учетом контекста (дивчина – коса – голова – смерть от утопления). Контекст позволяет уточнить где коса – на голове или в море, а может и фамильный инструмент, а последнее грустное событие случилось возле сеновала в бочке, а также управляет избыточностью.
Передача смысла – тензор перевода из одного словаря в другой. Необходимо построить аналогичную фигуру без потери информации в пространстве другого словаря, потом допустимыми в этом словаре контекстами снизить избыточность (точность).
Учитывая, что в словаре Шекспира (конкорданс) всего пара десятков тысяч слов, полностью идея языка + правила его расширения должны вместиться максимум в несколько сотен мегабайт. На машине с гигом памяти уже можно работать.
Задача, естественно, не в решении задачи перевода, а в майнинге знаний.
Пишу эту штуку с использованием на Java c использованием IBM’s the Unstructured Information Management Architecture. Хотя С# почему-то после дня работы кажется перспективнее.
Результат: словарь, визуализация фигуры речи (в прямом смысле). Поначалу это будет прикольно и так. Представьте, какие немыслимые связи сущностей можно будет выловить.
Потом – оптимизация словарей, и правил генерации онтологий, и компактного языка, и тот же майнинг implied meaning.
|