2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему
 
 Проблема компьютерно-лингвистическая
Сообщение11.01.2006, 04:09 


03/01/06
1
Томск
Мир вам, граждане!
Стоит задача: при обработке текста определять по словоформе словарную форму, в целях статистических, чтобы слова "дому" и "доме" за одно "дом" считались. Я подозреваю, что эта задача стоит давно и регулярно, а доступны ли какие-нибудь материалы где-нибудь? Программные библиотеки? Алгоритмы?

 Профиль  
                  
 
 
Сообщение11.01.2006, 18:54 
Экс-модератор


12/06/05
1595
MSU
Судя по тому, как работают поисковые системы в интернете, задача довольно глубоко проработана.=)
Кинул ссылку на эту тему одному знакомому.

 Профиль  
                  
 
 
Сообщение11.01.2006, 19:27 


29/12/05
6
Мехмат МГУ
Я работал над похожей задачей, но для старославянского языка. У нас имелась большая коллекция уже размеченных вручную древних текстов (для каждой словоформы указывылись начальная форма и морфологические/грамматические признаки). Затем из этой коллекции выбирались те словоформы, для которых какой-либо признак восстанавливался однозначно. На основе этой информации производилась разметка нового текста. Большая половина текста размечалась автоматически (с небольшой долей ошибок), а остальное - опять вручную.

Я могу поделиться материалами, но они будут СОВЕРШЕННО НЕПРИМЕНИМЫ к современному русскому языку...

 Профиль  
                  
 
 
Сообщение11.01.2006, 19:45 
Заслуженный участник
Аватара пользователя


17/10/05
3709
:evil:
Я не очень уверен. Поисковики работают не семантически, для них в дочь генерала -- "генер-ал-а" суть глагол прошедшего времени женского роду. Вероятно, "дочь" любит/может "генерать".

Приемлемость подобных фишек зависит от точки зрения. Для поисковика это приемлемо, теория состоит в том, что следует искать все потенциальные словоформы словоформ запроса. Поэтому поисковик строит множество всех нормализаций слов запроса и ищет любую из них. (С точки зрения поисковика, нельзя различить существительное горе и глагол гореть по словоформе горя - существительное или деепричастие? и следует искать оба)

Я как-то любопытсва ради (тестировал характеристики деревьев поиска) считал словоформы в King James Bible (текст XVII века, коли не ошибаюсь). Там - нетрадиционные для современного англицкого местоимения, глагольные формы третьего лица типа "doeth", "hath", et cetera. Словарь-то (с лингвистическими пометами) откуда взять - под рукой не было (wordnet тогда не был публично доступен). Я пошел путем наименьшего сопротивления -- если словоформа есть без окончания, то словоформа с окончанием рассматривается как видоизменение первой словоформы. Нарисовал набор правил (типа -fe -> -ives [wife -> wives]). И стал смотреть. И обнаружил глагол you :lol: ! (эта словоформа, очевидно, встречается, и встречается словоформа youth -- применяем глагольное окончание). Очевидно, что для моих целей такая неразборчивость была непремлема.

Нетривиальность этой темы подчеркивают "проверяльщики" орфографии (для меня, по крайней мере, подчеркивают). В англицком, с его зачаточым словоизменением эта проблема, казалось бы, проста. И действительно, пока слово из словаря, все в порядке. Но если мы не дай Бог добавим свое слово - мы должны добавлять все словоформы скучно и муторно.

~~~

Похоже, для части лингвистов сейчас разработка подобных алгорифмов (хороших, разумеется) -- насущный хлеб, и, при заключении договора на разработку (тем, кому нужна проверка орфографии) они соглашаются на конфиденциальность. Я видел очень нетривиальные и очень непростые алгорифмы переноса (по секрету, разумеется -- с обещанием не использовать). Жаль, я ничего не слышал об аналоге WordNet для русского языка.

 Профиль  
                  
 
 ворднет
Сообщение14.07.2008, 21:13 
Спамер


14/07/08

4
а как вы понимаете ворднет. я смотрел, но не разобрался. что там такого, что нельзя на русском?

 Профиль  
                  
 
 
Сообщение17.07.2008, 14:20 


23/02/06
53
Санкт-Петербург
В индексации текстов задача сопоставления разным морфологическим формам одного слова единой основы имеет название stemming. Когда проводил предобработку текстов для задачи классификации англоязычных документов, то пользовался Porter Stemmer Algorithm. Он действительно построен на правилах. Вот алгоритм, а вот и исходники на С, если интересно.
Вообще выделение основ чаще всего относят к области information retrieval, хотя она является весьма частой и поэтому всплывает во многих задачах.
Есть такой проект Snowball. Там единым образом собраны stemmer'ы для очень многих языков (принадлежащих, кстати, разным семействам). Видел и для нашего великого русского языка.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 6 ] 

Модераторы: Модераторы, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group