2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 Другой Word2Vec
Сообщение14.08.2024, 11:47 
Аватара пользователя
Никогда прежде машинным обучением не занимался и не имею никакого образования в этой области. Профессионально занимаюсь написанием низкоуровневых библиотек для CPU (C, assembler). В сторону AI не смотрел. Однако, несколько месяцев назад я внезапно узнал про word2vec Томаса Миколова и заинтересовался темой векторного представления слов.

В результате, я изобрёл другой (не такой как у Миколова) алгоритм векторизации слов, который, на мой субъективный вкус, смею надеяться, довольно хорош, а главное, математически понятен. В моём алгоритме нет никаких искуственных нейронных сетей, нет никакой непостижимой магии AI. Говоря на языке математики, как мне кажется, удалось найти "точное решение в явном виде".

Я написал консольную программу на C которая в интерактивном режиме принимает на вход слово (или выражение - несколько токенов) и выдаёт в консоль найденные похожие слова (и выражения). Например, если её попросить найти слова похожие на слово "рублей", то вывод будет примерно такой:

> рублей

долларов
экю
гульденов
юаней
флоринов
реалов
кредитов
ливров
сестерциев
кредов
империалов
дукатов
талеров
злотых
фунтов
евро


На сколько я понимаю, для того чтобы правильно опубликовать свой алгоритм "word2vec" мне надо его сравнить на стандартных бенчмарках с уже существующими опубликованными языковыми моделями. Но вот с этим-то у меня большая проблема. Кто-нибудь может мне объяснить примерный план действий в данном случае?

 
 
 
 Re: Другой Word2Vec
Сообщение14.08.2024, 12:05 
Аватара пользователя
Контекстные векторы и метрики для оценки близости значений слов разрабатываются корпусными лингвистами с середины XX в. Так что, возможно, имеет смысл посмотреть, не переоткрыли ли Вы что-нибудь известное. Наверняка есть какие-то обзоры, а то и базы данных по таким метрикам (я не специалист и не подскажу, где искать).

 
 
 
 Re: Другой Word2Vec
Сообщение14.08.2024, 13:05 
Аватара пользователя
Возьмите какую-нибудь статью про word embeddings (хоть ту же Миколова; другие известные - fasttext от facebook и word embeddings are implicit matrix factorization Голдберга), или посмотрите на чем оценивают эти задачи на paperswithcode.
Т.е. план:
-берете какую-нибудь статью по word embeddings (лучше поновее, но на самом деле не очень важно)
-в ней берете раздел results
-берете датасеты, на которых товарищи оценивали, как правило они все открытые
-запускаете свою модель на этих датасетах
-в табличку из статьи добавляете свои результаты, обводите их жирным (опционально выкидываете какие-нибудь старые)

(Оффтоп)

Вложение:
EsHeSPNU0AA4hZ2.jpg


У вас нет доступа для просмотра вложений в этом сообщении.

 
 
 [ Сообщений: 3 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group