Другой Word2Vec

SergeyGubanov · 14.08.2024, 11:47

Никогда прежде машинным обучением не занимался и не имею никакого образования в этой области. Профессионально занимаюсь написанием низкоуровневых библиотек для CPU (C, assembler). В сторону AI не смотрел. Однако, несколько месяцев назад я внезапно узнал про word2vec Томаса Миколова и заинтересовался темой векторного представления слов.

В результате, я изобрёл другой (не такой как у Миколова) алгоритм векторизации слов, который, на мой субъективный вкус, смею надеяться, довольно хорош, а главное, математически понятен. В моём алгоритме нет никаких искуственных нейронных сетей, нет никакой непостижимой магии AI. Говоря на языке математики, как мне кажется, удалось найти "точное решение в явном виде".

Я написал консольную программу на C которая в интерактивном режиме принимает на вход слово (или выражение - несколько токенов) и выдаёт в консоль найденные похожие слова (и выражения). Например, если её попросить найти слова похожие на слово "рублей", то вывод будет примерно такой:

> рублей

долларов
экю
гульденов
юаней
флоринов
реалов
кредитов
ливров
сестерциев
кредов
империалов
дукатов
талеров
злотых
фунтов
евро

На сколько я понимаю, для того чтобы правильно опубликовать свой алгоритм "word2vec" мне надо его сравнить на стандартных бенчмарках с уже существующими опубликованными языковыми моделями. Но вот с этим-то у меня большая проблема. Кто-нибудь может мне объяснить примерный план действий в данном случае?

Anton_Peplov · 14.08.2024, 12:05

Контекстные векторы и метрики для оценки близости значений слов разрабатываются корпусными лингвистами с середины XX в. Так что, возможно, имеет смысл посмотреть, не переоткрыли ли Вы что-нибудь известное. Наверняка есть какие-то обзоры, а то и базы данных по таким метрикам (я не специалист и не подскажу, где искать).

mihaild · 14.08.2024, 13:05

Возьмите какую-нибудь статью про word embeddings (хоть ту же Миколова; другие известные - fasttext от facebook и word embeddings are implicit matrix factorization Голдберга), или посмотрите на чем оценивают эти задачи на paperswithcode.
Т.е. план:
-берете какую-нибудь статью по word embeddings (лучше поновее, но на самом деле не очень важно)
-в ней берете раздел results
-берете датасеты, на которых товарищи оценивали, как правило они все открытые
-запускаете свою модель на этих датасетах
-в табличку из статьи добавляете свои результаты, обводите их жирным (опционально выкидываете какие-нибудь старые)

(Оффтоп)

Вложение:

EsHeSPNU0AA4hZ2.jpg

Научный форум dxdy

Другой Word2Vec