2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему
 
 Другой Word2Vec
Сообщение14.08.2024, 11:47 
Аватара пользователя


14/11/12
1367
Россия, Нижний Новгород
Никогда прежде машинным обучением не занимался и не имею никакого образования в этой области. Профессионально занимаюсь написанием низкоуровневых библиотек для CPU (C, assembler). В сторону AI не смотрел. Однако, несколько месяцев назад я внезапно узнал про word2vec Томаса Миколова и заинтересовался темой векторного представления слов.

В результате, я изобрёл другой (не такой как у Миколова) алгоритм векторизации слов, который, на мой субъективный вкус, смею надеяться, довольно хорош, а главное, математически понятен. В моём алгоритме нет никаких искуственных нейронных сетей, нет никакой непостижимой магии AI. Говоря на языке математики, как мне кажется, удалось найти "точное решение в явном виде".

Я написал консольную программу на C которая в интерактивном режиме принимает на вход слово (или выражение - несколько токенов) и выдаёт в консоль найденные похожие слова (и выражения). Например, если её попросить найти слова похожие на слово "рублей", то вывод будет примерно такой:

> рублей

долларов
экю
гульденов
юаней
флоринов
реалов
кредитов
ливров
сестерциев
кредов
империалов
дукатов
талеров
злотых
фунтов
евро


На сколько я понимаю, для того чтобы правильно опубликовать свой алгоритм "word2vec" мне надо его сравнить на стандартных бенчмарках с уже существующими опубликованными языковыми моделями. Но вот с этим-то у меня большая проблема. Кто-нибудь может мне объяснить примерный план действий в данном случае?

 Профиль  
                  
 
 Re: Другой Word2Vec
Сообщение14.08.2024, 12:05 
Заслуженный участник
Аватара пользователя


20/08/14
8471
Контекстные векторы и метрики для оценки близости значений слов разрабатываются корпусными лингвистами с середины XX в. Так что, возможно, имеет смысл посмотреть, не переоткрыли ли Вы что-нибудь известное. Наверняка есть какие-то обзоры, а то и базы данных по таким метрикам (я не специалист и не подскажу, где искать).

 Профиль  
                  
 
 Re: Другой Word2Vec
Сообщение14.08.2024, 13:05 
Заслуженный участник
Аватара пользователя


16/07/14
9069
Цюрих
Возьмите какую-нибудь статью про word embeddings (хоть ту же Миколова; другие известные - fasttext от facebook и word embeddings are implicit matrix factorization Голдберга), или посмотрите на чем оценивают эти задачи на paperswithcode.
Т.е. план:
-берете какую-нибудь статью по word embeddings (лучше поновее, но на самом деле не очень важно)
-в ней берете раздел results
-берете датасеты, на которых товарищи оценивали, как правило они все открытые
-запускаете свою модель на этих датасетах
-в табличку из статьи добавляете свои результаты, обводите их жирным (опционально выкидываете какие-нибудь старые)

(Оффтоп)

Вложение:
EsHeSPNU0AA4hZ2.jpg
EsHeSPNU0AA4hZ2.jpg [ 59.95 Кб | Просмотров: 0 ]

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 3 ] 

Модераторы: Karan, Toucan, PAV, maxal, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group