loading page

Модель геометрической структуры синсета
  • Alexander Kirillov,
  • Andrew Krizhanovsky
Alexander Kirillov
Institute of Applied Mathematical Research of the Karelian Research Centre of the Russian Academy of Sciences
Author Profile
Andrew Krizhanovsky
Institute of Applied Mathematical Research of the Karelian Research Centre of the Russian Academy of Sciences
Author Profile

Abstract

Аннотация

В статье поставлен вопрос формализации понятия синонимии. На основе векторного представления слов в работе предлагается геометрический подход для математического моделирования наборов синонимов (синсетов). Определен такой вычислимый атрибут синсетов, как внутренность синсета (IntS). Введены понятия ранг и центральность слов в синсете, позволяющие определить более значимые, ”центральные” слова в синсете. Для ранга и центральности дана математическая формулировка и предложена процедура их вычисления. Для вычислений использованы нейронные модели (Skip-gram, CBOW), созданные программой Т. Миколова word2vec. На примере синсетов Русского Викисловаря построены IntS по нейронным моделям корпусов проекта RusVectores. Результаты, полученные по двум корпусам (Национальный корпус русского языка и новостной корпус), в значительной степени совпадают. Это говорит о некоторой универсальности предлагаемой математической модели.

Ключевые слова: синоним, синсет, нейронная сеть, корпусная лингвистика, word2vec, RusVectores, gensim, Русский Викисловарь

Keywords: synonym, synset, neural network, corpus linguistics, word2vec, RusVectores, gensim, Russian Wiktionary