loading page

Модель геометрической структуры синсета
  • Alexander Kirillov,
  • Andrew Krizhanovsky
Alexander Kirillov
Institute of Applied Mathematical Research of the Karelian Research Centre of the Russian Academy of Sciences

Corresponding Author:[email protected]

Author Profile
Andrew Krizhanovsky
Institute of Applied Mathematical Research of the Karelian Research Centre of the Russian Academy of Sciences
Author Profile

Abstract

Аннотация

В статье поставлен вопрос формализации понятия синонимии. На основе векторного представления слов в работе предлагается геометрический подход для математического моделирования наборов синонимов (синсетов). Определен такой вычислимый атрибут синсетов, как внутренность синсета (IntS). Введены понятия ранг и центральность слов в синсете, позволяющие определить более значимые, ”центральные” слова в синсете. Для ранга и центральности дана математическая формулировка и предложена процедура их вычисления. Для вычислений использованы нейронные модели (Skip-gram, CBOW), созданные программой Т. Миколова word2vec. На примере синсетов Русского Викисловаря построены IntS по нейронным моделям корпусов проекта RusVectores. Результаты, полученные по двум корпусам (Национальный корпус русского языка и новостной корпус), в значительной степени совпадают. Это говорит о некоторой универсальности предлагаемой математической модели.

Ключевые слова: синоним, синсет, нейронная сеть, корпусная лингвистика, word2vec, RusVectores, gensim, Русский Викисловарь

Keywords: synonym, synset, neural network, corpus linguistics, word2vec, RusVectores, gensim, Russian Wiktionary