Векторная модель представления знаний на основе семантической близости термов

Бесплатный доступ

Большинство методов интеллектуального анализа текстов используют векторную модель представления знаний. Векторная модель использует частоту (вес) терма, чтобы определить его важность в документе. Термы могут быть схожи семантически, но отличаться лексикографически, что,в свою очередь, приведет к тому, что классификация, основанная на частоте термов, не даст нужного результата. Причиной ошибок является отсутствие учета таких особенностей естественного языка, как синонимия и полисемия. Неучет этих особенностей, а именно синонимии и полисемии, увеличивает размерность семантического пространства, от которой зависит быстродействие конечного программного продукта, разработанного на основе алгоритма. Кроме того, результаты работы многих алгоритмов сложно воспринимаются экспертом предметной области, который подготавливает обучающую выборку, что, в свою очередь, также сказывается на качестве выдачи алгоритма. В работе предлагается модель, которая помимо веса терма в документе, так же использует «семантический вес терма». «Семантический вес термов» тем выше, чем они семантически ближе друг к другу. Для вычисления семантической близости термов будем использовать адаптацию расширенного алгоритма Леска. Метод расчета семантической близости состоит в том, что для каждого значения рассматриваемого слова подсчитывается число слов упомянутых как в словарном определении данного значения (предполагается, что словарное определение содержит описание нескольких значений слова),так и в ближайшем контексте рассматриваемого слова. В качестве наиболее вероятного значения слова выбирается то, для которого такое пересечение оказалось больше. Векторная модель с учетом семантической близости термов решает проблему неоднозначности синонимов.

Еще

Интеллектуальный анализ текстов, векторная модель, семантическая близость

Короткий адрес: https://sciup.org/147160627

IDR: 147160627   |   УДК: 004.822   |   DOI: 10.14529/cmse170305

Vector space model of knowledge representation based on semantic relatedness

Most of text mining algorithms uses vector space model of knowledge representation. Vector space model uses the frequency (weight) of term to determine its importance in the document. Terms can be semantically similarbut different lexicographically, which in turn will lead to the fact that the classification is based on the frequencyof the terms does not give the desired result. Analysis of a low-quality results shows that errors occur due to the characteristics of natural language, which were not taken into account. Neglect of these features, namely, synonymy and polysemy, increases the dimension ofsemantic space, which determines the performance of the final software product developed based on the algorithm.Furthermore, the results of many complex algorithms perceived domain expert to prepare training sample, whichin turn also affects quality issue algorithm. We propose a model that in addition to the weight of a term in a document also uses semantic weight of the term. Semantic weight terms, the higher they are semantically closer to each other. To calculate the semantic similarity of terms we propose to use a adaptation of the extended Lesk algorithm. The method of calculating semantic similarity lies in the fact that for each value of the word in question is countedas the number of words referred to the dictionary definition of this value (assuming that the dictionary definitiondescribes several meanings of the word), and in the immediate context of the word in question. As the mostprobable meaning of the word is selected such that this intersection was more. Vector model based on semanticproximity of terms solves the problem of the ambiguity of synonyms.

Еще

Список литературы Векторная модель представления знаний на основе семантической близости термов

  • Budanitsky A., Hirst G. Evaluating WordNet-based Measures of Lexical Semantic Relatedness//Computational Linguistics. 2006. Vol. 32. P. 13-47
  • Hotho A., Staab S., Stumme G. WordNet Improve Text Document Clustering//SIGIR2003 Semantic Web Workshop (Toronto, Canada, July 28 -August 1, 2003). P. 541-544 DOI: 10.1145/959258.959263
  • Sedding J., Dimitar K. WordNet-based Text Document Clustering//COLING 2004, 3rdWorkshop on Robust Methods in Analysis of Natural Language Data (Geneva, Switzerland, August 23 -27, 2004). P. 104-113 DOI: 10.3115/1220355.1220356
  • Lesk M. Automatic Sense Disambiguation Using Machine Readable Dictionaries: How toTell a Pine Cone from an Ice Cream Cone//SIGDOC’86. Proceedings of the 5th Annual International Conference on Systems Documentation (Toronto, Canada, June 8 -11, 1986). P. 24-26 DOI: 10.1145/318723.318728
  • Loupy C., El-Beze M., Marteau P.F. Word Sense Disambiguation Using HMM Tagger//Proceedings of the 1st International Conference on Language Resources and Evaluation, LREC (Toronto, Canada, June 8 -11, 1998). P. 1255-1258 DOI: 10.3115/974235.974260
  • Jeh G., Widom J. SimRank: a Measure of Structural-Context Similarity//Proceedingsof the 8th Association for Computing Machinery’s Special Interest Group on Knowledge Discovery and Data Mining international conference on Knowledge discovery and data mining (Edmonton, Canada, Jule 23 -25, 2002). P. 271-279 DOI: 10.1145/775047.775049
  • Kechedzhy K.E., Usatenko O., Yampolskii V.A. Rank Distributions of Words in AdditiveMany-step Markov Chains and the Zipf law//Physical Reviews E: Statistical, Nonlinear, Biological, and Soft Matter Physics. 2005. Vol. 72. P. 381-386.
  • Mihalcea R. Using Wikipedia for Automatic Word Sense Disambiguation//Proceedingsof Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (New York, USA, April 22 -27, 2007). P. 196-203 DOI: 10.3115/1599081.1599184
  • Willett P. The Porter Stemming Algorithm: Then and Now//Program: Electronic Libraryand Information Systems. 2006. Vol. 4, No. 3. P. 219-223.
  • Бондарчук Д.В. Выбор оптимального метода интеллектуального анализа данных для подбора вакансий//Информационные технологии моделирования и управления. 2013. № 6(84). C. 504-513.
  • Salton G. Improving Retrieval Performance by Relevance Feedback//Readings inInformation Retrieval. 1997. Vol. 24. P. 1-5.
  • Tan P. N., Steinbach M., Kumar V. Top 10 Algorithms in Data Mining//Knowledge and Information Systems. 2008. Vol. 14, No. 1. P. 1-37 DOI: 10.1007/s10115-007-0114-2
  • Banerjee S., Pedersen T. An Adapted Lesk Algorithm for Word Sense Disambiguation UsingWordNet//Lecture Notes In Computer Science (Canberra, Australia, February 11 -22, 2002). Vol. 2276. P. 136-145. 22 DOI: 10.1007/3-540-46035-7
  • Тезаурус WordNET. URL: https://wordnet.princeton.edu/(дата обращения: 05.02.2017).
  • Бондарчук Д.В. Интеллектуальный метод подбора персональных рекомендаций, гарантирующий получение непустого результата//Информационные технологии моделирования и управления. 2015. № 2(92). С. 130-138.
Еще