Алгоритм выделения ключевых слов на основе графовой модели лингвистического корпуса

Григорьева Елена Геннадиевна; Клячин Владимир Александрович; Помельников Юрий Вячеславович; Попов Владимир Валентинович; Grigoryeva Elena G.; Klyachin Vladimir A.; Pomelnikov Yuriy V.; Popov Vladimir V.

doi:10.15688/jvolsu2.2017.2.6

Научные статьи \ Язык. Языкознание. Лингвистика. Литература \ Языкознание и языки. Лингвистика \ Специальные определители предметных областей и аспектов лингвистических исследований \ Языковая система: математическая и прикладная лингвистика, фонетика, графемика, грамматика, семантика, стилистика \ Прикладная лингвистика

Алгоритм выделения ключевых слов на основе графовой модели лингвистического корпуса

Автор: Григорьева Елена Геннадиевна, Клячин Владимир Александрович, Помельников Юрий Вячеславович, Попов Владимир Валентинович

Журнал: Вестник Волгоградского государственного университета. Серия 2: Языкознание @jvolsu-linguistics

Рубрика: Главная тема номера

Статья в выпуске: 2 т.16, 2017 года.

Бесплатный доступ

Одной из задач компьютерной корпусной лингвистики является задача автоматического определения ключевых слов текста. Основные методы решения данной задачи, будучи статистическими, базируются на вычислении различных частотных характеристик текста. При этом чаще других используется модель «мешка слов», которая не учитывает порядок следования слов в тексте. В статье предлагается графовая модель текста, позволяющая вычислять частотные характеристики слов текста не только в рамках модели «мешка слов», но и с учетом расположения пар слов в какой-либо общей части текста, например в одном предложении. Для работы с такой моделью построена программная модель в виде схемы базы данных, предназначенной для хранения различной статистической информации текста. С учетом такой модели данных в статье предложен алгоритм определения ключевых слов текста, реализация которого выполнена на языке программирования Python. При анализе текста из него сначала выделяется приблизительно 40 слов с наибольшей мерой tf-idf, а из них - 20 слов, которые чаще других употребляются в данном тексте. Эти слова рассматриваются как вершины некоторого графа G, причем кратность ребра, соединяющего вершины t и t’, равна числу предложений в тексте d, содержащих оба этих слова. Далее выбираются приблизительно 10 вершин графа наибольшей степени. Слова, соответствующие этим вершинам, и принимаются за ключевые слова данного текста.

Граф, текст, слово, статистическая мера tf-idf, базовая форма слова, разбиение текста

Короткий адрес: https://sciup.org/14970319

IDR: 14970319 | УДК: 81’33 | DOI: 10.15688/jvolsu2.2017.2.6

Algorithm of key words search based on graph model of linguistic corpus

One of the problems of computer corpus linguistics is an automatic determination of keywords inthe text. The solution is a statistical method based on calculation of various frequency characteristics of the text. In this case, the most commonly used model is a “bag of words”, which does not take into account the order of words in the text. In this paper, we propose a graph model of the text that allows us to calculate the frequency characteristics of words in the text not only within the framework of the “word bag” model, but with respect to location of pairs of owls in some common part of the text, for example, in one sentence. To work with such a model, a software model is constructed in the form of a database schema intended for storing various statistical text information. Taking into account such a data model, the article proposes an algorithm for determining the keywords of the text, the implementation of which is performed in the Python programming language. When analyzing a document d of linguistics corpus D, our algorithm creates a list of about 40 words with the largest measure tf-idf, and choise from them 20 words, which are more often used in the document d. We regard these words as vertices of some graph G, and the multiplicity of the edge, connecting the vertices t and t’ is equal to the number of sentences in document d, containing both these words. Approximately 10 vertices of the graph with the greatest degree are selected. The words corresponding to these vertices are taken for key words of document d.

Список литературы Алгоритм выделения ключевых слов на основе графовой модели лингвистического корпуса

Баканова, Н. Б. Обзор программных средств автоматизированного поиска и анализа ключевых слов документов/Н. Б. Баканова//Проблемы современной науки. -2013. -Вып. 7-3. -С. 40-45.
Ванюшкин, А. С. Методы и алгоритмы извлечения ключевых слов/А. С. Ванюшкин, Л. А. Гращенко//Новые информационные технологии в автоматизированных системах. -2016. -№ 19. -С. 85-93.
Jones, K. S. A statistical interpretation of term specificity and its application in retrieval/K. S. Jones//Journal of Documentation. -2004. -Vol. 60, iss. 5. -P. 493-502.