Алгоритм выделения ключевых слов на основе графовой модели лингвистического корпуса
Автор: Григорьева Елена Геннадиевна, Клячин Владимир Александрович, Помельников Юрий Вячеславович, Попов Владимир Валентинович
Журнал: Вестник Волгоградского государственного университета. Серия 2: Языкознание @jvolsu-linguistics
Рубрика: Главная тема номера
Статья в выпуске: 2 т.16, 2017 года.
Бесплатный доступ
Одной из задач компьютерной корпусной лингвистики является задача автоматического определения ключевых слов текста. Основные методы решения данной задачи, будучи статистическими, базируются на вычислении различных частотных характеристик текста. При этом чаще других используется модель «мешка слов», которая не учитывает порядок следования слов в тексте. В статье предлагается графовая модель текста, позволяющая вычислять частотные характеристики слов текста не только в рамках модели «мешка слов», но и с учетом расположения пар слов в какой-либо общей части текста, например в одном предложении. Для работы с такой моделью построена программная модель в виде схемы базы данных, предназначенной для хранения различной статистической информации текста. С учетом такой модели данных в статье предложен алгоритм определения ключевых слов текста, реализация которого выполнена на языке программирования Python. При анализе текста из него сначала выделяется приблизительно 40 слов с наибольшей мерой tf-idf, а из них - 20 слов, которые чаще других употребляются в данном тексте. Эти слова рассматриваются как вершины некоторого графа G, причем кратность ребра, соединяющего вершины t и t’, равна числу предложений в тексте d, содержащих оба этих слова. Далее выбираются приблизительно 10 вершин графа наибольшей степени. Слова, соответствующие этим вершинам, и принимаются за ключевые слова данного текста.
Граф, текст, слово, статистическая мера tf-idf, базовая форма слова, разбиение текста
Короткий адрес: https://sciup.org/14970319
IDR: 14970319 | DOI: 10.15688/jvolsu2.2017.2.6
Список литературы Алгоритм выделения ключевых слов на основе графовой модели лингвистического корпуса
- Баканова, Н. Б. Обзор программных средств автоматизированного поиска и анализа ключевых слов документов/Н. Б. Баканова//Проблемы современной науки. -2013. -Вып. 7-3. -С. 40-45.
- Ванюшкин, А. С. Методы и алгоритмы извлечения ключевых слов/А. С. Ванюшкин, Л. А. Гращенко//Новые информационные технологии в автоматизированных системах. -2016. -№ 19. -С. 85-93.
- Jones, K. S. A statistical interpretation of term specificity and its application in retrieval/K. S. Jones//Journal of Documentation. -2004. -Vol. 60, iss. 5. -P. 493-502.