Алгоритм поиска ключевых терминов веб-страницы

Бесплатный доступ

Предложен алгоритм извлечения основного смыслового контента веб-страницы на основе её ключевых слов(keywords) и описания(description). Приведен пример использования математической модели русскоязычного текста для определения соответствия текста и ключевых слов страницы.

Поиск терминов, веб, автоматическое извлечение терминов, математическая модель текстового документа

Короткий адрес: https://sciup.org/140276223

IDR: 140276223   |   УДК: 004.912

Search algorithm for web-page keywords

An algorithm for extracting the main semantic content of a web page based on its keywords and description is proposed. Shows an example of using mathematic model for Russian texts to determine the correspondence between the text and the keywords of the given page .

Текст научной статьи Алгоритм поиска ключевых терминов веб-страницы

В рамках разработки системы адаптации контента веб-сайта для мобильных устройств перед нами встает задача выделения контента из html-разметки страницы для вставки текста в новую, подготовленную html-структуру.

Оптимизация страницы проходит в несколько этапов. Сначала система получает html разметку страницы. Затем из полученной разметки выбираются все текста из определенных тегов, выбираются подключаемые скрипты, стили и изображения. Основная сложность оптимизации - это вычленение из всего объема текстовой информации страницы той, которая содержит основной тезис, ключевые слова и описание страницы.

Данная математическая модель может быть использована для анализа существующих методов выделения ключевых слов из текста, а также для разработки новых методов.

Для выполнения этапа извлечения терминологических кандидатов данные методы не используют словари, онтологии или какие-либо другие семантические ресурсы. Кратко рассмотрим каждый из них [1]. Метод C-value базируется на использовании такой статистической метрики, как частота встречаемости строки в тексте. По сравнению с ней метрика C-value учитывает длину и вложенность терминологического кандидата . Вложенные термины (nested terms) -это понятия, содержащиеся в исходном тексте как по-отдельности, так и в составе других понятий [2]. Метрика, используемая методом C-value, подсчитывается согласно следующей формуле.

С vchie(c) =

log2|«| • J(a) с — не вложен log2|c|(/(c)— ^ЕьетДСР)) x           r(IaJ               z c — вложен где c - терминологический кандидат;

|c| - длина c - выраженная в количестве слов;

J (•) - частота встречаемости кандидата;

Та - множество извлеченных кандидатов, содержащих с;

Р(Та) - количество кандидатов в Та ;

2 J(b)- сумма частот встречаемости кандидатов b Е Та , содержащих с. То есть с является вложенным кандидатом по отношению к b;

Из вышеописанной формулы можно сделать вывод, что чем длиннее строка a , тем больше значение ее метрики. Это сделано для учета следующей закономерности. Более длинные строки встречаются в исходном тексте реже коротких. Следовательно, вероятность появления строки b в количестве f упоминаний меньше, чем вероятность появление строки a в количестве f раз, при условии, что |с| < |b|. По этой причине можно сделать вывод, что словосочетание b с большей вероятностью является термином по сравнению с a. Кроме этого, данный метод создан с предположением, заключающемся в том, что чем выше количество Та - строк, содержащих a , тем больше степень независимости a [1].

Для адаптации данного метода к задаче анализа контента вебстраниц необходимо дополнительно проводить этап разбора html-тегов страницы и вырезать элементы с javascript и теги, в которых отсутствует наполнение (пустые).

Зачастую контент страницы заключается в теги

или

. Следую этому правилу на втором этапе необходимо извлечь весь текст из этих тегов. В результате мы получаем несколько разных по длине абзацев.

На следующем этапе разборе страницы выделяем ключевые слова из метатега [3]. Производим выделение основных терминов из массива текстов, полученных на предыдущем этапе. Предварительно сделав выборку из первых 60% текстов с наибольшим количеством слов. По полученным массивам с ключевыми словами сравниваем их с ключевыми словами страницы и отбираем текст с наибольшими совпадениями