Алгоритм поиска ключевых терминов веб-страницы

Бесплатный доступ

Предложен алгоритм извлечения основного смыслового контента веб-страницы на основе её ключевых слов(keywords) и описания(description). Приведен пример использования математической модели русскоязычного текста для определения соответствия текста и ключевых слов страницы.

Поиск терминов, веб, автоматическое извлечение терминов, математическая модель текстового документа

Короткий адрес: https://sciup.org/140276223

IDR: 140276223

Текст научной статьи Алгоритм поиска ключевых терминов веб-страницы

В рамках разработки системы адаптации контента веб-сайта для мобильных устройств перед нами встает задача выделения контента из html-разметки страницы для вставки текста в новую, подготовленную html-структуру.

Оптимизация страницы проходит в несколько этапов. Сначала система получает html разметку страницы. Затем из полученной разметки выбираются все текста из определенных тегов, выбираются подключаемые скрипты, стили и изображения. Основная сложность оптимизации - это вычленение из всего объема текстовой информации страницы той, которая содержит основной тезис, ключевые слова и описание страницы.

Данная математическая модель может быть использована для анализа существующих методов выделения ключевых слов из текста, а также для разработки новых методов.

Для выполнения этапа извлечения терминологических кандидатов данные методы не используют словари, онтологии или какие-либо другие семантические ресурсы. Кратко рассмотрим каждый из них [1]. Метод C-value базируется на использовании такой статистической метрики, как частота встречаемости строки в тексте. По сравнению с ней метрика C-value учитывает длину и вложенность терминологического кандидата . Вложенные термины (nested terms) -это понятия, содержащиеся в исходном тексте как по-отдельности, так и в составе других понятий [2]. Метрика, используемая методом C-value, подсчитывается согласно следующей формуле.

С vchie(c) =

log2|«| • J(a) с — не вложен log2|c|(/(c)— ^ЕьетДСР)) x           r(IaJ               z c — вложен где c - терминологический кандидат;

|c| - длина c - выраженная в количестве слов;

J (•) - частота встречаемости кандидата;

Та - множество извлеченных кандидатов, содержащих с;

Р(Та) - количество кандидатов в Та ;

2 J(b)- сумма частот встречаемости кандидатов b Е Та , содержащих с. То есть с является вложенным кандидатом по отношению к b;

Из вышеописанной формулы можно сделать вывод, что чем длиннее строка a , тем больше значение ее метрики. Это сделано для учета следующей закономерности. Более длинные строки встречаются в исходном тексте реже коротких. Следовательно, вероятность появления строки b в количестве f упоминаний меньше, чем вероятность появление строки a в количестве f раз, при условии, что |с| < |b|. По этой причине можно сделать вывод, что словосочетание b с большей вероятностью является термином по сравнению с a. Кроме этого, данный метод создан с предположением, заключающемся в том, что чем выше количество Та - строк, содержащих a , тем больше степень независимости a [1].

Для адаптации данного метода к задаче анализа контента вебстраниц необходимо дополнительно проводить этап разбора html-тегов страницы и вырезать элементы с javascript и теги, в которых отсутствует наполнение (пустые).

Зачастую контент страницы заключается в теги

или

. Следую этому правилу на втором этапе необходимо извлечь весь текст из этих тегов. В результате мы получаем несколько разных по длине абзацев.

На следующем этапе разборе страницы выделяем ключевые слова из метатега [3]. Производим выделение основных терминов из массива текстов, полученных на предыдущем этапе. Предварительно сделав выборку из первых 60% текстов с наибольшим количеством слов. По полученным массивам с ключевыми словами сравниваем их с ключевыми словами страницы и отбираем текст с наибольшими совпадениями

Статья научная