Алгоритм поиска ключевых терминов веб-страницы
Автор: Светлов Н.н
Журнал: Теория и практика современной науки @modern-j
Рубрика: Математика, информатика и инженерия
Статья в выпуске: 6 (72), 2021 года.
Бесплатный доступ
Предложен алгоритм извлечения основного смыслового контента веб-страницы на основе её ключевых слов(keywords) и описания(description). Приведен пример использования математической модели русскоязычного текста для определения соответствия текста и ключевых слов страницы.
Поиск терминов, веб, автоматическое извлечение терминов, математическая модель текстового документа
Короткий адрес: https://sciup.org/140276223
IDR: 140276223
Текст научной статьи Алгоритм поиска ключевых терминов веб-страницы
В рамках разработки системы адаптации контента веб-сайта для мобильных устройств перед нами встает задача выделения контента из html-разметки страницы для вставки текста в новую, подготовленную html-структуру.
Оптимизация страницы проходит в несколько этапов. Сначала система получает html разметку страницы. Затем из полученной разметки выбираются все текста из определенных тегов, выбираются подключаемые скрипты, стили и изображения. Основная сложность оптимизации - это вычленение из всего объема текстовой информации страницы той, которая содержит основной тезис, ключевые слова и описание страницы.
Данная математическая модель может быть использована для анализа существующих методов выделения ключевых слов из текста, а также для разработки новых методов.
Для выполнения этапа извлечения терминологических кандидатов данные методы не используют словари, онтологии или какие-либо другие семантические ресурсы. Кратко рассмотрим каждый из них [1]. Метод C-value базируется на использовании такой статистической метрики, как частота встречаемости строки в тексте. По сравнению с ней метрика C-value учитывает длину и вложенность терминологического кандидата . Вложенные термины (nested terms) -это понятия, содержащиеся в исходном тексте как по-отдельности, так и в составе других понятий [2]. Метрика, используемая методом C-value, подсчитывается согласно следующей формуле.
С — vchie(c) =
log2|«| • J(a) с — не вложен log2|c|(/(c)— ^ЕьетДСР)) x r(IaJ z c — вложен где c - терминологический кандидат;
|c| - длина c - выраженная в количестве слов;
J (•) - частота встречаемости кандидата;
Та - множество извлеченных кандидатов, содержащих с;
Р(Та) - количество кандидатов в Та ;
2 J(b)- сумма частот встречаемости кандидатов b Е Та , содержащих с. То есть с является вложенным кандидатом по отношению к b;
Из вышеописанной формулы можно сделать вывод, что чем длиннее строка a , тем больше значение ее метрики. Это сделано для учета следующей закономерности. Более длинные строки встречаются в исходном тексте реже коротких. Следовательно, вероятность появления строки b в количестве f упоминаний меньше, чем вероятность появление строки a в количестве f раз, при условии, что |с| < |b|. По этой причине можно сделать вывод, что словосочетание b с большей вероятностью является термином по сравнению с a. Кроме этого, данный метод создан с предположением, заключающемся в том, что чем выше количество Та - строк, содержащих a , тем больше степень независимости a [1].
Для адаптации данного метода к задаче анализа контента вебстраниц необходимо дополнительно проводить этап разбора html-тегов страницы и вырезать элементы с javascript и теги, в которых отсутствует наполнение (пустые).
Зачастую контент страницы заключается в теги
или
На следующем этапе разборе страницы выделяем ключевые слова из метатега