Оценка качества веб-страницы с точки зрения поискового запроса
Автор: Акеньшин Д.А.
Журнал: Экономика и социум @ekonomika-socium
Статья в выпуске: 1-2 (14), 2015 года.
Бесплатный доступ
Цель статьи - проанализировать структуру, позволяющую оценить качество веб-страницы с точки зреня поискового запроса и определить способы её адаптации на конкретном примере.
Короткий адрес: https://sciup.org/140110755
IDR: 140110755
Текст научной статьи Оценка качества веб-страницы с точки зрения поискового запроса
Качество страницы представляет собой широкое понятие, а использование конкретного алгоритма определения качества страница зависит от выбранного контекста. В настоящей статье не рассматривается подробно какой-либо отдельный алгоритм, а описывается структура, позволяющая оценить качество страницы и определить способы ее адаптации к конкретной ситуации.
На данный момент качество страницы является весомым фактором для:
-
1. Поисковых систем. Поисковые системы оценивают страницу с точки зрения поискового запроса и определяют, является ли данная страница релевантной поисковому запросу пользователя. Кроме того, используя показатель оценки качества, можно определить, является ли одна страница лучше другой страницы в качественном выражении.
-
2. Определения целевой направленности рекламы. При показе какой-либо рекламы пользователю, рекламная сеть способна оценить саму рекламу и соответствующую целевую страницу, на основании выданного пользователем запроса, и определить, действительно ли такая реклама соответствует поиску, проводимому пользователем.
-
3. Идентификации. Страницу можно оценить даже при отсутствии запроса, чтобы определить ее качество и тем самым решить, стоит ли рекомендовать такую страницу конечному пользователю.
Первая группа рассматриваемых алгоритмов рассчитывает показатель оценки качества документа, как функцию конкретного запроса, выданного пользователем.
Оценка информационного поиска. Сообщество разработчиков систем информационного поиска изучает вопрос, какой из алгоритмов вычисления наилучшую оценку страницы в соответствии с запросом более эффективен. Оценка информационного поиска является наиболее важная оценка, которую можно применить при определении качества страницы.
Приведенный ниже алгоритм был реализован различными поисковыми системами общего доступа, например, системой Lucene. В случае запроса Q
= {q1, q2, q3}, содержащего три слова и страницу Р, для вычисления балльной оценки страницы используются следующие шаги:
-
1. Использование относительного веса каждого раздела страницы. Стандартную веб-страницу можно разделить разбить на следующие элементы: название, заголовки (H1, H2, H3..,), основной текст, жирный текст, крупный текст, мелкий текст (в зависимости от размера шрифта), текст в нижней части страницы, ссылки, шаблоны, текст на страницах с указателями, текст на ранее открытых пользователем страницах, текст на изображениях на странице, текст адресов сайтов и т.д. В зависимости от цели, которую преследует веб-сайт, различным элементам страницы можно задать различный вес. Для начала следует понять, каким образом пользователь может обнаружить страницу и составить свое первое впечатление. В случае поиска, пользователь найдет такую станицу, прочитав название и сниппет — текстовое описание страницы в поисковой системе.
-
2. Создание характеристики на основе запроса. Запрос разбивается на n-граммы (биграмма представляет собой фразу длиной в два слова). Затем каждой из таких n-грамм присваивается вес. Например, рассмотрим запрос «canon digital camera» (цифровой фотоаппарат «Canon»). В данном запросе слово «canon» является важной униграммой, поскольку оно относится к бренду. «Canon digital» (цифровой «Canon») – плохое словосочетание, так как не несёт в себе смысла, а «digital camera» (цифровой фотоаппарат) – хорошее. Для определения веса применяют численный показатель TF-IDF.
-
3. Качество документа для вычисления оценки TF-IDF. Документ, состоящий из контента всех страниц на сайте, подойдет для любого запроса. В то же время документ, который является идентичным запросу, бесполезен, поскольку пользователь не получит новой информации, попав на такую страницу.
-
4. Способом оценки документа может быть представлен следующим видом:
Страница P состоит из полей d i весом w i , а запрос Q состоит из слов q k . Длина страницы – L, количество словосочетаний в запросе – N q , где f – функция элемента нормализации, основанная на длине документа.
Далее приведен пример оценку информационного поиска для словосочетания "Canon digital camera" для двух разных страниц.

Рис.1. Примеры страниц для оценки эффективности
Обе страницы представляют цифровой фотоаппарат «Canon», но у одной из них намного более высокая оценка в информационном поиске.
Слово / Фраза |
Title |
H1 |
Body |
Bold |
Weight |
Canon |
1 |
1 |
4 |
0 |
1 |
Digital |
1 |
1 |
2 |
0 |
1 |
Camera |
1 |
1 |
7 |
0 |
1 |
Canon digital |
1 |
1 |
0 |
0 |
2 |
Digital camera |
1 |
1 |
2 |
0 |
2 |
Canon digital camera |
1 |
1 |
0 |
0 |
3 |
Таблица 1. Вычисление весов для запроса «Canon digital camera»
Оценка полезности. Представляет собой оценку, основанную на взаимодействии посетителей со страницей, и отражает, насколько часто посетители находят данную страницу полезной для своего запроса.
Для большинства веб-сайтов существуют способы определения эффективности или конверсии. В случае сайтов электронной торговли конверсия определяется как процент покупки продукта или услуги к количеству посетителей. Для сайтов привлечения потенциальных клиентов конверсия определяется как процент заполнение формы к количеству посетителей. Для медийных сайтов это может быть взаимодействие с каким-либо медийным контентом, например, запуск видео или количество просмотров страницы. Для какого-либо запроса можно вычислить коэффициент конверсии и применить его непосредственно в качестве балльной оценки поведения.
Проблема в этом случае заключается в немногочисленности таких данных. На сайте электронной торговли коэффициент конверсии может составлять всего лишь 0,5%. Это означает, что в среднем, на каждые 200 просмотров по данному запросу, отмечается одно целевое действие (покупка товара, просмотр видео и т.д.). Низкочастотные запросы по определению имеют низкую частоту, что делает такое вычисление невозможным. Данную проблему можно решить несколькими способами:
-
1. Обобщение уровня запроса. Вычисляется оценка качества не конкретного, а абстрактного запроса. Например, запрос [canon digital camera] можно абстрагировать следующим образом:
-
• До запроса из трех слов.
-
• До запроса с наименованием бренда.
-
• До запроса, включающего все слова в названии страницы.
-
2. Далее можно было сказать, каков коэффициент конверсии всех запросов, имеющих длину в три слова, и включающих все слова названия, а также наименование бренда в качестве одного из слов в запросе. Мы видим, что такое обобщение может быть очень широким, либо очень узким. В зависимости от объема имеющихся данных можно выбрать соответствующий уровень обобщения.
-
3. Альтернативы конверсии, такие как показатель «ненужных просмотров». В то время как коэффициент конверсии может составлять всего лишь 0,5% и менее, показатели «ненужных просмотров» обычно находятся в пределах 20–80%. Это означает, что для оценки качества страницы требуется гораздо меньшее количество ее посещений. Однако показатель «ненужных просмотров» не всегда в достаточной степени соответствует коэффициенту конверсии.
Существует вторая группа оценок для страницы, которые вычисляются независимо от запроса.
Поведенческая оценка эффективности страницы. Существенным показателем качества страницы является то, как ее воспринимают пользователи. Такую характеристику можно измерить с помощью анализа поведения пользователей. Традиционно используются следующие факторы:
-
1. Балльная оценка конверсии – вычисляется коэффициент конверсии страницы независимо от запросов, приведших к данной странице.
-
2. Показатель «ненужных просмотров» – вычисляется показатель «ненужных просмотров» страницы независимо от запросов, приведших к данной странице.
-
3. Количество просмотров страниц – количество страниц, просматриваемых при посещении сайта, после которых просматривается данная страница
-
4. Количество повторных посещений данной страницы – количество посетителей, которые постоянно возвращаются на данную страницу.
-
5. Количество пользователей, которые добавляют какой-либо продукт в свою корзину после посещения данной страницы.
-
6. Среднее количество времени, проводимое пользователем на данной странице.
Сигналы, характеризующие поведение, нельзя анализировать изолированно. Они должны анализироваться относительно других сходных страниц. Например, на сайте электронной торговли пользователь может сравнить поведение страницы, предлагающей какой-либо продукт, с другими аналогичными страницами.
Способом вычисления балльной оценки является:
где fi – значение характеристики (показатель «ненужных просмотров» и т.п.), mfi – среднее значение характеристики fi на всех однотипных страницах, w i является весовым индексом, придаваемым различным характеристикам.
Конверсии можно придать весовой индекс 0,8, а показателю «ненужных просмотров», который является весьма зашумленной характеристикой, – только 0,1. Более сложный способ заключается в определении количества пользователей, которые покидают сайт и выбирают другой результат поиска по тому же поисковому запросу.
Репутация страницы. Ранжирование страницы является отличным способом при определении популярности страницы по сравнению с другими страницами сайта. Другие факторы репутации включают показатель удаленности данной страницы от исходной страницы – количество переходов, необходимых, чтобы попасть на данную страницу при перемещении с исходной страницы.
Качество языка на странице. Можно построить языковую модель для контента, который понравился посетителям сайта, и оценить страницу с точки зрения такой языковой модели.
После вычисления всех оценок их следует объединить.
Например, оценки могут включать:
-
• IR (оценка информационного поиска).
-
• B (поведенческая оценка).
-
• R (оценка репутации, или ранжирование страницы).
-
• LM (оценка языковой модели).
Простым способом объединения таких оценок является:

Весовые показатели можно регулировать, чтобы отразить, какой вес желательно придать каждой характеристике. Для новой страницы данные о поведении будут минимальны, и ей нужно придать небольшой вес. Однако, если страница существует давно, ее вес должен быть гораздо большим.
Вышеизсложенное представляет собой перспективу для вычисления оценки эффективности страницы с точки зрения поискового запроса, что позволит реализовать математическую модель эффективности стилистических решений веб-дайзана.
Список литературы Оценка качества веб-страницы с точки зрения поискового запроса
- Самарский А. А., Михайлов А. П. Математическое моделирование. Идеи. Методы. Примеры. -2-е изд., испр. -М.: Физматлит, 2001. -ISBN 5-9221-0120-X.
- Мышкис А. Д. Элементы теории математических моделей. -3-е изд., испр. -М.: КомКнига, 2007. -192 с. -ISBN 978-5-484-00953-4.
- Краснощёков П. С., Петров А. А. Принципы построения моделей. -издание второе, пересмотренное и дополненное. -М.: ФАЗИС; ВЦ РАН, 2000. -xii + 412 с. -(Математическое моделирование; Вып.1). -ISBN 5-7036-0061-8.
- Агеев М. Н. Извлечение значимой информации из web-страниц для задач информационного поиска/М. Агеев, И. Вершинников, Б. Добров//Материалы конференции Интернет-Математика 2005. -М.: Яндекс, 2005. -С. 283-301.
- Gupta S. Context-based content extraction of html documents: Ph. D. thesis. -New York, NY, USA: Columbia University, 2006.
- Lin D. An information-theoretic definition of similarity//ICML '98: Proceedings of the Fifteenth International Conference on Machine Learning.
- Zamir O. E. A Phrase-Based Method for Grouping Search Engine Results: PhD Thesis, University of Washington, Department of Science & Engineering. Washington, USA: Unviersity of Washington, 1999.