Поиск сходства интернет-документов с помощью синтаксических и лексических методов составления образов документов

Акеньшин Д.А.

Научные статьи \ Общие вопросы науки и культуры \ Информационные технологии. Вычислительная техника. Обработка данных \ Программные средства

Поиск сходства интернет-документов с помощью синтаксических и лексических методов составления образов документов

Автор: Акеньшин Д.А.

Журнал: Экономика и социум @ekonomika-socium

Статья в выпуске: 2-1 (15), 2015 года.

Бесплатный доступ

Цель статьи - проанализировать существующий алгоритм построение сходства документов и кластеров сходных документов для поиска кластеров дубликатов с использованием синтаксических и лексических методов составления образов документов

Короткий адрес: https://sciup.org/140111796

IDR: 140111796

Текст научной статьи Поиск сходства интернет-документов с помощью синтаксических и лексических методов составления образов документов

У огромного числа документов (по некоторым источникам до 30%) в Интернете имеются дубликаты, и поисковые машины должны обладать эффективными средствами вычисления кластеров дубликатов. Происхождение дубликатов может быть разным — от дублирования компаниями собственной информации на разных серверах до злонамеренных — обмана программ индексаторов веб-сайтов, незаконного копирования и спамерских рассылок.

Обычно дубликаты документов определяются на основе отношения сходства на парах документах: два документа сходны, если некоторая числовая мера их сходства превышает некоторый порог. По отношению сходства вычисляются кластеры сходных документов, например, по транзитивному замыканию отношения сходства. Вначале, после снятия HTML-разметки документы, как линейные последовательности слов (символов), преобразуются во множества. В данном алгоритме двумя основными схемами (определяющими весь возможный спектр смешанных методов) являются синтаксические и лексические методы. К синтаксическим относится метод шинглирования (шингл — отдельные части текста, количество слов в его последовательности для проверки его на уникальность), в котором документ в итоге представляется набором хеш-кодов; этот метод испоьзовался в поисковых системах Google и AltaVista. В лексических методах большое внимание уделяется построению словаря — набора дескриптивных слов; известны его разновидности, такие I-match и метод ключевых слов Ильинского.

На втором этапе из документа, представленного множеством синтаксических или лексических признаков, выбирается подмножество признаков, образующее краткое описание (образ) документа. На третьем этапе определяется отношение сходства на документах с помощью некоторой метрики сходства, сопоставляющей двум документам число в интервале [0, 1], и некоторого параметра — порога, выше которого находятся документы-дубликаты.

На основе отношения сходства документы объединяются в кластеры дубликатов или полу-дубликатов. Определение кластера также может варьироваться. Если документам Интернета сопоставить граф, вершины которого соответствуют самим документам, а ребра — отношению «быть (почти) дубликатом», то кластером объявляется компонента связности такого графа. Достоинством такого определения является эффективность вычислений. Недостаток такого подхода очевиден: отношение «быть (почти) дубликатом» не является транзитивным, поэтому в кластер сходных документов могут попасть абсолютно разные документы.

В качестве противоположного — «самого сильного» — определения кластера, опирающимся на отношение «быть (почти) дубликатом», можно принять клики графа. При этом каждый документ из кластера должен быть сходным со всеми другими документами того же кластера. Такое определение кластера более адекватно передает представление о групповом сходстве, но, к сожалению, практически не применимо в масштабе Интернета, поскольку поиск клик в графе — классическая задача.

Исходя из предложенных формулировок, можно было бы находить необходимый баланс между соответствием определения кластеров множествам «в самом деле» сходных документов и сложностью вычисления кластеров. В данной статье сходство рассматривается не как отношение на множестве документов, а как операцию, сопоставляющую двум документам множество общих элементов их сокращенных описаний, где в качестве элементов описания выступают либо синтаксические, либо лексические единицы. Кластер дубликатов определяется как множество документов, у которых число общих элементов описания превышает определенный порог.

В рамках данной статьи исследовалось влияние на результат следующих параметров модели: использование синтаксических или лексических методов представления документов, использование методов «n минимальных элементов в перестановке» и «минимальные элементы в n перестановках», параметры шинглирования, величина порога сходства образов документов. Алгоритма заключается в том, чтобы связать вычисление попарного сходства образов документов с построением кластеров документов, чтобы, с одной стороны, получаемые кластеры были бы независимы от порядка рассмотрения документов (в отличие от методов кластерного анализа), а с другой стороны гарантировали бы наличие реального попарного сходства всех образов документов в кластере.

Описание вычислительной модели

В качестве методов представления документов (создания образа документа) используются стандартные синтаксические и лексические подходы с разными параметрами.

В рамках синтаксического подхода используется схема шинглирования и составление краткого образа документов на основе методов «n минимальных элементов в перестановке» и «минимальные элементы в n перестановках».

Алгоритм с двумя параметрами length и offset порождает для каждого текста набор последовательностей слов (шинглов) длины length, так что отступ от начала одной последовательности до начала другой последовательности в тексте имеет размер offset. Полученное таким образом множество последовательностей хэшируется, так что каждая последовательность получает свой хэш-код.

Далее из множества хэш-кодов, соответствующему документу, выбирается подмножество фиксированного (с помощью параметра) размера с использованием случайных перестановок. При этом вероятность того, что минимальные элементы в перестановках хэш-кодов на множествах шинглов документов A и B (эти множества обозначаются через и соответственно) совпадут, равна мере сходства этих документов :

В данной статье рассматривается формальный контекст , где — множество документов, а — множество хеш-кодов, отношение показывает, что некий объект обладает признаком в том и только том случае, когда . Для множества документов множество их общих признаков служит описанием их сходства, а замкнутое множество является кластером сходных объектов с множеством общих признаков . Для произвольного величина является поддержкой и обозначается .

Множество замкнуто тогда и только тогда, когда для любого имеет место . Именно это свойство используется для определения замкнутости в методах Data Mining. Множество называется -частным, если , то есть множество признаков встречается в более чем объектах, где — параметр.

Вычисление замкнутых множеств признаков или содержаний приобрело важность в Data Minig благодаря тому, что по этим множествам эффективно вычисляются множества всех ассоциативных правил. Фактически, алгоритм вычисляет частные замкнутые множества признаков для контекста, дуального к , то есть находит такие множества документов-признаков контекста , для которых размер множества их общих шинглов превышает заданный порог сходства.

Хотя теоретически размер множества всех замкнутых множеств признаков (содержаний) может быть экспоненциальным относительно числа признаков, на практике таблицы данных сильно “разрежены” (то есть среднее число признаков на один объект весьма мало), и число замкнутых множеств невелико. Для таких случаев существуют весьма эффективные алгоритмы построения всех наиболее частых замкнутых множеств признаков.

Список литературы Поиск сходства интернет-документов с помощью синтаксических и лексических методов составления образов документов

Distributed Version Control Systems: A Not-So-Quick Guide Through . Режим доступа (свободный): http://www.infoq.com/articles/dvcs-guide. -(Дата обращения: 25.03.2015).
Article feedback tool . Режим доступа (свободный): http://en.wikipedia.org/w/index.php?title=Wikipedia%3AArticle_Feedback_Tool&action=historysubmit&diff=457623055&oldid=456548940. -(Дата обращения: 25.03.2015).
C. Hoad, J. Zobel. Methods for identifying versioned and plagiarized documents. -Journal of the American society for information science and technology. Т. 54. С. 203-215, 1 February 2003. Режим доступа (свободный): http://onlinelibrary.wiley.com/doi/10.1002/asi.10170/full. -(Дата обращения: 05.04.2015).
Зеленков Ю.Г, Сегалович И.В. Сравнительный анализ методов определения нечетких дубликатов для Web-документов. Труды девятой всероссийской научной конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции" -2007. Режим доступа (свободный): http://rcdl2007.pereslavl.ru/papers/paper_65_v1.pdf. -(Дата обращения: 05.04.2015)
Сайт проекта MediaWiki . Режим доступа (свободный): http://mediawiki.org. -(Дата обращения: 12.05.2015).

Еще