Метод шинглов
Автор: Цимбалов Алексей Владимирович, Золотарев Олег Васильевич
Рубрика: Информатика и вычислительная техника
Статья в выпуске: 4, 2016 года.
Бесплатный доступ
В данной статье рассматриваются методы по определению дублирования документов с целью недопущения их включения в коллекции; анализируются подходы для поиска нечетких дубликатов на основе метода шинглов с целью определения спама в электронной почте, поиска плагиата, очистки коллекций документов от дубликатов. В данной работе представлен разбор методики реализации и выбора параметров алгоритма шинглов, выработаны критерии для выбора функции контрольных сумм (сигнатур), разработана программа для определения дубликатов, предложены критерии выбора параметров оптимизации алгоритма шинглов с применением minhash и алгоритма супершинглов.
Шинглы, супершинглы, нечеткие дубликаты, подобие текстов, алгоритм шинглов
Короткий адрес: https://sciup.org/148160285
IDR: 148160285
Список литературы Метод шинглов
- Broder, A. Some applications of Rabin's fingerprinting method//R. Capocelli, A. De Santis, and U. Vaccaro, editors, Sequences II: Methods in Communications, Security, and Computer Science. -Springer-Verlag, 1993.
- Fetterly, Dennis, Manasse, Mark, Najork, Marc, and Wiener, Janet. A Large-Scale Study of the Evolution of Web Pages. Software//Practice & Experience, Wiley, 2004. -February.
- Зеленков Ю.Г., Сегалович И.В. Сравнительный анализ методов определения нечетких дубликатов для WEB-документов//Труды 9-й Всероссийской научной конференции RCDL'2007. -Переславль-Залесский, 2007.
- Broder, A. On the resemblance and containment of documents//SEQS: Sequences '91, 1998.
- Rabin, M. Fingerprinting by random polynomials. Report TR-15-81, Center for Research in Computing Technology. -Harvard University, 1981.
- Фофанов О.Б. Алгоритмы и cтруктуры данных. -Томск: Национальный исследовательский Томский политехнический университет, 2014.
- https://ru.wikipedia.org/wiki/SSE4
- Broder, A., Glassman, S., Manasse, M., Zweig, G. Syntactic Clustering of the Web//Comput. Netw. ISDN Syst. -1997. -Vol. 29. -Pp. 1157-1166.
- Цимбалов А. Код реализации алгорима шинглов. -https://github.com/luckybeggar/text_search_cmp
- Chum, Ondrej, Philbin, James, Zisserman, Andrew. Near Duplicate Image Detection: minhash and tf-idf Weighting. -British Mashine Vision Conference, 2008.
- Mihir Bellare, Tadayoshi Kohno. Hash Function Balance and its Impact on Birthday Attacks//EUROCRYPT '04, Lecture Notes in Computer Science. -Vol. 3027/C. Cachin and J. Camenisch eds. -Springer-Verlag, 2004.
- Серов С.С., Андреев А.Е., Кравченя П.Д., Гущин Р.И., Чеботарев П.П. Сокращение времени оценки схожести текстовых документов на неоднородной многопроцессорной вычислительной системе//Инженерный вестник Дона. Волгоградский государственный технический университет. -2015. -№ 2. -Ч. 2.