Методы классификации текстов и определения качества контента

Бесплатный доступ

Основной задачей поисковой машины является предоставление качественных результатов, т.е. наиболее важных релевантных страниц [2]. Для этого решаются вспомогательные задачи - классификация документов и отсечение поискового спама. Несмотря на то, что разработано достаточно много подходов, ни один из них не является достаточно эффективным. Большинство техник нацелено на обнаружение ошибок генераторов спам-страниц и они не применимы для фильтрации поискового спама, написанного людьми. Поэтому целесообразна разработка универсального метода детектирования низкокачественного контента.

Классификация текстов, ранжирование, контент, поисковый спам, поисковая оптимизация

Короткий адрес: https://sciup.org/14729737

IDR: 14729737

Список литературы Методы классификации текстов и определения качества контента

  • Миронов В.В. Современные философские проблемы естественных, технических и соци-ально-гуманитарных наук. Гардарики, 2007.
  • Gyöngyi Z. Garcia-Molina H. Web spam taxonomy. 2005.
  • Лифшиц Ю. Классификация текстов Алго-ритмы для Интернета. 2005. URL: http://yury.name/internet/
  • Sebastiani Fabrizio. Machine learning in automated text categorization Journal ACM Computing Surveys. 2002. Vol. 34, 1.
  • Chakrabarti S. Mining the Web: Discovering Knowledge from Hypertext Data. 2003.
  • Лицензия на использование поисковой системы Яндекса. Компания Яндекс 1997-2011. URL: http://company.yandex.ru/legal/termsofuse/
  • Советы вебмастеру. Компания Яндекс 1997-2011. URL: http://help.yandex.ru/webmaster/id>= 995298#995342.
  • Sew S. What Are Doorway Pages? Search Engine Watch 2007. URL: /What-Are-Doorway-Pages' TARGET='_new'>http://searchenginewatch.com/article/2048653>/What-Are-Doorway-Pages.
  • Виды поискового спама ANTULA. URL: http://www.antula.ru/rang-search_spam2.htm
  • Ntoulas A., Manasse M. Detecting spam web pages through content analysis In Proceedings of the World Wide Web conference. 2006.
  • Mishne G., Carmel D. and Lempel R. Blocking blog spam with language model disagreement In Proceedings of the First International Workshop on Adversarial Infor-mation Retrieval on the Web. 2005.
  • Urvoy T., Chauveau E., Filoche P. Tracking Web Spam with HTML Style Similarities ACM Transactions on the Web. 2006.
  • Павлов А.С., Добров Б.В. Метод опреде-ления массово порождаемых неестествен-ных текстов//Компьютерная лингвистика и интеллектуальные технологии. 2010.
  • Kleinberg J. Authoritative Sources in a Hyperlin-ked Environment Journal of the ACM 46. 1999. 5.
  • Page L., Brin S., Motwani R., Winograd T. The PageRank citation ranking: Bringing order to the web. Technical report: Stanford University. 1998.
  • Шарапов Р.В., Шарапова Е.В. Алгоритм обнаружения ссылочного спама//Компью-терная лингвистика и интеллектуальные технологии: по материалам ежегодной междунар. конф. "Диалог 2009". 2009.
Еще
Статья научная