Методы классификации текстов и определения качества контента
Автор: Ермакова Лиана Магдановна
Журнал: Вестник Пермского университета. Серия: Математика. Механика. Информатика @vestnik-psu-mmi
Рубрика: Информатика. Информационные системы
Статья в выпуске: 3 (7), 2011 года.
Бесплатный доступ
Основной задачей поисковой машины является предоставление качественных результатов, т.е. наиболее важных релевантных страниц [2]. Для этого решаются вспомогательные задачи - классификация документов и отсечение поискового спама. Несмотря на то, что разработано достаточно много подходов, ни один из них не является достаточно эффективным. Большинство техник нацелено на обнаружение ошибок генераторов спам-страниц и они не применимы для фильтрации поискового спама, написанного людьми. Поэтому целесообразна разработка универсального метода детектирования низкокачественного контента.
Классификация текстов, ранжирование, контент, поисковый спам, поисковая оптимизация
Короткий адрес: https://sciup.org/14729737
IDR: 14729737
Список литературы Методы классификации текстов и определения качества контента
- Миронов В.В. Современные философские проблемы естественных, технических и соци-ально-гуманитарных наук. Гардарики, 2007.
- Gyöngyi Z. Garcia-Molina H. Web spam taxonomy. 2005.
- Лифшиц Ю. Классификация текстов Алго-ритмы для Интернета. 2005. URL: http://yury.name/internet/
- Sebastiani Fabrizio. Machine learning in automated text categorization Journal ACM Computing Surveys. 2002. Vol. 34, 1.
- Chakrabarti S. Mining the Web: Discovering Knowledge from Hypertext Data. 2003.
- Лицензия на использование поисковой системы Яндекса. Компания Яндекс 1997-2011. URL: http://company.yandex.ru/legal/termsofuse/
- Советы вебмастеру. Компания Яндекс 1997-2011. URL: http://help.yandex.ru/webmaster/id>= 995298#995342.
- Sew S. What Are Doorway Pages? Search Engine Watch 2007. URL: /What-Are-Doorway-Pages' TARGET='_new'>http://searchenginewatch.com/article/2048653>/What-Are-Doorway-Pages.
- Виды поискового спама ANTULA. URL: http://www.antula.ru/rang-search_spam2.htm
- Ntoulas A., Manasse M. Detecting spam web pages through content analysis In Proceedings of the World Wide Web conference. 2006.
- Mishne G., Carmel D. and Lempel R. Blocking blog spam with language model disagreement In Proceedings of the First International Workshop on Adversarial Infor-mation Retrieval on the Web. 2005.
- Urvoy T., Chauveau E., Filoche P. Tracking Web Spam with HTML Style Similarities ACM Transactions on the Web. 2006.
- Павлов А.С., Добров Б.В. Метод опреде-ления массово порождаемых неестествен-ных текстов//Компьютерная лингвистика и интеллектуальные технологии. 2010.
- Kleinberg J. Authoritative Sources in a Hyperlin-ked Environment Journal of the ACM 46. 1999. 5.
- Page L., Brin S., Motwani R., Winograd T. The PageRank citation ranking: Bringing order to the web. Technical report: Stanford University. 1998.
- Шарапов Р.В., Шарапова Е.В. Алгоритм обнаружения ссылочного спама//Компью-терная лингвистика и интеллектуальные технологии: по материалам ежегодной междунар. конф. "Диалог 2009". 2009.