Методы и модели автоматического извлечения ключевых слов

Автор: Шереметьева Светлана Олеговна, Осминин Павел Григорьевич

Журнал: Вестник Южно-Уральского государственного университета. Серия: Лингвистика @vestnik-susu-linguistics

Рубрика: Прикладная лингвистика

Статья в выпуске: 1 т.12, 2015 года.

Бесплатный доступ

Дается обзор и классификация основных методов автоматического извлечения ключевых слов из текстовых документов, среди которых выделяются статистические и гибридные с использованием корпуса текстов или на основе отдельного документа. Анализируются преимущества и недостатки каждого из подходов. Отмечается проблематичность применения статистических методик для флективных языков, таких как русский. Формулируются требования к эффективной модели извлечения ключевых слов из текстов на русском языке и даются конкретные рекомендации для их достижения. Подчеркивается, что для создания эффективных экстракторов ключевых слов следует учитывать лингвистические типы естественных языков (аналитический, флективный, агглютинативный, изолирующий), предметную область (подъязык) и наличие необходимых лингвистических и программных ресурсов. Подход иллюстрируется на примере автоматического экстрактора ключевых слов Lana-Key-RU из русскоязычных статей по математическому моделированию.

Еще

Автоматическое извлечение, русский язык

Короткий адрес: https://sciup.org/147153946

IDR: 147153946

Список литературы Методы и модели автоматического извлечения ключевых слов

  • Гринева М., Гринев М. Анализ текстовых документов для извлечения тематически сгруппированных ключевых терминов. Труды ИСП РАН. 2009. Т. 16. С. 155-165.
  • Алексеев П.М., Герман-Прозорова Л.П., Пиотровский Р.Г., Шепетова О.П. Основы статистической оптимизации преподавания иностранных языков. Статистика речи и автоматический анализ текста. Л., 1974. С. 195-234.
  • Пиотровский Р.Г., Бектаев К.Б., Пиотровская А.А. Математическая лингвистика: учеб. пособие для пед. институтов. М.: Высшая школа, 1977. 383 с.
  • Усталов Д. Извлечение терминов из русскоязычных текстов при помощи графовых моделей. http://koost.eveel.ru/science/CSEDays2012. pdf (дата обращения: 30.11.2014).
  • Liu Z., Huang W., Zheng Y., Sun M. Automatic keyphrase extraction via topic decomposition. Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing. Cambridge, Massachusetts, 2010, pp. 366-376.
  • Barker K. Cornacchia N. Using Noun Phrase Heads to Extract Document Keyphrases. Advances in Artificial Intelligence. 2000, vol. 1822, pp. 40-52.
  • Piao S.S., Rayson P., Archer D., McEnery T. Comparing and Combining a Semantic Tagger and a Statistical Tool for MWE Extraction. Computer Speech & Language. 2005, vol. 19, no. 4, pp. 378-397.
  • Frank E., Paynter G.W., Witten I.H., Gutwin C, Nevill-Manning C.G. Domain-Specific Keyphrase Extraction. Proceeding of 16th International Joint Conference on Artificial Intelligence. Stockholm, Sweden, 1999, pp. 668-673.
  • Dostal M. Automatic Keyphrase Extraction Based on NLP and Statistical Methods. Proceedings of the Dateso 2011: Annual International Workshop on Databases, Texts, Specifications and Objects. Pisek, Czech Republic, 2011, pp. 140-145.
  • Dunning T. Accurate Methods for the Statistics of Surprise and Coincidence. Computational Linguistics -Special Issue on Using Large Corpora. 1993, vol. 19, no. 1, pp. 61-74.
  • Girish K.P. Keyword Extraction from a Single Document Using Centrality Measures. Pattern Recognition and Machine Intelligence. Springer Berlin Heidelberg, 2007, pp. 503-510.
  • Grineva M. Effective Extraction of Thematically Grouped Key Terms From Text. Available at: http://www.aaai.org/Papers/Symposia/Spring/2009/SS-09-08/SS09-08-010.pdf (accessed 30.11.2014)
  • Herbrich R. Large Margin Rank Boundaries for Ordinal Regression. Advances in Large Margin Classifiers. MIT Press, 2000, pp. 115-132.
  • Hulth A. Improved Automatic Keyword Extraction Given More Linguistic Knowledge. Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing. Sapporo, July, 2003, pp. 216-223.
  • Jiang X. A Ranking Approach to Keyphrase Extraction. Proceedings of the 32nd International ACM SIGIR Conference on Research and Development in Information Retrieval. Boston, MA, USA, 2009, pp. 756-757.
  • Jiao H. Chinese Keyword Extraction Based on N-Gram and Word Co-occurrence. Proceeding CISW '07 Proceedings of the 2007 International Conference on Computational Intelligence and Security Workshops. Harbin, 2007. pp. 152-155.
  • Jones K.S. A Statistical Interpretation of Term Specificity and its Application in Retrieval. Journal of Documentation. 2004, vol. 60, no. 5, pp. 493-502.
  • KEA: Practical Automatic Keyphrase Extraction. I.H. Witten, G. W. Paynter, G. W. Paynter, E. Frank, C. Gutwin, C. G. Nevill-Manning. DL '99 Proceedings of the Fourth ACM Conference on Digital Libraries. Berkeley, CA, USA, 1999, pp. 254-255.
  • Keyword Extraction Using Support Vector Machine. K. Zhang, H. Xu, J. Tang, J. Li. Advances in Web-Age Information Management. Springer Berlin Heidelberg, 2006, pp. 85-96.
  • Krulwich B. Learning User Information Interests through Extraction of Semantically Significant Phrases. Available at: http://www.aaai.org/Papers/Symposia/Spring/1996/SS-96-05/SS96-05-018. pdf (accessed: 30.11.2014).
  • Litvak M. Graph-based Keyword Extraction for Single-Document Summarization. Proceedings of the Workshop on Multi-source Multilingual Information Extraction and Summarization. Manchester, United Kingdom, 2008, pp. 17-24.
  • Lopez P. HUMB: Automatic Key Term Extraction from Scientific Articles in GROBID. Proceedings of the 5th International Workshop on Semantic Evaluation. Uppsala, Sweden, 2010, pp. 248-251.
  • Luhn H.P. A Statistical Approach to Mechanized Encoding and Searching of Literary Information. IBM Journal of Research and Development. 1957, vol. 1, no. 4, pp. 309-317.
  • Matsuo Y. Keyword Extraction from a Single Document Using Word co-occurrence Statistical Information. International Journal on Artificial Intelligence Tools. 2004. V. 13, no. 1, pp. 157-169.
  • Matsuo Y. KeyWorld: Extracting Keywords from Document s Small World. Discovery Science. Springer Berlin Heidelberg, 2001, pp. 271-281.
  • Mihalcea R. TextRank: Bringing Order into Texts. Proceedings of EMNLP 2004. Barcelona, Spain, 2004, pp. 404-411.
  • Multiword Expressions: A Pain in the Neck for NLP. I.A. Sag, T. Baldwin, F. Bond, A. Copestake, D. Flickinger. Proceedings of the Third International Conference on Computational Linguistics and Intelligent Text Processing CICLing ’02. London, UK. 2002, pp. 1-15.
  • Nallapati R. Extraction of Key Words from News Stories. Available at: https://sites.google.com/site/nmramesh77/research-papers/2002_synthesis_ report.pdf?attredirects=0 (accessed: 30.11.2014).
  • Ohsawa Y. KeyGraph: Automatic Indexing by co-occurrence Graph Based on Building Construction Metaphor. ADL '98 Proceedings of the Advances in Digital Libraries Conference. Santa Barbara, CA, USA, 1998, pp. 12-18.
  • Porter M.F. An Algorithm for Suffix Stripping. Readings in Information Retrieval. Morgan Kaufmann Publishers Inc., 1997, pp. 313-316.
  • Salton G.A Vector Space Model for Automatic Indexing. Communications of the ACM. 1975, vol. 18, no. 11, pp. 613-620.
  • Salton G. On the Specification of Term Values in Automatic Indexing. Journal of Documentation. 1973, vol. 29, no. 4, pp. 351-372.
  • Sarkar K., Nasipuri M., Ghose S. A New Approach to Keyphrase Extraction Using Neural Networks. International Journal of Computer Science Issues. 2010, vol. 7, no. 2, pp. 16-25.
  • Sarkar, K. An N-Gram Based Method for Bengali Keyphrase Extraction/K. Sarkar//Information Systems for Indian Languages. Springer Berlin Heidelberg, 2011, pp. 36-41.
  • Sheremetyeva S. An efficient patent keyword extractor as translation resource. MT Summit XII: Third Workshop on Patent Translation. Ottawa, 2009. Pp. 25-32.
  • Smadja F. Retrieving collocations from text: Xtract. Computational Linguistics -Special issue on using large corpora: I. 1993, vol. 19, no. 1, pp. 143-177.
  • Turney P.D. Learning Algorithms for Keyphrase Extraction. Information Retrieval. 2000, vol. 2, no. 4, pp. 303-336.
  • Uzun Y. Keyword Extraction Using Naive Bayes. Available at: http://www.cs.bilkent.edu.tr/~guvenir/courses/CS550/Workshop/Yasin_Uzun.pdf (accessed: 30.11.2014).
  • Vadas D. Statistical Parsing of Noun Phrase Structure. Available at: http://sydney.edu.au/engineering/it/~dvadas1/papers/vadas09_phd_thesis. pdf (accessed 30.11.2014).
  • Wang J., Peng H., Hu J.-S. Automatic Keyphrases Extraction from Document Using Neural Network. Advances in Machine Learning and Cybernetics. Springer Berlin Heidelberg, 2006, pp. 633-641.
  • Wasserman S., Faust K. Social Network Analysis: Methods and Applications. Cambridge: Cambridge University Press, 1995. 857 p.
Еще
Статья научная