Выделение знаний и языковых форм их выражения на множестве тематических текстов: подход на основе меры TF-IDF

Автор: Михайлов Дмитрий Владимирович, Козлов Александр Павлович, Емельянов Геннадий Мартинович

Журнал: Компьютерная оптика @computer-optics

Рубрика: Обработка изображений: Восстановление изображений, выявление признаков, распознавание образов

Статья в выпуске: 3 т.39, 2015 года.

Бесплатный доступ

Статья посвящена проблеме выделения единиц знаний из множеств (корпусов) тематических текстов. Данная проблема актуальна для построения систем обработки, анализа, оценивания и понимания информации, в частности, изображений. Конечной практической целью здесь является поиск наиболее рационального варианта передачи смысла средствами заданного естественного языка (ЕЯ) для последующей фиксации фрагментов знаний в тезаурусе и онтологии предметной области (ПО). В настоящей статье разбиением слов исходной фразы на классы по значению меры TF-IDF относительно текстов корпуса решается задача поиска в корпусе фраз, максимально близких исходной по описываемому фрагменту фактического знания и формам его выражения в языке.

Еще

Распознавание образов, интеллектуальный анализ данных, теория информации, тест открытой формы, языковое представление экспертных знаний

Короткий адрес: https://sciup.org/14059379

IDR: 14059379

Список литературы Выделение знаний и языковых форм их выражения на множестве тематических текстов: подход на основе меры TF-IDF

  • Сойфер, В.А. Анализ и распознавание наномасштабных изображений: традиционные подходы и новые постановки задач/В.А. Сойфер, А.В. Куприянов//Компьютерная оптика. -2011. -Т. 35, № 2. -С. 136-144. -ISSN 0134-2452.
  • Царьков, С.В. Автоматическое выделение ключевых фраз для построения словаря терминов в тематических моделях коллекций текстовых документов/С.В. Царьков//Естественные и технические науки. -2012. -№ 6. -С. 456-464. -ISSN 1684-2626.
  • Gurevich, I. The challenges, the problems and the tasks of the descriptive approach to image analysis/I. Gurevich, Yu. Trusova, V. Yashina//11th International Conference «Pattern Recognition and Image Analysis: New Information Technologies» (PRIA-11-2013). -2013. -Vol. 1. -P. 30-35.
  • Емельянов, Г.М. Формирование единиц представления предметных знаний в задаче их оценки на основе открытых тестов/Г.М. Емельянов, Д.В. Михайлов, А.П. Козлов//Машинное обучение и анализ данных. -2014. -Т. 1, № 8. -С. 1089-1106. -ISSN 2223-3792.
  • Мельчук, И.А. Опыт теории лингвистических моделей «СмыслÛТекст»: Семантика, синтаксис/И.А. Мельчук. -М.: Школа «Языки русской культуры», 1999. -345 с.
  • Huang, E. Paraphrase Detection Using Recursive Autoencoder/E. Huang . -2011. -URL: http://nlp.stanford.edu/courses/cs224n/2011/reports/ehhuang.pdf (дата обращения 22.05.2015).
  • Jones, K.S. A statistical interpretation of term specificity and its application in retrieval/K.S. Jones//Journal of Documentation. -2004. -Vol. 60(5). -P. 493-502.
  • Загоруйко, Н.Г. Прикладные методы анализа данных и знаний/Н.Г. Загоруйко. -Новосибирск: Издательство института математики, 1999. -270 с.
  • Воронцов, К.В. Многокритериальные и многомодальные вероятностные тематические модели коллекций текстовых документов/К.В. Воронцов, А.А. Потапенко, А.И. Фрей, М.А. Апишев, Н.В. Дойков, А.В. Шапулин, Н.А. Чиркова//10-я Междунар. конф. ИОИ-2014: Тезисы докладов. -2014. -С. 198.
  • russianmorphology: Russian Morphology for lucene . -URL: http://code.google.com/p/russianmorphology/(дата обращения 19.04.2015).
  • Apache PDFBox . -URL: https://pdfbox.apache.org (дата обращения 19.04.2015).
  • Турдаков, Д. Texterra: инфраструктура для анализа текстов /Д. Турдаков, Н. Астраханцев, Я. Недумов, А. Сысоев, И. Андрианов, В. Майоров, Д. Федоренко, А. Коршунов, С. Кузнецов. -2014. -URL: http://www.ispras.ru/ru/proceedings/docs/2014/26/1/isp_26_2014_1_421.pdf (дата обращения 19.04.2015).
  • Serelex . -URL: http://serelex.cental.be (дата обращения 19.04.2015).
  • WordNet . -URL: https://wordnet.princeton.edu/(дата обращения 25.05.2015).
  • Baroni, M. The wacky wide web: A collection of very large linguistically processed web-crawled corpora/M. Baroni, S. Bernardini, A. Ferraresi, E. Zanchetta . -2008. -URL: http://wacky.sslmit.unibo.it/lib/exe/fetch.php?media=papers:wacky_2008.pdf (дата обращения 19.04.2015).
  • Шеннон, К. Работы по теории информации и кибернетики/К. Шеннон; пер. с англ. -М.: Иностранная литература, 1963. -С. 669-686. (Shannon C.E. Prediction and entropy of printed English. BSTJ 1951; 30(1): 50-64).
Еще
Статья научная