Выделение знаний и языковых форм их выражения на множестве тематических текстов: подход на основе меры TF-IDF

Михайлов Дмитрий Владимирович; Козлов Александр Павлович; Емельянов Геннадий Мартинович; Mikhaylov Dmitry Vladimirovich; Kozlov Alexander Pavlovich; Emelyanov Gennady Martinovich

Научные статьи \ Общие вопросы науки и культуры \ Информационные технологии. Вычислительная техника. Обработка данных \ Прикладные информационные (компьютерные) технологии. Методы основанные на применении компьютеров

Выделение знаний и языковых форм их выражения на множестве тематических текстов: подход на основе меры TF-IDF

Автор: Михайлов Дмитрий Владимирович, Козлов Александр Павлович, Емельянов Геннадий Мартинович

Журнал: Компьютерная оптика @computer-optics

Рубрика: Обработка изображений: Восстановление изображений, выявление признаков, распознавание образов

Статья в выпуске: 3 т.39, 2015 года.

Бесплатный доступ

Статья посвящена проблеме выделения единиц знаний из множеств (корпусов) тематических текстов. Данная проблема актуальна для построения систем обработки, анализа, оценивания и понимания информации, в частности, изображений. Конечной практической целью здесь является поиск наиболее рационального варианта передачи смысла средствами заданного естественного языка (ЕЯ) для последующей фиксации фрагментов знаний в тезаурусе и онтологии предметной области (ПО). В настоящей статье разбиением слов исходной фразы на классы по значению меры TF-IDF относительно текстов корпуса решается задача поиска в корпусе фраз, максимально близких исходной по описываемому фрагменту фактического знания и формам его выражения в языке.

Распознавание образов, интеллектуальный анализ данных, теория информации, тест открытой формы, языковое представление экспертных знаний

Короткий адрес: https://sciup.org/14059379

IDR: 14059379

An approach based on TF-IDF metrics to extract the knowledge and relevant linguistic means on subject-oriented text sets

In this paper we look at a problem of extracting knowledge units from the sets of subject-oriented texts. Each such text set is considered as a corpus. The main practical goal here is finding the most rational variant to express the knowledge fragment in a given natural language for further reflection in the thesaurus and ontology of a subject area. The problem is of importance when constructing systems for processing, analysis, estimation and understanding of information represented, in particular, by images. In this paper, by applying the TF-IDF metrics to classify words of the initial phrase in relation to given text corpora we address the task of selecting phrases closest to the initial one in terms of the described fragment of actual knowledge or forms of its expression in a given natural language.

Список литературы Выделение знаний и языковых форм их выражения на множестве тематических текстов: подход на основе меры TF-IDF

Сойфер, В.А. Анализ и распознавание наномасштабных изображений: традиционные подходы и новые постановки задач/В.А. Сойфер, А.В. Куприянов//Компьютерная оптика. -2011. -Т. 35, № 2. -С. 136-144. -ISSN 0134-2452.
Царьков, С.В. Автоматическое выделение ключевых фраз для построения словаря терминов в тематических моделях коллекций текстовых документов/С.В. Царьков//Естественные и технические науки. -2012. -№ 6. -С. 456-464. -ISSN 1684-2626.
Gurevich, I. The challenges, the problems and the tasks of the descriptive approach to image analysis/I. Gurevich, Yu. Trusova, V. Yashina//11th International Conference «Pattern Recognition and Image Analysis: New Information Technologies» (PRIA-11-2013). -2013. -Vol. 1. -P. 30-35.
Емельянов, Г.М. Формирование единиц представления предметных знаний в задаче их оценки на основе открытых тестов/Г.М. Емельянов, Д.В. Михайлов, А.П. Козлов//Машинное обучение и анализ данных. -2014. -Т. 1, № 8. -С. 1089-1106. -ISSN 2223-3792.
Мельчук, И.А. Опыт теории лингвистических моделей «СмыслÛТекст»: Семантика, синтаксис/И.А. Мельчук. -М.: Школа «Языки русской культуры», 1999. -345 с.
Huang, E. Paraphrase Detection Using Recursive Autoencoder/E. Huang . -2011. -URL: http://nlp.stanford.edu/courses/cs224n/2011/reports/ehhuang.pdf (дата обращения 22.05.2015).
Jones, K.S. A statistical interpretation of term specificity and its application in retrieval/K.S. Jones//Journal of Documentation. -2004. -Vol. 60(5). -P. 493-502.
Загоруйко, Н.Г. Прикладные методы анализа данных и знаний/Н.Г. Загоруйко. -Новосибирск: Издательство института математики, 1999. -270 с.
Воронцов, К.В. Многокритериальные и многомодальные вероятностные тематические модели коллекций текстовых документов/К.В. Воронцов, А.А. Потапенко, А.И. Фрей, М.А. Апишев, Н.В. Дойков, А.В. Шапулин, Н.А. Чиркова//10-я Междунар. конф. ИОИ-2014: Тезисы докладов. -2014. -С. 198.
russianmorphology: Russian Morphology for lucene . -URL: http://code.google.com/p/russianmorphology/(дата обращения 19.04.2015).
Apache PDFBox . -URL: https://pdfbox.apache.org (дата обращения 19.04.2015).
Турдаков, Д. Texterra: инфраструктура для анализа текстов /Д. Турдаков, Н. Астраханцев, Я. Недумов, А. Сысоев, И. Андрианов, В. Майоров, Д. Федоренко, А. Коршунов, С. Кузнецов. -2014. -URL: http://www.ispras.ru/ru/proceedings/docs/2014/26/1/isp_26_2014_1_421.pdf (дата обращения 19.04.2015).
Serelex . -URL: http://serelex.cental.be (дата обращения 19.04.2015).
WordNet . -URL: https://wordnet.princeton.edu/(дата обращения 25.05.2015).
Baroni, M. The wacky wide web: A collection of very large linguistically processed web-crawled corpora/M. Baroni, S. Bernardini, A. Ferraresi, E. Zanchetta . -2008. -URL: http://wacky.sslmit.unibo.it/lib/exe/fetch.php?media=papers:wacky_2008.pdf (дата обращения 19.04.2015).
Шеннон, К. Работы по теории информации и кибернетики/К. Шеннон; пер. с англ. -М.: Иностранная литература, 1963. -С. 669-686. (Shannon C.E. Prediction and entropy of printed English. BSTJ 1951; 30(1): 50-64).

Еще