Выделение знаний, языковых форм их выражения и оценка эффективности формирования множества тематических текстов
Автор: Михайлов Дмитрий Владимирович, Козлов Александр Павлович, Емельянов Геннадий Мартинович
Журнал: Компьютерная оптика @computer-optics
Рубрика: Анализ данных
Статья в выпуске: 4 т.40, 2016 года.
Бесплатный доступ
Статья посвящена взаимосвязанным проблемам выделения единиц знаний из множества (корпуса) тематических текстов и отбора текстов в корпус анализом релевантности исходной фразе. Данные проблемы актуальны для построения систем обработки, анализа, оценивания и понимания информации. Конечной практической целью является поиск наиболее рационального варианта передачи смысла средствами заданного естественного языка для последующей фиксации фрагментов знаний в тезаурусе и онтологии предметной области. При этом релевантность текста по описываемому фрагменту знания (включая формы выражения в языке) определяется суммарной численной оценкой силы связи встречающихся в его фразах сочетаний слов исходной фразы. В настоящей работе рассматриваются известные варианты такой оценки и особенности их использования для выделения составляющих образа исходной фразы в виде слов и их сочетаний в текстах при формировании тематического текстового корпуса. По сравнению с поиском совокупностей указанных составляющих на синтаксически размеченном текстовом корпусе, предложенный в работе метод отбора текстов позволяет в среднем в 15 раз сократить выход фраз, не релевантных исходной ни по описываемому фрагменту знания, ни по языковым формам его выражения.
Распознавание образов, интеллектуальный анализ данных, теория информации, тест открытой формы, языковое представление экспертных знаний, контекстно-зависимое аннотирование, поисковое ранжирование документов
Короткий адрес: https://sciup.org/14059596
IDR: 14059596 | DOI: 10.18287/2412-6179-2016-40-4-572-582
Список литературы Выделение знаний, языковых форм их выражения и оценка эффективности формирования множества тематических текстов
- Кольцов, П.П. О количественной оценке эффективности алгоритмов анализа изображений/П.П. Кольцов, А.С. Осипов, А.С. Куцаев, А.А. Кравченко, Н.В. Котович, А.В. Захаров//Компьютерная оптика. -2015. -Т. 39, № 4. -С. 542-556. - DOI: 10.18287/0134-2452-2015-39-4-542-556
- Михайлов, Д.В. Выделение знаний и языковых форм их выражения на множестве тематических текстов: подход на основе меры TF-IDF/Д.В. Михайлов, А.П. Козлов, Г.М. Емельянов//Компьютерная оптика. -2015. -Т. 39, № 3. -С. 429-438. - DOI: 10.18287/0134-2452-2015-39-3-429-438
- Царьков, С.В. Автоматическое выделение ключевых фраз для построения словаря терминов в тематических моделях коллекций текстовых документов/С.В. Царьков//Естественные и технические науки. -2012. -№ 6. -С. 456-464.
- Шеннон, К. Работы по теории информации и кибернетики/К. Шеннон; пер. с англ. -М.: Иностранная литература, 1963. -С. 669-686.
- Национальный корпус русского языка . -URL: http://www.ruscorpora.ru/(дата обра-щения 26.02.2016).
- Biemann, C. Language-independent Methods for Compiling Monolingual Lexical Data/C. Biemann, S. Bordag, G. Heyer, U. Quasthoff, C. Wolff//5th International Conference “Computational Linguistics and Intelligent Text Processing” (CICLing 2004). -2004. -Vol. 2945. -P. 217-228.
- McDonald, J.H. G-test of goodness-of-fit/J.H. McDonald. -Handbook of Biological Statistics. -Third ed. -Baltimore, Maryland: Sparky House Publishing, 2014. -P. 53-58.
- Дистрибутивно-статистический метод построения тезаурусов: современное состояние и перспективы/В.А. Москович. -М., 1971. -66 с.
- Tanimoto, T.T. An elementary mathematical theory of classification and prediction/T.T. Tanimoto. -New York: International Business Machines Corporation, 1958. -10 p.
- Емельянов, Г.М. Формирование единиц представления предметных знаний в задаче их оценки на основе открытых тестов/Г.М. Емельянов, Д.В. Михайлов, А.П. Козлов//Машинное обучение и анализ данных. -2014. -Т. 1, № 8. -С. 1089-1106. -ISSN 2223-3792.
- Прикладные методы анализа данных и знаний/Н.Г. Загоруйко. -Новосибирск: Издательство института математики, 1999. -270 с.
- Гречников, Е.А. Поиск неестественных текстов/Е.А. Гречников, Г.Г. Гусев, А.А. Кустарев, А.М. Райгородский//Труды XI Всероссийской научной конференции RCDL’2009. -Петрозаводск: КарНЦ РАН, 2009. -С. 306-308.
- Manber, U. Finding Similar Files in a Large File System/U. Manber//USENIX Winter 1994 Technical Conference Proceedings. -1994. -P. 1-10.
- Heintze, N. Scalable Document Fingerprinting/N. Heintze//Proceedings of the Second USENIX Workshop on Electronic Commerce. -1996. -P. 191-200.
- Бродский, А. Алгоритмы контекстно-зависимого аннотирования Яндекса на РОМИП-2008/А. Бродский, Р. Ковалев, М. Лебедев, Д. Лещинер, П. Сушин, И. Мучник//Труды РОМИП 2007-2008. -СПб., 2008. -С. 160-169.
- Karp, R.M. Efficient randomized pattern-matching algorithms/Richard M. Karp, Michael O. Rabin//IBM Journal of Research and Development. -1987. -Vol. 31(2). -P. 249-260. -ISSN 0018-8646.
- Knuth, D. Fast pattern matching in strings/Donald E. Knuth, James H. Morris, Vaughan R. Pratt//SIAM Journal on Computing. -1977. -Vol. 6(2). -P. 323-350. -ISSN 0097-5397.
- Boyer, R.S. A fast string searching algorithm/Robert S. Boyer, J. Strother Moore//Communications of the ACM. -1977. -Vol. 20(10). -P. 762-772. -ISSN 0001-0782.
- Apache OpenNLP . -URL: https://opennlp.apache.org/(дата обращения 31.03.2016).
- Leipzig Corpora Collection Download Page . -URL: http://corpora2.informatik.uni-leipzig.de/download.html (дата обращения 31.03.2016).
- Gurevich, I. The challenges, the problems and the tasks of the descriptive approach to image analysis/I. Gurevich, Yu. Trusova, V. Yashina//11th International Conference «Pattern Recognition and Image Analysis: New Information Technologies» (PRIA-11-2013). Samara, September 23-28, 2013: Conference Proceedings. -Vol. 1. -Samara: IPSI RAS, 2013. -P. 30-35.