Выделение знаний и языковых форм их выражения на множестве тематических текстов анализом связей слов в составе N-грамм

Автор: Михайлов Дмитрий Владимирович, Козлов Александр Павлович, Емельянов Геннадий Мартинович

Журнал: Компьютерная оптика @computer-optics

Рубрика: Численные методы и анализ данных

Статья в выпуске: 3 т.41, 2017 года.

Бесплатный доступ

Статья посвящена взаимосвязанным проблемам выделения единиц знаний из множества (корпуса) тематических текстов анализом релевантности исходной фразе и полноты отражения в исходных фразах выделяемого фактического знания. Данные проблемы актуальны для построения систем обработки, анализа, оценивания и понимания информации. Конечной практической целью здесь является поиск наиболее рационального варианта передачи смысла средствами заданного естественного языка для последующей фиксации фрагментов знаний в тезаурусе и онтологии предметной области. При этом релевантность текста по описываемому фрагменту знания (включая формы выражения в языке) определяется совместным использованием оценки силы связи встречающихся в его фразах сочетаний слов исходной фразы и разбиением этих слов на классы по значению меры TF-IDF относительно текстов корпуса. В настоящей работе рассматривается расширение связей слов от традиционных биграмм до трёх и более элементов для выделения составляющих образа исходной фразы в виде сочетаний связанных по смыслу слов (с привлечением базы известных синтаксических отношений и без использования таковой). С целью более полного описания выделяемого в текстах корпуса фрагмента экспертного знания вводятся в рассмотрение совокупности исходных фраз, взаимно эквивалентных либо дополняющих друг друга по смыслу и представляющих единый образ. По сравнению с поиском составляющих рассматриваемого образа на готовом синтаксически размеченном текстовом корпусе предложенный метод позволяет в среднем в 17 раз сократить выход фраз, не релевантных исходным ни по описываемому фрагменту знания, ни по языковым формам его выражения.

Еще

Распознавание образов, интеллектуальный анализ данных, теория информации, тест открытой формы, языковое представление экспертных знаний, контекстно-зависимое аннотирование, поисковое ранжирование документов

Короткий адрес: https://sciup.org/140228762

IDR: 140228762   |   DOI: 10.18287/2412-6179-2017-41-3-461-471

Список литературы Выделение знаний и языковых форм их выражения на множестве тематических текстов анализом связей слов в составе N-грамм

  • Михайлов, Д.В. Выделение знаний и языковых форм их выражения на множестве тематических текстов: подход на основе меры TF-IDF/Д.В. Михайлов, А.П. Козлов, Г.М. Емельянов//Компьютерная оптика. -2015. -Т. 39, № 3. -С. 429-438. - DOI: 10.18287/0134-2452-2015-39-3-429-438
  • Михайлов, Д.В. Выделение знаний, языковых форм их выражения и оценка эффективности формирования множества тематических текстов/Д.В. Михайлов, А.П. Козлов, Г.М. Емельянов//Компьютерная оптика. -2016. -Т. 40, № 4. -С. 572-582. - DOI: 10.18287/2412-6179-2016-40-4-572-582
  • Шеннон, К. Работы по теории информации и кибернетики/К. Шеннон; пер. с англ. -М.: Иностранная литература, 1963. -С. 669-686.
  • Sidorov, G. Syntactic dependency based N-grams in rule based automatic English as second language grammar correction/G. Sidorov//International Journal of Computational Linguistics and Applications. -2013. -Vol. 4(2). -P. 169-188.
  • Кудинов, М.С. Частичный синтаксический разбор текста на русском языке с помощью условных случайных полей/М.С. Кудинов//Машинное обучение и анализ данных. -2013. -Т. 1, № 6. -С. 714-724. -ISSN 2223-3792.
  • Москович, В.А. Дистрибутивно-статистический метод построения тезаурусов: современное состояние и перспективы/В.А. Москович. -М., 1971. -66 с.
  • Tanimoto, T.T. An elementary mathematical theory of classification and prediction/T.T. Tanimoto. -New York: International Business Machines Corporation, 1958. -10 p.
  • Загоруйко, Н.Г. Прикладные методы анализа данных и знаний/Н.Г. Загоруйко. -Новосибирск: Издательство института математики, 1999. -270 с.
  • Frantzi, K. Automatic recognition of multi-word terms: the C-value/NC-value method/K. Frantzi, S. Ananiadou, H. Mima//International Journal on Digital Libraries. -2000. -Vol. 3, Issue 2. -P. 115-130. - DOI: 10.1007/s007999900023
  • Бродский, А. Алгоритмы контекстно-зависимого аннотирования Яндекса на РОМИП-2008/А. Бродский, Р. Ковалев, М. Лебедев, Д. Лещинер, П. Сушин, И. Мучник//Труды РОМИП 2007-2008. -2008. -С. 160-169.
  • Национальный корпус русского языка . -URL: http://www.ruscorpora.ru/(дата обра-щения 09.03.2017).
  • Apache OpenNLP . -URL: https://opennlp.apache.org/(дата обращения 10.03.2017).
  • Leipzig Corpora Collection Download Page . -URL: http://wortschatz.unileipzig.de/en/download (дата обращения 10.03.2017).
  • Natural Language Toolkit . -URL: http://www.nltk.org (дата обращения 17.03.2017).
  • Pymorphy -NLPub . -URL: https://nlpub.ru/Pymorphy (дата обращения 17.03.2017).
  • Russianmorphology: Russian Morphology for lucene . -URL: http://code.google.com/p/russianmorphology/(дата обращения 19.03.2017).
Еще
Статья научная