Выделение знаний и языковых форм их выражения на множестве тематических текстов анализом связей слов в составе N-грамм

Михайлов Дмитрий Владимирович, Козлов Александр Павлович, Емельянов Геннадий Мартинович; Mikhaylov Dmitry Vladimirovich, Kozlov Alexander Pavlovich, Emelyanov Gennady Martinovich

doi:10.18287/2412-6179-2017-41-3-461-471

Научные статьи \ Общие вопросы науки и культуры \ Информационные технологии. Вычислительная техника. Обработка данных \ Искусственный интеллект

Выделение знаний и языковых форм их выражения на множестве тематических текстов анализом связей слов в составе N-грамм

Автор: Михайлов Дмитрий Владимирович, Козлов Александр Павлович, Емельянов Геннадий Мартинович

Журнал: Компьютерная оптика @computer-optics

Рубрика: Численные методы и анализ данных

Статья в выпуске: 3 т.41, 2017 года.

Бесплатный доступ

Статья посвящена взаимосвязанным проблемам выделения единиц знаний из множества (корпуса) тематических текстов анализом релевантности исходной фразе и полноты отражения в исходных фразах выделяемого фактического знания. Данные проблемы актуальны для построения систем обработки, анализа, оценивания и понимания информации. Конечной практической целью здесь является поиск наиболее рационального варианта передачи смысла средствами заданного естественного языка для последующей фиксации фрагментов знаний в тезаурусе и онтологии предметной области. При этом релевантность текста по описываемому фрагменту знания (включая формы выражения в языке) определяется совместным использованием оценки силы связи встречающихся в его фразах сочетаний слов исходной фразы и разбиением этих слов на классы по значению меры TF-IDF относительно текстов корпуса. В настоящей работе рассматривается расширение связей слов от традиционных биграмм до трёх и более элементов для выделения составляющих образа исходной фразы в виде сочетаний связанных по смыслу слов (с привлечением базы известных синтаксических отношений и без использования таковой). С целью более полного описания выделяемого в текстах корпуса фрагмента экспертного знания вводятся в рассмотрение совокупности исходных фраз, взаимно эквивалентных либо дополняющих друг друга по смыслу и представляющих единый образ. По сравнению с поиском составляющих рассматриваемого образа на готовом синтаксически размеченном текстовом корпусе предложенный метод позволяет в среднем в 17 раз сократить выход фраз, не релевантных исходным ни по описываемому фрагменту знания, ни по языковым формам его выражения.

Еще

Распознавание образов, интеллектуальный анализ данных, теория информации, тест открытой формы, языковое представление экспертных знаний, контекстно-зависимое аннотирование, поисковое ранжирование документов

Короткий адрес: https://sciup.org/140228762

IDR: 140228762 | DOI: 10.18287/2412-6179-2017-41-3-461-471

An approach based on analysis of N-grams on links of words to extract the knowledge and relevant linguistic means on subject-oriented text sets

In this paper we look at two interrelated problems of extracting knowledge units from a set of subject-oriented texts (the so-called corpus) and completeness of reflection of revealed actual knowledge in initial phrases. The main practical goal here is finding the most rational variant to express the knowledge fragment in a given natural language for further reflection in the thesaurus and ontology of a subject area. The problems are of importance when constructing systems for processing, analysis, estimation and understanding of information. In this paper the text relevance to the initial phrase in terms of the described fragment of actual knowledge (including forms of its expression in a given natural language) is measured by estimating the coupling strength of words from the initial phrase jointly occurring in phrases of the analyzed text together with classifying these words according to their values of TF-IDF metrics in relation to text corpus. The paper considers an extension of links of words from traditional bigrams to three and more elements for the revelation of constituents of an image of the initial phrase in the form of combinations of related words. Variants of link revelation with and without application of a database of known syntactic relations are considered here. To describe more completely the fragment of expert knowledge revealed in corpus texts, sets of the initial phrases mutually equivalent or complementary in sense and related to the same image are entered into consideration. In comparison with the search of components of the analyzed image on a syntactically marked text corpus the method for text selection offered in the current paper can reduce, on average, by 17 times the output of phrases which are irrelevant to the initial ones in terms of either the knowledge fragment described or its expression forms in a given natural language.

Еще

Текст научной статьи Выделение знаний и языковых форм их выражения на множестве тематических текстов анализом связей слов в составе N-грамм

Эффективность методов и алгоритмов распознавания образов и интеллектуального анализа данных во многом определяется спецификой решаемой задачи. Немаловажную роль при этом играет разработка способов и средств описания самих задач, в частности, если задача включает иерархию взаимосвязанных подзадач. Как уже отмечалось в [1], естественным источником знаний при описании задач здесь будут публикации отечественных и зарубежных научных школ по соответствующей проблематике. Актуальная при этом проблема – поиск наиболее рационального варианта передачи смысла в единице знаний, определяемой множеством семантически эквивалентных (СЭ) фраз предметно-ограниченного естественного языка (ЕЯ). При этом в круг задач эксперта, требующих автоматизации, входит:

– поиск СЭ-форм выражения отдельного фрагмента фактического знания в заданном ЕЯ;

– сопоставление знаний эксперта с наиболее близкими фрагментами знаний других экспертов.

В работе [2] нами было предложено решение задачи поиска в текстовом множестве фраз, максимально близких исходной по описываемому фрагменту знания и формам его выражения в языке. При этом релевантность текста, в котором осуществляется поиск фраз, определялась суммарной численной оцен- кой силы связи встречающихся в его фразах сочетаний слов исходной фразы. Следует отметить, что данный метод ограничивал рассмотрение связей слов биграммами и рамками синтаксиса ЕЯ, что критично для случаев, когда доля общей лексики сравнима с долей слов-терминов (например, в текстах по близким искусственному интеллекту разделам философии науки и техники). Кроме того, в целях более точного описания представляемого фрагмента знаний (понятий и их связей) в ряде случаев число исходных фраз здесь целесообразно увеличивать до двух и более. В настоящей работе делается попытка решения данного круга проблем уходом от жёсткой ориентации на синтаксис ЕЯ с одновременным расширением выделяемых во фразах биграмм до трёх и более элементов.

1. N-граммы, мера TF-IDF и оценка силы связи слов

«Классические» N-граммы (по К. Шеннону – L-граммы, [3]) как последовательности из n элементов нашли широкое применение в математических исследованиях, биологии, а также информационном поиске. Наиболее близкими рассматриваемой в настоящей работе проблематике являются синтаксические n-граммы [4], которые определяются не линейной структурой текста, а путями в деревьях синтаксических зависимостей либо деревьях составляющих. Отметим, что при использовании силы связи слов исходной фразы отно- сительно текста как основы оценки его релевантности последней такие пути следует отсчитывать не от вершины дерева, а от сочетаний слов с наибольшими значениями силы связи. В отличие от поиска синтаксически связанных групп соседних слов с помощью условных случайных полей [5], наличие внутри связанных фрагментов текста предлогов и союзов здесь не является критичным, что немаловажно для поиска в текстах языковых выразительных средств конструирования перифраз исходной фразы. В качестве оценки силы связи слов (A, B) возьмём оценку, показавшую наилучшие результаты в [2] и определяемую как

K AB = к / ( a + b - к ) , (1)

где a – число фраз текста, которые содержат слово A , b – слово B , k – A и B одновременно. Из оценок силы связи слов в дистрибутивно-статистическом методе построения тезаурусов [6] данная оценка, содержательно близкая коэффициенту Танимото [7], наиболее наглядна, но в то же время учитывает встречаемость каждого слова в отдельности. За основу выделения самих связей в настоящей работе наряду с синтаксическими зависимостями из [2] в качестве альтернативы берётся разбиение слов исходной фразы по значению статистической меры TF-IDF [1].

Пусть X – упорядоченная по убыванию последовательность значений указанной меры для слов исходной фразы относительно заданного текста в составе некоторого множества (корпуса). Сама мера есть произведение отношения числа вхождений слова к общему числу слов документа и обратной чаcтоты документа idf(t i , D ) = log(| D |/| D i |), | D i c D | - число документов корпуса D , в которых слово t i встретилось хотя бы один раз. Разобьём X на кластеры H 1 ,…, H r с применением алгоритма, содержательно близкого алгоритмам класса FOREL [8]. За центр масс кластера H i здесь, как и в работах [1, 2], мы возьмём среднее арифметическое всех X j е H i .

Алгоритм 1. Формирование кластера.

Вход: X ; // упорядоченная по убыванию

// числовая последовательность

Выход: H i , X p , X s ; // X p , X s – префикс/суффикс X

// относительно H i , X_p • H i • X s = X Начало

1: H i : = X ;
2: X_p : = 0 ;
3: X s := 0 ;
4: если good( H i ) = true или diam( H i ) = 1 то вернуть H i , X p и X s ;
5: иначе если |mc( H i ) – first( H i )| > | mc( H i ) – last( H i )| то 6: X p : = {first( H)} • X p ;

7: H i : =rest( H i );
8: перейти к шагу 4;
9: иначе если |mc( H i ) – first( H i )| < | mc( H i ) – last( H i )| то 10: X s : = {last( H )} • X s ;

11: H i : = lrev( H i );
12: перейти к шагу 4;
13: иначе
14: X s : = {last( H )} • X s ;
15: X p : = {first( H i )} • X p ;
16: Tmp : = lrev( H i );
17: H i : = rest( Tmp );
18: перейти к шагу 4;

Конец {Алгоритм 1} .

Здесь и далее “ • ” - операция конкатенации.

Табл. 1. Вспомогательные функции Алгоритма 1

Функция	Возвращаемое значение
first( X ), last( X )	первый/последний элемент последовательности X
lrev( X ), rest( X )	исходная последовательность X без последнего/первого элемента
good( X )	true либо false в зависимости от выполнения условия (2)
mc( X )	центр масс X
diam( H_i )	диаметр кластера H i

Так же, как и в [1, 2], элементы последовательности X будут отнесены к одному кластеру, если

| mc ( X ) - first ( X )| < mc ( X )/ 4 | mc ( X ) - last ( X )| < mc ( X )/ 4

Алгоритм 1 применяется к последовательностям X p и X s на его выходе. Данный процесс продолжается рекурсивно до тех пор, пока на очередном шаге X p и X s не будут пустыми. В итоге исходная последовательность X разбивается на подпоследовательности-кластеры H i,..., H r , при этом для V i ^ j H i о H = 0 , а H ! • H ? • . • H r = X . Для выделения связей здесь важны слова кластера H 1 (термины из исходной фразы, наиболее уникальные для анализируемого текстового документа), а также «серединного» кластера H_r2 , куда войдёт общая лексика, обеспечивающая синонимические перифразы, и термины-синонимы. При этом оценка (1) для пары слов исходной фразы вычисляется только в том случае, если значение TF-IDF минимум одного из слов пары принадлежит либо H 1 , либо H_r2 . Назовём далее такие слова связанными в паре по TF-IDF.

Пусть d – некоторый документ в составе исходного текстового множества D , а L(d) есть последовательность пар слов ( A , B ) исходной фразы, где внутри каждой пары слова связаны в зависимости от метода выделения связей либо синтаксически, либо по TF-IDF, причём относительно d биграммы в L(d) упорядочены по убыванию оценки (1).

Определение 1. Биграммы ( A 1 , B 1 ) и ( A 2 , B 2 ) войдут в одну n -грамму T с L(d) , если

⁽⁽ A 1 = A 2 ^{)v (} B 1 = B 2 ) v ⁽ A ! = B 2 ) v ⁽ B 1 = A 2 )) = true .

После выделения очередной n-граммы T последовательность L(d) просматривается с конца и из неё удаляются элементы, присутствующие исключительно в T, что определяется по наличию общих элементов у биграмм из T и из L(d)\T. Данный процесс продолжается до тех пор, пока на очередном шаге L(d) не окажется пустой. В худшем случае (максимальная длина n-граммы) здесь имеет место число сравнений, оцениваемое сверху как |L(d)|2+|L(d)|. Максимальная длина n-граммы при этом ограничена значением |L(d)| и имеет место в случае выделения связей по TF-IDF при числе кластеров по указанной величине для слов исходной фразы, меньшем трёх. Оценка качества кластеризации слов по TF-IDF, предложенная в [1], в данной работе не применяется из соображений максимально полного учёта возможных сочетаний слов вне зависимости от значения меры TF-IDF каждого из них. Отметим, что в случае использования вышеупомянутой оценки качества кластеризации слов в совокупности с соответствующим ранжированием документов (требующим, однако, дополнительных вычислительных затрат) максимальная длина n-граммы сокращается приблизительно на одну треть.

Значимость n -граммы T длиной len( T ) для оценивания ранга документа d относительно D можно определить из геометрических соображений как

N T , d ) = ^ £ |=f ) [ S i ( d ) ] 2 /( a ( S , ( d )) + 1 ) , (3)

где S i ( d ) – значение оценки (1) для i -й биграммы относительно d ; o ( S i ( d )) - её среднеквадратическое отклонение (СКО); len( T ) здесь и далее определяется числом биграмм в составе T . Добавление единицы в знаменателе формулы (3) имеет целью предотвратить деление на ноль в случае нулевого СКО.

Содержательно оценка (3) подразумевает максимизацию суммы силы связи слов при минимуме её СКО по всем связям слов в составе n -граммы. При этом связи не обязательно охватывают слова исключительно внутри одной фразы: допускаются связи слов из различных фраз в группе исходных, взаимно эквивалентных либо дополняющих друг друга по смыслу и представляющих единый образ.

2. Поисковое ранжирование документов и отбор фраз в аннотацию

Найденные n -граммы { T : T = L ( d )} = : T ( d ) сортируются по убыванию величины N( T , d ) • len( T) . Функция ранжирования документов по релевантности исходной фразе (группе фраз) здесь может быть определена из соображений максимальной полноты представляемого в n -граммах образа исходной фразы как

W (d ) = N max(d ) • logw I max lenT) I • logw( t(d ) ) , (4) ( Tei( d) J где Nmax (d) = max N(T, d).

T e T ( d )

Сортировкой документов d e D по убыванию значений функции (4) с последующим разделением на кластеры Алгоритмом 1 отбираются документы с наибольшими значениями данной оценки (принадлежащими первому кластеру в составе формируемой последовательности). Множество указанных документов обозначим далее как D ‘ (следуя нотации работ [1, 2]).

Аналогично, но по значению оценки (3), разбивается множество T ( d ) для V d e D ‘ , T ‘ ( d ) - кластер наибольших её значений по заданному документу d . При этом возможны два альтернативных варианта оценки близости фразы 5 документа d e D ‘ исходной фразе (группе исходных фраз): либо по числу слов

N ( 5 ) = |{ w e b : 3 T e T ' ( d ) , b e T } , (5)

либо по числу биграмм

N ( 5 ) = { b : 3 T e T ' ( d ) , b e T } , (6)

в составе наиболее значимых n -грамм.

Идейно оценки (3) и (4) близки методу выделения многословных терминов C-Value [9] в плане предположения о достаточно большом числе биграмм в наиболее значимых n -граммах. Вместе с тем предложенный в настоящей работе метод не требует вычисления частот вхождения анализируемой n -граммы в состав других n -грамм. Действительно, отбираемая в соответствии с оценкой (3) n -грамма уже имеет максимально возможную длину, а требование принадлежности входящих в неё слов к терминам здесь не принципиально.

Назовём далее поиск фраз в документах d e D ‘ на основе оценок (5) и (6) построением аннотации. Как и в работе [2], здесь имеет место разновидность контекстно-зависимого аннотирования [10], где одна аннотация строится сразу для нескольких документов.

Само построение аннотации ведётся по тому же алгоритму, который был использован авторами в [2].

Пусть S = { 5 : 5 e d , d e D ‘ }, а X^W и X ^N - последовательности значений оценок W ( d ) и N( s ) для документов d e D u фраз 5 e S соответственно. Будем применять обозначение X ^N также и к последовательности значений оценки (3) для n -грамм. Кластеры, формируемые на последовательностях X^W и X ^N, а также на D , S и T ( d ), обозначим далее как H^ ... h W_d ) ,

N N NN N

H i . H _r ( s ) и H i • H 2 • .• H r ( t ( d )) и, соответственно,

D D S S TT T

H 1 . H r ( D ) , H 1 . H r ( S ) ^и H 1 • H 2 • . • H r ( t ( d )) . В ^совокупности с ранжированием текстов построение аннотации здесь формально можно представить следующим образом.

Алгоритм 2. Построение аннотации.

Вход: D ; // исходное текстовое множество

Выход: H ₁ ^S ; // результирующее множество фраз Начало

1: X^W : = 0 ;
2: для всех d e D
3: сформировать T ( d );
4: упорядочить { T : T e T ( d )}

по убыванию величины N( T , d ) • len( T ) ;

5: вычислить W ( d ) согласно формуле (4);
6: X^W := X^W u { W ( d )};
7: отсортировать X^W и D

по убыванию значения функции W ;

8: сформировать

WW W DD D

H 1 • H 2 • .• H W d ) и H 1 • H 2 •.• H D d )

с применением Алгоритма 1 ;

9: D ‘ : = H° ;
10: для всех d e D ‘
11: X ^N: = 0 ;
12: для всех T e T ( d )
13: X N := X N u {N( T , d) };
14: отсортировать X ^N и T ( d )

по убыванию значения функции N;

15: сформировать

NN N TT T

H 1 • H 2 • - • H r ( t ( d )) и H 1 • H 2 • - • H r ( t ( d )) с применением Алгоритма 1 ;

16: T ‘ ( d ) : = H T ;
17: X ^N: = 0 ;
18: сформировать S ;
19: для всех s e S
20: вычислить N( s );
21: X ^N: = X N u {N( s )};
22: отсортировать X ^N и S

по убыванию значения функции N;

23: сформировать

NN N SS S

H 1 • H 2 • - • H N s ) и H 1 • H 2 • - • H S _s )

с применением Алгоритма 1 ;

24: вернуть H₁^S ;

Конец {Алгоритм 2} .

Как видно из представленного псевдокода, введение в рассмотрение n -грамм на множестве связей слов даёт меньшее, чем в случае использования биграмм [2], число вызовов Алгоритма 1 . Действительно, по сравнению с предложенным в [2] методом при вычислении функции (4) кластеризации n -грамм не производится, выполняется лишь их сортировка ( Шаг 4 Алгоритма 2 ). Кроме того, число n -грамм в общем случае по определению меньше, чем связей, а их кластеризация производится не по всем документам множества D на входе Алгоритма 2 , а лишь для максимально релевантных, составляющих множество D '.

Для снижения вычислительных затрат по выделению самих n -грамм целесообразно (если поиск ведётся на одном и том же текстовом множестве) запоминать значения найденных для них оценок. Кроме того, учитывая используемое в [9] предположение о возможности вхождения n -грамм друг в друга, представляет интерес их иерархизация по составу биграмм от «наиболее сильных» по оценке (1).

Исходные текстовые множества для апробации предложенного метода подбирались таким образом, чтобы сравнить образы, выделяемые в тексте:

• для отдельных исходных фраз и их совокупности с учётом возможных межфразовых связей;
• оценкой силы связи слов пары и последовательностей таких пар в составе n -грамм;
• анализом синтаксических зависимостей и привлечением меры TF-IDF при поиске связей слов.

Как и в [1, 2], основным критерием здесь была максимально полная и наглядная иллюстрация выявления в текстах контекстов использования слов-терминов и общей лексики. Сами же исходные текстовые множества полностью совпадали с задействованными в экспериментах из работы [2]. Для сравнения: число слов в документах первого множества варьировалось от 618 до

3765, число фраз – от 38 до 276. Аналогичные показатели для второго варианта исходного множества текстов – 218 и 6298 и соответственно 9 и 587.

В экспериментах по формированию единиц экспертных знаний участвовали две группы исходных фраз – каждая группа для своего варианта исходного текстового множества (табл. 2 и 3).

Табл. 2. Исходные фразы, предметная область «Философия и методология инженерии знаний»

№	Исходная фраза
1	Определение модели представления знаний накладывает ограничения на выбор соответствующего механизма логического вывода.
2	Под знанием понимается система суждений с принципиальной и единой организацией, основанная на объективной закономерности.
3	С точки зрения искусственного интеллекта знание определяется как формализованная информация, на которую ссылаются или используют в процессе логического вывода.
4	Факты обычно указывают на хорошо известные обстоятельства в данной предметной области.
5	Эвристика основывается на собственном опыте специалиста в данной предметной области, накопленном в результате многолетней практики.
6	Метазнания могут касаться свойств, структуры, способов получения и использования знаний при решении практических задач искусственного интеллекта.
7	Однородность представления знаний приводит к упрощению механизма управления логическим выводом и упрощению управления знаниями.
8	Отличительными чертами логических моделей являются единственность теоретического обоснования и возможность реализации системы формально точных определений и выводов.
9	Язык представления знаний на основе фреймовой модели наиболее эффективен для структурного описания сложных понятий и решения задач, в которых в соответствии с ситуацией желательно применять различные способы вывода.

Реализация предложенных методов на языке Java и результаты экспериментов представлены на портале НовГУ по адресу: в ZIP-архиве (редакция от 21.01.2017). Архив включает каталог с исполняемым jar-файлом, подкаталогами текстовых корпусов и обученной модели классификатора для выделения границ предложений (подробнее – там же, файл . В этом же каталоге находятся примеры аннотации (, найденных морфологических характеристик ( и связей для слов из исходных фраз (.

В качестве примера рассмотрим выделение составляющих образов для представленных в табл. 4 групп исходных фраз из табл. 2 и 3. Каждая группа составлена экспертом из эквивалентных либо дополняющих друг друга по смыслу фраз. Первая включает фразу №1 из табл. 3 (вместе с синонимической перифразой), для которой были получены вполне удовлетворительные результаты как на основе ме- ры TF-IDF в [1], так и на основе синтаксических связей в рамках биграмм в [2]. Две другие группы включают фразы из табл. 2, причём удовлетворительными по данным экспериментам оказались лишь отдельные результаты.

Табл. 3. Исходные фразы, предметная область «Математические методы обучения по прецедентам»

№	Исходная фраза
1	Переобучение приводит к заниженности эмпирического риска.
2	Переподгонка приводит к заниженности эмпирического риска.
3	Переподгонка служит причиной заниженности эмпирического риска.
4	Заниженность эмпирического риска является результатом нежелательной переподгонки.
5	Переусложнение модели приводит к заниженно-сти средней ошибки на тренировочной выборке.
6	Переподгонка приводит к увеличению частоты ошибок дерева принятия решений на контрольной выборке.
7	Переподгонка приводит к заниженности оценки частоты ошибок алгоритма на контрольной выборке.
8	Заниженность оценки ошибки распознавания связана с выбором правила принятия решений.
9	Рост числа базовых классификаторов ведёт к практически неограниченному увеличению обобщающей способности композиции алгоритмов.

Вместе с тем фразы внутри этих групп взаимно дополняют друг друга по смыслу, что немаловажно для предположения о соответствии им единого образа. Для сравнения по группам из табл. 4 в табл. 5 приведено общее число отобранных фраз ( N ), в том числе представляющих (с точки зрения эксперта) выразительные ЕЯ-средства ( N 1 ), синонимы ( N 2 ) и связи для понятий из упомянутых в исходных фразах ( N 3 ).

Табл. 4. Исходные фразы в составе групп

№	Группа исходных фраз
1	Нежелательная переподгонка является причиной заниженности средней величины ошибки алгоритма на обучающей выборке. Переобучение приводит к заниженности эмпирического риска.
2	Определение модели представления знаний накладывает ограничения на выбор соответствующего механизма логического вывода. Однородность представления знаний приводит к упрощению механизма управления логическим выводом и упрощению управления знаниями.
3	Эвристика основывается на собственном опыте специалиста в данной предметной области, накопленном в результате многолетней практики. Метазнания могут касаться свойств, структуры, способов получения и использования знаний при решении практических задач искусственного интеллекта.

В целях более полной оценки результативности поиска здесь также показано число представляемых найденными фразами выразительных средств языка

( N ₁ ¹ ), синонимов ( N ¹ ₂ ) и понятийных связей ( N ₃ ¹ ), где ∀ N _i ¹ есть сумма значений соответствующего показателя по отобранным фразам из относимых к i -му «подмножеству» значения N , i = 1,…,3.

Табл. 5. Отбор релевантных фраз для групп из табл. 4 на основе n-грамм

№	N	N 1	N 2	N 3	N ₁ 1	N ₂ 1	N ₃ 1
без привлечения базы синтаксических правил, оценка (5)
1	3	1	1	1	1	1	2
2	1	0	0	1	0	0	1
3	1	1	1	1	1	3	2
без привлечения базы синтаксических правил, оценка (6)
1	1	0	1	1	0	1	2
2	3	1	0	1	1	0	1
3	2	1	2	2	1	5	5
с привлечением базы синтаксических правил, оценка (5)
1	1	0	0	1	0	0	2
2	16	2	0	3	0	0	3
3	3	1	1	2	1	1	3
с привлечением базы синтаксических правил, оценка (6)
1	1	0	0	1	0	0	2
2	4	0	0	2	0	0	1
3	2	0	0	1	0	0	1

Аналогичные данные приводятся далее и по экспериментам с отдельными фразами из табл. 2 и 3. Сравнение при этом также ведётся с результатами построения аннотации предложенным в [2] методом по числу связей слов, относимых Алгоритмом 1 к «наиболее сильным» согласно оценке (1) при максимуме суммы её значений по всем связям слов исходной фразы (далее – по «наиболее сильным» связям, табл. 8 и 9).

Как видно из табл. 6–9 (строки для фраз из состава представленных в табл. 4 групп выделены более тёмным фоном), введение в рассмотрение совокупности исходных фраз, взаимно эквивалентных либо дополняющих друг друга по смыслу (с точки зрения носителя ЕЯ), совместно с n -граммами позволяет в ряде случаев более точно описывать выделяемый в текстах образ в виде сочетаний связанных по смыслу слов. Сказанное наглядно иллюстрируется сравнением со-отнош ений N _i ¹ N _i и N для всех i = 1,…,3 в табл. 6–9 и табл. 5 по группам и отдельным фразам в их составе.

Хорошим примером может послужить результат по группе фраз №3 из табл. 4, где на основе n -грамм, выделяемых без привлечения синтаксических правил, применением оценки (5) была выбрана фраза:

«Эвристика может пониматься как:

– научно-прикладная дисциплина, изучающая творческую деятельность;

– приемы решения проблемных (творческих, нестандартных, креативных) задач в условиях неопределенности, которые обычно противопоставляются формальным методам решения, опирающимся, например, на точные математические алгоритмы;

– метод обучения;

– один из способов создания компьютерных программ – эвристическое программирование».

Табл. 6. Отбор релевантных для отдельных представленных в табл. 2 фраз на основе n-грамм

№	N	N 1	N 2	N 3	N 1 ¹	N 2 ¹	N 3 ¹
без привлечения базы синтаксических правил, оценка (5)
1	2	0	0	2	0	0	1
2	4	0	0	2	0	0	2
3	4	1	0	3	1	0	3
4	2	1	1	0	1	1	0
5	3	0	1	2	0	1	2
6	3	0	0	1	0	0	1
7	3	0	0	1	0	0	2
8	2	1	0	2	1	0	2
9	3	0	0	3	0	0	5
без привлечения базы синтаксических правил, оценка (6)
1	1	0	0	1	0	0	1
2	1	0	0	1	0	0	1
3	2	1	0	1	2	0	1
4	1	0	1	0	0	1	0
5	1	0	1	1	0	1	1
6	10	1	0	4	1	0	3
7	3	0	0	1	0	0	2
8	6	1	0	2	1	0	2
9	2	0	0	2	0	0	4
с привлечением базы синтаксических правил, оценка (5)
1	5	0	0	3	0	0	3
2	2	0	0	1	0	0	1
3	19	0	3	4	0	2	4
4	7	1	0	4	1	0	4
5	3	0	2	1	0	2	1
6	3	1	0	2	1	0	2
7	3	0	0	2	0	0	2
8	1	1	0	0	1	0	0
9	1	0	0	1	0	0	1
с привлечением базы синтаксических правил, оценка (6)
1	4	0	0	2	0	0	2
2	1	0	0	0	0	0	0
3	2	0	0	0	0	0	0
4	7	1	1	3	1	1	3
5	1	0	1	1	0	1	1
6	1	1	0	1	1	0	1
7	1	0	0	0	0	0	0
8	1	1	0	0	1	0	0
9	1	0	0	1	0	0	1

Данная фраза отобрана из тезисов доклада Е.И. Ку-зичкиной на 7-й Всероссийской конференции студентов, аспирантов и молодых учёных «Искусственный интеллект: философия, методология, инновации» (2013 г.) и была единственной вошедшей здесь в аннотацию, при этом из слов наиболее значимых n -грамм во фразе присутствуют эвристика , в , задача , на , способ , решение , мочь . Одновременное наличие этих слов в отбираемой фразе позволяет соотнести понятия эвристика и знание , упоминаемые в исходных фразах, с приёмами решения задач , а также реализовать вариант языковых выразительных средств «в результате ⇔ как результат» плюс синонимические замены «способ ⇔ приём» , «опираться ⇔ основываться» и «практический ⇔ прикладной» .

Табл. 7. Отбор релевантных для отдельных представленных в табл. 3 фраз на основе n-грамм

№	N	N 1	N 2	N 3	N ₁ 1	N ₂ 1	N ₃ 1
без привлечения базы синтаксических правил, оценка (5)
1	1	1	0	0	1	0	0
2	1	1	1	0	1	1	0
3	2	2	2	1	1	1	2
4	1	1	1	0	1	1	0
5	2	0	1	1	0	1	1
6	1	1	1	1	1	1	1
7	9	1	0	5	1	0	5
8	2	0	0	1	0	0	1
9	6	1	0	4	1	0	4
без привлечения базы синтаксических правил, оценка (6)
1	1	1	0	0	1	0	0
2	1	1	1	0	1	1	0
3	2	2	2	1	1	1	2
4	1	1	1	0	1	1	0
5	2	0	1	1	0	1	1
6	1	1	1	1	1	1	1
7	3	1	0	2	1	0	2
8	2	0	0	1	0	0	1
9	6	1	0	4	1	0	4
с привлечением базы синтаксических правил, оценка (5)
1	1	1	0	0	1	0	0
2	1	1	1	0	1	1	0
3	2	2	2	1	1	1	2
4	1	1	1	0	1	1	0
5	2	0	2	2	0	1	2
6	1	0	1	0	0	1	0
7	9	1	0	3	1	0	3
8	4	0	0	0	0	0	0
9	1	0	0	0	0	0	0
с привлечением базы синтаксических правил, оценка (6)
1	1	1	0	0	1	0	0
2	1	1	1	0	1	1	0
3	2	2	2	1	1	1	2
4	1	1	1	0	1	1	0
5	3	0	2	2	0	1	2
6	3	1	3	1	1	2	1
7	5	1	0	3	1	0	3
8	3	0	0	0	0	0	0
9	1	0	0	0	0	0	0

Отметим, что определение эвристики, альтернативное первой фразе группы №3 из табл. 4, было и среди фраз, наиболее релевантных исходной №6 в табл. 2 по «наиболее сильным» связям (по TF-IDF): «Стремление преодолеть узость алгоритмического подхода привело к возникновению эвристического направления в разработке проблем искусственного интеллекта, где эвристика понимается как термин, противостоящий понятию алгоритма, который представляют собой “набор инструкций или четко сформулированных операций, составляющих определенную процедуру». Из «наиболее сильных» пар слов, которые служили основой отбора фраз, здесь содержится только «искусственный интеллект», что заметно снизило точность выделения составляющих образа исходной фразы. Фактически найденная фра- за лишь соотносит понятие искусственный интеллект из исходной фразы с понятием эвристика.

Преимущества поиска составляющих образа исходной фразы на основе n -грамм совместно с выделением связей слов по TF-IDF наиболее наглядно иллюстрируются экспериментами с фразой №3 из табл. 2, для которой контекстно-зависимым аннотированием по «наиболее сильным» связям слов в [2] удовлетворительного решения найдено не было.

Табл. 8. Отбор релевантных для представленных в табл. 2 фраз по «наиболее сильным» связям

№	N	N 1	N 2	N 3	N 1 ¹	N 2 ¹	N 3 ¹
без привлечения базы синтаксических правил
1	1	0	0	1	0	0	1
2	2	0	0	0	0	0	0
3	11	1	2	5	1	2	7
4	1	1	0	1	1	0	1
5	2	2	2	0	2	2	0
6	6	1	1	1	1	1	1
7	6	0	0	2	0	0	3
8	6	0	1	3	0	1	3
9	1	0	0	1	0	0	1
с привлечением базы синтаксических правил
1	2	0	0	1	0	0	1
2	4	1	0	2	1	0	2
3	1	0	0	0	0	0	0
4	3	1	2	1	1	2	1
5	4	0	0	2	0	0	5
6	1	1	1	0	1	1	0
7	6	0	0	2	0	0	3
8	1	0	0	0	0	0	0
9	5	0	0	2	0	0	2

Табл. 9. Отбор релевантных для представленных в табл. 3 фраз по «наиболее сильным» связям

№	N	N 1	N 2	N 3	N ₁ 1	N ₂ 1	N ₃ 1
без привлечения базы синтаксических правил
1	2	0	0	1	0	0	1
2	1	1	1	0	1	1	0
3	15	3	2	7	2	2	7
4	15	2	2	4	1	1	4
5	5	0	1	0	0	1	0
6	1	0	0	0	0	0	0
7	6	0	1	0	0	1	0
8	1	0	0	1	0	0	1
9	1	1	1	0	1	1	0
с привлечением базы синтаксических правил
1	1	1	0	0	1	0	0
2	1	1	1	0	1	1	0
3	15	3	2	7	2	2	7
4	15	2	2	4	1	1	4
5	5	0	1	0	0	1	0
6	11	0	9	4	0	1	4
7	1	0	0	0	0	0	0
8	1	0	0	1	0	0	1
9	1	1	1	0	1	1	0

Наилучшими здесь оказались результаты для n-грамм на связях слов по TF-IDF с отбором фраз в аннотацию на основе оценки (5), где в число четырёх результирующих вошла фраза: «При этом мо- дель знания понималась как формализованная в соответствии с определенными структурными планами информация, сохраняемая в памяти, и которая может быть им использована в ходе решения задач на основании заранее запрограммированных схем и алгоритмов». Соотнося представление о знании из исходной фразы с моделью знания, данная фраза посредством местоимённого наречия «как» также позволяет строить перифразы вида «определяется как ⇔ понимается как». Рассматриваемая фраза была в числе результирующих и в эксперименте с отбором фраз на основе «наиболее сильных» связей слов исходной фразы по TF-IDF. При этом в дополнение к результатам аннотирования по n-граммам здесь также удалось выделить ряд связей понятий из исходной фразы (в первую очередь – для понятия информация) с другими понятиями той же предметной области, например: «Согласно Дж. фон Нейману, информация имеет двоякую природу: она может трактоваться как программа или алгоритм по работе с данными и как информация об объектах, т.е. те данные, с которыми программа работает».

Точность выделения составляющих образа исходной фразы на основе n -грамм можно наглядно оценить пословным сравнением наиболее значимых (т.е. «наиболее сильных») связей и n -грамм, отвечающих кластеру наибольших значений оценки (3) из формируемых Алгоритмом 1 , относительно документов из числа максимально релевантных одновременно и по критерию (4), и по «наиболее сильным» связям. В эксперименте, результаты которого приведены в табл. 10, для исходной фразы №1 из табл. 2 указанные связи и n -граммы по составу слов полностью совпадают. В то же время для фраз №1, 7 и 9 из табл. 3 не нашлось документов, релевантных одновременно по двум вышеназванным критериям.

Представленный же в табл. 11 эксперимент дал полное совпадение состава слов рассматриваемых биграмм и n -грамм одновременно по фразе №4 из табл. 2 и фразе №1 табл. 3. Тем не менее, одновременно релевантных документов по критерию (4) и «наиболее сильным» связям здесь не нашлось для большего числа фраз: №3, 6, 7, 9 из табл. 2, а также фраз №7 и 8 табл. 3.

Как видно из примера, введение связей слов по TF-IDF как альтернативы синтаксическим отношениям в рассматриваемом ранжировании документов позволяет в большей степени учитывать термины, что немаловажно для предметных областей, где их доля сравнима с долей общей лексики в текстах.

Помимо сравнения наиболее значимых связей и n -грамм, эффективность предложенного в настоящей работе метода контекстно-зависимого аннотирования, как и в [2], оценивается сопоставлением с результатами поиска фраз, близких исходной, на готовом синтаксически размеченном текстовом корпусе на основе слов и их сочетаний (табл. 13), предварительно выделенных экспертом и представляющих термины предметной области.

Табл. 10. Сравнение наиболее значимых связей и n-грамм для отбора фраз (без привлечения синтаксических правил, оценка (5))

№ исх. фразы	Слова, не вошедшие в наиболее значимые
№ исх. фразы	связи	n -граммы
Философия и методология инженерии знаний
2	знание	и, на, с
3	знание, c, или, использовать
4		на
5	на, собственный, опыт, область
6	и
7	представление, и
8	реализация, система, и, возможность
9	с, понятие, структурный, соответствие, представление, в, ситуация	различный
Математические методы обучения по прецедентам
2	заниженность
3	заниженность, причина
4	заниженность, являться
5	к, средний
6	приводить, к	принятие, решение
8		принятие

Табл. 11. Сравнение наиболее значимых связей и n-грамм для отбора фраз (с привлечением синтаксических правил, оценка (5))

№ исх. фразы	Слова, не вошедшие в наиболее значимые
№ исх. фразы	связи	n -граммы
Философия и методология инженерии знаний
1	знание, выбор
2	основать, организация
5	в, на, специалист, результат, практика, область	опыт, накопить
8	определение, возможность
Математические методы обучения по прецедентам
2	заниженность
3	заниженность
4	заниженность, являться
5	средний
6	приводить, к
9	алгоритм, к

Как видно из табл. 6, 7 и 12, наряду с автоматизацией поиска указанных слов и сочетаний, предложенный метод позволяет здесь в среднем в 17 раз сократить выход фраз, не релевантных исходной ни по описываемому фрагменту знания, ни по языковым формам его выражения, что на 11,77% выше аналогичного показателя в работе [2]. В настоящей работе этот показатель рассчитывался как усреднённое значение соотношения величины N из табл. 12 и среднего значения указанной ве- личины, соответственно, в табл. 6 и 7 (для разных вариантов выделения связей слов и оценок (5) либо (6)) по отдельным исходным фразам из табл. 2 и 3. Общее число отобранных фраз, т.е. N, выбрано нами для сравнения в предположении худшего случая, когда среди отбираемых фраз нет релевантных исходной.

Табл. 12. Отбор релевантных фраз из текстов Национального корпуса русского языка [11]

№	¹	²	³	⁴	⁵	⁶	⁷	⁸	9
для исходных фраз из табл. 2
N	13	73	2	15	83	33	79	224	20
N 1	0	0	0	0	0	0	0	0	0
N 2	0	0	0	0	0	0	0	0	0
N 3	2	5	0	1	5	3	3	2	2
N ₃ 1	2	6	0	2	4	3	3	2	2
для исходных фраз из табл. 3
N	56	1	1	1	24	17	21	5	2
N 1	0	0	0	0	0	0	0	0	0
N 2	0	0	0	0	0	0	0	0	0
N 3	0	0	0	0	0	0	0	1	0
N ₃ 1	0	0	0	0	0	0	0	1	0

Табл. 13. Слова и их сочетания для отбора релевантных фраз из Национального корпуса русского языка

№	Слова и сочетания слов
по исходным фразам из табл. 2
1	модель – представление – знание, механизм – логический – вывод
2	система – суждение, объективный – закономерность
3	процесс – логический – вывод
4	данный – предметный – область
5	эвристика, данный – предметный – область
6	метазнания, свойство – знание, структура – знание, способ – получение – знание, способ – использование – знание, задача – искусственный – интеллект
7	представление – знание, управление – вывод, механизм – логический – вывод, управление – знание
8	теоретический – обоснование – модель, логический – модель, система – вывод, система – определение, точный – вывод
9	язык – представление – знание, фреймовый – модель, способ – вывод
по исходным фразам из табл. 3
1	переобучение, эмпирический – риск
2	эмпирический – риск
3	эмпирический – риск
4	эмпирический – риск
5	ошибка – средний
6	частота – ошибка, контрольный – выборка
7	оценка – частота, контрольный – выборка
8	ошибка – распознавание, правило – принятие – решение
9	базовый – классификатор

4. Некоторые технические детали и допущения

Классическая постановка задачи кластерного анализа [8] предполагает, что каждый элемент последовательности, разбиваемой на кластеры с применением Алгоритма 1, представлен в ней ровно один раз. Как и в [1, 2], с целью наглядности изложение предлагаемого в настоящей работе метода неявно сод ержит предположение о выполнении данного условия.

Извлечение текста из PDF-файла, морфологический анализ словоформ, а также выделение синтаксических связей выполнялись теми же методами, что и в [2]. Для выделения границ предложений в тексте по знакам препинания использовалась обученная модель классификатора, построенного с применением интегрированного пакета Apache OpenNLP [12]. Обучение классификатора распознаванию границ предложений осуществлялось на основе размеченных данных в виде газетных текстов на русском языке (2010 г., всего 1 млн. фраз) из Leipzig Corpora [13]. Здесь, как и в работе [2], при выборе исходных данных для обучения авторы ограничились максимальным по объёму русскоязычным текстовым корпусом.

Заключение

Основной результат данной работы - совершенствование представленного в [2] метода формирования корпуса тематических текстов, релевантных фрагменту знаний и формам его выражения в языке .

Отметим, что предложенный в настоящей работе вариант контекстно-зависимого аннотирования ориентирован в первую очередь на поиск форм выражения связей понятий в текстах той предметной области, где доля общей лексики сравнима с долей терминов. Поэтому для максимально эффективного решения основной задачи его следует использовать именно как дополнение результатов работ [1, 2].

Тема отдельного рассмотрения – скорость и точность морфологического анализа, необходимого для выделения связей слов. Здесь представляет интерес реализация предложенного в работе метода на языке Python с привлечением библиотеки NLTK [14] и морфологического анализатора Pymorphy [15] как альтернатива реализованному авторами решению на базе библиотеки русской морфологии [16].

Работа выполнена при поддержке Министерства образования и науки РФ (базовая часть госзадания), а также гранта РФФИ (№16-01-00004).

Список литературы Выделение знаний и языковых форм их выражения на множестве тематических текстов анализом связей слов в составе N-грамм

Михайлов, Д.В. Выделение знаний и языковых форм их выражения на множестве тематических текстов: подход на основе меры TF-IDF/Д.В. Михайлов, А.П. Козлов, Г.М. Емельянов//Компьютерная оптика. -2015. -Т. 39, № 3. -С. 429-438. - DOI: 10.18287/0134-2452-2015-39-3-429-438
Михайлов, Д.В. Выделение знаний, языковых форм их выражения и оценка эффективности формирования множества тематических текстов/Д.В. Михайлов, А.П. Козлов, Г.М. Емельянов//Компьютерная оптика. -2016. -Т. 40, № 4. -С. 572-582. - DOI: 10.18287/2412-6179-2016-40-4-572-582
Шеннон, К. Работы по теории информации и кибернетики/К. Шеннон; пер. с англ. -М.: Иностранная литература, 1963. -С. 669-686.
Sidorov, G. Syntactic dependency based N-grams in rule based automatic English as second language grammar correction/G. Sidorov//International Journal of Computational Linguistics and Applications. -2013. -Vol. 4(2). -P. 169-188.
Кудинов, М.С. Частичный синтаксический разбор текста на русском языке с помощью условных случайных полей/М.С. Кудинов//Машинное обучение и анализ данных. -2013. -Т. 1, № 6. -С. 714-724. -ISSN 2223-3792.
Москович, В.А. Дистрибутивно-статистический метод построения тезаурусов: современное состояние и перспективы/В.А. Москович. -М., 1971. -66 с.
Tanimoto, T.T. An elementary mathematical theory of classification and prediction/T.T. Tanimoto. -New York: International Business Machines Corporation, 1958. -10 p.
Загоруйко, Н.Г. Прикладные методы анализа данных и знаний/Н.Г. Загоруйко. -Новосибирск: Издательство института математики, 1999. -270 с.
Frantzi, K. Automatic recognition of multi-word terms: the C-value/NC-value method/K. Frantzi, S. Ananiadou, H. Mima//International Journal on Digital Libraries. -2000. -Vol. 3, Issue 2. -P. 115-130. - DOI: 10.1007/s007999900023
Бродский, А. Алгоритмы контекстно-зависимого аннотирования Яндекса на РОМИП-2008/А. Бродский, Р. Ковалев, М. Лебедев, Д. Лещинер, П. Сушин, И. Мучник//Труды РОМИП 2007-2008. -2008. -С. 160-169.
Национальный корпус русского языка . -URL: http://www.ruscorpora.ru/(дата обра-щения 09.03.2017).
Apache OpenNLP . -URL: https://opennlp.apache.org/(дата обращения 10.03.2017).
Leipzig Corpora Collection Download Page . -URL: http://wortschatz.unileipzig.de/en/download (дата обращения 10.03.2017).
Natural Language Toolkit . -URL: http://www.nltk.org (дата обращения 17.03.2017).
Pymorphy -NLPub . -URL: https://nlpub.ru/Pymorphy (дата обращения 17.03.2017).
Russianmorphology: Russian Morphology for lucene . -URL: http://code.google.com/p/russianmorphology/(дата обращения 19.03.2017).

Еще