Использование интеллектуальных алгоритмов для обработки текстовой информации
Автор: Энгель Екатерина Александровна
Журнал: Сибирский аэрокосмический журнал @vestnik-sibsau
Рубрика: Математика, механика, информатика
Статья в выпуске: 2 (28), 2010 года.
Бесплатный доступ
С целью создания программной системы для адаптивного текстового реферирования разработаны и реализованы в виде отдельного модуля интеллектуальные алгоритмы автоматического определения жанра текста. Модуль позволяет нормализовать 45 статистических параметров: лексических, синтаксических, позиционных и дискурсивных; группировать гетерогенные параметры с помощью алгоритма K-средних; выполнять факторный анализ; ранжировать параметры, существенные для идентификации научного жанра, публицистики и беллетристики, посредством двух алгоритмов.
Обработка текстовой информации, интеллектуальные алгоритмы, алгоритм k-средних
Короткий адрес: https://sciup.org/148176201
IDR: 148176201
Текст научной статьи Использование интеллектуальных алгоритмов для обработки текстовой информации
В течение прошлого десятилетия автоматическое определение жанра текста стало важной проблемой, исследованной в пределах такой научной области, как обработка естественного языка. Будучи интересной с теоретической точки зрения, задача определения жанра тесно связана с развитием информационного поиска цифровых библиотек и реферирования. Автоматическую идентификацию интернет-жанров можно считать отдельной предметной областью, которая обращается к реальной проблеме информационной перегрузки и играет существенную роль в улучшении часто неадекватных результатов работы поисковых машин.
Включение модуля автоматического определения жанра текста позволяет оптимизировать и повысить эффективность системы текстового реферирования. Стимулом для создания такого модуля стали результаты оценки эффективности следующих систем автоматического реферирования: Event Tracking Summarizer, Subject Search Summarizer, Copernic Summarizer и Open Text Summarizer. Программный продукт Event Tracking Summarizer, специально разработанный для обработки беллетристики, оказался эффективнее других систем автоматического реферирования в среднем на 15 % для беллетристики и менее эффективным для других жанров. Следовательно, возникает необходимость в создании адаптивной системы текстового реферирования на основе алгоритмов, оптимизированных для конкретного текстового жанра.
У любой NLP-системы есть модуль предварительной обработки, который в зависимости от текстовых задач обработки выполняет лексическое и синтаксическое разложение, стемминг, аннотацию и синтаксический парсинг. Результатом предварительной обработки является модель объекта, которая отражает лингвистические характеристики входного текста, например слов, фраз, предложений, параграфов. Далее лингвистические характеристики ранжируются, в результате чего получается список текстовых параметров. Параметры с самыми высокими весами затем сравниваются с эталонными моделями, хранящимися в лингвистической базе данных. Входной текстовый жанр идентифицируется в зависимости от степени соответствия между распределением параметров в этом тексте и в одной из эталонных моделей. На следующей стадии система применяет алгоритмы реферирования, оптимизированные для данного жанра (рис. 1).
Предметом данной статьи является задача определения жанра текста; алгоритмы реферирования выходят за рамки данной публикации.
Параметры, идентифицирующие жанр. Идентификация жанра текста основана на анализе набора параметров, являющихся лингвистическими признаками с назначенными весами, т. е. некоторыми числовыми значениями, отражающими его важность для данного текста. Следовательно, процесс идентификации жанра включает две задачи: генерацию набора лингвистических признаков и разработку алгоритмов ранжирования признаков.
В работе М. Сантини (URL: приводятся убедительные доказательства отсутствия характеристических или, по крайней мере, общепринятых наборов текстовых параметров для идентификации жанра, однако общая тенденция состоит в том, чтобы использовать содержательные, а не служебные термины. Это объясняется тем, что число служебных слов ограничено, они встречаются в любом тексте и различия в их распределении обеспечивают надежные данные о различиях жанра. М. Сантини использует такие параметры, как признаки части речи, 50 самых общих слов, символы пунктуации, теги HTML, длина веб-страницы, которые определяют аспекты жанра (URL: . Эти параметры лежат в основе различных методов ранжирования и обеспечивают достаточно эффективную идентификацию интернет-жанров.
Предлагаемый в данной статье модуль отличается от существующих систем распознания интернет-жанров в следующих аспектах: входной файл для автоматического реферирования имеет формат (.txt) и особенности расположения документа (например, теги HTML) незначительны; главная идея состоит в том, чтобы разработать адаптивные алгоритмы реферирования, основанные на параметрах, существенных для данного жанра, именно поэтому параметры содержания также должны быть учтены; служебные слова считают словами остановки и игнорируются во время текстового реферирования.
Несмотря на то что в лингвистике существуют различные интерпретации классификации жанра, большинство ученых соглашается с наличием ряда основных различий между беллетристикой и научной литературой (URL: . Базируясь на этих различиях, нами были составлены 45 параметров, разбитых на четыре группы (табл. 1).
Лексические параметры включают средние частоты имен собственных и различные типы местоимений в тексте (A/T) и предложениях (A/S). Гипотеза нашего исследования заключалась в том, что средние частоты имен собственных в беллетристике намного выше, чем в научной литературе, потому что беллетристика сосредоточена на названиях персонажей, мест и событий, которые составляют главные элементы мира воображения. Это же относится и к местоимениям, потому что они служат заменами для имен собственных и существительных и для фраз, составленных из имен собственных, например таких, как Джон Смит. Неопределенные местоимения более типичны для научной литературы, так как они являются проявлениями безличного повествования. Нами также полагалось, что соединительные слова, которые выражают причинно-следственные отношения, т. е. при-

Рис. 1. Обобщенная схема адаптивной текстовой системы реферировании
чину, сроки и условия (например, потому что , с тех пор , если и т. д.), более характерны для научной литературы, так как они выражают ее логическую природу, в то время как соединительные слова, которые выражают контраст, время и дополнение, используются чаще в беллетристике, чтобы изобразить временную последовательность событий или обеспечить сравнительные описания. Средняя длина прямой речи в словах (AL/W) также предполагалась значительно более высокой в беллетристике.
Позиционные параметры для указанных лексических единиц были сформулированы согласно среднему значению и принципам различия, применяемым в информационной поисковой теории (URL: http://www. . Эти принципы гласят, что термины, которые встречаются в первой части текста, важнее найденных только во второй или третьей части, и термины, используемые в начале параграфа, более существенны, чем о стальные. Поскольку местоимения выступают в качестве замены имен собственных и существительных, их частота должна быть выше во второй части текста, а не в начале. A/S_1P, A/T_1/3, A/T_2/3 обозначают среднюю частоту имен собственных и существительных в первом предложении параграфа, 1/3 и 2/3 частях текста соответственно.
Также очевидны важные различия между следующими статистическими параметрами беллетристики и научной литературы: средней длиной предложения в словах (ASL/W), дисперсией длины предложения в словах (DSL/W), средней длиной параграфа в словах (APL/W), средней длиной параграфа в предложениях (APL/S), дисперсией длины параграфа в словах (DPL/W) и дисперсией длины параграфа в предложениях (DPL/S). Дисперсия здесь рассматривается как среднее абсолютное отклонение, представленное формулой
1 N
D =-Z x - M ,
N i = 1
где М – среднее значение выборки размера N.
Представленные в табл. 1 параметры позволяют обнаруживать содержательные термины во время последующего текстового реферирования. В теории информационного поиска и реферирования самые важные содержательные термины – существительные. Личные, взаимные, рефлексивные, вопросительные местоимения заменяют существительные, которые могут быть обнаружены с помощью решения анафоры; демонстративные и притяжательные местоимения предварительно изменяют существительные, служа, таким образом, их индикаторами.
Экспериментальные результаты. Чтобы проверить адекватность параметров, нами было проведено три ряда экспериментов, основанных на соответствии тестового лингвистического корпуса справочному корпусу. В качестве справочного лингвистического корпуса использовались 130 работ беллетристики, загруженных с сайта Gutenberg (URL: Main_Page?Sess=25607a1aa5). Для первого ряда экспериментов тестовый корпус состоял из работ одного автора. На основе представленных выше параметров справочный корпус был разделен на две, три, четыре и пять групп, чтобы узнать, находились ли работы, написанные одним и тем же автором, в пределах одной группы. Гипотеза была следующей: если параметры были выбраны адекватно, то такие работы должны принадлежать одной и той же группе, если же эти работы находятся в пределах различных групп, то это свидетельствует о несоответствии параметров. Во втором ряду экспериментов тестовый корпус был представлен статьями одного научного журнала. Статьи добавлялись к справочному корпусу, который был разделен на то же самое число групп. Для третьего ряда экспериментов тестовый корпус составляли статьи, взятые с одного новостного сайта.
Эксперименты показали, что когда число групп в справочном корпусе было от одной до четырех, тексты тестового корпуса находились в пределах той же самой группы. Когда число групп равнялось пяти, тестовый корпус
Таблица 1
Параметры для распознания жанра текста
Необходимо отметить, что при числе групп, равно пяти, только один текст тестового корпуса классифицировался неправильно. Дальнейшее увеличение числа групп ухудшает классификацию.
Чтобы провести эксперименты, были составлены списки местоимений и дискурсивных терминов, создано оригинальное программное обеспечение и разработаны следующие алгоритмы:
-
– алгоритм распознания имен собственных;
-
– алгоритм распознания фраз с именами собственными;
-
– алгоритм распознания первых предложений в параграфах;
Таблица 4.
Экспериментальные результаты, полученные по тестовому корпусу из 10 статей каждого новостного сайта (число групп – 5, размер справочного корпуса – 140)
Неправильно классифицированный текст (заголовок) |
Автор |
Параметры, способствующие неправильной классификации |
Число текстов автора |
The Forsyte Saga, Volume II. Indian Summer of a Forsyte and In Chancery |
John Galsworthy |
Средняя длина прямой речи (больше справочной для данного жанра) |
4 |
Sister Carrie |
Theodore Dreiser |
Средняя длина параграфа в словах (меньше справочной для данного жанра) |
4 |
Ersatz Eternal |
A. E. Van Vogt |
Средняя длина параграфа и дисперсия предложений (меньше справочной для данного жанра) |
3 |
Liza of Lambeth |
W. Somerset Maugham |
Средняя длина параграфа в словах (меньше справочной для данного жанра). Дисперсия длины параграфа в предложениях и словах (меньше справочной для данного жанра) |
3 |
The Happy Prince |
Oscar Wilde |
Средняя длина параграфа в предложениях (меньше справочной для данного жанра). Дисперсия длины параграфа в предложениях и словах (меньше справочной для данного жанра) |
3 |
The Prince and The Pauper, Complete |
Mark Twain (Samuel Clemens) |
Среднее число личных местоимений в тесте (меньше справочного для данного жанра) |
4 |
The Pickwick Papers |
Charles Dickens |
Среднее число личных местоимений в предложениях (меньше справочного для данного жанра) |
11 |
The Jungle Tales of Tarzan |
Edgar Rice Burroughs |
Среднее число личных и указательных местоимений в тесте (меньше справочного для данного жанра). Средняя длина прямой речи (меньше справочной для данного жанра). Средняя длина параграфа в предложениях (больше справочной для данного жанра) |
8 |
Таблица 2
Экспериментальные результаты, полученные по тестовому корпусу, составленному из работ одного и того же автора (число групп – 5, размер справочного корпуса – 130)
Таблица 3
Экспериментальные результаты, полученные по тестовому корпусу, включающему по 6 статей каждого научного журнала (число групп – 5, размер справочного корпуса – 136)
Analysis: Taliban talks strategy attracts backers (URL:
asiapcf/10/28/analysis.taliban/index.h tml)
CNN
Среднее число указательных местоимений в предложениях и в первых предложениях параграфов (больше справочного для данного жанра)
-
– алгоритм распознания прямой речи;
-
– алгоритм разбиения текста на части в следующих отношениях: 1/3, 2/3.
Для текстового разложения использовались программное обеспечение tokenizer и splitter (URL: .
Распознание имен собственных выполнялось соглас- но следующему алгоритму:
-
1) выбираются все символы с начальной заглавной буквой. Если символ не находится в начальной позиции в предложении, то он маркируется как имя собственное и попадает в список имен собственных;
-
2) проверяются все символы, которые открывают предложения. Если символ находится в списке имен собственных, то его маркируют как имя собственное.
Для ранжирования параметров и кластеризации корпуса необходимы более сложные алгоритмы. Главной проблемой является гетерогенный характер параметров: у некоторых из них были вероятностные оценки, в то время как другие представляли средние значения. Чтобы разрешить эту проблему, равно как и проблему кластеризации корпуса, использовался метод K-средних, группирующий N объектов признакового пространства в постоянное число k кластеров, k < N (URL: courses/spring 07/cps296.2/papers/.
Предположим, что корпус включает N текстов и для каждого из них вычисляются М средних значений параметров текста. Для их нормализации используется линейная нормализация относительно минимального и максимального значения, которая может быть представлена формулой
Хnorm = (Х – Хmin) / (Хmax – Хmin), где Х – исходное среднее значение параметра; Хmax и Хmin – максимальное и минимальное значение параметра соот- ветственно.
После нормализации тексты характеризуются набором параметров, представляющих точки в многомерном единичном кубе. Далее осуществляется кластеризация полученного множе ства точек с помощью авторской программы, реализующей метод K -средних.
Также был разработан метод выделения существенных параметров, идентифицирующих конкретный жанр. Метод состоит из трех этапов.
Первый этап – составление обучающего и тестового лингвистических корпусов текстов, пропорционально представляющих каждый жанр. Тексты были отобраны из американского (ANC) и британского лингвистических корпусов (BNC) (табл. 5).
Второй этап – осуществление факторного анализа параметров за два шага.
Первый шаг формирует вес w1i. Для распознания жанра текста используются две нейросети бинарной классифика- ции: выходной сигнал первой сети равен 1, если жанр текста беллетристика; в противном случае классификацию продолжает вторая нейросеть, выходной сигнал которой равен 1, если жанр текста научный, и 0, если жанр текста публицистика. Далее осуществляется анализ значимости нейросетевых входов, которые представляют собой числа в диапазоне от 0 до 1. Затем параметры ранжируются следующим образом: каждому параметру i присваивается вес w1i, соответствующий значимости его как нейросетевого входа.
Второй шаг формирует вес w 2 i. Для этого вычисляются средние значения параметров для каждого жанра. Далее определяется вес i- го параметра w 2 i :
| Х ( G 1) – Х ( G 2)| / max( Х ( G 1), Х ( G 2)) , (1)
где Х ( G 1), Х ( G 2) – среднее значение параметра i для первого и второго жанра соответственно. Полученный список параметров w 2 i нормализуется.
Третий этап – отбор из каждого жанра текста n наиболее значимых параметров для идентификации жанра текста, осуществляемый по формуле
M
Z W ji
—----= K, w„ e S , если w > K , (2)
M где wji – вес i-го параметра, полученного на шаге; S – множество существенных параметров; М – общее число параметров текста; K – порог, т. е. параметры, веса которых превышают или равны K, являются наиболее значимыми при идентификации жанра текста. Наборы параметров, наиболее значимых для идентификации жанров текста (беллетристики, публицистики и научного жанра), представлены в табл. 6.
Анализ представленных выше данных подтверждает следующие гипотезы:
-
– соединительные слова, которые выражают временные отношения, важны для беллетристики;
-
– соединительные слова, которые выражают условия, важны для научных текстов;
-
– неопределенные местоимения важны для научной литературы.
Гипотеза о важности имен собственных для беллетристики была частично подтверждена. Оказалось, что распределение имен собственных еще более важно для газетных текстов.
Гипотеза о важности причинно-следственных связей для научных текстов не подтвердилась.
Экспериментальные результаты показали, что программная система распознала правильно 100 % научных текстов, 96 % газетных текстов (4 % из них были идентифицированы как научные), и 86,5 % текстов беллетристики (3,5 % были распознаны как научные). Средняя ошибка классификации составила 94,75 %. Система распознавания была оценена на текстах соответствующих жанров, взятых из BNC и АNC (табл. 7 и 8).
Структура обучающего и тестового лингвистических корпусов текстов
Таблица 5
Корпус |
Беллетристика |
Научный жанр |
Публицистика |
|||
Кол-во текстов |
Кол-во слов |
Кол-во текстов |
Кол-во слов |
Кол-во текстов |
Кол-во слов |
|
BNC |
100 |
3 187 732 |
50 |
1 573 825 |
50 |
1 428 367 |
ANC |
70 |
2 865 623 |
50 |
1 205 912 |
50 |
1 346 843 |
В отличие от существующих исследований, нацелен- щее, доступное, научное, экономика и политика. Систе- ных на адаптивные алгоритмы распознания интернет- ма представляет коммерческий продукт и не дает инфор- жанров, эта работа была вдохновлена идеей адаптивного мации о причинах такого выбора жанров и алгоритмах текстового реферирования. Одна из лучших систем тако- для их распознавания. го типа – IntellexerSummarizer (URL: http://summarizer. Данное исследование было проведено на заранее оп- – осуществ- ределенных жанрах, т. е. в нем проанализированы пара- ляет автоматическое распознание таких жанров, как об- метры текстов, жанр которых уже определен в BNC и ANC. Таблица 6 Параметры, наиболее значимые для идентификации жанров текста Параметры Формула Вес Параметры, наиболее значимые для идентификации беллетристики Наиболее значимые параметры (нейросетевой факторный анализ): притяжательные местоимения A/T 0,832 398 соединительные слова, которые выражают временные отношения A/T 0,385 037 имена собственные A/T_1/3 0,356 929 3 рефлексивные местоимения A/T 0,378 697 неопределенные местоимения A/T 0,350 852 взаимные местоимения A/T_2/3 0,349 781 Наиболее значимые параметры (метод средних): взаимные местоимения A/S 0,525 304 Параметры, наиболее значимые для идентификации научных текстов Наиболее значимые параметры (нейросетевой факторный анализ): притяжательные местоимения A/S_1P 0,811 473 длина предложений ASL/W 0,584 083 соединительные слова, выражающие условия A/T 0,421 059 Наиболее значимые параметры (метод средних): притяжательные местоимения A/T_2/3 0,498 94 неопределенные местоимения A/S_1P 0,657 554 имена собственные A/S 0,719 157 относительные местоимения A/S 0,432 064 Параметры, наиболее значимые для идентификации публицистики Наиболее значимые параметры (нейросетевой факторный анализ): взаимные местоимения A/S 0,643 268 притяжательные местоимения A/S 0,585 424 имена собственные A/S_1P 0,582 093 фразы с именами собственными A/T 0,543 224 указательные местоимения A/S 0,398 675 Наиболее значимые параметры (метод средних): имена собственные A/S_1P 0,422 16 имена собственные A/S 0,345 877
Таблица 7
Качество распознания первой нейросети
Средняя ошибка классификации – 91,5 %.
Показатель |
Беллетристика |
Nonfiction |
Количество текстов |
170 |
100 |
Количество текстов, распознанных правильно |
147 |
100 |
Количество текстов, распознанных неправильно |
23 |
0 |
Процент распознавания |
86,5 |
100 |
Таблица 8
Качество распознания второй нейросети
Показатель |
Научный жанр |
Публицистика |
Количество текстов |
100 |
100 |
Количество текстов, распознанных правильно |
100 |
96 |
Количество текстов, распознанных неправильно |
0 |
4 |
Процент распознавания |
100 |
96 |
Средняя ошибка классификации – 98 %.
Как было отмечено выше, пр едложенная программная система делает ошибки в определении жанра и такие случаи особенно интересны. Например, если система признает текст как научный, хотя в BNC или ANC он определен как газетный, то было бы полезно проанализировать параметры, из-за которых система распознала текстовый жанр неправильно. Эти параметры могут отличать некоторые поджанры в пределах данного жанра – так называемые d-жанры, что может наложиться на поджанры, которые различают в литературе, такие как научная фантастика, исторический роман, документ для обсуждения и т. д. Алгоритмы реферирования, оптимизированные для каждого из d-жанров, обеспечат необходимую гибко сть – одно из важных современных требований для систем рассматриваемого типа.
USING INTELLIGENT ALGORITHMS FOR THE TEXT INFORMATION PROCESSING
For the purpose of adaptive text summarization the software for automatic genre recognition has been developed base on intelligent algorithms. The software allows creation of normalizing 45 statistic, lexical, syntactic, positional, and discursive parameters and clustering of heterogeneous parameters with the help of k-means algorithm, verification of the parameters, selection of the parameters highly salient for academic, newspaper, and fiction texts by means of two factor analysis algorithms.