Разработка экспертной системы для стилистического анализа научных публикаций на английском языке

Бесплатный доступ

Описан процесс разработки продукционной экспертной системы для анализа научных публикаций на английском языке при помощи оболочки CLIPS. Приводится обзор существующих программных решений, описывается проектирование и основные стадии разработки экспертной системы. Предлагаются варианты применения системы в корпусных исследованиях научного языка неносителей (L2).

Оболочка clips, продукционная экспертная система, научная публикация

Короткий адрес: https://sciup.org/147246580

IDR: 147246580   |   DOI: 10.17072/1993-0550-2020-4-43-50

Текст научной статьи Разработка экспертной системы для стилистического анализа научных публикаций на английском языке

В настоящее время одним из требований к научной деятельности является публикация результатов исследований в научных журналах. Особую значимость приобрели публикации в зарубежных изданиях, так как индекс цитирования англоязычных статей выше, чем у статей на любом другом языке [1, 2]. Несмотря на существование известных систем редактирования, принятых в разных предметных областях (MLA, APA, IEEE и т.д.), каждое издательство имеет собственные правила и требования к оформлению статей, стилю их написания, используемой терминологии, к синтаксису и грамматике; эти требования четко прослеживаются при анализе некоторого количества статей издания [3].

Анализ уже опубликованных научных статей и оценка собственной работы на соответствие требованиям журнала позволили бы

авторам улучшить качество текста статьи и тем самым повысить шансы на ее публикацию.

Для решения данной проблемы программными средствами существует несколько инструментов анализа научных публикаций выбранного издательства с формированием рекомендаций по изменению статьи. Рекомендации могут содержать указания на необходимость изменить стиль статьи, используя иные языковые средства, например определенные синтаксические и грамматические конструкции, рекомендованные конкретным издательством, придерживающимся определенного редакторского стиля (MLA [4], APA [5], Turabian etc. [6]),

В настоящее время имеются сервисы, отчасти реализующие указанные функции, например, "After the Deadline" и "Proofreading Tool", более подробный анализ принципов работы которых представлен ниже.

Вместе с тем, эти средства имеют весьма ограниченный набор анализируемых язы- ковых явлений и не могут быть модифицированы под задачи конкретного пользователя, нивелирование этих недостатков определяет актуальность и новизну нашей работы.

Существует необходимость в программном продукте, который предложит пользователю широкий спектр возможностей по обработке текста и сделает более качественную проверку на соответствие стилю, так как определяет цель исследования – описать разработку продукционной экспертной системы для анализа научных публикаций на английском языке. Для достижения поставленной цели необходимо: рассмотреть варианты реализации экспертной системы; провести анализ имеющихся разработок экспертных систем, выполнить обзор методов анализа научных публикаций; сформировать требования и ограничения к системе, выбрать инструментальные средства, разработать архитектуру системы, подготовить сценарии тестирования системы.

Практическая значимость работы заключается в возможности применения разработанной экспертной системы в учебном процессе при проведении курса "Академическое письмо на английском языке", а также исследователями, планирующими опубликовать результаты своих трудов в научных зарубежных журналах для повышения уровня соответствия своих статей стилистическим требованиям научных журналов.

Существующие решения и подходы к анализу публикаций

Академическое письмо на иностранном языке сложностью и жесткими требованиями к стилю создает определенные трудности молодым исследователям [7]. Дж. Паркинсон и Дж. Масгрейв провели сравнительное исследование публикаций двух групп студентов: иностранных студентов и студентов, обучающихся по программе "Английский для академических целей" (EAP).

Используя в качестве примеров уже опубликованные статьи, они указали на наиболее часто встречающиеся ошибки, связанные с применением сложных конструкций с существительными в статьях, написанных начинающими авторами, объяснили наиболее распространенные причины возникновения ошибок, а также объяснили, как их избежать в собственной работе [8].

Необходимость тщательной корректуры публикаций начинающих авторов рассматривает К.Ф. Шаалан [9]. В работе даются общие рекомендации по улучшению качества публикаций и описывается реализация инструмента для автоматизации процесса профессиональной корректуры. В исследовании автор предлагает этапы работы над текстом, позволяющей обнаруживать выделенные редакторами самые распространенные грамматические и смысловые ошибки, а также выдавать рекомендации по их устранению. Рекомендации, представленные в вышеупомянутых статьях, были учтены при разработке нашей экспертной системы.

В статье М. Милковски [12] описывается работа инструмента корректуры "LanguageTool", который представляет собой основанную на правилах систему, разработанную для обнаружения грамматических и стилистических ошибок, а также неточностей в употреблении различных слов и выражений. Несмотря на то, что разработчикам удалось достичь качества проверки, которое не ниже, чем в коммерческих продуктах, работа системы основывается не на знаниях экспертов в заданной области, а на знаниях пользователей, что может расцениваться как существенный недостаток системы.

Контекстную и стилистическую проверку текста осуществляет сервис "After the Deadline". Для поиска ошибок и формирования рекомендаций по их исправлению в данном решении применяются инструменты искусственного интеллекта наряду с технологией обработки естественного языка (Natural Language Processing). Данный инструмент исправляет орфографические и грамматические ошибки, но не является предметноориентированным, что не позволяет проводить качественную проверку текста заданной области исследования.

Еще одним примером решения для анализа научных публикаций на английском языке может служить онлайн-корректор "Proofreading Tool".

Инструмент предоставляет широкий спектр рекомендаций по письменной речи. Система выделяет различными цветами, соответствующими определенному типу ошибок, область, в которой ошибка была найдена.

При этом пользователю выдается информация об ошибке и в некоторых случаях несколько примеров того, как можно грамотно исправить обнаруженную проблему.

Перечень загружаемых в систему документов не ограничивается простым текстом, можно также загружать электронные письма, электронные книги, эссе, научные статьи, файлы в форматах ".pdf", ".doc", ".docx". Существенными недостатками данной системы являются скрытая реализация и платная подписка.

Таблица 1. Пример оформления таблицы и заголовка к ней

Название решения (основа)

§ я

S 3 1 & = 5 * С

i 1

=■ а © ©

U с

53

3 2 а «

и § ф с.

Ф 3 s S S ©

я ф а н U «

©

С

3

i- в

« 5 ч ч * g

ф 3

LanguageTool (правила)

5

6

3

0

4

6

4,0

After the Deadline (нейронная сеть)

5

6

5

0

4

5

4,2

GramCheck (правила)

7

6

3

0

0

6

4,4

Proofreading Tool (нейронная сеть)

8

5

6

0

5

8

5,4

Одними из широко распространенных программных методов, применяемых для реализации указанных задач, являются искусственные нейронные сети и экспертные системы, основанные на правилах. Под нейронной сетью понимается математическая модель, а также ее программная реализация, построенная по принципу организации и функционирования биологических нейронных сетей. Экспертная система – программнотехническое средство, позволяющее пользователю в диалоговом режиме получать от компьютера консультационную помощь в конкретной предметной области, где сконцентрированы опыт и знания людей-экспертов.

В то время как экспертная система использует правила импликации и логические выводы, нейронные сети обладают способностью обучаться и выполнять параллельную обработку данных. Несмотря на то, что экспертные системы не обладают способностью к обучению, проводимые ими рассуждения понятны и "прозрачны", в то время как нейронная сеть действует по принципу "черного ящика" – процессы работы системы скрыты от пользователя, что определило выбор метода экспертных систем [10].

Продукционная экспертная система обеспечивает механизм, необходимый для выполнения правил, достижения определенной цели в области применения системы, например в диагностике, прогнозировании, оптимизации и обучении.

Основными компонентами экспертной системы являются база знаний, которая представляет собой совокупность фактов и правил, представленных в некоторой стандартной форме, механизм логического вывода, который применяет правила к известным фактам для выведения новых фактов (поиск решений на основе базы знаний) и пользовательский интерфейс для взаимодействия и обмена информацией между человеком и экспертной системой. Традиционно экспертная система создается с привлечением экспертов в проблемной области, инженеров-технологов, которые трансформируют знания экспертов с помощью редактора базы знаний в базу знаний и программистов, реализующих экспертную систему [11].

Несмотря на то, что экспертная система мало приспособляема к обучению новым правилам без участия инженера по знаниям, это отличный инструмент для расширения пользовательских профессиональных навыков в конкретной проблемной области. Безусловными преимуществами экспертных систем являются доступность и снижение расходов на решение проблемы (по сравнению со стоимостью услуг эксперта-человека), сохранение знаний в течение длительного времени, надежность (повышенная степень доверия к результатам работы системы в отличие от субъективной оценки эксперта) и использование правил импликаций и механизма логического вывода, которые делают их рассуждения понятными и прозрачными.

Одним из решающих достоинств экспертной системы является применение при разработке готовых решений – оболочек экспертных систем, которые могут быть настроены практически под любую проблемную область и являются общедоступными, без ограничения по их изменению и применению [12].

Продукционные экспертные системы могут быть также применены в области анализа текста. Возможности экспертных систем позволяют анализировать содержание текста, распознавать стиль текстовых документов, идентифицировать релевантные элементы информации, которые могут быть скрыты в тексте, а также выявлять синтаксические, статистические, основанные на таксономии, и грамматических элементах, посредством обработки естественного языка.

В качестве основы экспертной системы для сокращения времени разработки и возможности создания ее непрограммистами активно применяются готовые оболочки экспертных систем. Оболочка экспертной системы представляет собой готовую программную среду, которая может быть приспособлена к решению проблемы путем создания соответствующей базы знаний. Из уже готовой и положительно зарекомендовавшей себя экспертной системы удаляют специфические для ее области компоненты так, что в итоге остается только пустая оболочка, которую в дальнейшем можно настроить под проблемную область, в рамках которой был разработан оригинал системы [13].

В нашей работе была использована система CLIPS (C Language Integrated Production System), обеспечивающая интеграцию современных приложений искусственного интеллекта на основе правил с существующими обычными приложениями.

В качестве модели представления знаний CLIPS использует продукционную модель, которая основана на правилах типа "IF…THEN…ELSE", из чего можно выделить три ее основных составляющих: база фактов – основная форма представления информации в системе; база знаний для хранения правил; блок вывода , содержащий варианты ответов, которые выдаются в системе при срабатывании правил. CLIPS поддерживает проверку истинности, статистическую и динамическую проверки ограничений, позволяет динамически добавлять правила, а также имеет настраиваемые стратегии разрешения конфликтов.

Данная система использована в качестве основы экспертной системы, разрабатываемой в рамках данной работы, так как является наиболее широко применяемой за счет своей открытости, бесплатности, скорости и эффективности работы, а также актуальности, так как система до сих пор получает обновления и поддержку работоспособности от своего автора Гари Райли [14, 15, 16, 17].

Также CLIPS является качественным инструментом для анализа текстов, так как данная система не ограничена базой данных конкрет- ной области, она также позволяет определять приоритеты выполнения правил, что является немаловажным фактором в корректуре.

Требования к функциональным характеристикам

Функциональным назначением продукционной экспертной системы, разрабатываемой в рамках данной работы, является автоматизация процесса анализа научных публикаций на английском языке. Описание автоматизируемых процессов данной предметной области выполнено в стандартной нотации IDEF0.

На рис. 1 представлена общая схема работы системы.

Рис. 1. Диаграмма SADT для описания анализа публикации в системе

Основным элементом является функция анализа научных публикаций, управляющие параметры – данные, которые не обрабатываются функцией, но от них зависит ее результат, поступают в основной элемент сверху (базовые данные для системы на основе CLIPS, правила построения правил для системы на основе CLIPS, правила пользования системой, JAPE-шаблон), механизмами представленной функции являются экспертная система, GATE, компьютер и ПО и непосредственно пользователь.

Как указывалось ранее, оболочка CLIPS эффективна для закрытых систем, входы которых являются точными, что приводит к логическим выходам. CLIPS выполняет рассуждения с использованием ранее установленных правил для четко определенных и узких доменов.

Данные результата анализа двух типов статей, (эталонный корпус статей), написанных компетентными исследователями и статей, написанных студентами (экспериментальный корпус) из модуля идентификации маркеров, который работает с применением системы обработки естественного языка GATE (General Architecture for Text Engineering), записываются в базу данных. База знаний сис- темы формируется из имеющихся статистических данных, затем составляются правила сравнения показателей статей, которые помещаются в рабочий список, управляемый машиной логического вывода.

Следующий шаг заключается в прохождении программы по правилам и формировании списка рекомендаций, который в итоге выдается пользователю.

Для реализации системы была использована среда разработки Visual Studio, которая имеет большой спектр инструментальных средств, в том числе различные библиотеки для разработки web-приложений. Логика системы располагается на сервере, в качестве которого был выбран программный фреймворк WCF (Windows Communication Foundation), предназначенный для создания, настройки и развертывания распределенных сетевых сервисов.

Для вывода рекомендаций, полученных в результате работы системы, было реализовано web-приложение на основе архитектурного паттерна MVC (Model-View-Controller).

Рис. 2. Схема взаимодействия системы

Прежде всего, был определен интерфейс сервиса рекомендаций, который должен сформировать список рекомендаций для указанного текста, каждая из которых состоит из названия, текста рекомендации и степени уверенности. Формирование рекомендаций осуществляется с помощью правил продукционной экспертной системы.

Для работы с продукционными правилами используется оболочка CLIPS, а для взаимодействия CLIPS-приложения с .NET-приложением используется специальный компонент CLIPS Mommosoft.ExpertSystem.

Данный компонент позволяет загрузить clp-файл и получить результаты его выполнения в среде CLIPS.

В соответствии с представленной ранее диаграммой прецедентов, для работы экс- пертной системы необходимы данные для формирования базы знаний и правил экспертной системы с данными результата сравнения пользовательских и компетентных статей.

Предлагаем сделать следующим образом: указать названия эталонного и экспериментального корпусов (название маркера, значение пользовательской статьи, среднее значение корпуса статей и шаг формирования диапазона допустимых значений) и список рекомендаций (название и комбинация значений маркеров). Список рекомендаций, которые могут быть получены пользователем в результате работы системы (название и текст рекомендации). Эти данные хранятся в двух отдельных файлах и представлены в формате JSON (JavaScript Object Notation) – упорядоченный список значений (массив) со множеством объектов (объект – неупорядоченный набор пар ключ/значение).

На основе описанных данных генерируется файл с расширением ".clp", который будет загружен и исполнен в среде Mommosoft.ExpertSystem.

Для удобства разработки и отладки решение разделено на независимые модули: RULES, CHOOSE-RECOMMENDATIONS, RECOMMENDATIONS. Модуль RULES отвечает за корректную обработку правил в системе, в данном модуле описывается общий вид правила, который представлен и прописаны представления для модификации правил в случае нескольких атрибутов или при отсутствии какой-либо части правила.

В модуле CHOOSE-RECOMMENDATIONS происходит сравнение показателей эталонного и экспериментального корпусов, а также формирование набора необходимых к выдаче рекомендаций. Модуль RECOMMENDATIONS импортирует все данные из указанных ранее модулей и определяет следующие конструкции: сравнение показателей, определение общего вида маркера, формирование базы фактов с имеющимися маркерами, формирование базы фактов с итоговыми результатами сравнения показателей маркеров.

В соответствии с предлагаемым подходом, база фактов с маркерами формируется в коде программы сервиса – с помощью цикла считываются данные из файла с входными данными и записывается в clp-файл. Для определения вхождения показателя маркера в пользовательской статье в допустимый диапа- зон были определены две функции: определение диапазона, определение вхождение показателя в диапазон, формирование рекомендаций для каждого маркера.

Работа первой функции осуществляется следующим образом: в функцию поступает два числа – эталонный показатель и допустимый шаг, если это определение минимальной границы диапазона, то возвращаемое значение равно разнице эталонного показателя и допустимого шага, иначе (если это определение верхнего значения диапазона) – возвращаемое значение – сумма эталонного показателя и допустимого шага.

Вторая функция отвечает за принцип формирования, рекомендации по каждому маркеру следующие: если показатель пользовательской статьи превышает верхнюю границу определенного ранее диапазона или, наоборот, показатель гораздо меньше нижней границы, то по данному маркеру должна быть выдана рекомендация. Ей на вход поступает три числа – показатель маркера в пользовательской публикации, эталонный показатель и допустимый шаг. Функция вызывает описанные ранее функции определения диапазона, сравнивает результаты их работы с пользовательским значением маркера и возвращает значение true, если по маркеру необходимо сформировать рекомендацию для улучшения данного показателя.

Для добавления показателя маркера в базу фактов используется специальное правило. На вход данное правило получает данные маркера и с помощью команды "test" определяет принадлежность к диапазону.

В случае срабатывания происходит следующая последовательность: определяется, был ли диапазон превышен или нет, и в зависимости от этого в базу фактов записывается значение маркера: если показатель не дотягивает до нижней границы, то маркер записывается со значением "low" (низкий), иначе – со значением "high" (высокий).

Последний этап в данном модуле – формирование рекомендации по результатам сравнения. Для этого используется определенный ранее в модуле RULES формат правила, с помощью которого определяется итоговая рекомендация для маркеров, чьи значения не вошли в определенный диапазон, то есть, имеют одно из двух значений "low" или "high". Если маркер имеет значение "low", то в базу записывается факт, что рекомендация для данного маркера "more" (больше) – требуется повысить значение показателя данного маркера; если значение маркера "high", то необходимо понизить его показатель и рекомендация для данного маркера имеет обозначение "less" (меньше).

Модуль "RECOMMENDATIONS" служит для сопоставления комбинации рекомендаций по каждому маркеру с имеющимися в базе фактов рекомендациями. Сначала необходимо определить входные и выходные параметры данного модуля. Входные параметры – это все данные функции MAIN, выходные – список рекомендаций с их значениями степени уверенности.

Далее необходимо определить общий формат рекомендации, включающий в себя слот имени рекомендации и мультислот со значением для каждого определенного во входных данных маркера и занести в базу знаний составленные экспертом рекомендации. В качестве примера рассмотрим следующий вариант: во входных данных было определено пять маркеров и пять рекомендаций. При составлении файла ".clp" в общий формат правила необходимо добавить мультислот для каждого маркера, т. е. всего пять. Список рекомендаций имеет вид: название рекомендации и ее значение. Значение в данном случае – это различные комбинации из маркеров и их значений. В рекомендации может содержаться комбинация из одного, двух или всех пяти маркеров и их значений.

Для поиска требуемой комбинации маркеров и их значений среди имеющихся в базе знаний рекомендаций необходимо соединить значения всех маркеров, определенных в модуле "CHOOSE-RECOMMENDATIONS".

Для этого необходимо занести в базу знаний комбинацию из "правильных" значений для каждого маркера и, если среди экспертных рекомендаций встретится хотя бы часть данной комбинации, то добавить в базу знаний еще один атрибут с зарезервированным именем "recommendation", значением которого будет имя совпавшей рекомендации, а степень уверенности будет равна минимальному значению из всех определенных степеней уверенности.

Последним шагом в работе системы является экспорт составленного списка рекомендаций. Для этого в программе определена функция специальная функция, которая среди всех имеющихся фактов в базе знаний находит факт с зарезервированным именем "recommendation" и добавляет его в список для вывода посредством обновления локальной переменной с помощью команды "bind". Однако может возникнуть ситуация, при которой среди составленных экспертом рекомендаций не будет ни одной, которая бы содержала определенную в модуле "CHOOSE-RECOMMENDATIONS" комбинацию маркеров и их значений. В этом случае необходимо вывести не список с именами рекомендации, а получившуюся комбинацию, для каждого элемента которой будет сформирована отдельная рекомендация, для чего также была определена специальная функция. Для удобства пользователя рекомендации сортируются по значению степени уверенности.

Для вывода результатов пользователю разработано web-приложение, реализующее паттерн Model-View-Controller. Для удобного отображения рекомендации в приложении была создана таблица, в которой отображается название рекомендации, ее текст и процент "уверенности".

Expert system

The system based on expert knowledge is created to help you! Simply select the type, upload the file and click on the "Check” button.

| Management

Results

Group        Recommendation                                   Certainty

Incorrect          These two adjectives may need to be separated by a comma.100

Punctuation                                77

„ J J . This phrase may be redundant. Review the words' meaninqs and reword or Redundances r                                        390

remove one if this is the case

You can probably simplify this sentence by replacing prepositional phrases Passive Phrases with active verb phrases. When in doubt, use standard subject-predicate80

order.

Рис. 3. Фрагмент интерфейса системы

Заключение

В работе изложены результаты проведенного анализа программных средств для автоматизации процесса корректуры научных работ на английском языке и изложена концепция разработки продукционной экспертной системы на основе оболочки CLIPS.

Результатом работы стало приложение, позволяющее автоматически предложить рекомендации по улучшению качества письменной речи на английском языке, а также

Upload file I C

автоматизировать процесс внесения исправлений в текст научных статей.

Приложение имеет педагогический и дидактический потенциал: его можно использовать на занятиях по английскому языку в неязыковых вузах как для обучения нормам академического письма на английском языке, так и для оценки качества письменной работы научно-учебного характера, выполненной русскоговорящими студентами. Несмотря на то, что данный инструмент был протестирован на составленных определенным образом работах, которые были подготовлены экспертом, по заявлению оценивающих специалистов он является хорошим аналогом существующей проверки публикаций.

Представленные в данной статье результаты полезны для разработки последующего программного обеспечения для проверки и улучшения публикаций.

Список литературы Разработка экспертной системы для стилистического анализа научных публикаций на английском языке

  • Xue J., & Zuo W. English Dominance and Its Influence on International Communication // Theory and Practice in Language Studies. 2013.
  • Kaplan R.B. The Dominance of English as a Language of Science: Effects on Other Languages and Language Communities. 2001. P. 3-26.
  • Gastel B., Robert A.D. How to Write and Publish a Scientific Paper. ABC-CLIO. 2016.
  • MLA Handbook 8th Edition. by The Modern Language Association of America. 2016
  • Publication Manual of the American Psychological Association, 6th Edition 6th Edition. Publication Manual of the American Psychological Association. 2009.
Статья научная