Методы и алгоритмы лингвистического анализа на основе машинного обучения для решения задач управления социальными и экономическими системами

Автор: Казаков Олег Дмитриевич, Юркова Ольга Николаевна, Сильченков Владислав Константинович

Журнал: Вестник образовательного консорциума Среднерусский университет. Информационные технологии @vestnik-university

Статья в выпуске: 1 (11), 2018 года.

Бесплатный доступ

В статье описаны методы и алгоритмы лингвистического анализа на основе машинного обучения и их применение в управлении хозяйствующими субъектами.

Машинное обучение, анализ, информация

Короткий адрес: https://sciup.org/140223597

IDR: 140223597

Текст научной статьи Методы и алгоритмы лингвистического анализа на основе машинного обучения для решения задач управления социальными и экономическими системами

Технологии обработки естественного языка сегодня шагнули далеко вперед, и немалая заслуга в этом принадлежит машинному обучению, применяемому, в частности, для лингвистического анализа.

Современный этап развития человечества характеризуется бурным ростом количества информации. Одной из наиболее распространенных форм хранения информации являются тексты на естественном языке. Текстовая форма информации естественна для человека и легко им воспринимается. Огромное количество информации скапливается в многочисленных текстовых базах, хранящихся в персональных компьютерах, в локальных и глобальных сетях. Рядовому пользователю становится все сложнее работать с гигантскими объемами данных. Чтение объемных текстов, ручной поиск и анализ нужной информации в гигантских массивах текстовых данных малоэффективны. Для решения данной проблемы и автоматизации процессов получило развитие направление обработки естественного языка (natural language processing), решающее задачи информационного поиска (information retrieval), машинного перевода

(machine translation), извлечения информации (information extraction и др.

Системы извлечения информации используют во многом сходные методы. Обратимся к типичной последовательности обработки текста в задачах извлечения информации. Сразу будем отмечать этапы обработки, для которых было бы полезно использовать машинное обучение. К ним относятся, в первую очередь, те этапы, которые требуют тонкой настройки в конкретных приложениях.

Исходный текст подвергается графематическому анализу; происходит выделение слов и предложений. На следующих этапах происходит обнаружение составных слов, которые должны рассматриваться как одно (с точки зрения морфологического анализатора). Графематический анализ обычно не требует настройки, зависящей от предметной области, поскольку реализация общего алгоритма графематического анализа подходит для большинства реальных приложений. Морфологический анализ обычно работает на уровне отдельных слов (возможно, составных) и возвращает морфологические атрибуты данного сло- ва. В случае, когда атрибуты не могут быть установлены однозначно, возвращается несколько возможных вариантов морфологического анализа. Использование методов машинного обучения для морфологического анализа не принесет пользы, так как существует множество высококачественных словарных и бессловарных решений этой задачи, которые могут применяться в широком спектре приложений. Результаты морфологического анализа используются при микро- и макросинтаксическом анализе. Микросинтаксический анализ осуществляет построение ограниченного набора синтаксических связей (например, выделение именных групп). Задача макросинтаксическо-го анализа состоит в выделении в предложении крупных синтаксических единиц - фрагментов - и в установлении иерархии на множестве этих фрагментов. Разбиение на микро- и макросинтаксический анализ условно, оно отображает тот факт, что для большинства задач извлечения информации достаточно поверхностного (микросинтакси-ческого анализа).

Эксперименты показывают, что лингвистический анализатор, обладающий богатыми выразительными возможностями, дает больше ошибок из-за того, что почти каждый уровень анализа представляет собой задачу, которая не имеет строгого, а тем более формализуемого, решения. В наибольшей мере это относится к синтаксическому анализу. Поэтому в предметной области, где достаточно простого синтаксического анализа, мощный анализатор будет лишь вносить нежелательный шум, а производительность будет падать. В то же время существуют предметные области, в которых для извлечения информации требуются развитые возможности представления лингвистической информации. В таких предметных областях примитивный анализатор не сможет предоставить необходимых для извлечения целевой информации лингвистических атрибутов. Настройка выполняется вручную, поэтому данный этап анализа выиграл бы от применения машинного обучения. Поскольку у каждого слова после выполнения морфологического анализа может присутствовать несколько омонимичных словоформ, то для улучшения качества синтаксического анализа и повышения его производительности можно использовать алгоритмы устранения омонимии, которые сокращают количество вариантов морфологического анализа. Часто задача снятия омонимии решается при помощи наборов правил, составление которых очень трудоемко, поскольку практически применимые наборы оказываются довольно крупными. Кроме того, для каждой предметной области набор правил приходится модифицировать. Снятие омонимии - еще одна область анализа текста, которая может быть улучшена при помощи машинного обучения.

Построение и тестирование наборов правил извлечения информации, особенно для сложной предметной области - трудоемкая задача, для которой предлагается ряд удовлетворительных решений с применением машинного обучения [1].

Модуль контекстного анализа можно настраивать на произвольную предметную область. Для этого необходимо обучающей программе модуля предоставить множество текстов - документов целевой предметной области. На этом множестве обучающая программа выделит наиболее характерный контекст для значимых с точки зрения омонимии слов и будет использовать его в дальнейшем для разрешения омонимической неоднозначности.

Для использования машинного обучения при синтаксическом анализе требуется тщательная разметка больших объемов текстов, поэтому супервизорное обучение применять неперспективно. Эксперименты по настройке синтаксического анализатора с применением машинного обучения «без учителя», показывают, что синтаксическая структура естественного языка слишком выразительна и сложна, чтобы можно было эффективно строить его модель, не располагая размеченными текстами.

Важным свойством для системы извлечения информации является ее способность определять семантические классы фрагментов текста, что позволяет при задании правил извлечения информации оперировать не отдельными словами и их взаимосвязями, а сущностями, характерными для предметной области. Машинное обучение в этом контексте, скорее всего, возможно только в супервизор-ном варианте, поскольку применение кластеризации на множестве семантических классов приведет к результатам, с трудом воспринимаемыми человеком. При извлечении информации ключевым моментом является построение набора шаблонов, или правил, позволяющих определить расположение релевантной информации в тексте и правильно заполнить целевую структуру данных. Построение правил извлечения информации - процесс довольно трудоемкий. Это связано с известным «эффектом хвоста». Эффект хвоста заключается в том, что небольшое количество правил обеспечивают приемлемое качество работы системы, но попытки дальнейшего улучшения качества работы приводят к добавлению большого количества правил. Помимо трудоемкости добавления множества правил, появляется проблема нестабильности системы из-за возможной корреляции между правилами [3].

В последние 15 лет было проведено довольно много исследований в этой области. Из новых разработок следует отметить систему Brief Driven Information Retrieval and Extraction for Strategy (BRIEFS), позволяющую извлекать заданную целевую информацию из массива текстов. Система построена на основе платформы для разработки GATE (General Architecture for Text Engineering) [3], которая сама по себе представляет огромный интерес для разработчиков систем извлечения информации и других приложений анализа текстов. Процесс извлечения основан на правилах. Правила определяют, каким образом информация из текста будет извлекаться для заполнений экзофреймов. Правила используют лингвистическую информацию о тексте, полученную на этапе лингвистического анализа. Идеальная система извлечения информации должна стремиться к системе с естественно-языковым интерфейсом или, по крайней мере, процесс настройки на новую предметную область должен быть по силам специалисту предметной области, не обладающему навыками программирования или специальными знаниями в области обработки текстов.

Чтобы приблизиться к такому идеалу, предполагается применять методы машинного обучения для полуавтоматической (в отдельных случаях - автоматической) настрой- ки на произвольную предметную область и разнотипную целевую информацию. Для этого методами машинного обучения на основе обучающей выборки должен порождаться набор правил извлечения информации. После обучения правила нужно протестировать и, возможно, модифицировать. Поэтому представляется полезным создание интерактивной среды, которая будет интегрировать в себе этапы обучения, тестирования и модификации. В целях повышения интерактивности и облегчения задачи предварительной разметки текстов можно применить активное обучение, когда очередной пример из неразмеченного множества будет выбираться самой системой на основании определенной стратегии и предлагаться пользователю для разметки. Возможен вариант, когда предварительная разметка производится уже самой системой, на основании порожденных ранее правил. Тем самым можно достичь снижения объема рутинного труда по разметке текстов.

В медицинских исследованиях пациенты, в данном случае, являются объектами, а признаками – все наблюдающиеся у них симптомы, анамнез, результаты анализов, уже предпринятые лечебные меры (фактически вся история болезни, формализованная и разбитая на отдельные критерии). Некоторые признаки – пол, наличие или отсутствие головной боли, кашля, сыпи и иные – рассматриваются как бинарные. Оценка тяжести состояния (крайне тяжёлое, средней тяжести и др.) является порядковым признаком, а многие другие – количественными: объём лекарственного препарата, уровень гемоглобина в крови, показатели артериального давления и пульса, возраст, вес. Собрав информацию о состоянии пациента, содержащую много таких признаков, можно загрузить её в компьютер и с помощью программы, способной к машинному обучению, решить следующие задачи: провести дифференциальную диагностику (определение вида заболевания); выбрать наиболее оптимальную стратегию лечения; спрогнозировать развитие болезни, её длительность и исход; просчитать риск возможных осложнений; выявить синдромы – наборы симптомов, сопутствующие данному заболеванию или нарушению. Ни один врач не способен обработать весь массив информации по каждому пациенту мгновенно, обобщить большое количество других подобных историй болезни и сразу же выдать чёткий результат. Поэтому машинное обучение становится для врачей незаменимым помощником [2].

Помимо вышесказанного, машинное обучение с алгоритмами лингвистического анализа можно применять при оценке надёжности и платёжеспособности кандидатов на получение кредитов. Необходимость в автоматизации этого процесса назрела давно, ещё в 1960–1970-е годы, когда в США и других странах начался бум кредитных карт. Лица, запрашивающие у банка заём, – это объекты, а вот признаки будут отличаться в зависимости от того, физическое это лицо или юридическое. Признаковое описание частного лица, претендующего на кредит, формируется на основе данных анкеты, которую оно заполняет. Затем анкета дополняется некоторыми другими сведениями о потенциальном клиенте, которые банк получает по своим каналам. Часть из них относятся к бинарным признакам (пол, наличие телефонного номера), другие — к порядковым (образование, должность), большинство же являются количественными (величина займа, общая сумма задолженностей по другим банкам, возраст, количество членов семьи, доход, трудовой стаж) или номинальными (имя, название фирмы-работодателя, профессия, адрес). Для машинного обучения составляется выборка, в которую входят кредитополучатели, чья кредитная история известна. Все заёмщики делятся на классы, в простейшем случае их 2 – «хорошие» заёмщики и «плохие», и положительное решение о выдаче кредита принимается только в пользу «хороших». Более сложный алгоритм машинного обучения, называемый кредитным скорингом, предусматривает начисление каждому заёмщику условных баллов за каждый признак, и решение о предоставлении кредита будет зависеть от суммы набранных баллов. Во время машинного обучения системы кредитного скоринга вначале назначают некоторое количество баллов каждому признаку, а затем определяют условия выдачи займа (срок, процентную ставку и остальные параметры, которые отражаются в кредитном договоре). Но существует также и другой алгоритм обучения системы – на основе прецедентов.

Машинное обучение открывает человечеству возможности, о которых оно не могло и мечтать всего несколько лет назад. Результаты внедрения машинного обучения, несомненно, коснутся большинства из нас. Однако последствия затронут, прежде всего, область трудоустройства. Машинное обучение становится неотъемлемой частью многих профессий, что неизбежно скажется на состоянии рынка труда. Эти инновационные технологии упростят ежедневный труд во многих сферах бизнеса, промышленности и рынка услуг, но есть обоснованный риск, что немало людей из-за них лишится работы.

Список литературы Методы и алгоритмы лингвистического анализа на основе машинного обучения для решения задач управления социальными и экономическими системами

  • Баранов А.А., Намазова-Баранова Л. С., Смирнов И.В. и др. Технологии комплексного интеллектуального анализа клинических данных[Текст] / Вестник РАМН. - 2016. - № 71(2). – С. 160-167
  • Кормалев Д. А. Приложения методов машинного обучения в задачах анализа текста [Текст] / Программные системы: теория и приложения. – Переславль-Залесский, 2004. - С. 35-48
  • Машинное обучение: виды, алгоритмы, примеры [Электронный ресурс]. – URL: https: //www.gd.ru/articles/9348-mashinnoe-obuchenie. (Дата обращения: 11.04.2018)
Статья научная