Использование рекуррентных нейронных сетей для анализа необработанного многоязычного текста

Бесплатный доступ

В данной статье рассматриваются общие представления анализа необработанного многоязычного текста. В ходе работы была спроектирована нейронная сеть на основе долгой краткосрочной памяти (LSTM), предназначенная для разметки и дополнительного создания последовательностей символов. Нейронная сеть была обучена выделению лемм, созданию частеречной разметки и выявлению морфологических признаков. Разбивка текстов на предложения, токенизация и синтаксический анализ обрабатывались программной UDPipe 1.2. Результаты работы демонстрируют актуальность применения предложенной архитектуры в настоящее время.

Нейронная сеть, машинное обучение, рекуррентные нейронные сети, лемматизация, recurrent neural networksб softmax

Короткий адрес: https://sciup.org/170187854

IDR: 170187854   |   DOI: 10.24411/2500-1000-2020-10697

Текст научной статьи Использование рекуррентных нейронных сетей для анализа необработанного многоязычного текста

Проект Universal Dependencies направлен на сбор последовательно аннотированных синтаксических деревьев для многих языков [1, 2]. Его текущая версия (2.2) включает общедоступные древовидные блоки для 71 языка в формате CoNLL-U. Синтаксические деревья содержат леммы, метки части речи, морфологические особенности и синтаксический анализ для каждого слова. Нейронные сети были успешно применены к большинству из задач, связанных с морфологическим разбором текста, и показали наилучшие результаты для тегов частей речи и синтаксического анализа. Поскольку проблематично размечать части речи, то для этих целей используются рекуррентные или сверточные нейронные сети с использованием выходов Softmax на уровне слов или условных случайных полей [3].

В данной статье рассматриваются общие представления анализа необработанного многоязычного текста. Автором приводится возможный вариант реализации нейронной сети, которая совместно учится предсказывать теги части речи, морфологические признаки и леммы для исследуемой последовательности слов. В основе данной системы применяется программное обеспечение UDPipe 1.2, служащее для сегментации предложений, токенизации и синтаксического анализа текстов.

Рассмотрим архитектуру описываемой системы. Система, используемая в CoNLL 2018 UD Shared Task, состоит из двух частей.

Во-первых, она берет необработанный ввод и создает файл CoNLL-U, используя UDPipe 1.2. Затем, столбцы, соответствующие лемме, части речи и морфологическим признакам, заменяются предсказанием нейронной модели. Предсказание POS-тегов и морфологических признаков выполняется с использованием сети с последовательными тегами. Для того чтобы генерировать леммы, системой применяется расширение сети несколькими декодерами, аналогичными тем, которые используются в последовательных архитектурах.

Описываемая архитектура нейронной сети состоит из трех частей: встраиваемые слои, слои извлечения объектов и выходные слои [4].

Сначала рассматриваются встраиваемые слои. Через Embd (a) мы обозначаем d-мерное вложение целого числа a. Обычно, a – это индекс слова в словаре или индекс символа в алфавите. Каждое слово wi представлено объединением трех векторов:

e(wi) =(eword (w i),ecasing (e), echar (w) )

Первый вектор, e word (wi), является 300-мерным вектором слова с предварительной подготовкой. В экспериментах использовались векторы FastText. Второй вектор, ecasing (wi), представляет собой представление восьми элементов корпуса, описанных в таблице 1. Третий вектор, echar (wi), является представлением слова на уровне символов. Мы отображаем каж- дый символ в случайно инициализированный 30-мерный вектор с■ = Emb 30 (сj) и применяем двунаправленный LSTM к этим вложениям. echar (w i), – это конкатенация 25-мерных конечных состояний двух LSTM. Результирующий e(wi) является 358-мерным вектором.

Таблица 1. Элементы, используемые в слое внедрения

Numeric

Все символы являются числовыми

mainly numeric

Более 50% символов являются числовыми

all lower

Все символы в нижнем регистре

all upper

Все символы имеют верхний регистр

initial upper

Первый символ-верхний регистр

contains digit

По крайней мере один из символов является цифрой

other

Ни одно из вышеперечисленных правил не применяется

padding

Это используется для заполнения заполнителей для коротких последовательностей

Далее идут слои извлечения объектов. Обозначим рекуррентный слой со входами х 1 ,…,хn и скрытыми состояниями һ 1 ,…,һn через һi = RNN(хi,һi-1). Используется два типа рецидивных клеток: LSTM

Sepp Hochreiter и GRU [5]. В работе применяется три слоя LSTM с 150-мерными скрытыми состояниями на векторах вложения:

һ| = LSTM (һi 1,һLi), j=1,2,3             (2)

Где һ° = e(wi). Также применяется 50%-ное выпадение перед каждым слоем LSTM. Полученные 150-мерные векторы представляют слова с их контекстами и, как ожидается, будут содержать необходимую информацию о лемме, POS-теге и морфологических признаках [6].

И наконец, выходные слои. Пометка части речи, и прогнозирование морфологических признаков являются задачами классификации на уровне слов. Для каждой из этих задач мы применяем линейный слой с активацией softmax [7].

pi = softmax(Wpһf +bp)                     (3)

f ik = softmax(Wfk һf +bfR)              (4)

Размеры матриц Ԝfk и Ԝp векторов bp, b fk зависят от обучающего множества для данного языка: Ԝp | p |×150 , Ԝ fk

ℝ| Fk|×150, k = 1,. , 21. Таким образом, мы получаем 22 функции кросс-энтропийной потери:

Lр= ∑Р=1 сe(pi,pi )                                     (5)

L fk = ∑P=1 сe(fiR,fiR)     k=1,…,22         (6)

Чтобы сгенерировать леммы для всех слов, добавляется один декодер на основе GRU для каждого слова. Эти декодеры делят веса и работают параллельно. -й деко-

T1     Tmi

дер выводит l ■,…, lj предсказанные сим- волы леммы і-го слова. Обозначим входы в -й декодер x * ,…,xi . Каждый из x ■ является объединением четырех векторов:

x

  • 1.    һ f - представление і -го слова после LSTM экстрактора признаков. Это единственная часть вектора x ■ , которая не зависит от j. Этот прием важен для того, чтобы информация на уровне слов всегда была доступна в декодере

  • 2.    сj = Emb 30 (сj ) — это то же самое вложение j-го символа слова, которое используется в BiLSTM уровня символов

  • 3.    π■ — это некоторая форма позиционного кодирования. Указывает количество символов, оставшихся до конца входного слова: π ■ =EMb5 (ni-j++1). Позици-

  • lr1
  • 4.    l ■ - показатель предыдущего символа леммы. Во время обучения: l = oneһot(l i X) . Во время вывода - это вывод GRU в предыдущем временном шаге l = lГ1 .

Здесь s j ∈ ℝ 150,Ԝ0 ∈ ℝ| C |×150, где |C|-это количество символов в алфавите. Начальным состоянием GRU является выход онные кодировки были введены и успешно применялись в машинном переводе на слух [8].

Эти входы передаются на один уровень сети GRU. Выходной сигнал декодера формируется путем нанесения другого плотного слоя на состояние GRU:

  • s    i = GRU(x i ,s i ) (8)

=Ԝ0s i +bо (9)

экстрактора признаков LSTM: sp =һ P . Все GRU разделяют веса. Функция потерь для вывода леммы:

Li= ∑^=1 П; ∑ Pl сe(l I ,l I )

Объединенная функция потерь является средневзвешенным значением функций потерь, описанных выше:

L=λ1L1 +λpLp +∑k=l λ fk L fk                  (11)

Окончательная версия системы использует λp=0.2 и λ1 =λfk=1 для каждого k.

В таблице 2 показаны основные показатели общей задачи анализа необработанного многоязычного текста для девяти синтаксических деревьев, которые использовались для обучения моделей. Метрика

LAS оценивает сегментацию предложений, токенизацию и синтаксический анализ, поэтому номера для моделей должны быть идентичны UDPipe 1.2. Метрика MLAS дополнительно учитывает POS-теги и морфологические признаки, но не леммы. Метрика BLEX [9] оценивает разбор и лемматизацию.

Таблица 2. Производительность модели по сравнению с базовой версией UDPipe 1.2

Метрика

LAS

MLAS       1          1

BLEX

Представление

Local

TIRA

Local

TIRA

Local

TIRA

Модель

Приведенная

UDPi pe

Приведенная

UDPi pe

Приведенная

UDPi pe

Приведенная

UDPi pe

Приведенная

UDPi pe

Приведенная

UDPi pe

модель

модель

модель

модель

модель

модель

English EWT

77.12

77.1

84.57

77.5

62.12

68.2

76.33

68.70

66.35

70.53

78.44

71.02

English GUM

74.21

74.2

85.05

74.2

56.43

62.6

73.24

62.66

58.75

62.14

73.57

62.14

English LinES

73.08

73.08

81.97

73.10

55.25

64.00

72.25

64.03

57.91

65.39

75.29

65.42

French

Spoken

65.56

65.5

75.78

65.5

51.50

53.4

64.67

53.46

50.07

54.67

65.63

54.67

French Sequoia

81.12

81.12

89.89

81.12

64.56

71.34

82.55

71.34

62.50

74.41

84.67

74.41

Finnish TDT

76.45

76.4

88.73

76.4

62.52

68.5

80.84

68.58

38.56

62.19

81.24

62.19

Finnish

FTB

75.64

75.6

88.53

75.6

54.06

65.2

79.65

65.22

46.57

61.76

82.44

61.76

Swedish LinES

74.06

74.0

84.08

74.0

50.16

58.6

66.58

58.62

55.58

66.39

77.01

66.39

Swedish

Talbanken

77.72

77.7

88.63

77.9

58.49

69.0

79.32

69.22

59.64

69.89

81.44

70.01

Arabic PADT

65.06

65.06

N/A

66.41

51.79

53.81

N/A

55.01

2.89

56.34

N/A

57.60

Korean GSD

61.40

61.4

N/A

61.4

47.73

54.1

N/A

54.10

0.30

50.50

N/A

50.50

Таким образом, в данной статье описана методика анализа необработанного многоязычного текста. Разработанная нейронная сеть способна совместно создавать леммы, частиречные разметки и выявлять морфологические признаки. Обучение нейронной архитектуры производилось на девяти синтаксических деревьях. Система была оценена на виртуальной машине Ubuntu на платформе TIRA [10] и на локальных ма- шинах с использованием тестовых наборов. Были получены результаты, показывающие, что данная архитектура работает корректно и с высокой точностью. Программа дальнейших исследований включает в себя разработку полностью многозадачной нейронной архитектуры, которая позволит проводить наиболее точный анализ текстов по ряду параметров.

Список литературы Использование рекуррентных нейронных сетей для анализа необработанного многоязычного текста

  • Программное обеспечение UDPipe 1.2. - [Электронный ресурс]. - Режим доступа: https://github.com/ufal/udpipe
  • Сайнбаяр Сух-Батор, Джейсон Уэстон, Роб Фергюс и др. Сквозные сети памяти, 2015. - С. 2440-2448.
  • Графов Ф.М, Гамильянов Ф.М. Искусственные нейронные сети и их приложения, 2018. - С. 78.
  • Tariq Rashid, Neural Networks and Deep Learning, 2016. - С. 139-150.
  • Джейсон П. К. Чиу и Эрик Николс. Распознавание именованных сущностей с помощью двунаправленных lstmcnns // Труды Ассоциации компьютерной лингвистики. - 2016. - C. 357-370.
  • Simon S Haykin, Pattern Recognition and Machine Learning, 2007. - С. 219-222.
  • Думачев В.Н., Родин В.А. Эволюция антагонистически-взаимодействующих популяций на базе двумерной модели Ферхюльста-Пирла, 2005. - С. 11-22.
  • Йонас Геринг, Майкл Аули, Дэвид Гранжье, Денис Яратс и Ян Н Дофин. Сверточная последовательность для обучения последовательности. Электронные отпечатки ArXiv, 2017.
  • Ашиш Васвани, Ноам Шазеер, Ники Пармар, Якоб Ушкорейт, Ллион Джонс, Эйдан Н Гомес, Лукаш Кайзер и Илья Полосухин. Внимание - это все, что вам нужно в достижениях в области нейронных систем обработки информации, 2017. - С. 5998-6008.
  • Бояновский П., Грейв Э., Жулин А., Миколов Т. Обогащая слово векторов с полсловом информации // Труды Ассоциации компьютерной лингвистики. - 2017. - №5. - С. 135-146.
Еще
Статья научная