Анализ лексических пар для автоматической генерации диалогической и монологической речи
Автор: Личаргин Д.В., Щурова А.В., Курбатова Е.А., Колбасина И.В.
Журнал: Сибирский аэрокосмический журнал @vestnik-sibsau
Рубрика: Математика, механика, информатика
Статья в выпуске: 2 (48), 2013 года.
Бесплатный доступ
Рассматривается подпроблема проблемы формирования корректного и осмысленного текста посредством использования программных систем, а именно проблема формального представления ассоциативных переходов между предложениями и фрагментами текстов на естественном языке. Основной идеей решения этой под-проблемы является формализация и оценка расстояния между парами слов естественного языка как между парами векторов многомерного семантического пространства слов естественного языка. Определяются семантические координаты лексического и грамматического пространства слов, пар слов и предложений естественного языка. Приводятся примеры различных типов лексико-грамматических отношений между словами естественного языка. Рассматривается дерево генерации синонимичных предложений на основе выделения темы, ремы, связки, модальности и других уровней генерации осмысленных фраз естественного языка.
Искусственный интеллект, обработка естественного языка, тест тьюринга, генерация осмысленных текстов, математическая семантика
Короткий адрес: https://sciup.org/148177078
IDR: 148177078
Текст научной статьи Анализ лексических пар для автоматической генерации диалогической и монологической речи
На сегодняшний день порождение (синтез) речи компьютером является, безусловно, важной проблемой. В данной области широко распространены и разрабатываются разнообразные системы формирования высказываний и обработки естественного языка, а также языковых баз данных различными программными системами: экспертными системами, программами электронного перевода, «ботами» (системами диалога с пользователем), синонимизаторами, программами генерации текстов по тематике «прогноз погоды», «технический справочник» и т. п.
Проблема является актуальной в связи с важностью развития систем взаимодействия человека и компьютера на основе естественного языка (естественно-языкового интерфейса) и потребностью в формировании заданного множества осмысленных текстов различного рода с использованием соответствующих программных приложений.
Проблема генерации осмысленной речи исследуется со времен появления вычислительной техники и широко исследуется различными авторами, в частности Э. Кодда, А. Хомским, А. С. Нариньяни, М. В. Никитиным, К. Шенноном, А. И. Пиотровским, и даже задолго до появления компьютерной техники (машина Луллия и др.).
Важными проблемами являются проблемы перевода [1; 2], машинного перевода, построения экспертных систем, естественно-языковых интерфейсов и др. Для решения этих проблем используются различные средства и методы: метод резолюций, древесный парсинг предложения, мультииерархические системы параллельного разбора (грамматики, семантики, морфологии, фонетического членения предложения и других единиц языка), объектное представление и фреймы, реляционные, многомерные и иерархические базы данных, онтологии, семантические классификации, семантические сети и многие другие.
Кроме того, особого рассмотрения требует проблема анализа семантических пар слов языка, что может позволить генерировать ассоциативно связанные диалоги и монологи на естественном языке.
Цель данной работы состоит в том, чтобы дать анализ лексических пар (слов и предложений) для генерации диалогической и монологической речи.
Задачи данной работы заключаются:
– в анализе классификации слов и смысловых понятий английского языка для ее последующего использования в качестве основы для генерации осмысленного подмножества языка;
– анализе взаимосвязей между словами и выражениями в английском языке: их пар как векторов многомерного пространства слов языка и траекторий слов и предложений как цепочки или системы векторов.
Основная идея работы состоит в построении модели естественного языка на основе многомерного представления слов и пар слов языка и в применении этой модели для решения проблемы генерации ассоциативных переходов в диалогической и монологической речи.
Новизна данной работы состоит в формальном представлении ассоциативных переходов между словами и предложениями как траекторий (функций) в многомерном семантическом пространстве [3], заданном векторами признаков семантической классификации.
Современный уровень разработки в этой области характеризуется многими в определенном смысле не до конца успешными попытками создания систем генерации осмысленной речи на более или менее широких подмножествах естественного языка. В частности, на основе корпусов текстов, данных социальных сетей и отладки семантических сетей с логическими переходами вида «вопросы – ответы», а также «вопрос 1 – вопрос 2 – …», имеются различные реализации решения этой проблемы в некоторых приближениях (программа Alice, обучающая система «Робот Джордж» и др.).
Решение задач семантики, дискретной математики, лингвистики и искусственного интеллекта направлено на прохождение теста Тьюринга со все более жесткими условиями, включающими в себя широкий набор слов, конструкций, фактов и эмуляции отношения к предмету разговора со стороны собеседника или выступающего.
Рассмотрим многомерное пространство объектов естественного языка: слов и выражений. Многие словосочетания могут быть сформированы правильно относительно грамматики, но при этом не иметь семантического смысла. Допустим, фраза «See I» грамматически построена неверно, фраза I eat a hat грамматически корректна, но не имеет семантического смысла, а фраза I eat a pear верна и в грамматическом, и в семантическом смысле.
Ниже приводится пример учета комбинаторики слов естественного языка, представленного в форме подстановочной таблицы, способной генерировать осмысленные фразы на английском языке (табл.1).
Возможно построение многомерной грамматической базы данных со следующими координатами вектора понятийного описания:
– G 1 = Части речи {«Артикль», «Прилагательное», «Существительное», «Глагол», ...};
– G 2 = Члены предложения {«Определитель», «Определение», «Подлежащее», «Сказуемое», …};
– G3,3,1 = Лица {«1-е», «2-е», «3-е», «Не определено»};
– G3,3,2 = Аспект {«Неопределенный», «Продолженный», «Совершенный», «Совершенный продолженный», «Не определен»};
– G 3,1,1 , v 3,1,2 , … = Другие размерности, выраженные грамматическими категориями.
Далее определим лексическое пространство языка (лексический куб) со следующими координатами:
– S 1 = Порядок слов {Исполнитель, Действие, Реципиент, Получатель, Место, Время, Инструмент, Метод};
– S2 = Тема {Еда, одежда, тело, здание, группа людей, транспорт, ...};
– S3 = Варианты замены слов в предложеним {to cook, to boil, to roast, to fry, to bake, …, to eat, to chew, …} (рис. 1).
Все грамматические конструкции располагаются в ячейках многомерного массива данных – многомерного пространства слов языка. Координаты вектора, такие как, например, V[Глагол / Признак / Совершенный, ...], определяют ячейку с грамматической конструкцией «having + ГЛАГОЛ + -(e)d». Вектор V[Прилагательное / Предикат / Первое лицо, Превосходная степень, длинное прилагательное, ...] определяет конструкцию «am the most + ПРИЛАГАТЕЛЬНОЕ». Реляционные таблицы как часть этого многомерного массива представлены в лингвистике в форме традиционных грамматических парадигм.
Таблица 1
Принцип генерации осмысленных фраз естественного языка методом подстановки
the ... этот … |
of the ... этого … |
is over закончится |
now сейчас |
series серия |
game игра |
is left осталось |
at the present moment в настоящем |
season сезон |
tournament турнир |
starts начинается |
today сегодня |
cycle цикл |
Olimpic games Олимпийские игры |
goes on продолжается |
this week на этой неделе |

Рис. 1. Координаты многомерного лексико-грамматического подпространства леса данных естественного языка
В отличие от популярной в традиционной дисциплине «Обработка естественного языка» статистической модели языка, в которой вероятность языковых выражений определяется на основе марковских процессов и других вероятностных и статистических методов и их применения к анализу корпусов текстов на естественном языке, рассматриваемая модель представляет язык как векторизованное пространство векторизованных классификаций.
Приведем несколько примеров такого подхода [3–5], составляющего общий контекст исследования отношений между парами слов естественного языка, M(«модель естественного языка»)[L(«уровень предложения»), S(«лексика»), G(«грамматика») [O(«порядок слов и члены предложения») {субъект, предикат, объект}, T(«объекты по тематике изучения») {идеи {науки, представления, чувства …}, предметы {одежда, еда, части тела, здания, транспорт, …}, существа, …}, V(«варианты подстановок слов в предложение») {позитивное{обожать, любить,…}, негативное {не любить, ненавидеть,…},…}], N(«функции предложения над точками слов»)].
Такое многомерное пространство включает в себя комбинаторно сочетающиеся группы слов, например, группа слов {носить, одевать, снимать, гладить, шить, …} относится к ячейке многомерного пространства M(«модель языка»)[G(«грамматика»)[«отношение– существо–объект предмет», «одежда»; «глагол», «предикат», «неопределенная форма»]]. Пример подстановочной таблицы как среза многомерного понятийного пространства слов естественного языка приводится ниже.
В качестве пояснения места анализа отношений пар слов в общей модели естественного языка как леса классификаций рассмотрим группу слов {кофта, носки, куртка, майка, фартук, …}, которая относится к ячейке многомерного массива M(«модель естественного языка»)[L(«уровень слова»), G(«грамматика»)S («семантика»)[«объект», «одежда», «существительное», «субъект», «единственное число»]]. Обе группы слов образуют синтагматические пары вида M(«модель естественного языка»)[L(«синтагмы»), G(«грамматика»)S («семантика»)[«объект», «одежда»; «существительное», «субъект», «единственное число»] + [«действие с объектом», «одежда»; «глагол», «предикат», «неопределенная форма»], N(«функция двух аргументов»)]: «носить кофту», «гладить фартук», «шить носки», «снимать куртку» и т. п.
Грамматический порядок слов получает в соответствие семантические групп слов, в результате чего данное пространство становится критерием семантической и грамматической осмысленности речи. Функции определенного вида, определенной геометрии над данными группами слов с хорошей вероятностью образуют осмысленные фразы. Фрагменты этих функций представляют собой предложения осмысленного естественного языка. Функции предложений соответствуют гнездящимся деревьям уровня предложения. Для решения проблемы анализа отношений пар слов и предложений рассматриваются следующие разделы модели естественного языка на основе леса классификаций: M(«модель естественного языка»)[L(«уровень пар слов»), S(«семантика»)[«объект», «одежда»] + S(«семантика»)[«объект», «устройство»; «действие», «над одеждой»]] ⊇ {«кепка – стиральная машина», «свитер – швейная машина», «кофта – утюг»}.
Важно отметить, что рассматриваемое трехмерное лексико-семантическое пространство слов общей муль-тииерархической модели языка, т. е . модели на основе векторизованного леса лингвистических данных, и его различные отображения на трехмерное грамматическое пространство слов той же модели дают возможность выявлять не просто осмысленные синтагматические отношения между словами, но и различного рода ассоциативные отношения между словами и их цепочки (табл. 2).
– Группы вариантов;
– Группа слов;
– Список слов по изменяющемуся признаку;
– Экземпляр списка;
– Стилистический вариант.
Тогда как обозначение D.A.P означает вложение уровней дерева в виде цепочек именных групп вида:
– Позиция объекта в предельно полном предложении;
– Атрибут объекта;
– Часть объекта;
– Атрибут части объекта.
Рассмотрим принцип сведения переходов между предложениями к переходам между словами на основе парсинга предложения в форме дерева актуального членения предложения с одним ключевым словом на вершине дерева парсинга.
Таблица 2
Возможные отношения между словами со стороны шестимерного лексико-грамматического пространства
Название лексического и грамматического отношения |
Вектор многомерного пространства для слова 1 |
Вектор многомерного пространства для слова 2 |
Пример отношения |
Различие в частях речи |
G[«Verb», B, C] + S[D, E, F] |
G [«Noun», B, C] + S[D, E, F] |
Love – to love |
Различие в грамматической категории |
G [A, B, «Singular»] + S[D, E, F] |
G [A, B, «Plural»] + S[D, E, F] |
Fan’s – fans’ |
Различие в теме |
G [A, B, C] + S[D, E1 = «Food», F = «Make»] |
G [A, B, C] + S[D, E2 = «Clothes», F = «Make»] |
Cook – sew |
Различие в объекте |
G[A, B, C] + S[D, E, F.G.H] |
G [A, B, C] + S[D, E, F.G. h H] |
Start > launch |
Антонимы |
G [A, B, C] + S[D, E, F.G1.L1.Ex1] |
G [A, B, C] + S[D, E, F.G1.L1.Ex2 ] |
To be born – to live – to die – to revive |
Гиперонимы |
G [A, B, C] + S[D, E, F…G….Ex] |
G [A, B, C] + S[D, E, F…G] |
Mother – Parent |
Гипонимы |
G [A, B, C] + S[D, E, F…G] |
G [A, B, C] + S[D, E, F…G….Ex] |
Parent – Mother |
Дефиноним |
G [A, B, C] + S[D1.0.0, E, F.G.L...] |
G[A, B, C] + S[D2.0.0, E, F.G.L…] |
Driver – Vehicle, Driver – To Drive, Driver – Route или A Cook – To Cook – Dish – Cooked – Recipe |
Эмотивный синоним |
G[A, B, C] + S[D, E, F.G.L.Ex.S] |
G [A, B, C] + S[D, E, F.G.L.Ex. S] |
Лицо – Ряха – Лик – Харя или Waste – Spend – Have (Time) |
Аспект / часть |
G[A, B, C] + S[D, E, F…] |
G [A, B, C] + S[D.0.P, E, F…] |
Traffic – Car – Wheel – Tyre |
Аспект / атрибут |
G[A, B, C] + S[D, E, F…] |
G [A, B, C] + S[D.A, E, F…] |
Car – Old – 15 years old, Car – Powerful – 100 house powers |
Традиционно актуальное членение предложений включает в себя деление на тему и рему, при этом рема является ключевым словом в предложении, а тема относится ко всему тексту или его фрагменту. Таким образом, на вершине дерева актуального членения предложения имеет место ключевое слово (рема); на втором уровне дерева парсинга имеют место тема и рема; на третьем уровне имеет место четверка: тема, связка, рема, модальность; на четвертом уровне добавляются обстоятельства, имеющие важную уточняющую функцию; на пятом уровне имеют место очевидные, понятные из контекста обстоятельства и конкретизация; на шестом – полупустые слова, уточняющие аспекты слов, указанных выше в дереве разбора. Например:
0. Тема повествования: «суп».
-
1. Ключевое слово: «вкуснятина» = «вкусный».
-
2. Тема–Рема: «суп – вкуснятина» = «суп – вкусный».
-
3. Тема–Рема–Связка–Модальность: «суп–вкусным– вышел–классно (очень хорошо)».
-
4. Важная конкретизация: «…вкусным и профессиональным».
-
5. Контекстуальная конкретизация: «суп, который готовила Аня, …».
-
6. Аспекты понятий: «впечатление от супа, …, это просто восторг от вкусняшки, профессиональной штуки…».
-
7. Различные эквивалентные преобразования, например двойное отрицание.
-
0. Тема повествования: «автомобиль».
Таким образом, одну и ту же мысль, что суп вкусный, можно выразить астрономическим количеством более частных по смыслу и по форме фраз.
Приведем дополнительный пример генерации дерева синонимичных по контексту фраз. Например:
-
1. Ключевое слово: «надежность».
-
2. Тема–Рема: «автомобиль – надежность» = «автомобиль – надежный».
-
3. Тема–Рема–Связка–Модальность: «автомобиль– надежным–сконструировали–профессионалы (хорошо)».
-
4. Важная конкретизация: «…надежным и функциональным».
-
5. Контекстуальная конкретизация: «автомобиль, который купил Петр, …».
-
6. Аспекты понятий: «оценка автомобиля, …, это является идеалом надежности, комфортабельного дизайна…».
-
7. Различные эквивалентные преобразования, например двойное отрицание: «…нисколько не опасен», «нельзя не заметить…».
Приведем дополнительные примеры: генерации последовательностей фраз на естественном языке.
-
1. Тема: Овощи; Рема: Разговор. Генерация предложения: Говорить об овощах -> я говорю об овощах -> я хочу сказать об овощах -> овощи, это - то, о чем я хочу сказать (Первое предложение).
-
2. Тема: Овощи; Рема: Вкусно. Генерация предложения: Овощи вкусные -> ... -> Присутствие свежих овощей завораживает отличным вкусом (Второе предложение).
-
3. Тема: Овощи; Рема: Пять часов. Генерация предложения: Овощи были в пять часов -> Овощи съели в пять часов -> Овощи исчезли в пять часов -> Овощи исчезли с тарелок в пять часов -> Ерунда, что овощи не исчезли с тарелок в пять часов (Третье предложение).
Выделение ключевого слова в дереве семантического актуального членения предложения
Рис. 2. Модель лексико-грамматического пространства
-
4. Тема: Кухня, Рема: Красивая. Генерация предложения: Кухня - красивая -> Кухня приятна для еды ^ Сегодня кухня особенно приятна для еды -> Сегодня кухня особенно приятна для «пожевать». (Четвертое предложение с элементами сленговых оборотов).
-
5. Тема: Повар, Рема: Хороший/профессиональ-ный. Генерация предложений: Повар - профессионал -> -> Повар, конечно, профессионал -> Я уверен, что повар, конечно, профессионал -> Я уверен, что повар, конечно, профи -> Я уверен, что повар, конечно, суперпрофи (Пятое предложения с фонетическим шумом сленговой стилистики языка).
Отношения между парами слов (точками) и предложений (функциями многомерного пространства)

Таким образом, от модели траекторий в виде цепочек пар слов естественного языка, как точек многомерного пространства можно перейти к соответствующей траектории ключевых слов как вершин деревьев генерации каждого из вариантов синонимичных фраз языка (см. рис. 2).
Парсинг актуального членения предложения дает возможность выделить в предложении ключевое слово, тему и рему, тему–рему–связку–модальность и другие уровни. Данный парсинг отличается от грамматического парсинга и семантического анализа предложения. В связи с развитием электронного обучения [6] важным остается аспект применения генерации речи обучающих системах.
Таким образом, необходимо отметить, что проблема генерации логико-грамматических переходов между парами предложений нуждается в дальнейшем исследовании. Метод аналогии между переходами в виде пар слов и переходом между предложениями в виде дерева с одним ключевым словом на корне дерева актуального членения предложения является эффективным и нуждается в дальнейшем развитии.