Использование семантической сети при создании интеллектуального электронного словаря для немецко-русского отраслевого перевода

Бесплатный доступ

Предложена семантическая сеть как одна из составляющих гибридной модели представления знаний интеллектуального электронного словаря, которая обеспечивает хранение и использование информации о грамматических категориях и словосочетаниях с искомым термином.

Современная теория языка, интеллектуальный электронный словарь, семантическая сеть, гибридная модель, лексикография, компьютерная лингвистика

Короткий адрес: https://sciup.org/148165506

IDR: 148165506

Текст научной статьи Использование семантической сети при создании интеллектуального электронного словаря для немецко-русского отраслевого перевода

Современная теория языка является многоаспектной наукой, имеющей широкие связи практически со всеми областями современного знания. На ее основе развиваются новые направления, такие как компьютерная лингвистика, корпусная лингвистика, лингвистика текста и др. Современная теория языка активно использует математические методы обработки символьной информации, что, в свою очередь, связано с применением методов искусственного интеллекта. К ним относятся формальные грамматики, естественно-языковые конструкции, методы представления знания и др. Одной из важных областей практического применения современной теории языка является разработка новых типов электронных словарей, методических основ их создания и применения. Новые лингвистические идеи стимулируют прогресс в области лексикографии благодаря пониманию языка как системы знаков, что нашло отражение в идеографическом словаре Ф. Дорнзайфа, в лексикографической классификации понятий Р. Халлига и В. Вартбурга, которая представляет модель лексикосемантической системы [1].

Разграничение языка и речи, парадигматики и синтагматики подготовило почву для разработки синтагматических словарей разных типов (стилистические, словоупотребления,

сочетаемости или комбинаторные, «слово-искатели»). На основе применения технических средств в лексикографии появились словари статистические и обратные, специальные «машинные» для автоматического перевода [3].

В связи с вышеизложенным актуальной является задача создания интеллектуального электронного словаря (ИЭС) отраслевой направленности на немецком языке и его апробации на примере предметной области робототехники. При этом под ИЭС будем понимать часть интеллектуальных автоматизированных систем, которые содержат сформированные и определенным образом упорядоченные наименования понятий предметной области [2].

Отличие предлагаемого ИЭС от существующих заключается в наличии базы знаний (БЗ), в которой хранится информация о терминах, их словосочетаниях, грамматических категориях. Предлагаемая база основана на представлении знаний методами искусственного интеллекта. Словарь является интегрированной (гибридной) системой, построенной на различных методах искусственного интеллекта: семантической сети и продукционных правилах.

Собственно ИЭС как интеллектуальная система должна состоять из двух частей: вариативной и инвариантной. Первая из них обеспечивает хранение и обработку содержательной части информации и зависит от предметной области. Инвариантная часть образует оболочку системы, которая содержит, в частности, знания для контроля контента по формальным признакам при анализе базы данных (БД) словаря на непротиворечивость, для организации интеллектуального ввода и т.п.

В качестве формализма для представления информации в вариативной части ИЭС выбрана семантическая сеть как наиболее подходящая модель представления знаний для хранения и обработки корпусов текстов на немецком языке для многих технических предметных областей. БЗ словаря построена на основе расширенной семантической сети. Используемая расширенная семантическая сеть представлена в виде дерева, т.е. состоит из обыкновенных графов, содержащих N вершин и N – 1 дуг (см. рис. 1). Вершины связаны дугами, которые отражают различные грамматические и морфологические отношения. Корнем дерева семантической сети является существительное на немецком языке в именительном падеже. От него исходят дуги к вершинам «ар- тикль», «склонение», «существительное на русском языке в именительном падеже», которые выражают отношения между вершинами-концептами и представляют функциональные связи, т.е. связаны глаголом «иметь», а также по типу отношений являются n-арными.

Вершина «артикль» связана с вершинами, отражающими виды артиклей «определенный», «неопределенный» и «множественный». Вершина «склонения существительного» соотносится с вершинами «существительное на немецком языке в падеже генитив», «существительное на немецком языке в падеже датив» и «существительное на немецком языке в падеже аккузатив» с помощью дуг. Вершина «словосочетания с существительным-термином» связана с вершиной «существительное на немецком языке в падеже номинатив» дугой, которая выражает функциональную связь с глаголом «включать». Вершина «словосочетания с существительным-термином» включает вершины «причастные словосочетания», «субстантивированные словосочетания» и «адъективные словосочетания». Каждая из вышеперечисленных вершин имеет n -арные отношения с вершинами «словосочетание 1… n ».

Вершина «словосочетание» связана с вершиной «перевод». От вершины «словосочетание» исходит дуга, отображающая отношение принадлежности к вершине «зависимое слово словосочетания». Эти вершины объединены на основе дуг с вершиной «словосочетания с существительным-термином», которая связана дугой с вершиной «существительное-термин на немецком языке в именительном падеже».

На рис. 2 показан пример семантической сети термина «Roboter». В левом верхнем углу расположены подграф «артикли» существительного: определенный артикль мужского рода, неопределенный артикль мужского рода и множественное число артикля. Справа семантический подграф, отображающий формы склонения существительного по падежам в единственном и множественном числах. В центре находится собственно вершина, отображающая термин «Roboter», ниже левее вершины – перевод на русский язык. Далее расположен подграф «словосочетания с существительным-термином», в котором осуществляется распределение словосочетаний с термином по категориям: адъективные, причастные и субстантивированные. Через зависимое слово словосочетания поддерживается связь с другими терминами-существительными.

Рис. 1. Семантическая структура вариативной части БД словаря

Roboter единственное число des Roboters Genitiv

«склонение существительногс»

Подграф «артикли»

dem Roboter Dativ

den Roboter Akkusativ der Roboter Genitiv

den Robotern Dativ

die Roboter Akkusativ

Roboter

множественное число

Робот

имеет

Roboter

включает

Словосочетания с

существительным-

термином

Адъективные

С у бстантивир о ванны с словосочетания

Причастные словосочетания

selbstlernender Roboter

koordiniert geführter Roboter

Roboter für

Hilfsoperationen

словосочетания

1меет

Roboter in Betrieb

adaptiver Roboter

aktueller Roboter

самообучающийся робот

робот с координированны м направлением

для

। волнения омогательных операций

Hilfsoperation

имеет

имеет

имеет

входит

Робот в рабочем состоянии

Адаптивный робот

Действующий робот

Automatisierung von Hilfsoperationen

Субстантивированные словосочетания

Словосочетания с

существительным-

термином

входит

Подграф «словосочетания с существительным-термином»

Automatisierung

Рис. 2. Пример семантической структуры термина «Roboter»

Таким образом, формируется семантическая сеть взаимосвязанных с другими словами и словосочетаниями терминов предметной области «робототехника». Создание семантической сети для представления данных и знаний является необходимой составляющей при разработке интеллектуального электронного словаря для немецко-русского отраслевого перевода.

Предложенная семантическая сеть как одна из составляющих гибридной модели представления знаний ИЭС обеспечивает хранение и использование информации о грамматических категориях и словосочетаниях с искомым термином. Это обеспечило реализацию ИЭС для перевода с немецкого на русский в отрасли робототехники и мехатроники. Созданный электронный словарь будет полезен изучающим иностранный язык, профессионалам в сфере преподавания и переводоведения. Он может быть также использован в качестве встраиваемого модуля для системы обработки и распознавания текстов на иностранном (немецком) языке.

Статья научная