Проект создания китайско-русского параллельного корпуса официально-деловых текстов с дискурсивно-структурной разметкой

Бесплатный доступ

Статья посвящена проекту создания китайско-русского параллельного корпуса официально-деловых текстов с дискурсивно-структурной разметкой. Данная разметка заключается в описании структуры каждого абзаца в виде сети дискурсивных единиц, соединенных дискурсивными отношениями. Основу первичного наполнения корпуса составляют доклады о работе правительства КНР на китайском языке и их официальные переводы на русский. Выравнивание китайских и русских текстов в корпусе, т. е. их синтаксическое соотнесение, проводится по структуре каждого абзаца. В статье представлены история разработки проблемы создания синтаксических корпусов, общие задачи проекта, его теоретические основания и прикладные перспективы, критерии отбора текстов для корпуса, принципы разметки и выравнивания текстов, а также программное обеспечение для разметки и хранения данных (общая схема данных и интерфейс). Создаваемый корпус может быть в дальнейшем использован для решения задач машинного перевода и других алгоритмов автоматической обработки текста, обучения иностранным языкам, сопоставительной лингвистики, теории перевода и т. д.

Еще

Корпусная лингвистика, параллельный корпус, дискурсивно-структурная разметка, трибанк, китайско-русский корпус, дискурсивное выравнивание, автоматическая об работка текста, машинный перевод

Короткий адрес: https://sciup.org/147154030

IDR: 147154030   |   DOI: 10.14529/ling160404

Статья научная