Исследование применения признаков терминов железнодорожной отрасли при формировании классификатора
Автор: Паршин К.А., Подгорный М.С.
Журнал: Теория и практика современной науки @modern-j
Рубрика: Основной раздел
Статья в выпуске: 3 (45), 2019 года.
Бесплатный доступ
Рассмотрены проблемы возможного распространения информации ограниченного доступа в сфере железнодорожного транспорта. Описана уникальность терминологии, используемой в различных направлениях данный сферы. Рассмотрены синтаксические особенности в терминологии и поэтапно описано формирование классификатора, определяющего текстовые документы данной отрасли.
Железнодорожный транспорт, информационная безопасность, лингвистический анализ, синтаксис терминологии, классификатор
Короткий адрес: https://sciup.org/140274366
IDR: 140274366
Текст научной статьи Исследование применения признаков терминов железнодорожной отрасли при формировании классификатора
Железнодорожный транспорт является одним из основных транспортных отраслей в Российской Федерации. Так за 2017 год вклад в ВВП РФ составляет 1,4%. На железнодорожном транспорте на текущий момент работают более 730 тысяч человек [1]. Деятельность является важной для многих смежных областей, в том числе промышленной и оборонной. Именно поэтому так важно поддержание высокого уровня информационной безопасности в сфере железнодорожного транспорта. С точки зрения защиты информации на предприятиях этой отрасли, предусмотрены и функционируют необходимые меры организационной, программной и аппаратной составляющей.
Главной и ключевой особенностью сферы железнодорожного транспорта является условная обособленность данной отрасли в Российской Федерации. Примером может служить перечень должностей, которые используются только на данных предприятиях, уникальная нормативная и учебная литература, своя собственная масштабная сеть передачи данных и многое другое. Особое внимание заслуживает терминология, используемая на железнодорожном транспорте. Например, для описания должности поездного диспетчера используется сокращенное наименование ДНЦ. Термин не является какой-либо расшифровкой и имеет свои исторические корни.
Аналогичные сокращения имеют и объекты инфраструктуры на железнодорожном транспорте, например ДЦС или ВЧД. Уникальностью описания обладают и данные, передаваемые в информационных системах. Любой документ, передаваемый по внутренним каналам связи, содержит как минимум телеграфный код причастных дирекций или служб, а также шифр исполнителя данного документа. Все это говорит о том, что предметная область в части железнодорожной терминологии заслуживает большого внимания при работе с текстовыми данными [2].
Например, регулярные выражения могут быть использованы при поиске и анализе следующих специфических элементов в общем тексте:
-
- телеграмма натурный лист грузового поезда (ТГНЛ) - уникальный цифровой код, описывающий содержание вагонов в грузовом поезде;
-
- сообщения системы АСОУП - цифровой код, содержащий уникальные комбинации цифр и иных символов.
Кроме информационных систем, уникальностью и синтаксическими особенностями обладают и сами термины. Первой отличительной чертой железнодорожной терминологии является то, что объекты имеют определенную условную иерархичность (рис. 1).

Рис. 1. Иерархия в описании субъектов Дирекции управления движением
Вторым отличительным признаком является условное наследование. Например, следующее описание должностей Дирекции управления движением:
-
- Д - Дирекции управления движением;
-
- ДС - начальник станции;
-
- ДСП - дежурный по станции;
-
- ДСПГ - дежурный по сортировочной горке;
-
- ДСПГО - оператор при дежурном по сортировочной горке.
Третьей особенностью является именно синтаксический состав и порядок букв в сокращении железнодорожных объектов и субъектов. При анализе выборки терминов, состоящей из 500-600 сокращений, была получена следующая статистика:
-
- общее количество символов в выборке равно 1583;
-
- общее количество согласных букв в выборке 81,81 %;
-
- количество терминов, начинающихся с гласной буквы 19,47 %;
-
- количество терминов, заканчивающихся гласной буквой 15,97 %.
Другими словами, при текстовом анализе данных важно обращать внимание именно на наполнение и расположение в словах (токенах) согласных букв.
С точки зрения вопросов, затрагивающих информационную безопасность, любое распространение текстовых документов, содержащих данную терминологию, влечет за собой определенные последствия для предприятия - как производственные и экономические, так и последствия для имиджа компании. Применение уникальности терминологии сокращенных наименований должностей, структурных предприятий и информационных систем помогает как при ретроспективном анализе, так и при раннем обнаружении текстовых публикаций имеющих, распространение информации ограниченного доступа. Именно поэтому при составлении классификатора, определяющего отношение текста или документа к железнодорожной отрасли стоит обратить внимание на все вышеперечисленные синтаксические особенности.
Главной задачей исследования является формирование классификатора на основе обучения «с учителем» на данных, которые заранее отнесены к классу тематики железнодорожного транспорта с точностью определения более чем 0,7. В конечном итоге должен получиться классификатор, определяющий относится ли текст к данной отрасли или нет, и на сколько важным является применения в классификаторе синтаксических особенностей в документах данной отрасли. Для обучения на первом этапом требуется наполнить корпус соответствующей литературой и получить обучающие множества.
Корпус - это некоторый филологически-компетентный массив языковых данных (чаще всего, множество текстов) [3]:
-
- отобранных в соответствии с некоторой исследовательской задачей;
-
- специально подготовленных, размеченных, структурированных, представленных в унифицированном виде.
Для решения задачи наполнения корпуса железнодорожного текста выбраны наиболее значимые тексты данной тематики [4]:
-
- Транспортный устав железных дорог Российской Федерации.
-
- Правила перевозок грузов.
-
- График движения поездов.
-
- Правила технической эксплуатации железных дорог.
-
- Инструкция по движению поездов.
-
- Инструкция по сигнализации и связи на железнодорожном транспорте.
-
- Технологические процессы работы станций, отделений и подразделений.
-
- Местные инструкции.
Следующим этапом исследования будет формирование множества, на основании которого будет происходить обучение классификатора, определяющего отношение текста к необходимому классу с максимальной степенью точности.
Список литературы Исследование применения признаков терминов железнодорожной отрасли при формировании классификатора
- Показатели основной деятельности [Электронный ресурс] // официальный сайт, 2018. URL: http://ir.rzd.ru/static/public/ru?STRUCTURE_ID=63 (дата обращения: 10.07.2018).
- Паршин К.А., Подгорный М.С. Обеспечение информационной безопасности предприятия железнодорожного транспорта путем мониторинга текстовых публикаций в открытых источниках данных // Вестник УрФО. Безопасность в информационной сфере - №4 (26) / 2017. - C. 16-20.
- Корпус, лингвистический. Фонд знаний «Ломоносов» [Электронный ресурс] // официальный сайт, 2018. URL: http://www.lomonosov-fund.ru/enc/ru/ encyclopedia:0127206 (дата обращения: 20.08.2018).
- Основные документы, регламентирующие деятельность работников железных дорог [Электронный ресурс] // официальный сайт, 2018. URL: http://rail.uzdk.ru/transport/osnovnye-dokumenty-reglamentirujuwie-dejatelnost-rabotnikov-zheleznyh-dorog (дата обращения: 03.09.2018).