Лингвистический подход к обработке больших данных в правовой сфере
Автор: Макович Г.В.
Журнал: Вестник экономики, управления и права @vestnik-urep
Рубрика: Образование
Статья в выпуске: 2 т.16, 2023 года.
Бесплатный доступ
В статье обосновывается методика аналитико-информационной обработки больших корпусов правовых текстов, в ходе применения которой возможно маркирование текстов как «эталонных», оптимально структурированных и репрезентирующих информацию, терминологически единообразных. Полученные результаты позволяют оптимизировать создание правовых текстов путем моделирования по стандартным образцам.
Большие базы данных, «эталонные» единицы правовых текстов, терминосистема, лексико-семантические шаблоны, синтаксические шаблоны
Короткий адрес: https://sciup.org/142237570
IDR: 142237570
Текст научной статьи Лингвистический подход к обработке больших данных в правовой сфере
Для повышения надежности функционирования правовой системы все активнее используются аналитико-информационные инструменты работы с большими базами правовых данных и корпусами правовых текстов в целом. Формирование массивов правовых текстов и их программная обработка позволяют получать знания об их лингво-когнитивных моделях, облигаторных и переменных языковых компонентах структуры текста, способах структурирования информации, формах репрезентации разнообразной дополнительной неструктурированной текстовой информации. Текстовая аналитика больших баз данных позволяет оптимизировать работу.
Возможности применения автоматизированных информационных систем для юридической деятельности рассматриваются в работах Н.И. Санниковой, Н.А. Троян, В.Д. Чуракова, А.А. Хорошилова [1; 2; 3; 4]. Исследователи обосновали, что большие базы данных в правовой сфере способны существенно повысить объективность оценки существующего уровня правового регулирования и на следующем этапе проектировать модели правовых средств [5, с. 61]. Однако на настоящий момент более 50% информации, представленной в формате «открытых данных», остается невостребованной, поскольку не решены вопросы о способах использования технологий «больших данных», наборе полезных для решения практических задач параметров для анализа данных [6, с. 92].
Цель и методы исследования
В статье рассматриваются направления лингвистического изучения корпусов правовых текстов, которые позволят выявить их структурные особенности, а потом и оптимизировать создание этих текстов на основе принципа их дальнейшего моделирования по эффективным стандартизированным образцам. Для реализации цели были использованы прогностический метод, метод ранжирования параметров по степени представленности в правовых текстах. Методом сплошной выборки были проанализированы работы, проиндексированные на крупнейшем российском информационно-аналитическом портале , относящиеся к периоду с 2015 года по настоящее время. Поиск проводился по наличию пар сочетаний «большие базы данных - текст», «информационно-правовая система текст», «BigDate - текст» в названиях публикаций, в аннотациях и ключевых словах. При формировании выборки исходили из того, что в названии публикации, в аннотации и в ключевых словах отражены актуальные для анализа текстов в корпусах их собраний признаки, свойства. В работе используется метод теоретико-методологического анализа литературы по указанной проблематике, метод контент-анализа, метод статистического анализа.
Исследование и его результаты
Процесс информатизации юридической деятельности, включая формирование больших баз правовых текстов, интенсивно развивается. Правовая информация размещается на сайтах государственных органов власти, Министерства юстиции Российской Федерации, действует восемь справочноправовых систем, таких как «Гарант», «Консультант плюс», «Право.ru», «Законодательство России», «Кодекс» и пр., российские суды размещают на сайтах свои решения, существует сайт-агрегатор судебных и нормативных актов Российской Федерации СудАкт, аналитическая система судебной практики «Сутяжник» и др. Для служебного пользования органами государственной власти и местного самоуправления распространяются издающиеся ими правовые акты в электронном виде, однако актуальна задача трансформации этой системы в общенациональную систему правовой информации.
Созданы обширные базы нормативноправовой информации, которая может быть обработана, в частности в лингвистическом аспекте. Целью такой практической работы является унификация и оптимизация структуры юридических текстов разных типов, устных и письменных, их синтаксического и лексического наполнения. Поскольку юридический текст, с одной стороны, определяет, «задает» процедуры и правила, применяемые при разрешении споров и иных юридических дел, а с другой стороны, отражает фактическое состояние практики правоприменения, то лингво-юридический анализ массивов правовых текстов позволит стандартизировать юридический текст.
Одной из ключевых является задача обеспечения терминологического единообразия в практике законодательства, что позволяет повышать четкость правоприменения. Также первоочередной является работа по выявлению точности юридического текста и обеспечению этой точности.
В практике судопроизводства значимой является унификация процедур принятия решения. Лингво-юридический аспект этой задачи состоит в выявлении облигаторных и вариативных блоков в протоколах судебных заседаний по идентичным делам, четких стандартизированных формулировок, представляющих фактологическую составляющую ситуации и квалификации ситуации и ее компонентов. Выявление коммуникативных блоков высказываний, синтаксически цельных стандартизированнох структур, производных от процессуальной стороны судопроизводства, позволяет оптимизировать судопроизводство.
Для решения задачи формирования терминологического единообразия и точности в законодательной практике используется метод оценки качества стиля нормативно-правового документа. В ключевых позициях законодательного акта, в каждой его структурной части должны находиться именно термины, лексемы, соответствующие критериям и требованиям, предъявляемые к терминологическим единицам. Термины надо отличать от смежных лингвистических явлений, не обладающих всем на- бором необходимых признаков.Термин употребляется для наименования понятия, он обладает содержательной точностью и имеет дефиницию, однозначен, его значение не зависит от контекста.
Юридическая терминосистема включает в себя корпус «эталонных» единиц, и любой юридический текст из корпуса текстов сопоставляется с «эталонными» носителями юридических смыслов. В термино-системах «эталонными» являются базовые термины, обозначающие базовые понятия права, а также ядерные термины, называющие основные правовые понятия внутри группы базовых: административное правонарушение, кассационная жалоба, юридический прецедент, состав правонарушения и др . Зоной риска в законодательном документе являются термины широкой семантики, использующиеся во многих термино-системах и регулярно меняющие свою семантику в каждой из них, сохраняющие только общее нетерминологическое значение: инкорпорация, дефинитивные нормы, декларативные нормы, естественное злоупотребление правом и др .
Также специального анализа требуют составные термины, включающие в себя несколько компонентов и обозначающие сложные понятия, поскольку при сочетаемости компонентов часто происходят их семантические трансформации: общедозволительный тип правового регулирования, объективно противоправное деяние, сознательно-волевой характер права и др .
Для решения указанных задач лингвоюридического анализа текста в прикладной лингвистике существуют программные средства, и среди них как применяющиеся сегодня универсальные программы типа GATE и Ant, так и специализированнные, создающиеся в каждом конкретном случае под определенный заказ для решения поставленной задачи. Возможно создание программных продуктов под решение ведомственных, отраслевых задач.
Статистика, полученная в результате разметки корпуса юридических текстов в соответствии с маркерами терминосистемы, позволит сделать вывод о встречаемости критериев точности и единообразности юридических текстов и значимости данных критериев в оценке текста. Эта информация позволяет определять уровень качества правового текста, формировать рекомендации по его улучшению, моделировать оптимальные блоки для использования в юридических текстах.
Чтобы реализовать указанные функции в рамках анализа корпусов правовых текстов с использованием возможностей специализированного программного продукта, требуется специальная лингвистическая работа по структурированию юридических терминосистем. Каждая из них является многоуровневой и иерархической, с многочисленными связями по смежности. Содержательно-языковая связанность внутри терминосистемы выражается в наличии отношений целого и части (принципы уголовного судопроизводства (целое) -презумпция невиновности, состязательность сторон (части) и выстраивании различных гипо-гиперонимических отношений и диагональных отношений. Особый род отношений в терминосистеме это отношения объекта и его признаков разного уровня (предмет присвоения (объект) (1) предмет внешнего мира в любом физическом состоянии, (2) вещь, обладающая определенной материальной ценностью, (3) вещь чужая, признаки объекта. Термино-системы включают различные группы терминов, обозначающих специфические формальные признаки понятий и различающихся по месту в терминосистеме.
Маркирование юридической терминоси-стемы по максимальному набору признаков позволяет произвести точную разметку корпуса юридических текстов с целью оценки их лингво-юридических свойств. Статистика, полученная в результате разметки корпуса в соответствии с маркерами терминосистем, позволит определить уровень качества правового текста и разработать рекомендации по его улучшению.
Аналогичное маркирование правового текста следует производить для оценки его синтаксической простоты и стандартизован-ности структурных единиц, сложных синтаксических целых, коммуникативных блоков высказывания. В основе этой работы лежит выявление в массивах корпуса правовых текстов «эталонных» стандартизированных синтаксических целых, соотнесенных с конкретными видами текста, к примеру, исковое заявление, судебное решение, постановление и др., а также с их структурными частями, как-то: изложение фактологической составляющей ситуации, квалификация ситуации и ее компонентов и др. Сопоставление текстов в корпусе с теми, которые маркируются как «эталонные», позволяет оценить качество правового текста и предложить пути его со-дерательно-языковой трансформации и оптимизации.
Все описанные процессы должны привести к формированию автоматизированной платформы создания юридических текстов разных видов. Сервис должен быть ориентирован на выполнение пользователем нескольких функциональных ролей. Одну из ролей позволит реализовать режим «Проверка», дающий возможность пользователю загрузить документ и по итогам маркирования текста произвести его редактирование путем выбора соответствий из базы «эталонных» конструкций и «эталонных» терминов. Другим режимом работы сервиса должен быть режим «Создание», позволяющий из готовых структурных единиц, из лексико-синтаксических шаблонов смоделировать правовой текст определенного вида.
Выводы
Аналитико-информационная работа с большими базами правовых текстов позволяет выявить лингво-когнитивные модели текстов, способы структурирования и репрезентации информации. Полученные результаты позволяют оптимизировать созда- ние правовых текстов путем моделирования по стандартным образцам. Также аналитико-информационная работа с корпусами правовых текстов позволяет решить задачу обеспечения терминологического единообразия в практике законодательства и правоприменения. В массивах правовых текстов возможно выделить «эталонные» стандартизированные тексты разных функци- ональных видов, а также «эталонные» стандартизированные структурные части массивных, объемных правовых текстов. Сопоставление текстов в корпусе с теми, которые маркируются как «эталонные», позволяет, с одной стороны, оценить качество правового текста, с другой стороны, предложить пути его содерательно-языко-вой трансформации и оптимизации.
Список литературы Лингвистический подход к обработке больших данных в правовой сфере
- Санникова, Н.И. Анализ автоматизированных информационных систем для юридической деятельности в Российской Федерации // Экономика и социум. 2017. № 1-2 (32). С. 1139 - 1144.
- Троян, Н.А. Информационно-правовое обеспечение развития национальной системы правовой информации в Российской Федерации в условиях цифровой трансформации // Мониторинг правоприменения. 2020. № 4 (37). С. 28 - 32.
- Чураков, В.Д. BigData и юриспруденция: на одном ли мы пути? // Право и информация: вопросы теории и практики. 2018. С. 136 - 143.
- Хорошилов, А.А. Методы анализа текстов в технологиях «BigData» // Труды XV Всероссийской научной конференции RCDL’2013, Ярославль, 14 - 17 октября 2013 года. Ярославль: Ярославский государственный университет им. П.Г. Демидова, 2013. С. 30 - 37.
- Черных, И.И. Правовое прогнозирование в сфере гражданского судопроизводства в условиях развития информационных технологий // Актуальные проблемы российского права. 2019. №6. С. 58 - 72.
- Булгакова, Е.В. Методы анализа больших данных в решении юридических задач // Право и информация: вопросы теории и практики: Сборник материалов международной научно-практической конференции. СПб, 2017. С. 90 - 96.