Современное состояние и проблемы правового регулирования применения наборов данных для искусственного интеллекта
Автор: Минбалеев А.В., Осипов Д.П.
Журнал: Вестник Южно-Уральского государственного университета. Серия: Право @vestnik-susu-law
Рубрика: Публично-правовые (государственно-правовые) науки
Статья в выпуске: 4 т.25, 2025 года.
Бесплатный доступ
В статье исследуются современное состояние и проблемы правового регулирования применения наборов данных для искусственного интеллекта, анализируются нормы Модельного закона «О технологиях искусственного интеллекта», принятого Межпарламентской ассамблеей Содружества Независимых Государств, в части регулирования набора данных для технологий искусственного интеллекта. Установлено, что активное внедрение технологий искусственного интеллекта с каждым днем приводит к стремительному расширению сфер применения наборов данных. В связи с этим анализируется применение наборов данных в строительной сфере, в здравоохранении, а также в юридической сфере, в том числе в судебной. Авторы приходят к выводу о том, что решать комплексные вопросы регулирования формирования, использования и доступа к наборам данных возможно за счет принятия следующих мер: создание открытых платформ проверки лицензионных соглашений и характеристик наборов данных; регистрация наборов данных, обученных на охраняемых результатах интеллектуальной деятельности, в уполномоченных федеральных органах исполнительной власти; совершенствование корпоративных политик по формированию наборов данных; расширение взаимодействия с экспертами-юристами; организационные и правовые процедуры контроля происхождения наборов данных – лицензирования, формирования, обучения и использования. Все эти меры поэтапно должны быть закреплены в законодательстве Российской Федерации.
Данные, искусственный интеллект, международное регулирование, наборы данных, правовое регулирование, СНГ, стратегическое планирование, технологии искусственного интеллекта, цифровые технологии
Короткий адрес: https://sciup.org/147252496
IDR: 147252496 | УДК: 342.511:004.8 | DOI: 10.14529/law250410
Текст научной статьи Современное состояние и проблемы правового регулирования применения наборов данных для искусственного интеллекта
A. V. Minvaleev, ,
D. P. Osipov, ,
В условиях активного развития технологий искусственного интеллекта одним из наиболее острых вопросов является закрепление правового режима и регулирование вопросов формирования и использования наборов данных для искусственного интеллекта. Хотя сфера использования наборов данных не ограничивается применением для обучения и работы с искусственным интеллектом, но именно для этих целей данный объект все чаще становится объектом пристального государственного внимания.
Согласно ст. 2 Модельного закона 18 апреля 2025 г. № 58-8 «О технологиях искусственного интеллекта», принятого Межпарламентской ассамблеей Содружества Независимых Государств (далее – Модельный закон об ИИ), под наборами данных применительно к технологиям искусственного интеллекта понимается «совокупность данных, прошедших предварительную подготовку (обработку) в соответствии с требованиями законодательства и необходимых для разработки и функционирования технологий искусственного интеллекта и (или) систем с использованием технологий искусственного интеллекта». Определение представляет собой переработку из первой редакции Национальной стратегии развития искусственного интеллекта на период до 2030 года, утвержденной Указом Президента Российской Федерации от 10 октября 2019 г. № 490 «О развитии искусственного интеллекта в Российской Федерации» (далее – Национальная стратегия ИИ), а также ряда технических стандартов Российской Федерации.
В гл. 6 Модельного закона об ИИ освещены вопросы использования, обработки, хранения и защиты данных. В соответствии с положениями Модельного закона об ИИ процессы формирования, подготовки, разметки использования наборов данных регламентируются на национальном уровне. В качестве признаков данных выделяются: достоверность, достаточность и целесообразность, соответствие принципам управления данными; процессы сбора, обеспечения полноты, репрезентативности, хранения, реализации политики доступа, этапы подготовки, оценки, аудита должны соответствовать требованиям оператора. В качестве требований предусмотрены обязательная предварительная обработка и подготовка для машинного обучения. Этапы такой подготовки включают очистку данных, масштабирование и нормализацию, кодирование категориальных данных, разделение на тренировочный и тестовый наборы.
Предусматривается также и ряд требований для наборов данных: соответствие стандартам, принятие мер для недопущения дискриминации, обеспечение защиты конфиденциальности и персональных данных.
Активное внедрение технологий искусственного интеллекта с каждым днем приводит к стремительному расширению сфер применения наборов данных [1–3; 6]. Так, грамотное формирование наборов данных для целей искусственного интеллекта в сфере строи- тельства позволяет осуществлять мониторинг регионов с целью анализа протекающих строительных процессов и уровня урбанизации региона, динамическое ценообразование и бенчмаркинг на основе искусственного интеллекта, мастер-планирование территорий жилых комплексов, внедрять платформу интерактивной отчетности, продукты автономного строительства, автоматизированное размещение объектов на территории и т.д. Примерами таких данных могут быть космические снимки со спутников, данные по инфраструктуре, застройке, данные по объемам производства и прозрачности закупок материалов, технические паспорта многоквартирных домов, цифровые модели объектов капитального строительства, фото-, видео-, аудиоматериалы со строительных объектов [4].
В сфере здравоохранения искусственный интеллект может применяться с целью повышения качества диагностики клинически значимых изменений посредством использования интеллектуального ассистента, который в проспективном режиме будет передавать врачу-человеку данные о потенциальных патологиях, повышения эффективности управления значимыми для медицинской организации ресурсами с учетом сезонности заболеваний, персонализации предложений лечения для разных типов заболеваний и т.д. Для этого могут быть использованы данные, например, рентгенографических исследований, статистика заболеваемости в зависимости от пола, возраста, региона проживания, статистика по уровню удовлетворенности граждан медицинскими услугами, релевантные базы органов публичной власти [4].
Процессы формирования наборов данных приобретают актуальность и для совершенствования юридической деятельности. Так, одним из предметов исследований становится процесс извлечения и классификации юридически значимых понятий из различных документов (legal Information extraction, LIE), необходимый для поиска судебной практики по аналогичным делам, прогнозирования итоговых судебных решений, развития ситуационного поиска (в вопросно-ответной форме). Данная работа осложняется многими барьерами: во-первых, языковыми, поскольку существует объективная потребность в размеченных данных на языке государства использования, во-вторых, контекстуальными, не позволяющими оперировать четкими юриди- ческими категориями, имеющими собственную специфику, их межотраслевыми связями и др. [5].
Более того, опыт внедрения интеллектуальных решений в судебную систему показал, что провалы автоматизации процессов по обезличиванию судебных решений связаны с недооценкой ручной разметки данных, позволяющей искусственному интеллекту эффективно выполнять поставленные перед ним задачи, а также юридической квалификации специалистов (аннотаторов), размечающих данные. Так, при автоматизации процессов обезличивания данных в базе судебных решений «Judilibre» в качестве персональных данных были обезличены имена лошадей. Исследователи, проанализировав полный цикл работы искусственного интеллекта и показав неспособность ИИ работать автономно без грамотной разметки и непрерывного мониторинга, пришли к выводу, что объективность результатов использования заключается во множестве субъективных решений, принятых на подготовительном этапе работы с данными [8].
Сегодня большая часть данных аккумулируется в федеральных органах исполнительной власти. Разработчики и отраслевые пользователи ИИ-решений часто не всегда представляют, какие конкретно данные будут полезны для целей применения ИИ и в каких конкретно видах деятельности возможен быстро достижимый социальный эффект. Для эффективного обеспечения этих процессов возрастает потребность в стабильном взаимодействии уполномоченных государственных органов с организациями, методической поддержке, активной деятельности по привлечению организаций-потребителей данных, техническом обеспечении хранения наборов данных. Следовательно, управление в условиях формирования экономики данных недостаточно характеризовать с позиций целенаправленного воздействия для достижения необходимого результата, государство становится участником диалога с организациями и вырабатывает эффективную организационно -правовую модель, направленную на развитие использования наборов данных.
В этой связи видится верным решением нормативно предусмотреть обязанность профильных органов государственной власти предоставлять организациям открытые данные для формирования востребованных набо- ров данных. При этом для организаций важно определить критерии участия, условия, основания предоставления, цели обработки данных, отдельно закрепить вопросы защиты интеллектуальных прав на результаты таких разработок. В случаях, когда разработчиком набора данных выступает сам уполномоченный орган государственной власти, за ним должны быть закреплены соответствующие полномочия.
Открытые данные на периодической основе публикуются на официальных сайтах федеральных органов исполнительной власти в информационно-телекоммуникационной сети «Интернет». В июле 2025 года Министерством экономического развития Российской Федерации запущен Портал открытых данных , на котором размещены наборы данных по следующим категориям: безопасность, государство, досуг и отдых, здоровье, картография, культура, метеоданные, образование, спорт, строительство, торговля, транспорт, туризм, экология, экономика, электроника. Поставщиком таких данных являются органы публичной власти. Данные представляются в форматах «CSV», «JSON», «XML» и доступны начиная с 2000 года [11]. В условиях отсутствия порталов открытых данных, в частности данных о преступности, и одновременно высокого уровня урбанизации в Китае формирование востребованных дата-сетов осложняется. Между тем исследователи анализируют возможные источники для сбора данных (например, платформа судебных решений «China Judgments Online» и др.), предлагают осуществлять геокодирование территорий для точности определения мест преступлений, а также использовать время, место, типичные ситуации, информацию о жертвах и обвиняемых для формирования дата-сета.
В Российской Федерации и ранее активно развивались подобные порталы, преимущественно в сфере медицины.
Развитие и функционирование таких платформ снижает проблему предвзятости источников предоставляемых данных, что в перспективе должно повысить качество самих наборов данных, обеспечение которых является ресурсозатратным для заинтересованных в разработке субъектов и может повлечь негативные социальные эффекты.
Исследователи проблем эффективного формирования наборов данных также предла- гают изучать деятельность организаций-потребителей данных путем сбора анкет (дата-шитов). Собираемая информация может быть структурирована на следующие разделы: общая информация (изучается цель и конкретная задача сбора данных, период сбора данных, от кого должны быть получены наборы данных, каков объем данных и т.д.), информация о сборе данных (то есть к какому типу относятся входные данные (признаковое описание объектов, матрица расстояний между объектами, временной ряд или сигнал, изображение или видеоряд), какие организации участвовали в процессе сбора данных и как они финансировались, проводился ли анализ потенциального воздействия набора данных и его использования на субъекты данных (например, анализ воздействия на защиту данных) и т.д.), информация о предварительной обработке данных, информация о публикации и использовании данных, информация о доступе к данным (какие предусмотрены уровни доступа, какова процедура такого доступа), информация о распространении и дальнейшем техническом обслуживании [7; 9; 10].
Актуальным направлением для научного осмысления и практики являются данные, обладателем которых является частный сектор. В ряде случаев для кооперации по вопросам развития ИИ требуется объединение таких данных. Узловыми вопросами являются готовность частного сектора на такой обмен, содержание и объем данных, а также возможное определение уполномоченного государственного органа, объединяющего и предоставляющего доступ на законных и справедливых основаниях. Безусловно, такая организационная модель небесспорна и существенно расширяет функции государства как участника диалога, о котором мы ранее указывали.
Аналогично разрабатывать наборы данных могут научно-исследовательские институты, данная работа финансируется за счет бюджетных средств. Такие разработки могут быть полезны для выстраивания бизнес-процессов на основе искусственного интеллекта и разработки новых решений для последующей коммерциализации.
Отдельного внимания заслуживают данные, на которые распространяются специальные правовые режимы (персональные данные, медицинская тайна, налоговая тайна и т.д.). Существуют также данные, отдельный правовой режим которых находится сегодня на эта- пе разработки в России. Например, промышленные данные. Они существенным образом затрудняют процесс формирования наборов данных, межведомственную аналитику, а также установление экспериментальных правовых режимов с их использованием.
Представляется, что решать комплексные вопросы регулирования формирования, использования и доступа к наборам данных возможно за счет принятия следующих мер: создание открытых платформ проверки лицензионных соглашений и характеристик наборов данных; регистрация наборов данных, обученных на охраняемых результатах интеллектуальной деятельности, в уполномоченных федеральных органах исполнительной власти; совершенствование корпоративных политик по формированию наборов данных; расширение взаимодействия с экспертами-юристами; организационные и правовые процедуры контроля происхождения наборов данных – лицензирования, формирования, обучения и использования. Все эти меры поэтапно должны быть закреплены в законодательстве.
Полагаем, что параллельно с этим государство должно минимизировать административные барьеры в межведомственной аналитике, что позволит оперативно создавать универсальные цифровые профили, которые будут беспрепятственно объединять данные многих органов публичной власти, смогут охватить все отраслевые домены, функционально дадут возможность вновь использовать и развивать цифровые профили. В конечном счете, это во многом даст возможность моделировать меры поддержки, прогнозировать поведение населения, точно оценивать управленческие риски, персонализировать государственное управление для граждан и организаций, централизованно контролировать разработку и использование ИИ-ре-шений.
Нормативная правовая гарантированность государственных задач в сфере формирования и развития наборов данных обеспечивается пока преимущественно посредством актов стратегических планирования и выражена фрагментарно. Законодателю предстоит принять еще ряд норм в данном направлении.