Библиотечно-информационная обработка данных ИИ: этические вопросы

Артамонова Е.В.; Artamonova E.V.

Научные статьи \ Общие вопросы науки и культуры \ Информационные технологии. Вычислительная техника. Обработка данных \ Прикладные информационные (компьютерные) технологии. Методы основанные на применении компьютеров

Библиотечно-информационная обработка данных ИИ: этические вопросы

Автор: Артамонова Е.В.

Журнал: Культура: теория и практика @theoryofculture

Рубрика: Информационная инфраструктура цифровой экономики

Статья в выпуске: 4 (59), 2024 года.

Бесплатный доступ

В статье рассматриваются этические вопросы обработки массивов данных при помощи искусственного интеллекта для последующего использование в библиографической, библиотечной сфере. Рассматриваются особенности обеспечения безопасности данных, прозрачности систем и ответственности за их применение.

Искусственный интеллект, библиография, библиотечно-информационная деятельность, персональные данные

Короткий адрес: https://sciup.org/144163321

IDR: 144163321

Bibliographic data processing with AI: ethical considerations

The article examines the ethical issues of processing data sets with the help of artificial intelligence for further use in bibliographic, library sphere. The specifics of data security, transparency of systems and responsibility for their use are considered

Текст научной статьи Библиотечно-информационная обработка данных ИИ: этические вопросы

ИНФОРМАЦИОННАЯ ИНФРАСТРУКТУРА ЦИФРОВОЙ ЭКОНОМИКИ. АРТАМОНОВА Е. В. БИБЛИОТЕЧНО-ИНФОРМАЦИОННАЯ ОБРАБОТКА ДАННЫХ ИИ: ЭТИЧЕСКИЕ ВОПРОСЫ

В современном мире искусственный интеллект (ИИ) играет всё более значимую роль в различных сферах деятельности человека, включая библиотечно-информационную обработку данных. Развитие и применение ИИ поднимает ряд этических вопросов, которые требуют внимательного рассмотрения и обсуждения. В том числе - безопасность данных, прозрачность систем и ответственность за их применение. В данной работе будут рассмотрены этические вопросы, связанные с использованием ИИ в библиотечноинформационной обработке данных, даны рекомендации по обеспечению этичного использования ИИ в этой области.

Существуют различные трактовки понятия «искусственный интеллект». Например, Тютюнник В. М. и Дубровин А. Д. указывают в учебнике «Интеллектуальные информационные системы», что искусственный интеллект - это «компьютерная модель человеческого интеллекта» [1]. В Федеральном законе Федеральный закон от 24 апреля 2020 г. N 123-ФЗ указано, что искусственный интеллект - «комплекс технологических решений, позволяющий имитировать когнитивные функции человека (включая самообучение и поиск решений без заранее заданного алгоритма) и получать при выполнении конкретных задач результаты, сопоставимые, как минимум, с результатами интеллектуальной деятельности человека» [2].

Таким образом, на основе этих определений мы видим, что искусственный интеллект - неодушевлённая программа, призванная имитировать мыслительную деятельность человека.

В настоящее время не существует ИИ-систем, полностью воспроизводящих человеческое сознание, способное на решение различных, разнотипных задач - т. н. сильный искусственный интеллект - однако созданы системы, компетентные в какой-либо конкретной области, т. н. слабый искусственный интеллект [3].

Однако даже такие, ограниченные ИИ-системы могут превосходить компетенции человека в определённой области, благодаря скорости обработки задачи. Например, программа Alpha Go оказалась способной выиграть у обученного профессионала игры «го»

в 99,8% случаев, обработав 30 миллионов комбинаций. [4]

Данные способности ИИ позволяют достичь положительных практических результатов. Например, при помощи ИИ-технологий поисковая система Яндекс способна ответить на 1.6 млрд поисковых запросов в день [5].

«Слабый» искусственный интеллект не способен проявлять свою собственную волю - осуществлять какие-либо действия без соответствующей команды пользователя, или иметь враждебные намерения по причине отсутствия у него эмоций.

ИИ, как и любой инструмент, может быть некачественным или использованным в злонамеренных целях. В данной статье мы не будем рассматривать примеры использования ИИ в военных целях, однако остановимся на некоторых рисках, которые несут в себе ИИ-системы, которыми способен воспользоваться пользователь сети Интернет.

В частности, искусственный интеллект может передавать пользователю искажённую или некорректную информацию.

В возможности ИИ делать ошибки можно убедиться экспериментальным способом. Например, следующий правдоподобно выглядящий список литературы был получен автором при тестировании штатной работы ИИ-нейросети «AbtopGPT» :

1. - Федоров, А. Г. (2003). История русской книги. С.-Петербург: Университетская книга.
2. - Иванов, И. К. (2008). Библиотеки, книги и читатели дореволюционной России. Москва: Наука.
3. - Петров, П. С. (2015). Государственная политика и культурное наследие в России XVIII-начала XX века. Исторические исследования, 10(2), 45-58. В действительности этих авторов и произведений не существует.

Исследовательская команда Университета Пердью установила, что чат-бот ChatGPT ошибается в 52% случаев, когда ему задаются вопросы, касающиеся программирования. Как показал эксперимент в исследовании Университета, для человека сгенерированный неправильный ответ выглядит достаточно правдоподобно, чтобы принять его за верный [6].

Также с возникновением развитых технологий ИИ стали появляться т.н. дипфейки. Слово дипфейк (Deepfake) является составным и происходит от deep learning (глубинное обучение) и fake (фейк, подделка). Глубинное обучение - это один из методов обучения искусственного интеллекта, оно активно и добросовестно используется во многих ИИ-продуктах, выключая вышеупомянутый «Яндекс» [7].

Один из примеров дипфейков - поддельные видео, в которых совмещается голос или лицо одного человека с другим. Видео с «пьяной» Нэнси Пелоси, спикером Палаты представителей США, набрало миллионы просмотров на YouTube - однако это было видео с ложной информацией, созданное с использованием замедления реального видео, чтобы создать видимость невнятной речи.

У генерального директора британской энергетической компании мошенники смогли выманить 220 000 евро с помощью дипфейковой имитации голоса руководителя головной компании, якобы запросившего срочно перевести указанную сумму [8].

Ещё одна область, в которой могут пострадать как пользователи ИИ-продуктов, так и сторонние лица - недобросовестное использование персональных данных и авторских прав при обучении и эксплуатации ИИ-системы.

В заявлении для прессы, переданном The Verge, компания, управляющая Интернет-фотоагентством Getty Images указала, что компания Stability AI незаконно скопировала и обработала около пяти миллиардов иллюстраций, взятых из интернета «без согласия их авторов»., защищённых авторским правом, для обучения своего ПО и как следствие -получения прибыли [9].

В конце мая 2023 г. вскрылась масштабная утечка данных пользователей чат-бота ChatGPT, которые потенциально могут скомпрометировать конфиденциальную и чувствительную информацию, которую пользователи доверяют этому продвинутому чат-боту. На биржах украденных данных в даркнете появились логи, содержащие более 100 000 учетных записей ChatGPT. Как сообщает The Hacker News и сингапурская компания Group-IB, занимающаяся кибербезопасностью, в публичный доступ попали учётные данные пользователей, заходивших в ChatGPT с момента его запуска в июне 2022 года по май 2023 года, когда появилась информация об утечке — а это значит, что она вполне может продолжаться. Наиболее пострадавшие от утечек страны — США, Франция, Марокко, Индонезия, Пакистан и Бразилия

Скомпрометированной могла оказаться и личная информация некоторых платных подписчиков сервиса, говорится в сообщении компании-создателя OpenAI: «Некоторые пользователи могли видеть имена и фамилии других активных пользователей, а также их адреса электронной почты, платежные адреса, последние четыре цифры (только) кредитных карт и их сроки действия:» [10].

Стоит отметить, что утечки персональных данных не являются эксклюзивными для ИИ, но являются острой проблемой для современного общества. В России Роскомнадзор зафиксировал 168 утечек персональных данных в 2023 году, в сеть попали более 300 млн записей о россиянах [11].

В библиотечно-информационной деятельности технологии искусственного интеллекта могут применяться в следующих целях:

1) Автоматизация обработки книжных фондов и документов: с помощью ИИ возможно автоматизировать процесс обработки библиотечных фондов, а также документов и статей, что позволит ускорить и упростить этот процесс.
2) Анализ данных и статистика. Искусственный интеллект может обрабатывать большие объемы данных и выявлять тенденции и особенности использования библиотечных ресурсов, что поможет библиотекам оптимизировать свою работу и улучшить качество предоставляемых услуг.
3) Разработка поисковых систем. Библиотеки могут использовать ИИ для разработки более эффективных и точных поисковых систем, которые основаны на обработке естественного языка и умении определять потребности и запросы пользователя.
4) Создание персонализированных подборок. Используя ИИ, библиотеки могут создавать персонализированные подборки книг и материалов для каждого пользователя, учитывая его интересы и предпочтения.

Создание дипфейков на основе данной деятельности представляется автору маловероятным, поскольку необходимые для обработки ИИ данные не включают и не должны включать изображения пользователей, однако при использовании голосовых команд ИИ-системе будет нужен доступ к аудиозаписи речи пользователя, а значит, к этим данным может быть получен несанкционированный доступ.

Таким образом, наибольшая проблема при использовании ИИ-технологий в библиографии - возможные утечки персональных данных и искажение информации при передаче пользователю.

В Библиотеке Конгресса США в Вашингтоне создана «система оптического распознавания и классификации и распознавания визуального контента» «Газетный репортёр» (Newspaper navigator). За 19 дней c момента запуска «Газетным навигатором» было классифицировано 16 млн страниц. При помощи этого инструмента пользователи могут искать не только конкретную статью (в данном случае, в газете), но и отдельные элементы, находящиеся в статьях, такие, как иллюстрации, карты, рекламные объявления, и т. д. [12]

Цифровая платформа Роспатента предоставляет широкие возможности для поиска документов Государственного патентного фонда. Пользователи могут осуществлять многоязычный полнотекстовый и атрибутивный поиск на основных европейских языках, что значительно упрощает процесс нахождения необходимой информации. В том числе в системе задействованы возможности поиска при помощи ИИ похожих по тексту или изображению документов [13; 14].

Как можно видеть, есть примеры использования ИИ-систем в библиотечном деле как в Российской Федерации, так и за рубежом.

Рассмотрим российское законодательство, призванное обеспечить безопасность текущих пользователей ИИ-систем.

Национальная стратегия развития ИИ в России задаёт ориентиры в отношении разработки этических норм ИИ. Они также должны быть со временем закреплены в соответствующем документе — российском этическом кодексе ИИ.

Про этические понятия применительно к ИИ в стратегии говорится дважды. В первом случае речь идёт об основных принципах развития технологий ИИ, которые должны включать в себя принципы, так или иначе относящиеся к сфере этики: защиту прав и свобод человека, недопустимость дискриминации и ущерба для людей [15].

Стратегия национальной безопасности Российской Федерации описывает основные задачи для развития искусственного интеллекта. В Стратегии отмечены основные задачи развития искусственного интеллекта:

• - поддержка научных исследований;
• - разработка и развитие ПО, в котором используются технологии ИИ;
• - повышение доступности и качества данных;
• - повышение доступности аппаратного обеспечения;
• - повышение уровня обеспечения российского рынка технологий ИИ

квалифицированными кадрами и повышение уровня информированности населения о возможных сферах использования технологий ИИ;

• - создание системы регулирования общественных отношений, возникающих

в связи с развитием и использованием технологий ИИ [16].

Согласно «Концепции развития регулирования отношений в сфере технологий искусственного интеллекта и робототехники на период до 2024 года», развитие технологий ИИ и робототехники должно основываться на базовых этических нормах и предусматривать:

• - Цель обеспечения благополучия человека должна преобладать над иными

целями разработки и применения систем ИИ и робототехники.

• - Запрет на причинение вреда человеку по инициативе систем ИИ и
робототехники.

• - Подконтрольность человеку в той мере, в которой это возможно с учётом

требуемой степени автономности систем ИИ и робототехники и иных обстоятельств. - Проектируемое соответствие закону, в том числе — требованиям безопасности: применение систем ИИ не должно заведомо для разработчика приводить к нарушению правовых норм [17].

Для библиотек релевантна Статья 13 Федерального закона от 27.07.2006 N 152-ФЗ (ред. от 06.02.2023) «О персональных данных» . В соответствии с ней «не допускается использование оскорбляющих чувства граждан или унижающих человеческое достоинство способов обозначения принадлежности персональных данных, содержащихся в государственных или муниципальных информационных системах персональных данных, конкретному субъекту персональных данных» [18].

Важным элементом правового поля является Федеральный закон от 24 апреля 2020 г. N 123-ФЗ «О проведении эксперимента по установлению специального регулирования в целях создания необходимых условий для разработки и внедрения технологий искусственного интеллекта в субъекте Российской Федерации - городе федерального значения Москве и внесении изменений в статьи 6 и 10 Федерального закона «О персональных данных» [2]. Он вводит экспериментальное правовое регулирование в Москве с целью создания условий для разработки и внедрения технологий искусственного интеллекта. Закон определяет цели, задачи и принципы этого регулирования, а также полномочия органов власти Москвы в рамках эксперимента. Срок проведения эксперимента составляет пять лет, после чего принятые нормативные акты теряют силу, за исключением некоторых исключений. Закон подчеркивает важность прозрачности эксперимента, защиты прав и свобод человека, а также недискриминационного доступа к результатам применения искусственного интеллекта.

Рассмотрим существующие практики по обеспечению безопасности данных.В России создан Альянс в сфере искусственного интеллекта, а на его основе - Кодекс этики в сфере ИИ и Комиссия по реализации Кодекса этики в сфере искусственного интеллекта [18]. В частности, при разработке ИИ-систем человек, его права и свободы должны рассматриваться как наивысшая ценность. Создателям ИИ указывается на необходимость соблюдения принципов информационной безопасности при создании ИИ-систем. Рекомендуется осуществлять добросовестное информирование пользователей об их взаимодействии с СИИ, когда это затрагивает вопросы прав человека и критических сфер его жизни, и обеспечивать возможность прекратить такое взаимодействие по желанию пользователя. Указано, что ответственность за последствия применения ИИ-систем всегда несёт человек. Стоит отметить, что Кодекс на данный момент носит рекомендательный характер.

Обезличивание ПД позволяет сохранить их исходную структуру и формат значений, а также интеграционную целостность. Это важно, так как в разных базах данных хранятся фрагменты информации об одном и том же клиенте. Унифицированный подход к обезличиванию позволяет находить и сохранять все связи.

Процессы управления персональными данными регулируются нормативноправовыми актами и внутренними требованиями организации.

Ряд компаний самостоятельно разрабатывают инструменты для автоматического обезличивания, возможно и использование рыночных продуктов. Существуют и зарубежные, и отечественные решения, например, продукт Группы Т1 Сфера.Обезличивание данных [19].

В частности, такие программы позволяют:

• - обезличивать большие данные.
• - формировать «белые списки» значений полей для исключения из обезличивания.
• - формировать отчеты с результатами поиска, классификации и обезличивания данных.
• - искать и классифицировать в автоматическом режиме атрибуты с персональными данными на основе технологий машинного обучения, в т.ч. глубокого обучения.

Автоматизированный поиск с помощью модели машинного обучения предсказуемо выигрывает у ручного метода, базирующегося исключительно на правилах и точности. Полнота обнаружения ПД у продукта "Сфера". Обезличивание данных на сегодняшний день составляет 97,3%, а точность поиска достигает 95% [20].

В России существует несколько программ и решений для защиты персональных данных на серверах, среди которых можно выделить следующие:

КСЗИ «Панцирь+» - комплексная система защиты информации, которая может использоваться для защиты рабочих станций, серверов, терминальных серверов, средств виртуализации Hyper-V, включая защиту и гостевых машин, и гипервизора. Система позволяет в комплексе решать актуальные задачи защиты информации от внешних и от внутренних угроз, в том числе от угроз таргетированных атак [21].

Secret Net Studio - комплексное решение для защиты рабочих станций и серверов на уровне данных, приложений, сети, операционной системы и периферийного оборудования. Система обеспечивает защиту информации от несанкционированного доступа, усиленную аутентификацию пользователей, доверенную информационную среду и другие функции [22].

Эти программы разработаны с учетом требований российского законодательства и обеспечивают высокий уровень защиты персональных данных на серверах.

Искусственный интеллект (ИИ) играет значительную роль в библиотечноинформационной обработке, при этом этические вопросы, такие как безопасность данных, прозрачность системы и ответственность за использование ИИ, требуют тщательного обсуждения. В некоторых областях ИИ может превзойти человеческую компетентность, но при этом несет в себе риски, такие как передача искаженной/неправильной информации и глубоких подделок. Библиотеки могут применять ИИ в различных целях, например, для автоматизации обработки книжных фондов, анализа данных, разработки поисковых систем и создания персонализированных подборок. Самая большая проблема использования технологии ИИ в библиотечной деятельности — это возможная утечка персональных данных и искажение информации. Российское законодательство направлено на обеспечение безопасности систем искусственного интеллекта для пользователей. Существующие практики компаний, связанных с ИИ-разработкой, в т.ч. Альянса по искусственному интеллекту, программ защиты персональных данных на серверах, присели к созданию продуктов, позволяющих использовать искусственный интеллект этично, в том числе - предупреждая их о взаимодействии с ИИ-системами, повышая качество ответов, сгенерированных искусственным интеллектом, защищая данные пользователей.

Список литературы Библиотечно-информационная обработка данных ИИ: этические вопросы

Тютюнник В. М. Интеллектуальные информационные системы: учебник: 2-изд., стереотип. // В. М. Тютюнник, А. Д. Дубровин. – Тамбов; Москва; Санкт-Петербург; Баку; Вена; Гамбург : Изд-во МИНЦ «Нобелистика», 2012. – 356 с.
Федеральный закон от 24 апреля 2020 г. N 123-ФЗ "О проведении эксперимента по установлению специального регулирования в целях создания необходимых условий для разработки и внедрения технологий искусственного интеллекта в субъекте Российской Федерации - городе федерального значения Москве и внесении изменений в статьи 6 и 10 Федерального закона «О персональных данных» // ГАРАНТ. [Электронный ресурс]. – URL: https://base.garant.ru/73945195/741609f9002bd54a24e5c49cb5af953b/ (дата обращения: 15.04.2024). – Текст : электронный.
Этика искусственного интеллекта и история искусственного интеллекта // Центр искусственного интеллекта НИУ ВШЭ. [Электронный ресурс]. – –URL: https://cs.hse.ru/aicenter/ethics (дата обращения: 15.04.2024).
Искусственный интеллект обыграл человека в игру го // Научная Россия. [Электронный ресурс]. – URL: https://scientificrussia.ru/articles/iskusstvennyj-intellekt-obygral-cheloveka-v-igru-go (дата обращения: 15.04.2024).
Бегин А. Статистика Яндекса в 2024 году: обновлено / А. Бегин // Инклиент. [Электронный ресурс]. –URL: https://inclient.ru/yandex-stats/#auditoria-andeksa-v-2023-godu (дата обращения: 08.08.2023).
Вашкевич А. Исследование: ChatGPT дает неправильный ответ на половину вопросов о программировании / А. Вашкевич // Инфостарт Журнал : Новости индустрии автоматизации учёта [Электронный ресурс]. – URL: https://infostart.ru/journal/news/tekhnologii/issledovanie-chatgpt-daet-nepravilnyy-otvet-na-polovinu-voprosov-o-programmirovanii_1917302/ (дата обращения: 22.04.2024).
Алгоритм «Палех»: как нейронные сети помогают поиску Яндекса // Блог Яндекса [Электронный ресурс]. – URL: https://yandex.ru/blog/company/algoritm-palekh-kak-neyronnye-seti-pomogayut-poisku-yandeksa (дата обращения: 03.11.2020).
Дипфейки и другие поддельные видео – как оставаться в безопасности // Лаборатория Касперского [Электронный ресурс]. – URL: https://www.kaspersky.ru/resource-center/threats/protect-yourself-from-deep-fake (дата обращения: 22.04.2024).
Vincent, J. Getty Images is suing the creators of AI art tool Stable Diffusion for scraping its content / J. Vincent // The Verge [Электронный ресурс]. – URL: https://www.theverge.com/2023/1/17/23558516/ai-art-copyright-stable-diffusion-getty-images-lawsuit (дата обращения: 22.04.2024).
Личные данные ряда пользователей ChatGPT утекли в сеть после сбоя в ИИ. // РИА Новости [Электронный ресурс]. – URL: https://ria.ru/20230325/chatgpt-1860549977.html (дата обращения: 19.04.2024).
В 2023 году в сеть утекло более 300 млн записей о россиянах //ТАСС [Электронный ресурс].– URL: https://tass.ru/obschestvo/19693845 (дата обращения: 22.04.2024).
Нещерет М.Ю. Цифровая библиография: библиотеки в поисках инновационных инструментов библиографической деятельности // Научные и технические библиотеки. – 2021. – № 7. – С. 33-50.
Заседание Коллегии Роспатента 14 декабря 2021 года / Youtube : [официальный канал Роспатент ФИПС] [Электронный ресурс].– URL: https://www.youtube.com/watch?v=ZeHfB4iJkrA (дата обращения: 17.12.2021).
Роспатент платформа. // Роспатент [Электронный ресурс]. – URL: https://searchplatform.rospatent.gov.ru/equal_docs (дата обращения: 08.08.2023).
Этика в национальной стратегии искусственного интеллекта / РАНХиГИС : Центр подготовки руководителей и команд цифровой трансформации [Электронный ресурс]. – URL: http://ethics.cdto.center/3_9 (дата обращения: 22.04.2024).
Указ Президента РФ от 10 октября 2019 г. № 490 О развитии искусственного интеллекта в Российской Федерации” // ГАРАНТ.РУ [Электронный ресурс]. – URL: http://www.garant.ru/products/ipo/prime/doc/72738946/ (дата обращения: 22.04.2024).
Правительство утвердило концепцию развития регулирования отношений в сфере технологий искусственного интеллекта и робототехники до 2024 года // Международная академия информатизация [Электронный ресурс]. – URL: https://iiaun.ru/news/national/2020/08/19/concept-in-the-field-of-technology (дата обращения: 22.04.2024).
Статья 13. Особенности обработки персональных данных в государственных или муниципальных информационных системах персональных данных : Федеральный закон от 27.07.2006 N 152-ФЗ (ред. от 06.02.2023) «О персональных данных» // КонсультантПлюс [Электронный ресурс]. – URL: https://www.consultant.ru/document/cons_doc_LAW_61801/be83e944acb538254bfc9bf073ece847ea189143/ (дата обращения: 19.04.2024).
Кодекс этики в сфере ИИ // Альянс в сфере искусственного интеллекта : Комиссия по реализации Кодекса этики в сфере искусственного интеллекта [Электронный ресурс]. – URL: https://ethics.a-ai.ru/ (дата обращения: 17.04.2024).
Сфера.Обезличивание данных // Платформа Сфера [Электронный ресурс]. – URL: https://www.sferaplatform.ru/obezlichivanie-dannykh (дата обращения: 19.04.2024).
КСЗИ Панцирь+ // Anti-malware.ru [Электронный ресурс]. – URL: https://www.anti-malware.ru/products/kszi-pancir-plus (дата обращения: 19.04.2024).
Secret Net Studio [Электронный ресурс]. – URL: https://dist.1c.ru/products/item/secret-net-studio/ (дата обращения: 19.04.2024).

Еще