Культурная предвзятость больших языковых моделей: методы выявления

Бесплатный доступ

Стремительное внедрение больших языковых моделей в повседневные практики общения актуализирует проблему их культурной предвзятости. Цель работы описать инвентарь эмпирических методов выявления культурной предвзятости больших языковых моделей. В работе систематизирован количественный и качественный инструментарий для измерения культурной предвзятости, включая эксперимент с запросами, сопоставление ответов БЯМ с эталонными данными о человеческих ценностях, разрешение ситуации с моральным основанием, лингвистические методы, а также аудит отказов от ответа. Обзор исследований демонстрирует, что в ответах моделей доминируют культурные ценности, характерные для англоязычных западных стран с либерально-демократической повесткой. Результаты подтверждают, что большие языковые модели имплицитно воспроизводят иерархии культур и осуществляют «тихую цензуру» культурно-специфичных практик, что становится формой этического империализма и цифрового колониализма. Основной вывод статьи заключается в том, что культурная предвзятость создает риски эпистемологического кризиса и усиливает цифровое культурное неравенство.

Еще

Искусственный интеллект, большие языковые модели, культурная предвзятость, ценности, цифровой культурный суверенитет

Короткий адрес: https://sciup.org/14134623

IDR: 14134623   |   УДК: 316   |   DOI: 10.24412/2220-2404-2026-2-19

Cultural bias of large language models: detection methods

The rapid implementation of large language models into everyday communication practices actualizes the problem of their cultural bias. The purpose of the work is to describe an inventory of empirical methods for identifying cultural bias in large language models. The paper systematizes quantitative and qualitative tools for measuring cultural bias, including an experiment with prompts, comparing LLMs responses and reference data on human values, solving case with a moral basis, linguistic methods, as well as auditing refusals. A review of the research demonstrates that the responses of the models are dominated by cultural values typical of English-speaking countries with liberal democratic preferences. The results confirm that LLMs implicitly reproduce cultural hierarchies and carry out «silent censorship» of culturally specific practices, which is interpreted as a form of ethical imperialism and digital colonialism. The main conclusion of the article is that cultural bias creates risks of an epistemological crisis and reinforces digital cultural inequality.

Еще

Текст научной статьи Культурная предвзятость больших языковых моделей: методы выявления

Введение.

Стремительное развитие больших языковых моделей (БЯМ) и их внедрение в повседневную практику современного общества поднимает вопрос о ценностных ориентирах, транслируемых БЯМ при генерации текста и ведении диало- га с пользователем [1]. Системы, способные генерировать связные тексты, давать рекомендации и моделировать рассуждения, претендуют на роль универсальных медиаторов знания. БЯМ, формирующие семантическое ядро современных генеративных систем, обрабатывая тексты, воспроизводят, а в некоторых случаях и

усиливают культурные предубеждения, которые содержатся в корпусах, на которых их обучают [11].

Вопрос о культурной предвзятости искусственного интеллекта (ИИ) перестает быть сугубо техническим и становится важным для осмысления, поскольку затрагивает ценностные основы многополярного мира.

Язык играет центральную роль в процессе воспроизводства культуры как образа жизни общества. В результате развития цифровых коммуникационных технологий и применения ИИ, способы создания текстов кардинально меняются, особенно с генеративными моделями, такими как ChatGPT. DeepSeek, GigaChat, Claude, LLaMA и им подобными.

Введение БЯМ в глобальный информационный оборот в скором времени выявило фундаментальную проблему их культурной ангажированности, концептуально описываемую термином WEIRD [24]. Акроним WEIRD расшифровывается Western (западный), Educated (образованный), Industrialized (промышленно развитый), Rich (богатый), Democratic (демократичный). Он был введен для описания специфической демографической выборки участников, как правило, студентов американских или западноевропейских университетов в социальных и поведенческих исследованиях, на которых было основано значительное количество работ, выводы которых автоматически признавали репрезентативными и для других культур [4].

В гуманитарном блоке наук выводы исследований, выполненных на материале WEIRD-выборки, стали ставиться под сомнение в случаях, если они масштабировались на другие культурные контексты, поскольку опыт и мировоззрение узкой, привилегированной части человечества выдавались за норму для всех.

WEIRD-предвзятость в ИИ стала той аналитической рамкой, через которую ведущие специалисты по этике ИИ пытаются осмыслить и измерить систематические культурные смещения в БЯМ. Контент, созданный WEIRD-обществами, заложил основы культурно-ценностного фундамента большинства БЯМ. Версии ChatGPT появились первыми в открытом публичном доступе с конца 2022 года. О них известно, что они обучались преимущественно на англоязычных корпусах текстов и генерируют тексты, которые отражают мировоззрение, сформированное в условиях западного индивидуализма, либеральной демократии и гуманизма секулярного общества [8; 18].

Результаты эмпирических исследований последовательно демонстрируют, что моральные суждения БЯМ статистически значительно ближе к ответам респондентов из США или Великобритании, чем к позициям носителей коллективистских или незападных культур [4; 25].

Таким образом, WEIRD-предвзятость трансформируется из методологического ограничения наук о человеке в свойство цифровых агентов.

Констатация систематической WEIRD-предвзятости в БЯМ, однако, представляет собой лишь первый шаг в рамках научного анализа.

Следующая методически сложная задача заключается в разработке и валидации инструментов, способных не только констатировать, но и точно измерять данные смещения. Если проблема заключается в цифровом воспроизведении культурно-специфической картины мира, то её решение должно начинаться с создания чувствительного диагностического аппарата. Такой аппарат должен позволять качественно и количественно оценивать, насколько моральные суждения, культурные скрипты и ценностные ориентации, генерируемые той или иной моделью самых последних версий, отклоняются от плюралистического идеала в сторону конкретного WEIRD-канона.

Цель данной статьи – определить инвентарь эмпирических методов, позволяющих выявлять культурную предвзятость больших языковых моделей.

Подобное исследование позволяет показать, что культурная предвзятость БЯМ перестает быть сугубо технической задачей избавления от предвзятости, становясь вопросом этического регулирования и сохранения культурного суверенитета в условиях цифровой глобализации.

Обсуждение. Результаты.

Современные подходы к измерению культурной предвзятости БЯМ можно разделить на несколько ключевых направлений, каждое из которых предлагает собственный инструментарий для «вскрытия» имплицитных ценностных структур, зашифрованных в параметрах модели.

Несмотря на то, что БЯМ открыты для публичного доступа относительно недавно, исследователями уже апробированы работающие методы с точностью выявляющие их культурную предвзятость.

Обзор основных исследований позволяет выделить такие методы, как:

– эксперимент с запросами [25] сопоставление ответов БЯМ с эталонными данными о человеческих ценностях [28];

  • –    разрешение ситуации с моральным основанием [24]; лингвистические методы [2];

  • –    аудит отказов от ответа [20].

Остановимся на каждом методе подробнее.

Метод эксперимента с запросами.

Данные метод фокусируется не на базовой ценностной ориентации модели, а на её способно- сти адаптироваться к разным культурным контекстам.

Тем самым, исследователи выводят три типа запросов, позволяющих считывать культурную предвзятость:

  • 1.    Нулевой/нейтральный запрос. Моделям задают вопрос, не указывая роль, например: «Как вы относитесь к X?», что выявляет «базовую», имплицитную настройку, заложенную в весах модели.

  • 2.    Абстрактный/культурно-индифферентный запрос. Модели дают роль, лишенную культурной специфики: «Ты обычный человек, оцени по шкале...». Это позволяет отделять общечеловеческие паттерны от культурно-обусловленных.

  • 3.    Культурно чувствительный запрос. Он составляется с указанием конкретной культурной или национальной идентичности: «Представь, что ты житель [название страны], оцени по шкале …» или «Представь, что ты родился и работаешь в [название страны], выбери …» [25].

В целом оценивается способность модели адаптироваться к культурному контексту и стереотипность этой адаптации. Затем анализируется, насколько систематически меняются ответы модели в зависимости от заданного контекста, и насколько эти изменения соответствуют реальным культурным профилям стран.

Данный прием продолжают активно развивать и масштабировать на разные культуры и языки, поскольку удается выявить как наличие предубеждений, так и степень культурной стереотипизации, заложенной в БЯМ [28].

Метод сопоставления ответов БЯМ с эталонными данными о человеческих ценностях.

Этот инструмент считается наиболее точным количественным методом. Он заключается в сопоставлении ответов БЯМ с данными авторитетных лонгитюдных кросс-культурных исследований, таких как:

– Всемирный обзор ценностей [16; 17; 26;],

– Европейские исследования ценностей [10], опросники Г. Хофстеде [14; 15] и другими.

Методика предполагает «опрос» языковой модели с использованием тех же вопросов и шкал, что и в анкетах известных исследований.

Ответы моделей в виде числовых значений по шкале затем сопоставляются со средними значениями по реальным странам, количественно измеряя по картам и шкалам, к ценностям каких обществ ответы моделей ближе всего.

В результате проведенных измерений, в ряде работ был выявлен сдвиг у ряда моделей, например, ранних и поздних версий ChatGPT, в сторону стран с протестантской культурой или «западных» ценностей [4; 25].

Следует отметить, что данное направление в изучении культурной предвзятости выделяется как масштабное и набирающее обороты. Связано это с тем, что оригинальные исследования проводились преимущественно на материале английского языка и на модели ChatGPT [8; 18; 24; 25; 27; 28], тогда как модели, разработанные в неанглоязычных странах, и другие национальные языки запросов мало исследованы или не исследовались вовсе.

Метод разрешения ситуации с моральным основанием.

Этот качественный метод встречается в нескольких вариантах, исходя из способа представления морального основания. Одним из вариантов является использование опросников на базе теории моральных оснований [12; 13]. Ответы БЯМ позволяют выявить, какие моральные основания (забота, равенство справедливость, лояльность, верность традициям и т.д.), свойственные национальным культурам, доминируют в «рассуждениях» ИИ, и как они соотносятся с культурными паттернами, описанными для человеческих сообществ [22].

Ответы людей по опроснику моральных оснований по шести моральным аспектам демонстрируют значительную межкультурную вариативность, особенно по шкалам авторитет, лояльность и верность традициям.

Однако разные БЯМ воспроизводят усреднённые человеческие ответы, а также систематически демонстрируют отклонения при сопоставлении с ответами людей [19].

Исследование БЯМ по опроснику на плюрализм, т.е. значимость многообразия и разнообразия в мире, показывает, что ИИ последовательно выступает против гендерных норм послушания, смертной казни для убийц и физического наказания детей [21].

Проверка ИИ чатботов на моральные основания приводит к одному и тому же выводу о регулярном проявлении либеральной западной ориентации в вопросах, основанных на моральных ориентирах [19; 21].

Следующим вариантом является запрос симулировать решение «типичного человека», резидента определенной страны при взаимодействии с воображаемым человеком из другой страны. Модели ChatGPT проявляют статистически значимые различия в решениях в зависимости от указанной национальности «агента». В ответах ChatGPT стремится содействовать созданию справедливого общества, если это общество с большой численностью населения и быстрым экономическим развитием. Например, «типичному американцу» и «типичному китайцу» приписывается разный уровень доверия, склонность к риску или готовность к сотрудничеству. В играх с моральным основанием, например, на распределение ресурсов между представителями раз

ных культур модель систематически меняет свое поведение в зависимости от указанной национальной принадлежности виртуального собеседника, что свидетельствует о внутренней, часто неявной, иерархизации культур [27].

Еще один вариант представляет собой решение моральных дилемм. В данном направлении используются наборы стандартизированных моральных дилемм известных еще до открытия публичного допуска к генеративным моделям, например, «Моральная машина» [5].

Решение задачи на этический выбор проводился в сценариях автономного вождения транспортного средства без водителя, когда у машины неожиданно отказывают тормоза и необходимо выбрать исход аварии. Похожий сценарий описан в моральной дилемме о вагонетке и пешеходном мосте [29].

Результаты показывают, что, хотя в целом ИИ-модели склонны разделять ключевые человеческие ценности, например, приоритет людей перед животными и сохранение большего числа жизней, между моделями существуют заметные количественные и качественные отличия.

Ответы ChatGPT наиболее близки к человеческим предпочтениям, тогда как PaLM 2 и Llama 2 демонстрируют значительные отклонения, включая неожиданные приоритеты, например, предпочтение пешеходов пассажирам или меньших групп большим [29].

Лингвистические методы.

Данные методы направлены на выявление имплицитных культурных кодов, идеологем и ценностных маркеров в свободно сгенерированных БЯМ текстах. Исследователи анализируют лексический выбор, частотность определённых концептов, риторические стратегии и нарративные структуры в ответах на открытые вопросы о семье, работе, религии, государстве [7].

Такой подход помогает уловить неявные предпочтения и дискурсивные рамки, воспроизводимые моделью. Критическим ограничением многих работ остается языковая предвзятость.

Большинство исследований проводится на английском языке, что автоматически активирует в модели культурные паттерны, связанные с англоязычным корпусом данных [6].

Поэтому в последнее время исследователи стремятся к мультиязычному дизайну, сравнивая ответы на запросы на разных языках для одной и той же модели [2].

Метод аудит отказов от ответа.

Подход заключается в анализе случаев, когда языковая модель вместо ответа на запрос объясняет, по каким причинам она отказывается отвечать [20].

Цель этого направления – выяснить, являются ли механизмы безопасности, этики и политики отказа в ответах у БЯМ культурноуниверсальными или они отражают нормативные предпочтения конкретных обществ.

В фокус внимания исследователей попадают культурные практики, маркированные как приемлемые в одних культурах и как неэтичные, спорные или табуированные – в других.

Предвзятый подход наглядно иллюстрируют запросы о приготовлении национальных блюд из определённых видов мяса, таких как конина и собачатина, обсуждение полигамии или договорных браков. Например, запросы о приготовлении блюд из собачатины вызывают отказ от ответа с отсылкой к жестокости и противоречию культурным нормам, этическим принципам и нарушению законодательства, в то время как запросы о приготовлении говядины или свинины – нет [3; 9].

При этом игнорируется, что в мусульманских обществах блюда из свинины также табуированы, или, например, известен аналогичный запрет на поедание говядины для жителей Индии, для которых корова – священное животное. Это указывает на то, что этические границы модели выстроены вокруг специфического, западного понимания того, какие животные являются «пищевыми», а какие – «компаньонами», какая пища по умолчанию нормальна и приемлема, а какая не допустима.

Подобное поведение БЯМ привело к появлению термина «этический империализм», под которым понимается, что механизмы безопасности и этики у БЯМ действуют как инструмент нормативной гомогенизации, не защищая от объективного вреда, а навязывая конкретную культурно-обусловленную систему ценностей, молчаливо маркируя альтернативные системы как «неэтичные».

Метод аудита отказов отвечать вскрывает, пожалуй, одну из самых глубоких форм культурной предвзятости – предвзятость в молчании, в цензуре целых пластов культурного знания и опыта [20].

Такой анализ показывает, что БЯМ могут непреднамеренно действовать как агенты культурного размывания, стирая разнообразие в процессе «защиты» пользователей по стандартам, которые сами по себе являются продуктом определённой культуры.

Метод аудита отказов напрямую связан с вопросами цифрового колониализма и культурного суверенитета [23], демонстрируя, как технологические платформы, разработанные в одном культурном ареале, могут де-факто устанавливать глобальные нормы допустимого дискурса.

Представленный методический аппарат позволяет не только диагностировать наличие куль- турной предвзятости, но и вскрывать её конкретные механизмы от латентных ценностных установок и стереотипных поведенческих шаблонов до нормативных границ допустимого дискурса. Однако, сам по себе, инструментарий измерений остаётся лишь диагностическим средством. Фиксация системного характера предвзятости, заключается в её практическом социокультурном воздействии и ставит вопрос о том, трансформируют ли выявляемые на эмпирическом уровне искажения реальные процессы производства знания, коммуникации и формирования идентичности. Переход от диагностики к осмыслению последствий позволяет ставить вопрос о значении этих искажений для общества и культуры.

Заключение.

Формируя представление о культурной предвзятости БЯМ, мы приходим к выводу о необходимости глубокой человеческой рефлексии о ценностных основаниях, путях конструирования знания и будущем межкультурного взаимодействия в эпоху внедренного искусственного интеллекта.

В ходе обзора был определен инвентарь методов, позволяющих выявлять культурную предвзятость больших языковых моделей: метод экспериментов с запросами, сопоставление ответов БЯМ с эталонными данными о человеческих ценностях, разрешения ситуации с моральным основанием, лингвистические методы, а также аудит отказов от ответа. Они приобретают практическую ценность в условиях недостаточной исследованности сгенерированных ответов на материале других языков, не английского, и БЯМ, разработанных в не западных культурах.

Получаемые результаты на базе разных языков и БЯМ, разработанных разными странами, на данный момент свидетельствуют о нерелевантности использования БЯМ в качестве синтетических воплощений, заменяющих человека-респондента, в кросс-культурных исследованиях.

Культурная предвзятость БЯМ представляется системным свойством, порождающим социокультурные последствия и перспективы для современного общества.

К негативным социокультурным последствиям следует отнести эпистемологический кризис. Он проявляется в унификации знаний, когда БЯМ, обученные на доминирующих англоязычных корпусах, непреднамеренно устанавливают иерархию нарративов.