Гендерные различия в игре диктатора: сравнение поведения больших языковых моделей и людей

Паршаков П.А.; Паклина С.Н.; Маткин Н.А.; Шенкман Е.А.; Parshakov P.A.; Paklina S.N.; Matkin N.A.; Shenkman E.A.

doi:10.17072/1994-9960-2026-1-42-57

Научные статьи \ Математика. Естественные науки \ Математика \ Исследование операций

Гендерные различия в игре диктатора: сравнение поведения больших языковых моделей и людей

Автор: Паршаков П.А., Паклина С.Н., Маткин Н.А., Шенкман Е.А.

Журнал: Вестник Пермского университета. Серия: Экономика @economics-psu

Рубрика: Математические, статистические и инструментальные методы в экономике

Статья в выпуске: 1 т.21, 2026 года.

Бесплатный доступ

Введение. Большие языковые модели, или LLM, все активнее используются в социальных науках для имитации поведения участников экспериментов и анализа норм кооперации и справедливости. Однако остается открытым вопрос, способны ли они воспроизводить социальные асимметрии, включая гендерные различия. Цель. Работа направлена на проверку того, воспроизводят ли LLM гендерные различия в игре «Диктатор» и каким образом текстовые объяснения решений соотносятся с выбранными стратегиями. Материалы и методы. Для анализа адаптирован классический эксперимент, в котором диктатор распределяет 10 долларов между собой и оппонентом. Пять моделей (GPT-5, Grok-4, YandexGPT 5 Pro, Gigachat 2 Max и Qwen3-235b-a22b) сгенерировали 1000 решений на основе двадцати профилей участников. Проведено сопоставление с результатами реальных экспериментов; дополнительно применен регрессионный анализ с учетом текстовых объяснений. Результаты. Все модели продемонстрировали более высокую щедрость по сравнению с людьми: «мужские» агенты передавали в среднем 3,57 единицы, «женские» – 4,18, тогда как реальные участники – 0,82 и 1,6 соответственно. Гендерный разрыв сохраняется, но снижается при контроле текстовых аргументов. Упоминание «равенства» и «справедливости» связано с ростом щедрости, тогда как апелляции к «рациональности» и акцент на «оппоненте» – с ее снижением. Значимые различия выявлены и между моделями: наиболее щедрое поведение зафиксировано у Grok-4 и YandexGPT 5 Pro, наименее – у Gigachat 2 Max и Qwen3-235b-a22b. Выводы. LLM воспроизводят как нормы кооперации, так и социальные асимметрии, при этом их выраженность зависит от архитектуры и аргументационных стратегий. Результаты демонстрируют, что поведенческая оценка LLM должна сочетаться с анализом объяснений решений. Исследование адресовано исследователям в области поведенческой экономики, ИИ и социальной информатики; перспективой является расширение анализа на многоходовые игры, многоязычные протоколы и контроль параметров генерации.

Еще

Искусственный интеллект, большие языковые модели, поведенческая экономика, экономические агенты, экспериментальные исследования, моделирование поведения, социальные взаимодействия, экономические решения, синтетические выборки

Короткий адрес: https://sciup.org/147253779

IDR: 147253779 | УДК: 519.83:316.346.2:004.8 | DOI: 10.17072/1994-9960-2026-1-42-57

Gender differences in the dictator’s game: Comparing the behavior of large language models and humans

Introduction. Large language models (LLM) are increasingly being used in social sciences to simulate the behavior of experimental participants and analyze the norms of cooperation and justice. However, the question remains whether they are capable of reproducing social asymmetries, including gender differences. Purpose. The work aims to test whether LLM reproduces gender differences in the Dictator game and how textual rationales for decisions relate to the chosen strategies. Materials and methods. The classic experiment of Eckel and Grossman (1998) is adapted for the analysis, where the “dictator” distributes 10 dollars between him/herself and his/her opponent. Five models (GPT-5, Grok-4, YandexGPT 5 Pro, Gigachat 2 Max, and Qwen3-235b-a22b) referred to twenty participant profiles to generate 1,000 decisions. The results of the experiments were compared with human subjects; additionally, regression analysis was applied, taking into account textual explanations. Results. All models demonstrated higher generosity compared to humans: “male” agents transferred an average of 3.57 units, “female” – 4.18, while human subjects – 0.82 and 1.6, respectively. The gender gap persists, but decreases with the control of textual arguments. Mentioning “equality” and “justice” is associated with an increase in generosity, while appeals to “rationality” and an emphasis on “the opponent” are associated with a decrease in generosity. Significant differences were also found between the models: Grok-4 and YandexGPT 5 Pro had the most generous behavior, while Gigachat 2 Max and Qwen3-235b-a22b had the least. Conclusions. LLMs reproduce both norms of cooperation and social asymmetries, while their severity depends on architecture and argumentation strategies. The results demonstrate that the behavioral assessment of LLM should be combined with the analysis of explanations of decisions. The study is aimed at researchers in the field of behavioral economics, AI, and social informatics; the prospect is to expand the analysis to n-player games, multilingual protocols, and control of inference parameters.

Еще