Алгоритм психолингвистического анализа текстовых данных социальных сетей с применением модели "большая пятёрка"
Автор: Ярушкина Н.Г., Мошкин В.С., Андреев И.А.
Журнал: Онтология проектирования @ontology-of-designing
Рубрика: Инжиниринг онтологий
Статья в выпуске: 1 (43) т.12, 2022 года.
Бесплатный доступ
Представлен подход к определению психологических характеристик пользователя социальных сетей посредством анализа текстовых сообщений в социальных сетях. Предложенный в работе подход заключается в классификации авторских текстов пользователя с использованием машинного обучения. В качестве обучающих данных используются результаты анализа опросов пользователей в соответствии с моделью «Большая пятёрка», а также набор авторских текстовых данных со страниц социальных сетей. Опросник содержит парные высказывания, опрашиваемый определяет степень собственного согласия с тем или иным высказыванием по шкале от 0 до 4. К текстовым ресурсам, используемым в качестве входных данных для классификатора, были применены методы обработки текстов на естественном языке ( NLP ), а также задействована лингвистическая онтология RuWordNet , с целью нивелирования ряда особенностей текстов социальных сетей, например, наличие грамматических ошибок и эмотиконов, затрудняющих процесс семантического анализа. В качестве классификаторов использовались две модели: метод опорных векторов и метод случайного леса. Для оценки эффективности использовалась метрика площади под кривой ошибок ( AUC ROC ). В экспериментах использовались открытые текстовые данные более 1000 пользователей социальной сети.
Модель большая пятёрка, машинное обучение, социальные сети, психолингвистический анализ
Короткий адрес: https://sciup.org/170194043
IDR: 170194043
Список литературы Алгоритм психолингвистического анализа текстовых данных социальных сетей с применением модели "большая пятёрка"
- Польская Н.А., Якубовская Д.К. Влияние социальных сетей на самоповреждающее поведение у подростков. Консультативная психология и психотерапия. 2019. Т. 27. № 3. С.156-174. D01:10.17759/cpp.20192703010.
- Наумов В.В. Анализ социальной структуры интернет-аудитории. Вестник Челябинского государственного университета. 2012, Т.35(289). С. 148-153.
- Хайтун С.Д. Количественный анализ социальных явлений. Изд. 3-е, КомКнига. М.: 2010. 280 с.
- Widiger T.A., Mullins-Sweatt S.N. Clinical utility of a dimensional model of personality disorder. Professional Psychology: Research and Practice, 2010; 41(6): 488-494.
- Widiger T.A., Costa P.T., McCrae R.R. A proposal for Axis II: Diagnosing personality disorders using the five-factor model. In P.T. Costa, Jr. & T.A. Widiger (Eds.), Personality disorders and the five-factor model of personality. 2002. P.431-456. Washington, DC, US: American Psychological Association. D0I:10.1037/10423-025.
- Fujishima Y., Yamada N., Tsuji H. Construction of Short form of Five Factor Personality Questionnaire. The Japanese Journal of Personality, 2004, Volume 13, Issue 2, P.231-241.
- Хромов А.Б. Пятифакторный опросник личности. Курган: Изд-во Курганского гос. ун-та. 2000. 23 с.
- Wiggins J.S., Pincus A.L. Conceptions of personality disorders and dimensions of personality. Psychological Assessment: A Journal of Consulting and Clinical Psychology, 1989; 1(4), 305-316. D01:10.1037/1040-3590.1.4.305.
- Piedmont R.L., Sherman M.F., Sherman N.C., Dy-Liacco G.S., Williams J.E. Using the five-factor model to identify a new personality disorder domain: the case for experiential permeability. Journal of Personal Social Psychology, 2009. Vol. 96, P.1245-1258.
- Ozer D.J., Benet-Martinez V. Personality and the prediction of consequential outcomes. Annual Review of Psychology, 2006; Vol. 57, P.401-421.
- Ледовая Я.А., Боголюбова О.Н., Тихонов Р.В. Стресс, благополучие и темная триада. Психологические исследования. 2015. Т. 8. № 43. С. 5.
- Ледовая Я.А., Тихонов Р.В., Боголюбова О.Н. Социальные сети как новая среда для междисциплинарных исследований поведения человека. Вестник Санкт-Петербургского университета. Психология и педагогика. 2017. Т. 7. № 3. С. 193-210.
- Yarkoni T. Personality in 100,000 words: A large-scale analysis of personality and word use among bloggers. Journal of research in personality. 2010. vol. 44. N 3. P.363-373.
- Iacobelli F. Large scale personality classification of bloggers. International conference on affective computing and intelligent interaction. Springer, Berlin, Heidelberg, 2011. P.568-577.
- Oberlander J., Nowson S. Whose thumb is it anyway? Classifying author personality from weblog text. Proceedings of the COLING/ACL 2006 Main Conference Poster Sessions. 2006. P.627-634.
- Golbeck J. Predicting personality from twitter. 2011 IEEE third international conference on privacy, security, risk and trust and 2011 IEEE third international conference on social computing. IEEE, 2011. P.149-156.
- Souri A., Hosseinpour S., Rahmani A.M. Personality classification based on profiles of social networks' users and the five-factor model of personality. Human-centric Computing and Information Sciences. 2018. v.8. N.1. P.24.
- Cristani M. Unveiling the multimedia unconscious: Implicit cognitive processes and multimedia content analysis. Proceedings of the 21st ACM international conference on Multimedia. 2013. P.213-222.
- Segalin C. The pictures we like are our image: continuous mapping of favorite pictures into self-assessed and attributed personality traits. IEEE Transactions on Affective Computing. 2016. vol.8. N.2. P.268-285.
- Segalin C., Cheng D.S., Cristani M. Social profiling through image understanding: Personality inference using convolutional neural networks. Computer Vision and Image Understanding. 2017. vol.156. P.34-50.
- Steele Jr F. Is your profile picture worth 1000 words? Photo characteristics associated with personality impression agreement. Third International AAAI Conference on Weblogs and Social Media. 2009.
- Yarushkina N., Filippov A., Moshkin V., Namestnikov A., Guskov G. The social portrait building of a social network user based on semi-structured data analysis. CEUR Workshop Proceedings/ 14th International Conference on Interactive Systems: Problems of Human-Computer Interaction, 2019. Vol.2475, 2019, P.119-129.
- Filippov A., Moshkin V., Guskov G., Romanov A. Intelligent Instrumentation for Opinion Mining in Social Media. Proceedings of the II International Scientific and Practical Conference "Fuzzy Technologies in the Industry - FTI 2018". Ulyanovsk, Russia, 23-25 October, 2018. P.50-55.
- Loukachevitch N., Lashevich G. Multiword expressions in Russian Thesauri RuThes and RuWordNet. Proceedings of the AINL FRUCT 2016, 2016. P.66-71.
- Droganova K. Building a dependency parsing model for Russian with maltparser and Mystem tagset. International Workshop on Treebanks and Linguistic Theories (TLT14). 2015. P.268.
- Ramos J. et al. Using tf-idf to determine word relevance in document queries. Proceedings of the first instructional conference on machine learning. 2003. vol.242. P.133-142.
- Cauwenberghs G., Poggio T. Incremental and decremental support vector machine learning. Advances in neural information processing systems. 2001. pp.409-415.
- Breiman L. Random Forests. Machine Learning: journal. 2001. Vol.45, no. 1. P.5-32.
- Narkhede S. Understanding AUC-ROC Curve. Towards Data Science. 2018. vol. 26.