Негативные / позитивные слова: оценка, словарь

Бесплатный доступ

В статье описывается алгоритм оценки 1000 частотных слов русского языка разных частей речи, в частности, существительных, прилагательных и глаголов, как негативных или позитивных. Алгоритм был реализован в онлайн сервисе Яндекс Толока. Оценка была получена с использованием биполярной шкалы от 1 до 9, где 1 означало - негативное слово, а 9 - позитивное. Исследование, проведенное с 1000 респондентами, позволило выявить превалирование нейтральных (478) и положительных (436) слов в 1000 самых частотных слов русского языка. Полученные оценки полярности слов легли в основу создания электронного словаря негативных / позитивных слов.

Еще

Позитивные слова, негативные слова, оценка, метрики, онлайн опрос, частотные слова русского языка

Короткий адрес: https://sciup.org/170192735

IDR: 170192735

Текст научной статьи Негативные / позитивные слова: оценка, словарь

Исследования негативных или позитивных слов проводятся в русле контекстоло-гии [1], семантики [2], когнитивных исследований [3] и сентимент анализе [4]. Однако исследование по оценке рейтингов негативности / позитивности русских частотных слов представляется исследовательской нишей.

В статье представлен опрос, направленный на выявление полярности рейтингов слов и определение методов составления электронного словаря негативных / позитивных слов. Опрос был проведен в апреле-мае 2021 года группой исследователей НИЛ «Текстовая аналитика» Казанского федерального университета с целью оценить полярность русских слов разных частей речи.

Исследование было организовано в нескольких этапов. На первом этапе были отобраны 1000 наиболее частотных слов русского языка, а именно существительные (n=333), прилагательные (n=333) и глаголы (n=335) из Частотного словаря О. Ляшевской и С. Шарова [5].

Затем слова были сгруппированы в 20 отдельных списков по 50 слов в каждом. Каждый список включал слова трех изучаемых частей речи в равной пропорции. Например, «мама», «старый», «говорить».

На 2 этапе был проведён психолингвистический эксперимент, направленный на оценку полярности и составление словаря негативных / позитивных слов.

Далее 20 отдельных списков слов были загружены на онлайн-платформу Яндекс Толока [6].

Для целей данного исследования была использована биполярная шкала с диапазоном от 1 до 9 для оценки негативно-сти/позитивности слов. 1-я позиция (слева) соответствует «наивысшей степени негативности», а 9-я позиция (справа) соответствует «наивысшей степени позитивности» (рис. 1).

Оцените насколько позитивным или негативным является слово, выбрав наиболее подходящее значение по шкале от 1 до 9, где 1 - негативное, а 9 - позитивное, база

1       2       3       4       5       6 ОС 7       89

Оцените насколько позитивным или негативным является слово, выбрав наиболее подходящее значение по шкале от 1 до 9, где 1 - негативное, а 9 - позитивное, знание

1      2 0 О 3      4 0 0 5      6 О С 7      89

Оцените насколько позитивным или негативным является слово, выбрав наиболее подходящее значение по шкале от 1 до 9, где 1 - негативное, а 9 - позитивное, текст

1 0 2 0  3 0 4     5 Q 6 ВС 7 0( 8 09

Оцените насколько позитивным или негативным является слово, выбрав наиболее подходящее значение по шкале от 1 до 9, где 1 - негативное, а 9 - позитивное, защита

1       2       3       4       5       6 ОС 7       89

Рис. 1. Фрагмент анкеты по оценке негативности / позитивности

Онлайн исследование включало ряд фильтров. В частности, «время выполнения» не превышало 10 минут. Более того, фильтр «без двойных ответов» гарантировал, что каждый участник сможет выполнить и отправить анкету только один раз. Далее, инструкция предупреждала респондентов о том, что их ответы будут проверены перед принятием. В результате примерно 10-15 % из 65 ответов были отклонены из-за одинаковой оценки для всех 50 слов в анкете (т. е. подавляющее большинство слов были оценены «9» или «1»). На каждую анкету было получено по 50 отве- тов. Каждому участнику было выплачено 20 центов за одну заполненную анкету.

Критерии выборки участников включали: (1) возраст - не моложе 30 лет, (2) носитель русского языка, (3) Высшее образование, (4) 10 % лучших исполнителей (только 10 % исполнителей Толока с точки зрения соотношения скорости/качества).

Рейтинги, полученные для списка 1000 наиболее частотных слов русского языка, были дополнительно сгруппированы на основе отрицательных (рейтинги от 1 до 4), нейтральных (рейтинги от 5 до 6) и положительных (рейтинги от 7 до 9) (рис. 2).

Рис. 2. Количественное распределение частотных слов русского языка с оценками негативности / позитивности

На рисунке 2 показана относительная частотность нейтральных слов (n=478) по сравнению с положительными (n=436) и отрицательными (n=86) наиболее частотными словами русского языка.

Список литературы Негативные / позитивные слова: оценка, словарь

  • Vinkers C.H., Tijdink J.K., Otte W.M. Use of positive and negative words in scientific PubMed abstracts between 1974 and 2014: retrospective analysis // Bmj. - 2015. - Т. 351.
  • Garcia D., Garas A., Schweitzer F. Positive words carry less information than negative words // EPJ Data Science. - 2012. - Т. 1. - № 1. - С. 1-12.
  • Yang J. et al. Positive words or negative words: Whose valence strength are we more sensitive to? // Brain research. - 2013. - Т. 1533. - С. 91-104.
  • Jiao J., Zhou Y. Sentiment polarity analysis based multi-dictionary //Physics Procedia. - 2011. - Т. 22. - С. 590-596.
  • Ляшевская О.Н., Шаров С.А. Частотный словарь современного русского языка: на материалах Национального корпуса русского языка. - Азбуковник, 2009.
  • EDN: RTAOXB
  • Yandex Toloka. - [Электронный ресурс]. - Режим доступа: https://toloka.yandex.ru/(дата обращения 5.12.2021).
Статья научная