Теория дистрибутивной семантики применительно к анализу узкой контекстуальной дистрибуции лексем «man» и «woman»
Автор: Мурашова Л.П.
Журнал: Научный вестник Южного института менеджмента @vestnik-uim
Рубрика: Проблемы лингвистики
Статья в выпуске: 1 (13), 2016 года.
Бесплатный доступ
Статья посвящена анализу возможностей применения инструментов теории дистрибутивной семантики к анализу узкой контекстуальной дистрибуции гендерно-маркированных лексем «Man» и ««Woman». В статье описываются основные приложения теории дистрибутивной семантики и приводятся результаты анализа узкой контекстуальной дистрибуции вышеупомянутых лексем. Анализ контекстуальной дистрибуции проводится с применением методов автоматического компьютерного анализа текстов, а также статистического и сопоставительного анализа на материале выборок из Британского Национального Корпуса Английского Языка. Применение данных методов позволило выявить существенные ге
Дистрибутивная семантика, гендерные асимметрии, лексема ""man", лексема "woman"
Короткий адрес: https://sciup.org/14338867
IDR: 14338867
Текст научной статьи Теория дистрибутивной семантики применительно к анализу узкой контекстуальной дистрибуции лексем «man» и «woman»
Дистрибутивная семантика – научный подход к изучению значения лексических единиц через их употребление в языке, в рамках которого полагается, что «статистическая дистрибуция слов в контексте играет ключевую роль в определении их семантического поведения» [1:1]. Дистрибуция при этом определяется как сумма всех окружений, в которых он встречается данный элемент, т. е. как «сумма всех (различных) позиций элемента относительно других элементов» [2].
Дистрибутивная семантика получила развитие благодаря применению компьютерных технологий к анализу текста и, в первую очередь, благодаря появлению корпусов текстов, позволяющих за короткое время проанализировать дистрибуцию лексической единицы в огромном массиве текстовых данных. Корпус представляет собой своего рода «хранилище» примеров различных словоупотреблений. Однако возможности корпусов позволяют проанализировать лишь лингвистический контекст словоупотребления, не затрагивая экстралингви-стический.
Одним из первых методы дистрибутивного анализа стал применять американский лингвист Зеллиг Харрис [2, 3]. Харрис полагал, что дистрибутивный анализ являйся важнейшим методом исследования в лингвистике: изначально – в фонологии, затем в морфологии и семантике.
Основополагающим в дистрибутивной семантике является положение, что семантическую близость лексических единиц, а также любые обобщения, которые строятся на основании этой семантической близости можно объяснить благодаря лингвистической дистрибуции. Данное положение получило известность как Дистрибутивная гипотеза: «По крайней мере определенные аспекты значения языковых единиц зависят от их дистрибутивных свойств, т.е. от того в каких лингвистических контекстах они встречаются» [1: 6]. Исходя из этого, проанализировав в каком лингвистическом окружении встречается слово, можно сделать вывод, по крайней мере, о некоторых семантических свойствах данного слова.
Существует два вида дистрибутивной гипотезы в семантическом анализе: слабая и сильная. Согласно слабой версии дистрибутивной гипотезы значение слова можно исследовать с помощью дистрибутивного анализа. Наиболее кратко суть данного подхода выразил британский лингвист Дж. Ферт «Вы узнаете слово по его окружению» [4:11].
Слабая дистрибутивная гипотеза предполагает исследование значения слова с применением методов количественного анализа. Дистрибуции лексической единицы помогают определить ее парадигматические свойства. Значение слова определяет его комбинаторное поведение в контексте и ограничивает его синтагматическое поведение. Следовательно, анализируя релевантные контексты дистрибуции слова, можно определить виды значений, которыми обладают слова со схожей контекстуальной дистрибуцией, а также объяснить, почему слово обладает такой дистрибуцией.
Согласно слабой версии дистрибутивной гипотезы дистрибуция слова сама по себе не формирует значение слова на когнитивном уровне. Напротив, значение слова определяет лингвистические дистрибуции слова. Данные дистрибуции исследуются с помощью метода количественного анализа.
Сторонниками данной версии дистрибутивной гипотезы являются такие ученые, как Л. Ховав и Р. Ховав [5], П. Мерло и С. Стивенсон [6], Д. Пустей-овски и др.
Согласно сильной (второй) версии дистрибутивной гипотезы дистрибуции слова играют центральную роль в формировании семантических репрезентаций – и в этом ее отличие от слабой. Сильная версия дистрибутивной гипотезы представляет собой когнитивную гипотезу о форме и происхождении семантических репрезентаций.
Слово постоянно встречается в различных лингвистических контекстах и это ведет к формированию контекстуальной репрезентации – абстрактной характеристики наиболее часто встречающихся контекстов, в которых употребляется слово. При этом полагается, что дистрибуция не только объясняет семантическое поведение слова, но и его семантическое содержание на когнитивном уровне.
Влияние дистрибуций на семантические репрезентации может проявляться по-разному, например, они могут определять устанавливается ли сходство между лексическими единицами на уровне ментального лексикона [1].
Приверженцами сильной версии дистрибутивной гипотезы явились такие ученые, как Т. Ландауэр и С. Деннис [7], К/ Берджесс и К. Ланд [8] и др.
Сильная дистрибутивная гипотеза лежит в основе многих научных изысканий, целью которых является изучение целого ряда лингвистических проблем на стыке лингвистики и психологии, лингвистики и математики, лингвистики и компьютерной науки, например, описание усвоения языка детьми, исходя из наблюдений за дистрибуциями элемента в языке взрослых [9, 10], изучене языка по аналогии с гиперпространством [8], латентный семантический анализ – разработка обоснованных когнитивно-психологических моделей усвоения семантических репрезентаций на основании дистрибуции в лингвистическом контесте [ср. 9, 10]. Несмотря на некоторые различия, все вышеперечисленные исследования проводились, основываясь на презумпции того, что присутствие слова в различном лингвистическом окружении в значительной степени определяет семантические репрезентации данного слова.
Наше исследование в значительной мере основано на анализе контесктуальной дистрибуции лексем «Man» и «Woman» в английском языке. В данной работе анализу подлежит узкий контекст (плюс/минус 1-3 лексические единицы), в котором представлены лексемы «Man» и «Woman» с целью описания семантической репрезентации понятий, обозначаемых данными лексемами на когнитивном уровне.
Анализ контекстуальной дистрибуции проведен на основании данных, полученных из Британского национального корпуса английского языка. Корпусная лингвистика тесно связана с дистри- бутивной семантикой, поскольку корпуса и Британский национальный корпус в частности представляют собой огромное хранилище данных об употреблении слов в языке, которые позволяют сделать вывод об их дистрибутивных свойствах.
Технологии компьютерного анализа текста, доступные в Британском национальном корпусе позволили отсортировать необходимую информацию о контекстуальной репрезентации интересующих нас лексем. Безусловно, в данном случае речь идет исключительно о лингвистическом контексте, потому что экстралингвистическая информация в корпусах не зафиксирована.
Далее данные о лингвистической дистрибуции лексем «Man» и «Woman» были подвергнуты статистическому анализу. Статистика является ключевым инструмантом дистрибутивной семантики, поскольку только с помощью статистического анализа можно сделать выводы о значимых свойствах контекстов, в которых представлена лексема. Контекст формирет контекстуальную репрезентацию лексемы. Статистический анализ является одним из важнейших инструментов математического анализа лингвистических данных, полученных благодаря корпусам текстов. Однако, это не единственно возможный метод исследования.
Анализ контекстуальной дистрибуции лексем «Man» и «Woman» позволил нам выявить следующие гендерные асимметрии в семантике атрибутивно-номинативных словосочетаний:
-
1) Процент адъюнктов, которые описывают женщину как глупую более, чем в 3 раза выше, чем подобных адъюнктов лексемы «Man»: 46,4% и 15,8% соответственно. Это значит, что женщина скорее всего, предстанет как, mad (27 примеров), stupid 18, silly 17 и т.д., а мужчина как reasonable 74, wise 58, intelligent 45, clever 35, rational 20 и т.д.
-
2) Эмоциональное состояние женщины описывается положительно весьма редко (лишь в 19% случаев), в то время как эмоциональное состояние мужчины описывается положительно в 45% случаев (happy 54, happiest 9, happier 8) – разница более, чем в 2 раза.
-
3) Общественное положение мужчины более семантически выделено для лексемы «Man». Отношение общества, представленное общими субъективными оценками, также более положительно для лексемы «Man»: 28,3% и 47,0% соответственно от общего числа адъюнктов Разница также почти в 2 раза. [11]. Это значит, что мужчина скорее всего предстанет, как rich 156, powerful 64, wealthy, 56 и т.д. Для сравнения количество тех же примеров с лексемой «Woman» составляет: rich – 11, powerful – 9 и wealthy – 9.
Приведем одну из таблиц адъюнктов семантической группы «умственные способности, знания», где асимметрии положительных и отрицательных оценок наиболее заметны:
Таблица 1
Препозитивные адъюнкты лексемы «Woman» семантической группы «Умственные способности, знания»
Тип словосочетания |
Положительная оценка |
Отрицательная оценка |
Adjective + woman |
wise woman 29 clever woman 13 sensible woman 11 resourceful woman 6 capable woman 6 reasonable woman 4 competent woman 3 smart woman 2 wiser woman 2 literary woman 2 knowledgeable woman 1 |
mad woman 27 stupid woman 18 silly woman 17 dumb woman 7 crazy woman 6 foolish woman 4 daft woman 3 bonkers woman2 psychic woman 2 lunatic woman 2 ignorant woman 2 |
Participle 1 + woman |
thinking woman 2 |
|
Participle 2 + woman |
experienced woman 8 well-educated woman 4 learned woman 3 educated woman 3 |
deranged woman 2 inexperienced woman 1 |
Количество примеров и процент и процентное соотношение к общему количеству: 99 = 51,6 % |
Количество примеров и процент и процентное соотношение к общему количеству: 93 = 48,4% |
Сопоставительный анализ узкой контекстуальной дистрибуции лексем «Man» и «Woman» показывает, что по сравнению с мужчиной женщина представлена в английском языке более глупой (в 46,4% случаев по сравнению с 15,8% в отношении мужчины), более несчастной (положительно эмоциональное состояние женщины описывается лишь в 19% примеров, в то время как в отношении мужчины эта цифра составляет 45%), а также менее значимой в обществе (адъюнкты лексемы с положительной коннотацией для лексемы «Woman» составляют лишь 28,3% по сравнению с 47,0% для лексемы «Man») [11].
В дистрибутивной семантике был разработан ряд моделей исследования, в основе которых лежат законы и формулы линейной алгебры. Информация о дистрибуции лексической единицы сравнивается по аналогии с векторами в алгебре. Ученые получают различную информацию при помощи векторного анализа, например, сравнение векторов типов текстов, в которых встречается элемент, позволяет говорить о тематическом сходстве, сравнение векторов сочетаемости с другими элементами позволяет говорить о парадигматическом и синтагматическом сходстве. [12].
Дистрибутивная гипотеза вызвала ряд споров среди ученых. Особенно она подвергалась крити- ке со стороны приверженцев теории перцептуальной когниции (еmbodied cognition) [13]. Согласно гипотезе перцептуальной когниции, сформулированной Л. Барсалоу, концепты и значения – это не инвариантные, формальные символы, а в основе своей модальные сущности, представленные в той же самой системе, из которой мы черпаем опыт их употребления и формируемые благодаря ему [14].
Таблица 2
Препозитивные адъюнкты лексемы «Man» семантической группы «Умственные способности, знания»
Тип словосочетания |
Положительная оценка |
Отрицательная оценка |
Adjective + woman |
reasonable man 74 wise man 58 intelligent man 45 clever man 35 rational man 20 practical man 20 prudent man 14 sensible man 13 literary man 11 sane man 9 intellectual man 8 wiser man 7 shrewd man 7 astute man 7 competent man 7 smart man 6 observant man 4 scholarly man 3 scientific man 3 capable man 3 ingenious man 3 logical man 2 inventive man 2 knowledgeable man 2 conscious man 2 eloquent man 2 proficient man 2 reflective man 2 wittiest man 2 unreasonable man 2 |
foolish man 19 stupid man 18 silly man 12 crazy man 10 mad man 5 dull man 3 ignorant man 2 batty man 2 |
Noun + man |
fool man 4 |
|
Participle 1 + man |
thinking man 4 |
|
Participle 2 + man |
educated man 26 skilled man 21 learned man 15 experienced man 15 well-educated man 9 talented man 9 qualified man 6 gifted man 5 self-educated man 3 enlightened man 3 educated man 2 self-taught man 2 well-informed man 2 |
crazed man 5 retarded man 4 demented man 4 uneducated man 3 unskilled man 2. |
Количество и соотношение |
497 = 84,2% |
93 = 15,8% |
Однако язык – это тоже часть опыта и поэтому, на наш взгляд, представление о значении слова формируется не только благодаря сенсомоторной концептуализации, но и благодаря актуализации данных о контекстуальном употреблении слова, а в некоторых случаях (например, если речь идет о терминах) только благодаря ей.
Таким образом, дистрибутивный анализ действительно может дать эмпирически достоверные данные о механизмах концептуализации действительности.
Список литературы Теория дистрибутивной семантики применительно к анализу узкой контекстуальной дистрибуции лексем «man» и «woman»
- Barsalou L.W. Perceptual symbols systems//Behavioural and Brain Sciences XXII. -1999. -P. 577-609.
- Burgess C., Lund K. Modelling parsing constraints with highdimensional context space//Language and Cognitive Processes XII. -1997. -P. 1-34.
- Landauer T.K., Danielle S. et al, Handbook of Latent Semantic Analysis. Mahwah NJ, Lawrence Erlbaum. -2007. -532 p.
- Lenci, A. “Distributional semantics in linguistic and cognitive research”//From context to meaning: Distributional models of the lexicon in linguistics and cognitive science, special issue of the Italian Journal of Linguistics, 2008. -20/1: 1-31.
- Li P., Burgess C. et al. The acquisition of word meaning through global lexical co-occurrences//Proceedings of the 31st Child Language Research Forum. -2000. -P. 167-178.
- Li P., Farkas I. et al. Early lexical development in a self-organizing neural network//Neural Networks XVII. -2004. -P. 1345-1362.
- Harris Z.S. Methods in Structural Linguistics. Chicago: University of Chicago Press -1951, 384 p.
- Harris Z.S. Distributional structure. Word//Papers in Structural and Transformational Linguistics. Dordrecht: Reidel. -1970. P. 775-794.
- Firth J.R. A synopsis of linguistic theory 1930-1955//Studies in linguistic analysis, Oxford: Blackwell. -1957, P. 1-32.
- Hovav L.B., Hovav M.R. Argument Realization. -Cambridge: Cambridge University Press. -2005, 460 p.
- Paola M., Stevenson S. Automatic verb classification based on statistical distributions of argument structure//Computational Linguistics XXVII/3. -2001, -P. 373-408.
- Анисимова А.Т. Когнитивная дидактика языка как иностранного//Современные проблемы науки и образования. -2015. -№ 1.
- Мурашова Л.П. Гендерные асимметрии в атрибутивно-номинативных словосочетаниях со стержневыми словами man и woman//Вопросы романо-германской и русской филологии. -Пятигорск: ПГЛУ, 2013. -С. 139 -158.
- Морозова Ю.И. Построение семантических векторных пространств различных предметных областей//Третья школа молодых ученых ИПИ РАН. Сборник докладов. -М., 2012. -С. 4 -11.