Возможности изучения сочетаемости и устойчивости лексических единиц статистическими методами (на примере глагола take)

Автор: Матыцина Марина Станиславовна, Прохорова Ольга Николаевна, Чекулай Игорь Владимирович

Журнал: Вестник Волгоградского государственного университета. Серия 2: Языкознание @jvolsu-linguistics

Рубрика: Межкультурная коммуникация и сопоставительное изучение языков

Статья в выпуске: 4 т.23, 2024 года.

Бесплатный доступ

Статья посвящена вопросам определения устойчивой сочетаемости слов в речи с применением различных мер ассоциации на примере лингвистического корпуса. Актуальность исследования обусловлена существующей в лингвистике потребностью углубления знаний о факторах, детерминирующих формирование устойчивых отношений элементов внутри словосочетания. В качестве источника избран English Web Corpus (enTenTen) и его подкорпусы. Материалом для анализа послужили биграммы двухсловного сочетания: глагола take с соседним словом. Наряду с критическим рассмотрением мер, используемых для установления связности слов, описан характер отношений между элементами коллокации. Особое внимание уделено сравнению коллокаций в подкорпусах, содержащих тексты разных жанров и тематики. Проанализировано более 100 биграмм, извлеченных посредством мер ассоциации t-score, MI-score и Log Dice. Установлено, что показатели меры t-score различаются в изучаемых подкорпусах, показывают зависимость полученных данных от размера подкорпусов. Делается вывод о том, что вычисление степени устойчивости ассоциативной связи биграмм глагола take, основанное только на этом показателе, невозможно. Данные, полученные с помощью мер MI-score и Log Dice, свидетельствуют о незначительной разнице между подкорпусами, что демонстрирует независимость таких показателей от размера корпуса. Выявлено, что вариативный характер отношений между элементами коллокации заключается в зависимости степени связности слов в словосочетании от частоты их встречаемости в текстах разных жанров, регистров и модальности. М.С. Матыциной подготовлен общий план исследования, осуществлен сбор необходимой информации из корпуса. О.Н. Прохоровой разработана методика анализа, выполнено обобщение материала. И.В. Чекулаем интерпретированы результаты проведенной научной работы.

Еще

Лингвистический корпус, подкорпус, коллокация, меры ассоциации, english web corpus (ententen), t-score, mi-score, log dice

Короткий адрес: https://sciup.org/149146839

IDR: 149146839   |   УДК: 81’32   |   DOI: 10.15688/jvolsu2.2024.4.9

Текст научной статьи Возможности изучения сочетаемости и устойчивости лексических единиц статистическими методами (на примере глагола take)

DOI:

В лингвистике и методике обучения иностранному языку устойчивой сочетаемости слов уделяется большое внимание, что выразилось в возникновении понятия «коллокация». Следует отметить, что соответствующий ему термин по-разному толкуется в словарях и в литературе по языкознанию.

Большинство определений отражает понимание коллокаций как сочетания двух или более слов, совместно появляющихся в тексте [Sinclair, 1991; Stubbs, 1995]. Р. Барчфилд, характеризуя лингвистическую концепцию У. Фаулера, пишет о том, что, по У. Фаулеру, термин collocation (коллокация) в лингвистическом аспекте впервые был употреблен Дж.Р. Фертом для обозначения совместной встречаемости отдельных слов. В работе Modern English Usage У. Фаулер приводит примеры часто встречаемых сочетаний отдельных слов и обозначает эту связность как неотъемлемую часть организации языка

[Burchfield, 1996, p. 158]. The Concise Oxford Dictionary of Linguistics дает следующую трактовку коллокации: a relation within a syntactic unit between individual lexical elements (отношение между отдельными лексическими элементами внутри синтаксической единицы) и приводит следующий пример: My computer hates me... , где computer и hates находятся в отношениях коллокации к друг другу (The Concise..., 2014). И.А. Мельчук в работе «О терминах “устойчивость” и “идиоматичность”» говорит об устойчивости как о «сочетании определенных элементов, в котором эти элементы встречаются гораздо чаще, чем в других сочетаниях» [Мельчук, 1960, c. 73]. Кроме того, исследователь отмечает, что «все устойчивые сочетания относятся к несвободным, но не все несвободные сочетания являются устойчивыми (в узком смысле), то есть имеют высокую степень устойчивости» [Мельчук, 1960, c. 75].

Как показано в работе В.П. Захарова, устойчивость присуща всем сочетаниям, при этом она варьируется от нуля до единицы. Устойчивость равна нулю, если элементы не встречаются в таком сочетании, и – единице, если оно постоянно воспроизводится в речи и один элемент предсказывает другой [Захаров, 2005]. Комплексный семасиологический и ономасиологический анализ коллокаций, проведенный Н.Л. Шамне и Л.Н. Ребриной, позволил получить информацию об их структурных, семантических и синтагматических характеристиках таких сочетаний: объектность, субъектность, внутренняя и внешняя переходность [Шамне, Ребрина, 2015]. Как считают C. Ханстон и С. Лавиоза, коллокация – это тенденция к расположению слов в тексте рядом друг с другом. Иными словами, они находятся вместе. Однако исследователи отмечают, что если два слова часто встречаются рядом, это не обязательно означает, что они имеют высокую степень связности. Например, для любого слова, по которому ведется поиск коллока-тов, существует высокая вероятность того, что оно будет совпадать с некоторыми из наиболее часто встречающихся слов в английском языке, например the, a и т. д. Поэтому список коллокатов не следует принимать безоговорочно [Hunston, Laviosa, 2000]. По мнению С. Ханстона, коллокация – это тенденция к изменению значения слов при их совместном употреблении [Hunston, 2002, p. 68]. Американский лингвист Дж. Хилл отмечает распространенность коллокаций и их важность в изучении иностранного языка. Он утверждает, что коллокации могут составлять 70 % того, что мы говорим, слышим, читаем или пишем [Hill, 2000, p. 53]. Дж. Синклер исследует два принципа организации текста: принцип открытого выбора и принцип идиом [Sinclair, 1991]. Согласно принципу открытого выбора текст рассматривается как результат различных семантических комбинаций, где единственным сдерживающим фактором являются грамматические ограничения. В соответствии с данным принципом, в каждый слот может помещаться любое слово, ограниченное лишь грамматикой. Например, в грамматически правильно построенном сочетании переходного глагола и объекта любое слово может оказаться как в первом, так и во втором слоте. Принцип идиом заключается в наличии гораздо большего числа ограничений и сдерживающих факторов. В определен- ной степени выбор одного слова определяет выбор другого слова [Sinclair, 1991]. Владение коллокациями позволяет пользователям употреблять статистически устойчивые словосочетания подобно носителям языка и, таким образом, производить впечатление на собеседников или читателей [Henriksen, 2013]. В ряде работ показано, что использование коллокаций снижает когнитивную нагрузку и позволяет направить когнитивную энергию на более важные аспекты языка, такие, как организация дискурса и успешное взаимодействие коммуникантов (см., например: [O’Keefee, McCarthy, Carter, 2007]).

Проблематика, связанная с наличием в языке коллокаций, начала активно изучаться с развитием корпусной лингвистики, которая позволила проверить на больших массивах текстов, как слова сочетаются друг с другом. Ученые отмечают, что посредством компьютерных программ «можно решать не только относительно простые задачи, типа построения частотного анализа или синтаксического и морфологического разбора текста, но и более сложные, такие как семантический анализ, автоматическое определение стиля текста или даже его возможного автора» [Филимонов и др., 2020, с. 57]. По мнению C. Ханстона и С. Лавиоза, важно помнить, что любая информация корпуса применима только к исследуемым данным [Hunston, Laviosa, 2000]. Она не обязательно может быть применена к языку в целом. С появлением корпусной лингвистики термин collocation стал обозначаться как статистическая сочетаемость (см., например: [Захаров, Хохлова, 2010]).

В настоящее время статистические методы все активнее используются для проведения исследований лексической сочетаемости слов. Поскольку информация об устойчивых словосочетаниях не всегда последовательно отражается в словарях и граница между ними и свободными словосочетаниями определяется достаточно субъективно, возникла и необходимость ввести некий порог устойчивости, выше которого словосочетание можно отнести к устойчивым, а ниже – к свободным. Использование статистических методов позволяет определить такой порог на основе больших корпусов и статистических показателей, обычно называемых статистическими мерами или мерами ассоциации (далее – МА). В.П. Захаров и М.В. Хохлова в работе «Ана- лиз эффективности статистических методов обнаружения коллокаций в текстах на русском языке» отмечают, что меры ассоциации «учитывают как частоту совместной встречаемости, так и другие параметры, прежде всего частоту в данном корпусе каждого отдельного элемента» [Захаров, Хохлова, 2010]. Использование МА при извлечении коллокаций дает возможность проанализировать не только результаты в качественном и количественном аспектах, но и дать оценку «силе притяжения» слов [Hunston, 2002; McEnery, Hardie, 2011].

При выявлении статистически устойчивых сочетаний с использованием инструментария лингвистического корпуса основным семантическим компонентом словосочетания признается изучаемое слово, а вспомогательным компонентом словосочетания, или колло-катом, значится слово, которое чаще всего сочетается с основным компонентом словосочетания в данном корпусе. Как отмечает П. Бейкер, размер диапазона контекстного окна влияет на количество выявленных коллокатов [Baker, 2006, p. 103]. Другими словами, если брать более широкий диапазон, то вероятность того, что в результаты будут включены слова, не будучи коллокатами, увеличивается. В этой связи представляется важным показать возможности корпуса в определении устойчивой сочетаемости слов, соотнести результаты, полученные на основе различных мер ассоциации, сравнить наиболее популярные меры.

Материал и методы

В данной статье предметом рассмотрения являются результаты автоматического выделения глагольных статистически устойчивых словосочетаний, в которых поисковым запросом является семантически главный компонент – глагол take , поскольку он образует большое количество сочетаний с разной степенью связанности. Исследование таких словосочетаний проводилось с помощью мер ассоциации t-score , MI-score и Log Dice , позволяющих оценить степень связности компонентов словосочетания, с целью определения их эффективности.

Материалом для проведения исследования послужили данные бесплатной версии корпуса английского языка – English Web Corpus (EWC), состоящего из интернет-текстов различного объема и содержания, который создан с использованием технологий, специализирующихся на сборе только лингвистически ценного веб-контента. Последняя версия корпуса состоит из 52 млрд слов. На рисунке 1 показан состав корпуса из наиболее часто посещаемых доменов верхнего уровня.

Информация об объеме корпуса приведена в таблице 1.

Корпус включает в себя несколько подкорпусов, которые представлены в таблице 2.

EWC содержит тексты разных жанров и тематики. Жанры письменной речи разделены на четыре группы: блоги, дискуссии, художественная литература, юридические тексты, новости, справочники и энциклопедии. Тематика текстов разнообразна: искусство, красота и мода, автомобили и велосипеды, культура и развлечения, экономика, финансы и бизнес, игры, здоровье, история, хобби, дом, семья и дети, природа и окружающая среда, домашние и дикие животные, политика и правительство, религия, наука, спорт, информационные технологии, путешествие и туризм и многое другое. Исследуемые жанры охватывают 17,5 % корпуса, то есть 10,8 млрд токенов. Темы составляют 12,2 % корпуса, то есть 7,5 млрд токенов. На рисунке 2 показана количественная представленность текстов корпуса разной тематики.

Несмотря на наличие десятков статистических мер, используемых для вычисления степени связности между коллокатами, лишь немногие из них используются для исследований. Возможно, причина заключается в присутствии только некоторых статистических мер в программных средствах извлечения коллокаций в разных корпусах. В работе мы рассмотрим степень устойчивости ассоциативной связи биграмм глагола take , которая может варьироваться в зависимости от лингвистических условий (например, при наличии разных социальных и ситуативных характеристик), представленных в подкорпусах EWC, используя три меры ассоциации: t-score , MI-score и Log Dice . С этой целью, а также с целью проиллюстрировать влияние различных жанров, регистров и модальности на степень связности компонентов словосочетаний, были выбраны четыре подкорпуса, составляющих наибольший процент от объема всего корпуса. Исследуемые подкорпусы представлены в таблице 3.

Рис. 1. Домены в составе EWC

Fig. 1. Domains within the EWC

Таблица 1. Количественная характеристика EWC

Table 1. Quantitative characteristics of the EWC

Единицы корпуса

Количество единиц

Токены

61,585,997,113

Слова

52,268,286,493

Предложения

2,852,972,274

Веб-страницы

120,252,162

Таблица 2. Список подкорпусов, имеющихся в EWC

Table 2. List of subcorpora available in the EWC

Подкорпус

Токены

% в корпусе

Australian domain.au

1,083,884,536

1.76

Canadian domain.ca

1,279,711,284

2.078

EU domain.eu

178,200,834

0.289

English Wikipedia

2,781,502,596

4.516

Genre Blog

1,569,499,442

2.548

Genre Discussion

2,103,533,595

0.726

Genre Fiction

1,030,493,934

1.673

Genre Legal

652,370,863

1.059

Genre News

2,420,719,017

3.931

Genre Reference/Encyclopedia

3,047,342,438

4.948

Indian domain.in

275,247,190

0.447

Irish domain.ie

343,876,212

0.558

New Zealand domain.nz

318,843,917

0.518

Topic Arts

191,659,187

0.311

Topic Beauty & Fashion

54,111,137

3.06

Topic Cars & Bikes

293,808,521

0.477

Topic Culture & Entertainment

989,990,028

1.607

Окончание таблицы 2

End of Table 2

Подкорпус

Токены

% в корпусе

Topic Economy, Finance & Business

511,642,058

0.831

Topic Education

235,276,797

0.382

Topic Games

398,193,384

0.647

Topic Health

480,090,118

0.78

Topic Hobbies

103,913,047

0.169

Topic Nature & Environment

1,034,647,808

2.399

Topic Pets & Animals

1,566,713,474

3.633

UK domain.uk

3,466,969,061

5.629

US domain.us

440,106,116

0.715

• arts

• economy finance...

ф games

* health

12.8%

13.2%

8.6%

6.8%

8.3%

6.2%

6.4%

9.9%

• history ф hobbies

Рис. 2. Тематика текстов EWC

Fig. 2 . Subject matter of the texts of the EWC

Таблица 3. Исследуемые подкорпусы EWCТable 3. Studied subcorpora of the EWC

Подкорпус Токены % в корпусе UK domain.uk 3,466,969,061 5.629 Genre Reference/Encyclopedia 3,047,342,438 4.948 English Wikipedia 2,781,502,596 4.516 Genre News 2,420,719,017 3.931 f (n П, c ) - f ( n ) X f ( c ) t - score =---------,         ------.

f ( n , c )

МА T-score . Лингвисты определяют t-score по-разному: например, как показатель «надежности коллокации» [Hunston, 2002, p. 73] или как «силу связи» между коллока-тами, которая «проверяет нулевую гипотезу» [Wolter, Gyllstad, 2011, p. 436]. T-score характеризует «статистически значимые» колло-каты, то есть те, которые появляются чаще, чем случайно. В исследовании использованы формулы расчета этих мер, предложенные В.П. Захаровым и М.В. Хохловой [Захаров, Хохлова, 2010]:

C. Ханстон отмечает, что данная мера учитывает наличие коллокации во всем корпусе и используется, когда нужно доказать ее существование как результат чего-то большего, нежели «причуды» конкретного корпуса [Hunston, 2002, p. 72]. Лингвисты отмечают, что мера t-score выделяет частотные сочетания слов [Durrant, Schmitt, 2009; Hunston, 2002; Siyanova, Schmitt, 2008].

Очевидным способом анализа распространенности таких словосочетаний, по мнению ряда исследователей, значится вычисление абсолютной частоты, то есть фактического количества их употребления в тексте [Durrant, Schmitt, 2009, p. 167]. Несмотря на проведенную параллель между словосочетаниями, обнаруженными с помощью t-score , и абсолютной частотой, их нельзя рассматривать как равноценные. Показатель t-score дает четкое представление о коллокациях, имеющих устойчивую ассоциативную связь и появляющихся в корпусе чаще, чем случайно. Однако С. Ханстон и С. Лавиоза отмечают, что t-score показывает только те слова, которые важны для ключевого слова, а не те, для которых ключевое слово является важным [Hunston, Laviosa, 2000]. Согласно С. Ханстону, показатель t-score , равный 2 или выше, следует считать важным [Hunston, 2002, p. 72].

МА MI-score . Наряду с мерой t-score широкое распространение в корпусной лингвистике получила мера MI-score . Исследователи отмечают, что мера MI указывает на вероятность совпадения двух случайных слов, сравнивает то, что есть с тем, что могло бы быть. Однако распределение слов в языке никогда не бывает случайным, поэтому нельзя получить «ожидаемый» результат. MI используется как мера, показывающая, в какой степени слово «обладает информацией» о другом слове. MI , равный 3 или выше, допустимо интерпретировать как свидетельство того, что сочетание двух слов является коллокацией [Hunston, 2002]. Однако, по мнению П. Бейкера, один из недостатков MI заключается в том, что данная мера склонна придавать большое значение словам, которые редко встречаются в тексте, поэтому дает несколько искаженные результаты [Baker, 2006, p. 102]. Тем не менее MI полезна при вычислении степени связности тех компонентов словосочетания, у которых вероятность совместной встречаемости очень высока даже при относительно небольшом количестве случаев употребления всего сочетания.

MI = log2

f ( n , c ) x N

.

f (n ) x f (c)

МА Log Dice . Log Dice – это мера, которая основана на MI , но в отличии от MI , она не придает особого веса низкочастотным словосочетаниям. Ее можно рассматривать как промежуточную [Evert, 2008; Smadja, McKeown, Hatzivassiloglou, 1996].

Результаты и обсуждение

С использованием инструментария лингвистического корпуса были составлены таблицы мер по подкорпусам. Как видно на рисунках 3–6, мера t-score ожидаемо различается в исследуемых подкорпусах, что говорит о связи между полученными данными и размерами подкорпусов. Следовательно, сравнение подкорпусов, основанное лишь на этом показателе, невозможно, поскольку t-score напрямую зависит от размера корпуса, невзирая на силу связи между элементами словосочетания. При этом данные, приведенные на рисунках 3 и 4 отражают незначительные различия в значениях меры t-score между подкорпусами Genre Reference / Encyclopedia и English Wikipedia , но их трудно интерпретировать из-за отсутствия стандартизированной шкалы.

Данные, полученные с помощью мер MI и Log Dice (см. рис. 5, 6), свидетельствуют о незначительной разнице между подкорпусами, что демонстрирует их независимость от размера корпуса.

Различия в степени связности компонентов коллокации в подкорпусах EWC позволяют говорить о том, что такие лексические единицы ограничены жанрами, регистрами и модальностью текстов. Это характерно для любой коллокации, однако в некоторых случаях это особенно очевидно. Так, в сочетании take advantage разница в значениях меры MI в подкорпусах относительно невелика в отличие от take place , где MI колеблется от 11,51 до 13,07, а значения Log Dice – от 10,93 до 11,63. Стоит отметить и отличие в ранжировании сочетаний по степени связности компонентов в исследуемых подкорпусах. Так, словосочетание take advantage , как показано на рисунке 7, в самом корпусе имеет показатель MI выше, чем take place : 8.03 и 6.85, однако в подкорпусе Genre Reference / Encyclopedia (см. рис. 3) значения этого показателя практически одинаковые 12.96 и 12.94.

Genre Reference/Ency.. ▼ X

SKETCHENGiNE

lemma take • 2,828,315

928.13 per million tokens • 0.0046% 0

Collocations

Word

Cooccurrences

Candidates

T-score Ml

LogDice

«□

place

363,682

1,006.858

602.98 12.94

11.60

Я □

over

202,969

2,342,020

450.28 10.88

10.33

3 □

part

126,719

1,790,813

355.75 10.59

9.81

< □

up

85,865

2,260,673

292.67 9.69

9.11

3 □

advantage

39,610

108,611

199.00 12.96

8.79

в □

care

31,234

224,058

176.67 11.57

8.39

7 □

off

34,777

808,483

186.29 9.87

8.29

3 □

control

32,596

754.844

180.35 9.88

8.22

3 □

account

23,224

200.938

152.33 11.30

7.97

ioQ

on

167,155

20,093,347

406.59 7.50

7.90

Рис. 3. Данные подкорпуса Genre Reference / Encyclopedia

  • Fig. 3.    Data of the subcorpus Genre Reference / Encyclopedia


    SKETCH

    ENGiNE


    English Wikipedia ▼ X


    lemma take • 2,649,859

    952.67 per million tokens • 0.0043% 0 .


    Collocations


Word         Cooccurrences Candidates T-score Ml LogDice

1

place

346,017

933,318

588.16 13.07

11.63

2

over

198,589

2,173,107

445.42 11.05

10.40

3

pad

124,346

1.641,277

352.43 10.78

9.89

4

up

80,008

2,091,242

282.54 9.80

9.11

5

advantage

36,647

92,926

191.41 13.16

8.77

6

care

28,990

198.174

170.21 11.73

8.38

control

31,660

471.198

177.82 10.61

8.38

8

off

33,343

750,709

182.42 10.01

8.33

9

on

160,048

18.834,555

398.03 7.63

7.93

10

Into

36,544

2.860.444

190.52 8.21

7.76

Рис. 4. Данные подкорпуса English Wikipedia

  • Fig. 4.    Data of the subcorpus English Wikipedia


    SKETCH ENGiNE



    Genre News


lemma take • 3,426,334

1.415.42 per million tokens • 0.0056%

Collocations

Word         Cooccurrences Candidates T-score Ml LogDice

1

place

259,233

924,701

509.05 12.30

10.93

2

over

120,353

2,833,278

346.46 9.58

9.30

a

advantage

68,184

172,858

261.08 12.79

9.28

4

part

70,785

1,118,607

265.82 10.15

9.00

5

care

56,193

559,449

236.92 10.82

8.85

6

action

50,541

437,790

224.70 11.02

8.74

7

away

44,690

662,659

211.23 10.24

8.48

3

□P

73,185

3,620,635

269.78 8.51

8.41

9

into

62,780

2,725,588

249.95 8.69

8.39

10

account

36.490

244,113

190.95 11.39

8.35

Рис. 5. Данные подкорпуса Genre News

  • Fig. 5.    Data of the subcorpus Genre News


    SKETCH ENGiNE


    UK domain .uk


    X


    lemma take • 5,116,034

    1.475 65 per million tokens • 0.0083% Q


    Collocations


Word          Cooccurrences Candidates T-score Ml LogDice

1

place

418.202

1.725,072

646.46 11.51

10.97

2

part

189.109

1,963,740

434.49 10.18

9.77

3

account

91.599

476.542

302.52 11 18

9.07

4

over

134,467

3,502,365

365.90 8.85

900

5

advantage

82,779

197.449

287.66 12.30

9.00

6

care

77.883

1.055.669

278.76 9 79

869

7

up

130.446

5,501,622

359.91 8.16

865

8

into

110,778

4.112.407

331.81 834

8.62

9

look

70.626

1,317.260

265.34 9.33

849

10

action

55.890

569.572

236.21 10.21

833

  • Fig. 6.    Data of the subcorpus UK domain.uk

    Рис. 7. Данные EWC

    Fig. 7. Data of the EWC


Если сравнить три подкорпуса: Genre Reference / Encyclopedia , English Wikipedia , Genre News , содержащие энциклопедические статьи (см. рис. 3–5), то разница в показателях MI и Log Dice незначительна, хотя их значения различаются практически на единицу ( Log Dice для take advantage имеет диапазон от 8,77 до 9,28; take place от 10,93 до 11.60). Эти результаты показывают, что отношения между элементами коллокации и стилем текста требуют пристального внимания. Наличие разных показателей MI и Log Dice в корпусе, представляющих один и тот же тип дискурса (три подкорпуса, содержащие энциклопедические статьи), свидетельствуют о том, что детальная категоризация полученных значений с помощью MА может быть не совсем корректной. Необходимо проведение дальнейших исследований в этой области.

Вариативный характер отношений между элементами коллокации, который заключается в зависимости степени связности от частоты их встречаемости в текстах разных жанров, регистров и модальности, имеет важное значение в определении коллокатов.

Заключение

Данное исследование представляет собой попытку рассмотреть вопросы, связанные с оп- ределением устойчивой сочетаемости слов в речи с использованием различных мер ассоциации на примере лингвистического корпуса. На данном этапе развития корпусной лингвистики выделить все факторы определения коллокаций не представляется возможным. Однако их критическое рассмотрение, установление сочетаемости слов с учетом влияния жанров, регистров и модальности текстов на характер отношений между словами в составе словосочетания представляется весьма важным в решении профессиональных задач, в частности при обучении иностранному языку. Результаты сравнительного анализа мер ассоциации t-score, MI-score и Log Dice EWC и его подкорпусов на примере глагола take показывают, что вычисление степени устойчивости ассоциативной связи биграмм глагола take, основанное только на показателе t-score, невозможно, поскольку он напрямую зависит от размера корпуса. Данные, полученные с помощью мер MI-score и Log Dice, свидетельствуют о незначительной разнице между подкорпусами, что демонстрирует их независимость от размера корпуса. Очевидно, что изучение коллокаций требует математического и лингвистического обоснования каждой MА с тем, чтобы осмысленно применять данные меры и правильно интерпретировать полученные результаты.

Несмотря на большое количество корпусных исследований сочетаемости, по-прежнему существует потребность в более глубоком понимании факторов, играющих важную роль в установлении того, что можно считать коллокациями.

Список литературы Возможности изучения сочетаемости и устойчивости лексических единиц статистическими методами (на примере глагола take)

  • Захаров В. П., Хохлова М. В., 2010. Анализ эффективности статистических методов выявления коллокаций в текстах на русском языке // Компьютерная лингвистика и интеллектуальные технологии: тр. Междунар. конф. «Диалог-2010» (Бекасово, 26-30 мая 2010 г.). М.: Изд-во РГГУ Вып. 9 (16). С. 137-143.
  • Захаров В. П., 2005. Корпусная лингвистика. СПб.: Изд-во СПбГУ 48 c.
  • Мельчук И. А., 1960. О терминах «устойчивость» и «идиоматичность» // Вопросы языкознания. № 4. С. 73-80.
  • Филимонов Д. Ю., Светлов А. В., Горбань О. А., Косова М. В., Шептухина Е. М., 2020. Автоматизация процесса метаразметки архивных документов // Математическая физика и компьютерное моделирование. Т. 23, № 4. С. 56-68.
  • Шамне Н. Л., Ребрина Л. Н., 2015. Глагольные кол-локации памяти в германских СМИ // В мире научных открытий. № 7-8 (67). С. 3097-3108.
  • Baker P., 2006. Using Corpora in Discourse Analysis. L.: Bloomsbury Academic. 280 p.
  • Burchfeld R. W., 1996. The New Fowler's Modern English Usage. Oxford: Oxford University Press. 864 p.
  • Durrant P., Schmitt N., 2009. To What Extent Do Native and Non-Native Writers Make Use of Collocations? // IRAL-International Review of Applied Linguistics in Language Teaching. Vol.47, iss. 2. P. 157-177. D0I:10.1515/ iral.2009.007
  • Evert S., 2008. Corpora and Collocations // Corpus Linguistics: An International Handbook. Berlin: Mouton de Gruyter. P. 1212-1248. DOI: 10.1515/ 9783110213881.2.1212
  • Henriksen B., 2013. Research on L2 Learners' Collocational Competence and Development - A Progress Report // L2 Vocabulary Acquisition, Knowledge and Use New Perspectives on Assessment and Corpus Analysis. [S.l.]: [s.n.]. P. 29-56.
  • Hill J., 2000. Revising Priorities: From Grammatical Failure to Collocational Success // Teaching Collocation: Further Developments in the Lexical Approach. Hove: LTP. P. 47-67.
  • Hunston S., 2002. Corpora in Applied Linguistics. Cambridge: Cambridge University Press. 241 p. DOI: 10.1017/CBO9781139524773
  • Hunston S., Laviosa S., 2000. Corpus Linguistics. Birmingham: School of English: CELS. 146 p.
  • O'Keeffe, A., McCarthy M., Carter R., 2007. From Corpus to Classroom: Language Use and Language Teaching. Cambridge: Cambridge University Press. 332 p.
  • McEnery T., Hardie A., 2011. Corpus Linguistics: Method, Theory and Practice. Cambridge: Cambridge University Press. 312 p.
  • Sinclair J., 1991. Corpus, Concordance, Collocation. Oxford: Oxford University Press. 179 p.
  • Siyanova A., Schmitt N., 2008. L2 Learner Production and Processing of Collocation: A Multi-Study Perspective // Canadian Modern Language Review. Vol. 64, №> 3. P. 429-458. DOI: 10.3138/cmlr.64.3.429
  • Smadja F., McKeown K. R., Hatzivassiloglou V, 1996. Translating Collocations for Bilingual Lexicons: A Statistical Approach // Computational Linguistics. Vol. 22, №> 1. P. 1-38.
  • Stubbs M., 1995. Collocations and Semantic Profiles: On the Cause of the Trouble with Quantitative Studies // Functions of Language. Vol. 2, iss. 1. P. 23-55. DOI: 10.1075/fol.2.1.03stu
  • Wolter B., Gyllstad H., 2011. Collocational Links in the L2 Mental Lexicon and the Inuence of L1 Intralexical Knowledge // Applied Linguistics. Vol. 32, iss. 4. P. 430-449. DOI: 10.1093/applin/amr011
Еще