На подступах к геному стиля Шекспира

Автор: Орехов Борис Валерьевич, Пешков Игорь Валентинович

Журнал: Новый филологический вестник @slovorggu

Рубрика: Прочтения

Статья в выпуске: 3 (26), 2013 года.

Бесплатный доступ

В работе предлагается оригинальная методика представления и анализа стиля. Стиль определяется как совокупность всех повторных коллокаций произведений автора. Методика применяется к корпусу пьес Шекспира. Из текстов, включенных в Первое Фолио, было получено два словника коллокаций с любой, вплоть до минимальной (присутствие хотя бы в двух пьесах корпуса), и максимальной (присутствие во всех 36 пьесах) повторностью единиц. Первый словник составил более 130000, второй 218 единиц. Сравнение с этими словниками отдельных произведений Шекспира, современников Шекспира и других авторов, писавших на английском языке, дало возможность авторам статьи сделать некоторые выводы об атрибуции отдельных художественных произведений и частей этих произведений, в частности подтвердить и уточнить феномены соавторства при создании определенных шекспировских пьес.

Еще

Короткий адрес: https://sciup.org/14914396

IDR: 14914396

Текст научной статьи На подступах к геному стиля Шекспира

Казалось бы, при том внимании, которое традиционно уделяется Шекспиру, за прошедшие четыре сотни лет филологи и историки обязаны были до чего-то докопаться, а основные проблемы, по крайней мере, те, что вообще имеют решение, должны были быть разрешены (скорее всего, так должен полагать обычный читатель или зритель). Ничуть не бывало. Шекспир со всеми его загадками оказался человеку не по зубам. Осознав это, человек призвал себе на помощь компьютер. В 1990 г. был сделан показательный обзор1 уже трех существовавших к тому времени электронных изданий произведений Шекспира и программ, позволявших с этими изданиями работать, решая, впрочем, довольно примитивные по нынешним меркам задачи. Понятно, что с тех пор число приложений компьютерных технологий к исследованиям шекспировских текстов только росло - вместе с доступностью техники и ее вычислительными мощностями. При этом сам по себе компьютерный анализ (в том числе и анализ текста) качественно не отличается от того, который выполняется людьми. Да и методику для такого анализа тоже разрабатывает человек. Что-то находится, систематизируется, подсчитывается. Отличие только в том, что компьютер может обработать за единицу времени гораздо больше материала и тут уже есть шанс, что количество перейдет в качество: результаты подсчетов будут весомее, а выводы, сделанные на их основе (уже снова человеком), - устойчивее.

Разумеется, более всего компьютерных лингвистов интересовала проблема атрибуции текстов и, соответственно, проблема стиля2. Какое бы значение ни вкладывать в это слово, ясно, что к проблеме авторства стиль имеет самое прямое отношение. И тут уже все средства хороши: и нейронные сети, и анализ модальности3, и многие другие. Выводы основываются на строгой статистике, только подсчеты ведутся каждый раз по разным параметрам.

Кроме того, с Шекспиром сыграла компьютерную шутку его репутация основателя английской литературы. Постоянно находящиеся в центре внимания, известные всем и часто цитируемые, шекспировские тексты чаще других и становятся площадкой для испытания новых методик компьютерной лингвистики, будь то извлечение из текста его фрактальной геометрии4 или контент-анализ с целью описания эстетического эффекта5. Так что испытывать новый способ извлечения из текста некоторых его единиц и характеристик в первую очередь именно к Шекспиру - дело уже привычное.

И несмотря на все это, несмотря на столь давнюю, с точки зрения компьютерной истории традицию объединения в филологических штудиях Шекспира и компьютера, в нашей работе сложности возникли еще до того, как мы начали их осознавать. Прежде всего, оказалось трудно сформулировать саму задачу наших исследований. Формулировка «Определить стиль Шекспира», а именно к этому мы интуитивно стремились, сразу оказалась размытой, причем во всех своих терминах. Во-первых, нет достаточной ясности, что такое стиль. Это отдельная теоретическая проблема. Во-вторых, нет никакой ясности, кто такой Шекспир: это человек, бренд или псевдоним? В-третьих, наконец, при таких вводных становится неясным, что вообще значит «определить»...

Но поскольку решать задачу из трех неизвестных при отсутствии известных невозможно, то пришлось кое-что признать известным. Вот мы и решили, что исходя из своего исследовательского, читательского и просто житейского опыта кое-что уже знаем о стиле. Мы принимаем за лемму утверждение:

Стиль - это совокупность типичных сочетаний слов (исходная лемма А).

Уже чуть легче. Осталось найти сочетания слов у Шекспира и определить степень их типичности. Но тут же встает во весь рост вторая проблема: кто такой Шекспир? Теперь мы уже не можем назначать себе вторую лемму и исходить из того, что Шекспир это тот-то и тот-то, потому что лемма должна быть одна. И с одной-то не так все просто, а две леммы на старте рассуждений - это уже ни в какие ворота логики не войдет, поэтому от вопроса кто такой Шекспир в качестве исходного пункта нужно постараться просто уйти. В принципе это для шекспироведов традиционный уход: основная филологическая работа сосредоточена почти исключитель- но на произведениях Шекспира. To есть и мы начнем в русле исследовательской традиции.

Таким образом, несмотря на знаменитое определение «стиль это человек», работать мы будем не с человеком, а с текстом. Вернее, с корпусом текстов. Кстати, это практически единственное, что оставил после себя Шекспир. Корпус текстов. С этим корпусом тоже не все однозначно, но кое-что все-таки общепризнанно. Самым общепризнанным фактом в шекспироведении является то, что 36 пьес, изданных в 1623 г. в Первом Фолио, написал Шекспир. Так что мы просто считаем исходным текстовым материалом для определения стиля Шекспира пьесы Первого Фолио. Не будем углубляться в текстологию каждой пьесы (это отдельный вопрос), просто возьмем все тексты в их современной орфографии. (В качестве исходной точки нами было взято свободно распространяемое электронное издание пьес Шекспира в XML, подготовленное Джоном Босаком в 1999 г. на основе оцифрованных текстов Moby Lexical Tools6. Из входящих в собрание Босака пьес нами удален «Перикл», отсутствующий в Первом Фолио). Для предварительного, чернового анализа стиля этого достаточно и, более того, на этом нужно остановиться, помня об условности перевода в современную орфографию, но предполагая, что такой перевод произведен для всех анализируемых дальше текстов по одинаковому алгоритму. Для первой, черновой попытки стилистического анализа с этим предположением можно согласиться.

Итак, пока для нас нет самого Шекспира, но есть условно-полный текст Шекспира, из которого уже можно вычленять стиль, то есть определять сочетания слов. За слово в тексте примем последовательное сочетание букв между двумя небуквами (считая буквами также апостроф и дефис, а небуквами - любой другой типографский знак или пробел), то есть подходим к определению слова формально-графически. Для верности возьмем все сочетания (то есть рядоположения) от двух до шести слов и выберем те из них, которые появлялись хотя бы в двух пьесах Шекспира (этим и определяется типичность сочетаний). Вручную на эту операцию, вероятно, ушло бы полжизни, но компьютер делает все довольно быстро. В работу берутся только реплики персонажей. XML-разметка позволяет легко отсекать ремарки (скорее всего, в большинстве случаев не аутентично шекспировские), имена персонажей и прочие позднейшие пометы. Входящими в одно сочетание считаются даже слова, разделенные как границей строки, так и границей реплик разных персонажей. Значимой признается только граница акта. Таким образом, слово, которым оканчивается, например, I акт и слово, с которого начинается II акт, не будут входить в одно сочетание. (Хотя в принципе и от этой границы можно было бы отказаться.)

В результате мы получаем словник примерно из 133 тысяч коллокаций, так определяя сочетания слов, чтобы не путать с известным понятием из синтаксиса (словосочетание). Этот результат назовем максимальным или Большим словником Шекспира (Бел). На глаз для примерно 15 тысяч слов в языке автора7130 тысяч типичных коллокаций вполне нормально.

Теперь выберем самые типичные шекспировские коллокации: те, что имеются во всех 36 пьесах. Словник сузился до 218 единиц. Да, их мало, самых типичных, но они есть! Вот 10 самых-самых типичных сочетаний слов у Шекспира (правый крайний столбик показывает, сколько раз коллокация встретилась в корпусе):

1.

I

am

1814

2 .

I

have

1587

3.

in

the

1557

4 .

I

will

1550

5.

to

the

1476

6.

of

the

1355

7 .

it

is

1069

8 .

to

be

939

9.

that I

911

10

. I

do

810

Конечно, даже начинающему изучать английский язык сразу понятно, что перед нами одни из самых частотных сочетаний слов в языке вообще, и на первый взгляд кажется, что оригинальность стиля Великого барда с помощью этого, назовем так, Малого словника (Мел) Шекспира определить будет невозможно. По простому наличию этих коллокаций в любом тексте, разумеется, ничего не скажешь о стиле, зато по частотности разных коллокаций этого словника кое-что о стиле сказать будет можно. Для того, чтобы определить, насколько синтаксис текста (а малый словник явно отвечает за синтаксис, ибо состоит по преимуществу из служебных слов типа артиклей, предлогов, личных местоимений и глагольных связок!) приближается к шекспировскому, мы попробовали оценивать сумму мест по Мел (где единицы последовательно расположены от максимальной частоты вхождений к минимальной) первых ста коллокаций анализируемого текста. Например, так будет выглядеть начало списка для «Алисы в Стране Чудес» Л. Кэрролла:

N

N(Мол)

collocation

quant

quant(Мел)

1

(6)

of the

125

1355

2

(47)

in a

97

436

3

(3)

in the

79

1557

4

(12)

and the

77

707

5

(5)

to the

69

1476

ПО

(= 73)

6    (79)      at the              60       329

7    (8)        to be                48       939

8    (55)      on the              34       413

9    (26)      with the            33       532

10  (133)     and then           29      235

(= 374)

Здесь N - позиция коллокации в частотном списке у Кэрролла, М(Мсл) - место той же коллокации в Мел, collocation - сама коллокация, quant - абсолютная встречаемость в «Алисе», quant(Mcn) - частота употреблений у Шекспира. В скобках со знаком «=» после пятой и десятой позиции - сумма мест по малому словнику.

В кратком виде, продолженном до 100-й позиции, это можно представить так:

Nposit

positSum

5

73

10

374

15

790

20

1313

25

1795

30

2385

40

3412

50

4592

75

7056

100

9284

Здесь Nposit - это позиция у Кэрролла, количество коллокаций в частотной для этого текста последовательности (от большей частоты употребления к меньшей), positSum - сумма мест, занимаемых этими коллокациями в Мел.

А так эти же списки будут выглядеть для «Ромео и Джульетты»:

N

N(Мол)

collocation

quant quant(Мел)

1

(4)

I will

60

1550

2

(1)

I am

53

1814

3

(3)

in the

41

1557

4

(2)

I have

37

1587

5

(7)

it is

34

1069

(= 17)

6

(6) of the                  33       1355

7

(5) to the                  31       1476

8

(15) is the                  30       676

9

(31) thou art               27       508

10

(126) is my                   23       250

(= 200)

Nposit

positSum

5

17

10

200

15

327

20

560

25

717

30

938

40

1650

50

2176

75

3883

100

6756

Чем меньше сумма мест у определенного числа коллокаций, скажем десяти, тем ближе «синтаксис» текста к шекспировскому, поскольку последовательность наиболее частотных слов больше соответствует Мел.

Собственно говоря, это весь инструментарий. Большой шекспировский словник, состоящий из 133 тысяч единиц (Бел) и малый шекспировский словник, состоящий из 218 единиц (Мел), - это то, с чем уже можно сравнивать реальные тексты, прежде всего на предмет наличия в них единиц этого словника.

Мы сравнивали со словниками три группы текстов:

1)каждую из 36 пьес Шекспира (корпус по 1 Фолио);

  • 2)    произведения современников, ближайших предшественников (пока собственно только «Кентерберийские рассказы» Дж. Чосера) и ближайших литературных потомков («Потерянный рай» Мильтона);

  • 3)    более поздние тексты на английском языке самых разных жанров (поэзия Байрона, Шелли, проза Стерна, Филдинга, Дефо, Свифта, Диккенса, Теккерея, Кэрролла, Стивенсона, Лондона, Элиот, Мелвилла, Марка Твена, Агаты Кристи, Герберта Уэллса, Андре Нортон, а также «История затмений» Чамберса, «Золотая ветвь» Фрэзера, «Очерки молочной бактериологии» Рассела).

Для каждого произведения мы посчитали количество присутствующих шекспировских коллокаций по Бел и Мел, а также их плотность, то есть частоту употребления на единицу текста. Плотность присутствия еди- ниц словника (P) получалась простым делением числа разных коллокаций на количество слов в тексте, а плотность общего количества употреблений (Р ) этих единиц (каждую коллокацию в тексте можно было употребить не один раз) получалась делением числа всех шекспировских коллокаций, найденных в тексте, на количество слов.

В первой группе текстов мы получили типичные шекспировские показатели, последовательно обработав все пьесы. Так, например, выглядит картина по «Антонию и Клеопатре» (23684 слова):

шекспировских коллокаций из Бел: 14980 14980 : 23684 = 0.632 (Р)

21659 : 23684 = 0.914 (Pusp)

шекспировских коллокаций из Мел: 218

218 : 23684 = 0.009 (Р)

1975 : 23684 = 0.083 (Pusp)

Первые две операции деления относятся к Бел, а последние две - к Мел. Наиболее стилеразличающие показатели - это Р по Бел и Рц$е по Мел. Особенно несущественным пока представляется показатель Р по Мел, поскольку при достаточных объемах текста он зависит почти исключительно от общего количества анализируемых слов.

А вот как для «Антония и Клеопатры» выглядит таблица суммы мест по Мел:

Nposit

positSum

5

19

10

107

15

231

20

415

25

608

30

794

40

1226

50

2083

75

3705

100

6169

Так представлены результаты анализа. По первой, шекспировской, группе текстов выведены средние показатели: сумма Р была разделена на 36, по числу пьес в Первом Фолио. (Далее в целях апробирования методики мы применяли ее к отрезкам текста в 2000, 5000 и 30000 (или сколько есть в произведении) слов. В таких случаях среднее выводилось делением суммы показателей на число отрезков).

для Бел -

Р = 0.672

Pus„= 0.996 для Мел -

Р = 0.010

Pusp = 0.095

Nposit positSum

5.

26

10 .

109

15.

227

20 .

429

25.

622

30 .

872

40 .

1495

50 .

2151

75.

4198

100.

6758

Все показатели текстов второй и третьей группы отличаются от шекспировских. То есть можно надеяться, что в результате описанных подсчетов получаются не случайные цифры, а системно отражающий внутренние характеристики текста набор численно выражаемых параметров, по которым можно сравнивать и различать тексты между собой.

Вторая группа распадается на тексты, которые существенно ближе к шекспировским по этим показателям, и все остальные. Возьмем сначала пример из «остальных»: первые 30 000 слов из «Кентерберийских рассказов»:

шекспировских коллокаций из Бел: 7745 7745 : 30000  = 0.258

15756 : 30000 = 0.525

шекспировских коллокаций из Мел: 191 191 : 30000  = 0.006

2396 : 30000 = 0.079

Nposit      positSum

И словарь (Бел), и синтаксис (Мел) существенно отличаются от шекспировских показателей.

Следующий пример уже из группы более близких по стилевым показателям к Шекспиру произведений (Бен Джонсон «Cynthia’s Revels»):

шекспировских коллокаций из Бел: 9951 9951 : 30000  = 0. 359

17800 : 30000 = 0.648

шекспировских коллокаций из Мел: 214 214 : 30000  = 0.007

2719 : 30000 = 0.094

Nposit positSum 520

Коэффициент плотности по Бел для этого произведения лишь чуть-чуть повыше, чем у Чосера, зато плотность употребления Мел (0.094) почти идентична среднешекспировскому показателю (0.095), да и наиболее частотные коллокации по Мел - тоже вполне шекспировские (о/ the, in the, to the, of his, to be), что предположительно объясняется сильным влиянием стиля Шекспира на Джонсона. На сознательном уровне Джонсон, конечно, этого не хотел и от прямого (лексического) подражания стилю Шекспира уходил, однако на уровне синтаксиса не избежал влияния. Так можно попытаться проинтерпретировать эти данные.

А вот анализ одной из пьес Кристофера Марло с наиболее шекспировскими (по сравнению с другими произведениями Марло) показателями («Мальтийский Еврей»):

шекспировских 8834 : 23312 14455 : 23312

коллокаций из Бел: 8834

= 0.426

= 0.669

шекспировских

216 : 23312  =

коллокаций из Мел: 216 = 0.010

1985 : 23312 = 0.086

Nposit positSum

5       22

10       82

15      180

20     533

25     742

30     1004

40     1595

50    2500

75     5123

100    7773

Главный коэффициент, конечно, маловат, однако синтаксис до 50 коллокаций прямо-таки среднешекспировский!

Далее. Возьмем одну из многих пьес, изданных анонимно. «Edmund Ironside»:

шекспировских 7101 : 15599 10308 : 15599

коллокаций из Бел: 7101 = 0. 4 61 = 0.669

шекспировских

204 : 15599 =

коллокаций из Мел: 204 = 0. 013

1205 : 15599 = 0.078

Nposit positSum

5      27

10      138

15     326

20     617

25     893

30     1245

40    2005

50    2747

75    4946

100    7181

По главному показателю (0.461) эта пьеса существенно ближе к Шекспиру чем пьеса Джонсона, и несколько ближе, чем пьеса Марло. Не случайно это произведение постоянно фигурирует в числе претендентов на шекспировское авторство. Очень шекспировская сумма мест первого десятка коллокаций. Пьеса нуждается в более пристальном анализе.

Аналогичный случай с еще лучшими показателями по Мел. («Damon and Pithias»):

шекспировских коллокаций из Бел: 7565

7565 : 18546  = 0.407

12853 : 18546 = 0.693

шекспировских коллокаций из Мел: 206

206 : 18546 =0.011

1761 : 18546 = 0.094

Nposit positSum

5

10

15

20

25

30

40

50

75

100

20 160 351 545

845 1108 1762 2477

4753 7641

Теперь из серии так называемых апокрифов, пьес, еще в шекспировское время или чуть-чуть позднее изданных под авторством Шекспира, которое потом было оспорено.

«Arden Of Feversham»:

шекспировских коллокаций из Бел: 10730 10730 : 24686 = 0.434 17587 : 24686 = 0.712

шекспировских коллокаций из Мел: 216 216 : 24686 = 0.008 2216 : 24686 = 0.089

Nposit

positSum

5

20

10

137

15

286

20

429

25

586

30

849

40

1512

50

2096

75

4186

100

6877

Достаточно высокий показатель по Бел подкрепляется почти стопроцентным попаданием по Мел. Другие апокрифы также демонстрируют большую близость к шекспировским параметрам, чем другие тексты. Один из апокрифов уже давно признан шекспировским («Перикл»), хотя его показатели не намного лучше, чем у других апокрифов и даже немногим более шекспировские, чем у «Мальтийского Еврея» Марло:

шекспировских коллокаций из Бел: 8502

8502 : 18365  = 0.462

12481 : 18365 = 0. 679

шекспировских коллокаций из Мел: 212

212 : 18365 = 0.011

1422 : 18365 = 0.077

Nposit

positSum

5

19

10

103

15

263

20

527

25

800

30

922

40

1563

50

2380

75

4184

100

6746

А вот тексты, заведомо считающиеся шекспировскими, на этих поэмах впервые напечатано имя «Шекспир» («Венера и Адонис» и «Обесчещенная Лукреция» вместе, потому что так они дают более релевантный для подсчетов объем):

шекспировских коллокаций из Бел: 8363

8363 : 25213  = 0.331

12949 : 25213 = 0.513

шекспировских коллокаций из Мел: 194

194 : 25213  = 0.007

1346 : 25213 = 0.053

Nposit

5

positSum

112

10

390

15

655

20

910

25

1577

30

1984

40

2930

50

3616

75

6391

100

9265

Ничего показательно шекспировского, в сравнении с апокрифами например, в них не обнаружилось. Волей-неволей остается задуматься либо над тем, «из чего состоит Шекспир»: это группа авторов под единым брендом или псевдоним (опять-таки одного человека или, скажем, учителя с учениками), либо над тем, как влияют на стиль жанровые особенности. Хотя не исключено, что и над тем, и над другим вместе.

И сонеты Шекспира только подливают масла в огонь этих размышлений:

шекспировских коллокаций из Бел: 7438 7438 : 19425  = 0.382

11500 : 19425 = 0.592 шекспировских коллокаций из Мел: 204 204 : 19425 = 0.010 1368 : 19425 = 0.070

Nposit positSum 5

100          8038

Мы, разумеется, не собираемся вот так сразу - даже осторожно - выдвигать предположение, что сонеты написал не Шекспир или не один Шекспир, просто в них меньше шекспировских коллокаций 36-ти пьес, чем во многих других текстах его современников, апокрифах или анонимных произведениях. Возможно, сонеты - особая жанровая форма индивидуального стиля, где меньше повторного.

Кстати, именно компьютерные подсчеты уже выявляли заметную разницу (по другим параметрам) между сонетами и шекспировским драматическим каноном8, так что сам по себе этот, возможно, не бросающийся в глаза при чтении, но выводимый из строгой математической статистики стилистический зазор между «Шекспиром сонетов» и «Шекспиром 36-ти пьес» не новость.

Скорее новость - обсчет по нашим параметрам знаменитого произведения Роберта Грина, как полагают многие шекспироведы, злейшего завистника Шекспира. Как раз в этом произведении сделан первый прозрачный намек на «потрясателя сцены» (shake scene), собственно этим оно и знаменито (хотя на это произведение стоило бы обратить более пристальное внимание)9.

«Groats-worth of Witte, bought with a million of Repentance»:

шекспировских коллокаций из Бел: 4912

4912 : 11359 = 0.432

7087 : 11359 = 0.623

шекспировских коллокаций из Мел: 186

186 : 11359 = 0. 016

312 : 11359 = 0.085

Nposit positSum

5

43

10

130

15

400

20

587

25

893

30

1159

40

2128

50

3016

75

4931

100

7742

Эти параметры не намного, но лучше, чем у автора сонетов. Опять-таки опрометчиво было бы заявить, что Грин как автор «На грош ума...» чуть-чуть более Шекспир, чем автор «Шекспировых сонетов». И тут нужны дополнительные исследования, некоторые мы уже осуществили (см. ниже), предварительные результаты выводятся как частный случай применения нашей методики к более коротким отрезкам произведений.

Средние параметры Бел по 36 пьесам Шекспира по отрезкам текста в 2000 слов такие:

Р = 0.875 (0.871 -по другой методике определения среднего)

Puse = 0.996

Для сонетов и «На грош ума...» по Бел имеем:

отрывка (2000)

Рсонетов по Бел

отрыв ка

(2000)

Р «На грош ума» по Бел

1

0,478

1

0,486

2

0,549

2

0,564

3

0,567

3

0,540

4

0,552

4

0,541

5

0,565

5

0,575

6

0,519

6

0,545

7

0,521

Ср. 0,542

8

0,570

9

0,559

Ср. 0,542

Удивительное рядом: средняя плотность шекспировских коллокаций совпала до тысячных долей коэффициента!

Очень близка средняя плотность в отрывках «Обесчещенной Лукреции», «Венеры и Адониса» и поэзии Эдварда де Вера («Венера и Адонис» - 0,450 - отличаются от поэзии де Вера вообще всего на 3 тысячных):

й

отрывка (2000)

Р соединенных «Венеры и Адониса» и «Обесчещенной Лукреции» по Бсл

отрыв ка

(2000)

Р лирики Э. де Вера по Бсл

1

0.443

1

0.422

2

0.449

2

0.471

3

0.435

3

0.448

4

0.439

Ср. 0.447

5

0.481

0.443

6

0.478

0.449

7

0.450

0.435

8

0.456

0.439

9

0.484

0.481

10

0.489

2253

11

0.456

Ср.

0.450

Для «Венеры…»!

12

0.422

Ср. 0.457

Третья группа произведений составляет отдаленный фон и в какой-то степени может тестировать работу системы. Достаточно показать плотность шекспировских коллокаций по Бсл. Курсивом выделены минимальные значения по каждому произведению, полужирным – максимальные. Для удобства и наглядности в таблице и ниже в текстах из коэффициентов мы будем приводить только цифры после запятой (например, 876 = 0,876), в четырехзначных числах первая цифра будет до запятой (1234 = 1,234).

№ отрывка (2000)

Byron Childe

Byron Juan

Carroll Alice in Wonder land

Chestert

on

The Ballad of the White Horse

Chestert on The Defendant

Christie Agatha The Mysterious Affair at Styles

Christie Agatha The Secret Adversary

Coleridge Shakespeare Ben Jonson

Defoe

The Further Adventures of Robinson Crusoe

Dickens Bleak House

Dickens David Copper field

1

401

440

421

444

416

416

386

320

595

354

426

2

285

420

435

429

352

406

429

334

580

415

414

3

313

483

387

403

443

423

410

384

533

432

432

4

351

475

402

487

417

412

431

400

565

521

505

5

385

404

405

428

401

478

429

397

529

520

505

6

298

496

394

391

413

387

460

399

577

531

518

7

335

470

369

389

373

511

374

385

591

477

443

8

383

485

349

392

384

480

383

392

518

446

493

9

406

422

382

421

404

480

381

394

537

444

441

10

420

416

393

412

469

414

345

515

509

513

11

383

438

308

397

495

399

372

529

461

478

12

423

450

356

390

443

417

397

495

476

496

Среднее (ср. 431)

365

450

383

420

400

450

409

377

547

466

472

Перепад стиля (ср. 105)

138

92

127

98

91

124

86

80

100

116

104

Прежде всего стоит заметить, что все произведения относительно однородны по присутствию в разных отрывках шекспировских коллокаций: максимальный перепад значений (138) в «Чайльд Гарольде» Байрона, минимальный – в работе Кольриджа о младших современниках Шекспира (80), средним (нормальным) перепадом можно считать примерно 100 единиц. Таким образом, количество шекспировских коллокаций в художественных текстах – это вовсе не случайное число и является, как можно предварительно судить по этим данным, достаточно стабильным показателем стиля для определенного художественного произведения.

Мы видим, что отдаленный фон художественной литературы дает показатели от 365 (Байрон) до 547 (Дефо). За Дефо вслед идут два произведения Диккенса и одно Агаты Кристи. Средний показатель шекспировской плотности отдаленного фона 431.

С отдаленным фоном более или менее понятно: мы не думаем, что Дефо, Диккенс или Агата Кристи участвовали в создании текстов Шекспира. Наоборот, тексты Шекспира участвовали в создании Дефо и Диккенса. Тут все ясно: прямое и косвенное (через другие, также впитавшие Шекспи- ра тексты) влияние. Но возьмем произведения Роберта Грина, на которые вроде бы (по сложившимся шекспироведческим представлениям) Шекспир влиять не мог, поскольку в «На грош ума» заявлено о смерти Грина.

Средний показатель плотности коллокаций пьес Шекспира по 14 произведениям Грина впечатляет: 559, на 128 единиц выше, чем у отдаленного фона. Если исходить из того, что Шекспир не мог влиять на Грина, то в рамках классических представлений (Шекспир - это один единый автор, а Грин - другой единый автор) остается предполагать колоссальное влияние Грина на Шекспира. (Хотя теоретически можно предположить еще влияние какого-нибудь предшественника и на Грина, и на Шекспира, но на этой, черновой, стадии анализа такими тонкими вариантами влияний можно пренебречь). В этом, на первый взгляд, нет ничего невероятного. Юный будущий автор шекспировского канона зачитывался романами (романсами, точнее переводя, вернее просто калькируя, потому что английский термин romance мало общего имеет с нашими представлением как о романе, так и о романсе) и драмами Роберта Грина. Несколько настораживает уровень стилистического перепада как внутри отдельных произведений Грина (193, 169, 149: максимальные значения), так и между разными произведениями (перепад между средними показателями 154).

(Чтобы проверить гипотезу влияния Грина, нужно составить словники по Грину, аналогичные шекспировским, и сравнить с ними пьесы Шекспира и фона. Но эта проверка уже останется вне рамок данной статьи.)

Однако мы слишком рано нарушили наш собственный запрет на рассмотрение Шекспира как личности. Кто, собственно, дал нам право делать какие-то выводы о возрасте Шекспира и размышлять о том, что он мог читать в юности? Мы даже пока точно не знаем, один это автор или несколько. Мы знаем только, что Шекспир признан автором 36 пьес. Значит, и вернемся к анализу текстов Шекспира. Результаты анализа по Бел всех пьес Первого Фолио по 2000-м отрывкам тоже представим в виде таблиц.

1

3

о

3

ОО

5

8

ОО

8

3

3

3

3

8

5

£

Ох

Ох

ОО

ОО

ОО

ОО

3

^

£

ОО

8

3

3

1

8

о

о

о

р

8

3

8

ОО

3

S

8

о

ОО

о

1S

3

8

3

8

2

ОО

3

о

3

3

5

о

S

3

ОО

1

5

3

3

о

ОО

о

3

3

о

3

3

00

о

3

£

ОО

8

§

о

8

о

3

3

3

3

3

о

3

о

8

3

1

-2 Ло о

со

о

S

00

со

о

S д' ^

ОО

ОО

о

ОО

о

8

ОО

3

3

о

8

S

ОО

о

ОО

ГЦ

6

8

ОО

со

со

S

о

S

со

о

со

ОО

со

о

о

00

5

3

3

Ох

3

8

о

о

СО

^ ^32 .3

8

о

3

со

8

3

3

3

3

3

о

ОО

Т S > -S $ >

§

S

о

8

о

3

S

СО

3

3

3

—<1 XDI

о

о

= § S § ^ ^и о

ОО

о

о

ОО

ОО

ОО

3

3

S

о

3

3

3

3

& । 5 о о К $ о S в 3 С

ОО

о

сч

со

ио

d и

К с о

i 'к 5 с^ о ^

ОО

о

ОО

о

S

3

3

3

S

8

оо

о

оо

о

§ о

S

со

8

5

оо

3

3

8

оо

$

3

8

3

3

8

о о "S

СС ~Q -Си О Ьо

< о о к к

3

S

о

3

оо

3

о

3

3

8

о

8

X

Й g Л^

8

ОО

о

ОО

3

00

3

8

3

о

3

ОО

i

3

3

3

3

о

S

оо

з

si

о

8

р4 S ^

Й 5 ? К

о

о

3

3

о

S

3

оо

3

со

3

со

3

^ Л g

о

о

о

ОО

8

з

о

оо

3

3

3

о

о

i .у

ОО

3

$

о

5

3

8

ох

3

3

3

£

8

ОО

3

3

о

3

оо

о

3

8

к

3

8

3

8

О

3 ох

3

3 ОО

оо сц

3 со

о а

3 40

ОО Ох

3 сц

8

^ д ^

3

3

3

о

о

3

3

3

3

оо

8

о

^ S

о

5

3

ОО

3

ОО

3

3

S

3

3

3

^

3

3

3

3

3

3

3

3

3

3

8

оо

8

о ■ g о S д о 1^5^

1—1

со

XD

оо

ОХ

о

СЦ

d О

& 5 §

К с о

£

V £D О и a

V £D О и a

S 5

3

ОО

ОО

оо

ОО

ОО

со

S

о

о

ОО

Е-< by 5 ^

ОО

о

S

й

о

ОО

g

S

8

р 19 ^ К a U о

о

§

о

^

ОО

с§

о

S

Я

о

ОО

о

00

ОО

^

ОО

ОО

ОО

ОО

ОО

3

ОО

ОО

о

о

ОО

оо

о

$

ОО

§

СО

5

$

о

к й ^

о

9

ОО

о

ОО

о

g

£

S

S

ОО

ОО

о

S

ОО

ОО

Г^

о

о

о

ОО

К к

§

я

о

2:

§

00

й

§

я

^ 5

S

S

а\

о

S

о

§

g

ОО

ОО

ОО

S|

ах

о

S

ОО

ОО

ОО

S

ОО

ОО

m

о

о

& ■ g о

^ -е 5 8

1—1

in

ОО

О'

о

'—1

СЧ

со

и

К С о

(Подчеркиванием выделены последние отрывки произведений меньше 1000 слов, где плотность коллокаций может резко увеличиваться чисто математически.)

Пока мы можем определенно сказать, что средний перепад стиля между отрывками в 2000 слов внутри шекспировских произведений для 36 пьес равен 158 против 105 в отдаленном фоне. Даже у очень разношерстного Грина средний уровень стилистического перепада ниже (131). Причины этого могут быть как чисто математические (у Шекспира, естественно, больше шекспировских коллокаций, а значит, и больше колебания числа этих коллокаций), так и историко-лингвистические (период становления английского языка в эпоху Шекспира, с одной стороны, и более устоявшийся язык в более поздние времена, с другой стороны). В любом случае, исходя лишь из анализа по Бел как пьес в целом, так и их отрывков по 2000 слов, мы пока не находим оснований сокращать шекспировский корпус.

Однако, проанализировав полученные данные, мы можем подозревать участие соавторов в некоторых пьесах. Например, начальные 2000 слов «Тита Андроника» резко выбиваются по коэффициенту шекспировских коллокаций, но не так резко, чтобы наши подозрения превратились сразу в нечто большее, хотя ученые сейчас практически не сомневаются в участии в пьесе нешекспировской руки, точнее руки Джорджа Пила. То есть, именно говоря об этом произведении, мы можем в какой-то степени проверить адекватность методики. Если отрывки, где у нас подозревается соавторство, совпадут с отрывками неШекспира, полученными по другим методикам, значит, методики первый тест на адекватность выдержали. Если не совпадут, потребуется коррекция, правда, чьей методики (нашей или иных), заранее сказать трудно.

Большинство исследователей, занимавшихся проблемой атрибуции «Тита Андроника» и признававших факт соавторства, сходятся во мнении, что Дж. Пил написал первый акт, первую сцену второго акта и первую сцену четвертого акта. Тесты, проведенные с помощью компьютеров, это подтверждают10. Все эти исследования подсчитывали самые разные, но частные показатели стиля, начиная от соотношения мужских и женских окончаний стихов и кончая количеством более чем двусложных слов. Проведенный с помощью практического полного словника шекспировских коллокаций (133 тысячи единиц) анализ пьесы, последовательно разбитой на 2000-е и 1000-е отрывки, приводит к частично похожим выводам:

Номер фрагмента (2000)

Акт, сцена «Тита Андроника»

Плотность 2000-х

Плотность 1000-х

Номер фрагмента (1000)

1

1 акт

756

807

1

807

2

2

1 акт

848

868

3

905

4

3

1 акт (248 слов) 2 акт 1 сц.

752

797

869

5

2.1. (295 слов) 2.2.

773

6

4

2.2.

2.2.

873

912

7

905

8

5

2.2.

2.2. + 3.1. (207 слов)

839

841

9

888

10

6

3 акт 2 сц. и

859

930

11

4 акт 1 сц. (1012 слов)

844

12

7

4 акт 1 сц. (22 слова)

852

901

13

884

14

8

863

902

15

882

16

9

946

975

17

1007

18

10

813

830

19

855

20

Среднее:

845 (по 36 пьесам 871)

897 (по 36 пьесам 901)

Хотя мы видим, что наши 2000-е отрывки, естественно, не совпадают с делением по сценам, какие-то предварительные выводы сделать можно. Например, можно однозначно подтвердить, что текст первой половины 1 акта (чуть меньше) имеет показатель плотности коллокаций наименее шекспировский. Если признать, что соавтором был Пил, то самое начало в 2000 слов написал именно он. Затем 2000 слов идут со вполне шекспировскими показателями плотности. Возможно, вторую половину 1 акта все-таки написал главный Шекспир (условно пишем так, потому что при некоторых выводах из стилистических исследований и самого Пила логично считать Шекспиром). Самые последние 248 слов 1 акта и 1 сцена 2 акта (1047 слов) входят в нашу третью порцию по 2000 слов, которая имеет показатель плотности ниже среднего по пьесе и ниже среднего по 36 пьесам.

Вполне можно предположить авторство Пила. А вот последний отрывок, обычно приписывающийся Пилу, мы по анализу 2000-х отрывков атрибу тировать не можем, потому что он занимает лишь половину нашего шестого отрезка текста и самое начало седьмого. Однако и по анализу 1000-х отрывков картина получается неоднозначная. С одной стороны, наш 12-й отрывок, в который почти полностью вмещается подозреваемая на авторство Пила 1 сцена 4 акта, достаточно резко отличается от предыдущего, 11-го и последующего, 13-го. С другой стороны, в целом 12-й отрывок в 1000 слов вполне вписывается в шекспировские показатели. Если этот 12-й отрывок считать нешекспировским, то и 9, и 19 отрывок тоже нужно счи тать нешекспировскими по этим показателям.

Однако в целом наши результаты не противоречат результатам, полученным по другим методикам, да и, конечно, сами методики, которые сейчас применяются, наш подход никоим образом не отрицает. Главное отличие предлагаемой методики состоит в глобальности стилистического анализа: это сплошной анализ текста, который раньше можно было проводить только в ручном режиме, а значит, охватывались только незначительные отрезки текста в единицу времени, сопоставимую с творческой жизнью исследователя.

Список литературы На подступах к геному стиля Шекспира

  • Bolton W. The Bard in Bits: Electronic Editions of Shakespeare and Programs to Analyze Them//Computers and the Humanities. 1990. Vol. 24. №. 4 (Aug.). P. 275-287
  • Lowe D., Matthews R. Shakespeare Vs. Fletcher: A Stylometric Analysis by Radial Basis Functions//Computers and the Humanities. 1995. Vol. 29. № 6 (Dec.). P. 449-461
  • Elliott W.E., Valenza R.J. A Touchstone for the Bard//Computers and the Humanities. 1991.Vol. 25. № 4 (Aug.). P. 199-209
  • Eftekhari A. Fractal geometry of texts: An initial application to the works of Shakespeare//Journal of Quantitative Linguistics. 2006. Vol. 13. № 2-3. P. 177-193
  • Simonton D.K. Lexical Choices and Aesthetic Success: A Computer Content Analysis of 154 Shakespeare Sonnets//Computers and the Humanities. 1990. Vol. 24. № 4 (Aug.). P. 251-264
  • http://research.cs.wisc.edu/niagara/data/shakes/shaksper.htm
  • Ward E.Y. Elliott and Robert J. Valenza. Shakespeare’s Vocabulary: Did it Dwarf All Others?//Stylistics and Shakespeare’s Language/Eds Mireille Ravassat and Jonathan Culpeper. London; New York, 2011. P. 34-41
  • Zhang Katherine T., Zhang Zhiyi. Shakespearean Sonnets versus Shakespearean Canon//Journal of Quantitative Linguistics. 2010. Vol. 17. № 2. P. 81-93
  • Пешков И.В. Почему Роберт Грин за грош ума (остроумия) каялся на миллион, или Львиная природа авторства//Бестиарий в словесности и изобразительном искусстве. М., 2012. С. 97-126
  • MacDonald P. Jackson. Studies in Attribution: Middleton and Shakespeare. Salzburg, 1979. P. 147-153
  • Tarlinskaja M. Shakespeare's Verse: Iambic Pentameter and the Poet's Idiosyncrasies. New York, 1987. P. 121-124
  • Vickers B. Shakespeare, Co-Author: A Historical Study of Five Collaborative Plays. Oxford, 2002. P. 219-239
Еще