Использование интернет-парсинга при исследовании репрезентации личности и творчества Г.Р. Державина в поисковой системе Google

Бесплатный доступ

В статье проводится количественное (1702 собранных интернет-ссылки) исследование репрезентации художественного творчества и биографических, социально-политических особенностей личности Г.Р. Державина. Основной акцент сделан на анализе представленности образа писателя в поисковой системе Google. Для решения задачи предложен инструмент на основе библиотек языка Python для парсинга и анализа ресурсов по заданным запросам. Для сбора ключевых контекстов использовались статистические данные сервисов Яндекс Вордстат и Google.Trends. Они продемонстрировали четкую сезонность запросов, связанных с Г.Р. Державиным, что было подтверждено хронологическими данными просмотров страницы писателя в русскоязычной Википедии. Были сформированы ключевые для понимания репрезентации личности и творчества Г.Р. Державина ключевые интернет-контексты (всего - 125), на основе анализа которых парсер вывел наиболее популярные и частотные ссылки-запросы в Google: «Державин читать», «Державин биография», «Державин университет». Среди самых непопулярных: «Державин ода», «Державин посвятил». По некоторым из представленных контекстов ссылок не было. Важным и частотным в Google прозвучал контекст Тамбовского государственного университета им. Г.Р. Державина. Одновременно слабые связи оказались у образа Державина и его государственной службы, которую он сам считал важной частью своей личности. Ссылки и запросы по этой тематической группе представлены минимально.

Еще

Державин, google, интернет, репрезентация, рецепция, парсинг, личность, творчество

Короткий адрес: https://sciup.org/148330425

IDR: 148330425   |   DOI: 10.37313/2413-9645-2024-26-98-41-50

Текст научной статьи Использование интернет-парсинга при исследовании репрезентации личности и творчества Г.Р. Державина в поисковой системе Google

EDN: PEFFBO

Введение. Вопрос о том, кем является для истории русской литературы и культуры Гавриил Романович Державин, отнюдь не праздный. И важную роль в этой проблеме позиционирования писателя-классика сыграл сам поэт.

История вопроса . Если собственно художественная автомифология Г.Р. Державина хорошо изучена [8], то рецепция его личности и творчества относительно не прояснена, особенно если говорить о современном состоянии этой проблемы.

Результаты исследования . Сам Державин, выстраивая свою биографию, вполне четко позиционировал себя прежде всего как чиновника. Показательна в этом случае даже архитектоника державинских «Записок» – по сути, его автобиографии. Основная часть глав-«отделений» в них названо по соотнесенности с периодами в военной или государственной службе автора – см., например: «С рождения его и воспитания по вступление в службу», «Воинская Державина служба до открывшегося в империи возмущения», «С помянутого возмущения по вступление

Державина в статскую службу», «С окончания военной прохождение статской службы в средних чинах по отставку», «С определения его в губернаторы до удаления его от оного звания и возведения в вышние государственные чины и должности», «По отлучении от губернаторства до определения в статс-секретари, а потом в сенаторы и в разные министерские должности» [5]. Одновременно сохранялась безусловная связь биографии и сочинений поэта, «с определенного времени уже сам Державин склонен был рассматривать свою жизнь и творчество не просто как параллельно сосуществующие сферы своего Бытия, а как два постоянно взаимосвязанных мира» [10, с. 461]. Дальнейшие преобразования образа Г.Д. Державина и в массовом сознании, и в конкретных научных и художественных рецепциях, в текстах Я.К. Грота, В.Ф. Ходасевича, Ю.О. Домбровского, Западова и пр. так или иначе далеко от этой модели не отходили. Единство социальнополитического и творческого облика поэта в системе писателей XVIII в. дополнительно подтверждается и при рассмотрении его места в истории русской литературы этого периода, с точки зрения сетевого анализа датасетов на базе корпусов текстов соответствующих словарей [9; 2].

Между тем проведенные относительно недавно социсследования показывают, что глубинных знаний о Г.Д. Державине в массовом сознании практически нет. К примеру, лишь около 1% из опрошенных школьников смогли назвать хоть одно произведение одного из крупнейших русских поэтов и, как итог, - «многие сегодня знают, что был такой поэт — Державин, но привести хоть несколько его строк способны уже очень немногие» [11, с. 104]. Ситуация с Державиным в этом случае схожа со случаем М.В. Ломоносова. Оба писателя уходят в «тень русской литературы» уже в первой половине XIX в. [7, с. 653], актуализируясь лишь как пусть и уважаемые, но все же довольно условные памятники литературы прошлого столетия.

Методы исследования. Если говорить уже непосредственно о современном состоянии рецепции образа Г.Д. Державина, то наиболее достоверным средством оценки популярности/неизвестности писателя представляется анализ интернет-источников, которые «заставляют людей признать то, что они не признают больше нигде» [12, с. 138]. В данном случае нами предложена реализация инструмента сбора и анализа ссылок по данным писателя в поисковых системах с возможностью идентификации характера информационного ресурса на основе библиотек языка Python для сбора, обработки и интеллектуального анализа данных. Предлагается методика анализа интернет-источников о писателе, в нашем случае – о Г.Д. Державине, с использованием инструментов автоматизированного извлечения информации из нескольких типов поисковых систем. Рассмотрим основные этапы поставленной задачи.

  • 1.    Формирование словаря биграмм и триграмм U релевантных возможных комбинаций для запросов U= [«Державин поэт», «Гавриил Державин», «Державин ода» и пр.).

  • 2.    Сбор ссылок для каждого элемента словаря U.

  • 3.    Анализ полученного массива данных, очистка, преобразование и рейтингование. Самописный парсер для получения контента каждого из ресурсов из списка URL адресов пробегает по каждой ссылке, собирая код каждой страницы. Был разработан пакет таких функций для каждой из поисковых систем: Yandex, Google, Sputnik и др. Каждая функция использует для парсинга две библиотеки: BeautifulSoup и request. Данные пакет позволяют получить список URL адресов каждого из источников в случае хотя бы одного вхождения запроса в контент ресурса. Результаты парсинга консолидируются в виде таблицы со ссылками с группировкой по типу запроса и поисковой системы. Их можно выгрузить в виде электронной таблицы. Для первичного анализа       использовались       сервисы

wordstat.yandex.ru [3] и trends.google.ru [4]. Также были привлечены данные анализа именной страницы о Г.Р. Державине на Википедии [6]. Многие запросы и тематические группы на этих ресурсах представлены по-разному, с использованием синонимов и поэтому не попадают в общую статистику. Разовые запросы не попадают ни в одни системы статистики. Тем не менее эти площадки дают наиболее адекватный результат по интересующей нас теме и могут быть использованы для формирования на первом этапе релевантного списка ключевых контекстов (пример подобной работы с дополнительной кластеризацией ссылок см. [1]). Однако так как количество таких запросов может быть достаточно большим, то использование этих инструментов становится нецелесообразным. Для получения полной информации, во-первых, необходимо сгенерировать этот массив возможных релевантных запросов, получить результаты возможных поисковых систем с учетом пересечений по ресурсам, а для более глубокого анализа контента необходимо собрать данные из найденных ресурсов. Для решения этой задачи предложен инструмент, представляющий собой ноутбук [13] на основе библиотек языка Python для парсинга и анализа ресурсов по заданным запросам. Ноутбук можно запустить в Google Colab, которая является бесплатной средой для разработки и выполнения программного кода в облаке. Сам инструмент сбора ссылок на ресурсы является универсальным и позволяет обработать любой список запросов и выбрать поисковые системы, необходимые для анализа. Список запросов, в свою очередь, подгружается в ноутбук в виде электронной таблицы. Далее каждый элемент списка этой таблицы пропускается через функции сбора ссылок и формируются промежуточные итоги по каждому запросу.

Результаты исследования. Согласно статистике Яндекса (Яндекс Вордстат [3]) и Google (Google.Trends [4]), наиболее часто запрос «Державин» сезонно актуализируется в сентябре-октябре каждого года — это, конечно же, связано с изучением этого автора в стандартных школьных программах именно в данные период. Основной акцент в нашем исследовании сделан на поисковой системе Google, поэтому дальнейшая статистика приводится именно по ней.

Таб.1 . Динамика популярности запросов в Google «Гавриил Романович Державин» с 01.01.2020

(Dynamics of popularity of Google queries "Gavriil Romanovich Derzhavin" since 01.01.2020)

2020-01

8

2020-02

7

2020-03

6

2020-04

6

2020-05

7

2020-06

6

2020-07

6

2020-08

5

2020-09

46

2020-10

56

2020-11

17

2020-12

10

2021-01

7

2021-02

8

2021-03

6

2021-04

7

2021-05

8

2021-06

6

2021-07

5

2021-08

5

2021-09

46

2021-10

54

2021-11

14

2021-12

8

2022-01

7

2022-02

8

2022-03

7

2022-04

7

2022-05

8

2022-06

7

2022-07

5

2022-08

5

2022-09

46

2022-10

54

2022-11

17

2022-12

9

2023-01

6

2023-02

7

2023-03

7

2023-04

8

2023-05

9

2023-06

6

2023-07

8

2023-08

5

2023-09

50

2023-10

44

2023-11

12

2023-12

9

2024-01

6

2024-02

6

2024-03

18

2024-04

7

2024-05

8

2024-06

6

2024-07

6

2024-08

4

2024-09

50

2024-10

30

2024-11

11

Рис. 1 . Динамика популярности запросов в Google «Гавриил Романович Державин» с 01.01.2004 (Dynamics of popularity of Google queries "Gavriil Romanovich Derzhavin" since 01.01.2004)

Аномальный всплеск популярности запроса был в январе 2018 г. – после смерти актера Михаила Державина, также среди частотных в формах выдачи – музыкант Андрей Державин. Региональный компонент запроса довольно ярко выражен: из стран наиболее частотен запрос по России, далее идут Киргизия и Беларусь; из российских регионов – по Тамбовской области. Здесь с

2004 г. чаще всего выполнялся поиск по личности Державина-поэта. В остальных регионах популярность запроса ниже втрое или более. Это объясняется, в основном, тем, что регулярно интересующий абитуриентов и студентов Тамбовский государственный университет носит имя Г.Р. Державина.

Таб. 2 . Сравнительная популярность запросов в Google «Гавриил Романович Державин» по субрегионам (Comparative popularity of Google queries "Gavriil Romanovich Derzhavin" by subregions)

Тамбовская область

100

Новгородская область

37

Ненецкий автономный округ

32

Республика Карелия

31

Республика Калмыкия

27

Республика Алтай

26

Республика Татарстан

25

Чукотский автономный округ

24

Вологодская область

21

Республика Бурятия

20

Республика Тува

20

Республика Мордовия

19

Республика Ингушетия

19

Забайкальский край

19

Магаданская область

19

Оренбургская область

19

Белгородская область

18

Астраханская область

18

Курская область

18

Камчатский край

18

Еврейская автономная область

18

Карачаево-Черкесская

Республика

18

Кабардино-Балкарская

Республика

18

Республика Дагестан

18

Республика Коми

17

Калининградская  об

ласть

17

Республика Саха (Якутия)

17

Брянская область

17

Республика  Северная

Осетия-Алания

17

Калужская область

16

Ульяновская область

16

Рязанская область

16

Смоленская область

16

Волгоградская область

16

город Санкт-Петербург

16

Статистика в Яндексе дает уточненные результаты и по конкретным жанровым предпочтениям в творчестве Г.Р. Державина пользователей этой поисковой системы (например, кратное доминирование количества запросов по оде над запросами по пьесам Державин и т. д.), и по отдельным текстам (например, явное проявление субрегионального компонента при запросах од «Водопад»

и «Арфа» - в Карелии и Татарстане, соответственно), однако это тема отдельного исследования со своим инструментарием. Google.Trends же не предоставляет столь подробные и незначительные для этой системы данные. Однако, что важно, имеющаяся в этой поисковой системе статистика популярности запросов подтверждается обращениями к странице о Г.Р. Державине в рус- Г.Р. Державину значительно увеличивается в сен-скоязычной Википедии [5]. Здесь также интерес к тябре-октябре каждого года.

На основе анализа наиболее частотных запросов и контекстов в интернет-поисковиках, русскоязычной Википедии, учебной и научной лите- ратуры были сформированы ключевые для понимания репрезентации личности и творчества Г.Р. Державина ключевые контексты (всего - 125):

Державин

Державин поэт

Державин Г.

Державин писатель

Г. Державин

Державин драматург

Державин Г.Р.

Державин юрист

Г.Р. Державин

Державин чиновник

Державин Гавриил

Державин сенат

Гавриил Державин

Державин секретарь

Державин Гаврила

Державин коллегия

Гаврила Державин

Державин министр

Державин Гавриил Романович

Державин губернатор

Гавриил Романович Державин

Державин отставка

Державин Гаврила Романович

Державин анализ

Гаврила Романович Державин

Державин классицизм

Державин архив

Державин предромантизм

Державин библиотека

Державин сентиментализм

Державин музей

Державин романтизм

Державин конференция

Державин реализм

Державин университет

Державин литература

Державин кратко

Державин поэтика

Державин содержание

Державин поэзия

Державин пересказ

Державин творчество

Державин перевод

Державин стихотворения

Державин сборник

Державин стихи

Державин письма

Державин ода

Державин сатира

Державин Екатерина

Державин лирика

Державин Суворов

Державин книги

Державин Потемкин

Державин поэма

Державин Новиков

Державин биография

Державин Радищев

Державин воспоминания

Державин Пушкин

Державин пьеса

Державин Болховитинов

Державин драма

Державин Львов

Державин анакреонтика

Державин Капнист

Державин бог

Державин Муравьев

Державин мурза

Державин Хемницер

Державин памятник

Державин Ломоносов

Державин фелица

Державин Сумароков

Державин арфа

Державин Тредиаковский

Державин водопад

Державин Карамзин

Державин властителям

Державин Дмитриев

Державин судиям

Державин Шишков

Державин мещерского

Державин Беседа

Державин евгению

Державин Арзамас

Державин званская

Державин архаист

Державин вельможа

Державин Грот

Державин багрим

Державин Пугачев

Державин Казань

Державин восстание

Державин Тамбов

Державин собрание

Державин Петрозаводск

Державин сочинения

Державин Новгород

Державин биография

Державин Петербург

Державин реферат

Державин Москва

Державин читать

Державин Казанская

Державин издал

Державин Тамбовская

Державин посвятил

Державин Олонецкая

Державин написал

Державин Новгородская

Державин жил

Державин Татарстан

Державин дружил

Державин Лаишево

Державин придумал

Державин Сокуры

Державин описал

Державин Державино

Державин родился

Державин Званка

Державин умер

Державин Гораций

Державин читать

Державин Анакреонт

Были автоматически исключены контексты, относящиеся к однофамильцам Г.Р. Державина (прежде всего, А. Державину и М. Державину): «Андрей Державин», «Михаил Державин», «Державин музыкант», «Державин актер», «Державин музыка», «Державин фильмы», «Державин песни», «Державин слушать», «Державин роли», «Державин играл», «Державин пел» и др.

Рис. 3 . Ссылки по ключевым запросам в Google, связанным с Г.Р. Державиным (Links for key queries in Google related to G.R. Derzhavin)

В итоге, по запросу из представленного контекстного словаря о Г.Р. Державине из поисковой системы Google было получено 1702 ссылки. Наиболее популярными контекстами оказались: «Державин читать», «Державин биография», «Державин университет». Среди самых непопулярных: «Державин ода», «Державин посвятил». По некоторым из представленных контекстов ссылок не было вовсе. Из показательных и относящихся напрямую к специфичным особенностям репрезентации Державина оказалась большая популярность формы имени «Гаврила». «Гавриил» в двух основных наиболее официальных формах (Ф.И.О. и И.О.Ф.) в разных позициях был менее частотен с точки зрения представленности в интернете. Однако наиболее интересными представляются два аспекта репрезентации Державина.

Во-первых, высокая частотность обращения к Г.Р. Державину в контексте «университет». В этом случае с большей вероятностью именно тамбовский вуз «повел за собой» писателя. Сам Г.Р. Державин ни в одном университете не учился и прямого биографического или творческого отношения ни к какому университету не имеет. Частично это подтверждается и высоким местом Тамбова среди всех регионально уточненных запросов.

Хотя именно губернаторство писателя в Тамбове нельзя назвать значимым фактом его биографии. Те же Карелия/Олонецкая губерния и Татар-стан/Казанская губерния, казалось бы, должны были дать больший статистический эффект.

Во-вторых, среди примечательных особенностей репрезентации Г.Р. Державина нам видится слабая представленность чиновничьей службы поэта, несмотря на всю вышеотмеченную важность этого карьерного компонента для самого писателя. Ни министерская, ни губернаторская работа не оказались среди востребованных по объему представленности в Google, что само по себе показательно. Относительно же творчества Г.Р. Державина достаточно предсказуемо (и в соответствии с результатами соцопросов) лидером оказался «Памятник», который для многих школьников и встраивает одного из последних поэтов классицизма в их пушкиноцентричную систему ценностей русской литературы.

Вывод. В целом личность и творчество Г.Р. Державина при комплексном анализе соответствующих интернет-контекстов представляют собой достаточно цельное явление. С одной стороны, они подтверждают ожидания репрезентации Г.Р. Державина как поэта-классициста (что фактически верно лишь отчасти, но вполне соответствует именно школьной программе) и встраивают в известную наследную модель «Exegi monumentum» в ее российском изводе (Гораций – Ломоносов – Державин - Пушкин). С другой же, несколько неожиданно личность поэта «перетягивает» на себя Тамбовский университет, несколько количественно заслоняя в статистике непосредственно державинскую поэзию. Впрочем, важно любое внимание, в том числе и в интернете, к личности все более забываемого «певца Фелицы», без которого невозможно представить всю историю русской литературы.

   (дата    обращения:

Наука, 2017. 536 с.

USE OF INTERNET PARSING IN THE STUDY OF REPRESENTATION OF PERSONALITY AND CREATIVITY OF G.R. DERZHAVIN IN GOOGLE SEARCH ENGINE

Rinat A. Bakirov, Ph.D. in Philology, Researcher of the Laboratory of Digital Studies of Literature and Folklore of the Institute of Russian Literature (Pushkin House) of the Russian Academy of Sciences, Associate Professor of the Department of Russian Literature and Methods of its Teaching, KFU.

2Kazan (Volga Region) Federal University

  • 3Kazan Scientific Centre of the Russian Academy of Sciences Kazan, Russia

    The article conducts a quantitative (1702 collected Internet links) study of the representation of artistic creativity and biographical, socio-political features of G.R. Derzhavin's personality. The main emphasis is made on the analysis of the representation of the writer's image in the Google search engine. To solve the problem, a tool based on Python language libraries for parsing and analysing resources by specified queries was proposed. Statistical data from Yandex Wordstat and Google.Trends services were used to collect key contexts. They demonstrated a clear seasonality of queries related to G.R. Derzhavin, which was confirmed by the chronological data of views of the writer's page in the Russian-language Wikipedia. The key Internet contexts for understanding the representation of Derzhavin's personality and creativity were formed (125 in total), based on the analysis of which the parser deduced the most popular and frequent links-queries in Google: ‘Derzhavin to read’, ‘Derzhavin biography’, ‘Derzhavin University’. Among the most unpopular: ‘Derzhavin ode’, ‘Derzhavin dedicated’. For some of the presented contexts there were no links. The context of Tambov State University named after G.R. Derzhavin was important and frequent in Google. At the same time, the image of Derzhavin and his public service, which he himself considered an important part of his personality, appeared to have weak links. References and queries on this thematic group are presented minimally.

Список литературы Использование интернет-парсинга при исследовании репрезентации личности и творчества Г.Р. Державина в поисковой системе Google

  • Бакиров, Р. А., Нурутдинова, А. Р. Репрезентация личности и творчества Г. П. Каменева с использованием технологий анализа интернет-ресурсов и контента // Филология и культура. - 2022. - № 3 (69). - С. 44-52.
  • Бакиров, Р. А., Орехов, Б. В. Русско-европейские литературные связи XVIII века // Репозиторий открытых данных по русской литературе и фольклору ИРЛИ РАН. [Электронный ресурс]. - URL: https://dataverse.pushdom.ru/dataset.xhtml?persistentId=doi:10.31860/openlit-2023.4-B003 (дата обращения: 07.11.2024).
  • Гавриил Державин. Топы запросов [Электронный ресурс]. - URL: https://wordstat.vandex.ru/?re-gion=all&view=ta-ble&words=%D0%B3%D0%B0%D0%B2%D1%80%D0%B8%D0%B8%D0%BB%20%D0%B4%D0%B5%D1%80%D0%B6%D0 %B0%D0%B2%D0%B8%D0%BD (дата обращения: 07.11.2024).
  • Гавриил Романович Державин (Поэт). Динамика популярности [Электронный ресурс]. - URL: https://trends.google.ru/trends/explore?date=all&geo=RU&q=%2Fm%2F018 v9&hl=ru8. (дата обращения: 07.11.2024).
  • Державин, Г. Р. Записки. - М.: Мысль, 2000. - 334 с.
  • Державин Гавриил Романович. Анализ количества просмотров страниц [Электронный ресурс]. - URL: https://inlnk.ru/YA6z77 (дата обращения: 07.11.2024).
  • Дубин, Б. В. Групповая динамика и общелитературная традиция отсылки к авторитетам в журнальных рецензиях 1820-1978 гг. // Очерки по социологии культуры: Избранное. - М.: НЛО, 2017. - 912 с.
  • Ларкович, Д. В. Г.Р. Державин и художественная культура его времени: формирование индивидуального авторского сознания. - Екатеринбург: Изд-во Урал. ун-та, 2011. — 344 с.
  • Орехов, Б. В. Словарь русских писателей XVIII века: сеть персоналий // Репозиторий открытых данных по русской литературе и фольклору ИРЛИ РАН. [Электронный ресурс]. - URL: https://dataverse.pushdom.ru/dataset.xhtml?persistentId=doi:10.31860/openlit-2022.1-B002 (дата обращения: 07.11.2024).
  • Пашкуров, А. Н., Разживин, А. И. История русской литературы 18 века: учебник: в 2 ч. Ч.2. - М.: ФЛИНТА: Наука, 2017. - 536 с.
  • Сенчин, Р. Я пиит - я не умру (Г.Р. Державин) // Литературная матрица: Внеклассное чтение. — СПб., 2014. -576 с.
  • Стивенс-Давидовиц, С. Все лгут. Поисковики. И Интернет знают о вас все. — М.: Эксмо, 2018. - 384 с.
  • SitesAnalysis.ipynb [Электронный ресурс]. - URL: https://drive.google.com/file/d/1db3FUZuBaF2L4NnHaB-Wrg7HD68keUfuz/view (дата обращения: 07.11.2024).
Еще
Статья научная