Анализ китайской терминологии средствами корпусной лингвистики: практика использования AntConc в межкультурных исследованиях
Автор: Хайтун П.
Журнал: Новый филологический вестник @slovorggu
Рубрика: Русистика в Китае
Статья в выпуске: 2 (73), 2025 года.
Бесплатный доступ
Лингвистические исследования, ориентированные на современные языковые явления, требуют широкого охвата речевых данных для повышения точности результатов. Одним из ключевых инструментов в этой области выступает корпусная лингвистика, зародившаяся в 1960х годах как метод анализа текста в контексте. Со временем её применение расширилось на различные языки, включая китайский, что способствовало созданию специализированных баз данных и углублённому изучению языковых структур. В статье рассматриваются теоретические основы корпусной лингвистики, её элементы и программные решения, такие как AntConc, с акцентом на анализ китайской терминологии. Особое внимание уделено возможностям AntConc в обработке иероглифических текстов, включая сегментацию, выявление коллокаций и частотных паттернов, а также его роли в межкультурных исследованиях. Статья подчеркивает, как AntConc эффективно преодолевает специфические вызовы китайского языка, такие как отсутствие пробелов между словами и слабо выраженная морфология, обеспечивая надежную основу для лингвистического анализа. На примере анализа литературных произведений (напр., рассказа Лу Синя «Родина») и сопоставления корпоративных ценностей Китая и США демонстрируется, как инструмент позволяет декодировать культурные коды через статистические и контекстуальные методы. Статья обосновывает универсальность AntConc для работы с изолирующими языками и подтверждает его статус как незаменимого инструмента для современных межкультурных и когнитивно лингвистических исследований, открывающего новые перспективы в рамках цифровых гуманитарных наук.
Корпусная лингвистика, межкультурные исследования, китайский язык, русский язык, анализ китайской терминологии, цифровые гуманитарные науки, декодирование культурных кодов, статистика данных
Короткий адрес: https://sciup.org/149148623
IDR: 149148623 | DOI: 10.54770/20729316-2025-2-316
Текст научной статьи Анализ китайской терминологии средствами корпусной лингвистики: практика использования AntConc в межкультурных исследованиях
Корпусная лингвистика, изучающая язык путем анализа больших текстов, приобрела особую популярность с начала 1990-х гг. Данный метод позволяет лингвистам исследовать фактическое использование языка и выявлять закономерности в его функционировании. В России интерес к корпусной лингвистике начал активно развиваться позже, но с каждым годом растет число исследователей, использующие корпусные методы.
Китайская корпусная лингвистика также развивается достаточно активно: так, в качестве примеров можем назвать Корпус современного китайского языка (The Modern Chinese Language Corpus) Центра китайской лингвистики при Пекинском университете и Общий сбалансированный корпус современного китайского языка Государственного Комитета по работе в области языка и письменности КНР [Chinese Corpus online].
Стоит отметить, что за последнее время большинство текстов стало доступным в электронном виде, в связи с чем стали создаваться лингвистические коллекции текстов, т.е. корпуса, которые специально отобраны по раз- личным лингвистическим критериям и могут быть разработаны при помощи программных средств (TermoStat, EXMARaLDA, Partitur Editor и ДикТУМ-1, Sketch Engine и AntConc). Также стоит отметить, что рост объема текстового материала потребовал применения новых методов анализа и статистической обработки лингвистических данных. Исходя из этого, особенно актуальной становится проблема балансировки терминологии в разных языках, и в том числе и в китайском, предпосылкой для этого является создание терминологических баз данных в лингвистике.
Объект исследования: корпусная лингвистика.
Предмет исследования: применение методов корпусной лингвистики в межкультурных исследованиях: анализ терминологических концептов китайского языка с использованием приложения AntConc.
Цель исследования : рассмотреть теоретический аспект корпусной лингвистики, обосновать применение приложения AntConc в межкультурных исследованиях и для анализа китайской терминологии, включая решение специфических задач (сегментация иероглифических текстов, выявление культурно-обусловленных коллокаций). Особое внимание уделяется демонстрации возможностей AntConc в межкультурных исследованиях, а также оценке его роли в интеграции лингвистических данных с цифровыми гуманитарными науками.
Задачи исследования:
-
• рассмотреть историю, понятие и применение корпусной лингвистики;
-
• определить элементы корпусной лингвистики;
-
• рассмотреть и обосновать применение современных программ в корпусной лингвистике;
-
• предложить и обосновать применение приложения AntConc в корпусной лингвистике китайского языка.
Для написания научной статьи были использованы следующие методы:
-
• анализ и синтез – для анализа и разделения материалов исследования по блокам, объединяя все части к единому результату;
-
• д едукция и обобщение – с целью объективного исследования научного процесса при помощи наблюдений, суждений и обобщения;
-
• а бстрагирование – для более глубокого понимания темы исследования.
Основная частьИстория, понятие и применение корпусной лингвистики
Как и любая другая предметная область языковедения, лингвистика китайского языка нуждается в терминологическом аппарате, создание которого опирается на анализ и оцифровывание слов из корпусов текстов [Беляева 2011, 91].
Хотя совершенствование китайского лингвистического корпуса требует ориентации на специфику национального языка, зрелый опыт международного корпусного строительства способен вдохновить технологические подходы. В этом контексте развитие русскоязычных корпусов обладает уникальной ценностью для методологических заимствований в рамках межъязыковых корпусных исследований. Ниже на примере репрезентативных российских корпусов будет проанализирована их архитектоника и технологические особенности, что позволит предложить дифференцированные решения для оптимизации китайского лингвистического корпуса.
За время становления русскоязычной корпусной лингвистики были созданы несколько корпусов, среди которых:
-
• Уппсальский корпус – создан в Швеции (университет Уппсалы);
-
• Национальный корпус русского языка;
-
• OpenCorpora – проект санкт-петербургских компьютерных лингвистов;
-
• Интернет-корпус русского языка RuWac (Russian Web as Corpus) – состоит из текстов, собираемых из сети интернет;
-
• Интернет-корпус русского языка ruTenTen – также основан на текстах, собранных в сети интернет;
-
• Корпус Библиотеки Мошкова – основан на текстах, опубликованных в библиотеке Мошкова.
Первый корпус русского языка был создан в Швеции при участии русских ученных ещё в 1980-е гг., его создание и заложило основу корпусной лингвистики и подчеркнуло международный интерес к русскому языку.
Под началом Л.Н. Засорина был создан Частотный словарь русского языка, получивший более весомую роль в лингвистике. В состав Частотного словаря были включены словари различных жанров: общественно-политические тексты, художественные, научные тексты, а также драматургия [Беляева 2014, 168]. Данный масштабный проект объединил в себя усилия более сорока научных организаций, включая университеты и Институт русского языка, основной его целью стало накопление лексикографических и грамматических материалов в электронном формате текста, что в дальнейшем позволило не только улучшить научное обоснование русского языка, но и облегчить работу по его изучению.
Реализация данного проекта поспособствовала развитию технологий, что дало мощный толчок развитию дальнейшим исследованиям и разработкам программного обеспечения. Так, в 1985–1990 гг. в стране активно развивались лингвистические исследования и уделялось внимание созданию программных средств. За данный период была разработана концепция Машинного фонда русского языка, целью которого было формирование баз данных для исследования языка и корпусов текста. Таким образом, сбор и обработка текстовых материалов позволили лингвистам обосновать и систематизировать частоту употребления слов, что позволило глубже понять лексическую систему русского языка. Однако после 1991 г., с изменением экономической ситуации в стране, финансирование и поддержка подобных проектов значительно сократились и работы, которые велись над машинным фондом русского языка, были практически полностью приостановлены, что отразилось на последующем развитии языковых технологий. Таким образом, Уппсальский корпус, состоящий из 600 текстов, был задуман как инструмент для изучения русского языка, но его реализация осталась незавершенной. Стоит отметить, что основная идея корпуса состоит в представлении литературного языка, для которого подобраны специализированные тексты, исключая элементы разговорной речи, где аннотации корпуса основаны на отражающих актуальных проблемах и путей их решения, что создаёт высокую ценность собранных литературных материалов.
Наиболее известен среди русскоязычных корпусов Национальный корпус русского языка, чье создание в 2004 году стало важным этапом в развитии лингвокультуры, предоставив лингвистам доступ к базе терминологических данных. Данный корпус представляет собой коллекцию текстов, которая охватывает один или несколько языков, имеющих общие речевые ха- рактеристики, включает в себя частотные указатели и статистические данные и содержит как письменные, так и устные выражения языка.
Стоит отметить, что большинство корпусов хранятся в электронном формате, что упрощает к ним доступ, и могут содержать не только содержание текстов, но индивидуальные компоненты о каждом элементе: авторе, дате создания и других характеристиках. Основной принцип работы корпусной лингвистики – это, прежде всего, использование неотредактированных текстов, содержащих образцы живой речи, что, в большей степени, подчеркивает значение того, что лингвисты смотрят на речевые выражения, зафиксированные в их естественной среде, в отличие от традиционного подхода, основанного на идеализированных формах. Таким образом, для лингвистов корпус является крайне важным фрагментом для тщательного анализа языка и применения его в различных обусловленностях.
Корпусная лингвистика позволяет беспрестанно изучать элементы языка, давая возможность увидеть его динамичность и изменчивость, тем самым помогает более досконально определять его функционирование и структуру. Корпус нужен, в первую очередь, в образовательных целях, не только для научных исследований, но и для насыщения языка. Лингвистический корпус используют для изучения всевозможных проблем лингвистики, включая стилистику, грамматику, семантику и другие стороны языка. Так, В.П. Захаров останавливает своё внимание на том, что корпус – это не просто свод текстов, а важный инструмент, позволяющий изучать языковые средства, а также выявлять закономерности и осуществлять анализ [Захаров 2011, 161]. И именно функциональный подход к корпусам позволяет лингвистам более эффективно извлекать необходимую и полезную для языковой деятельности информацию, на основании чего, систематизировать правильные выводы о лингвистических процессах.
-
1) Во-первых, тексты, включенные в корпус, должны быть представлены в электронном виде – это облегчает работу с данными.
-
2) Во-вторых, языковые данные должны быть отмечены, то есть аннотацией и анализом, которые позволяют более точно анализировать текст.
-
3) В-третьих, для облегчения процесса изучаемой темы, результаты анализа должны быть такими, чтобы их можно было распределить по разным критериям.
Элементы корпусной лингвистики
На сегодняшний день активно развиваются русскоязычные корпуса, оснащённые автоматической морфологической и семантической разметкой. Их масштабное наполнение охватывает разнообразные жанры и стили – от классической литературы до современных цифровых коммуникаций, что обеспечивает репрезентативность данных для лингвистического анализа.
Таким образом, корпусная лингвистика представляет собой значимое для изучения лингвистики направление, акцентирующее внимание на использовании языка в различных контекстах. Сторонники данного подхода утверждают, что, анализируя примеры текстов на основе значимых статистических данных, можно более глубоко понять особенности и закономерности языка. Однако корпусная лингвистика, несмотря на все вероятные языковые преимущества, не может заменить традиционные методы, но может в полной мере дополнить новые возможности в лингвистических исследованиях, которые делятся на аннотирование, абстракцию и анализ, где аннотация играет первостепенную роль в корпусном анализе, при помощи которой читатель имеет возможность более абстрактно и объективно понять смысл текста. Стоит отметить, что аннотация в корпусной лингвистике может фиксировать и подчёркивать ритм на разных языках. Таким образом, аннотация в лингвистике играет важную роль в обработке текста и помогает систематизировать и обобщить данные, предоставляя дополнительную информацию о структуре текста.
Существует несколько видов аннотаций, которые основываются на различных аспектах языка. Ниже рассмотрим их по отдельности:
-
1) Морфологическая аннотация включает в себя определение флективных признаков слов, что позволяет создавать более точные модели для автоматизированной обработки текста.
-
2) Синтаксическая аннотация, в свою очередь, обрабатывает структуры предложений, что помогает понимать, как слова и словосочетания взаимодействуют друг с другом.
-
3) Не менее важной является семантическая аннотация, которая фокусируется на значениях текста слов и их взаимосвязях.
Таким образом, все уровни аннотации объединяются в так называемые «аннотированные корпуса», которые служат основой для исследований в области лингвистики и компьютерной обработки, а также позволяет исследователям более глубже анализировать языковые структуры и устанавливать более точные связи между данными, рассматривая при этом процесс абстракции на разных уровнях анализа. В связи с этим важно развивать методы, способствующие более объективному и обоснованному анализу данных.
Анализ лингвистического корпуса занимает основную позицию, объединяя в себе статистические исследования и обобщения и включает в себя оценку статистических данных, а также оптимизацию методов и правил корпуса текстов без предварительной интерпретации, что дает возможность анализировать текстовые данные, используя статистический подход, благодаря которому открываются новые горизонты для более точного моделирования языковых явлений [Мамонтова 2007, 283]. Стоит отметить, что объем корпуса напрямую воздействует на ценность информационных данных: с одной стороны, крупные информационные данные позволяют выявлять более тонкие нюансы языковых явлений, с другой стороны, большой объем информации усложняет языковый процесс, что приводит к возможным ошибочным действиям [Мамонтова 2007, 283]. Важным аспектом исследования является лингвистическая интерпретация и качественная оценка корпусов, что способствует более точному языковому анализу и позволяет глубже понимать структуру текстов. Таким образом, аннотация и абстракция являются ключевыми инструментами в корпусной лингвистике, помогая извлекать полезную информацию и открывать новые горизонты, стимулируя дальнейшее изучение языка.
Методология корпусной лингвистики
Хотя корпусная лингвистика ассоциируется с количественными методами, значительная часть исследователей (например, П. Бейкер, А. Харди и Т. Макинери) применяет корпусные методы для изучения языковых явлений, сочетая количественные и качественные методы исследования, которые широко используют во многих отраслях дискурсивных исследований [Baker, Hardie, McEnery 2006, 192]. Методы, используемые в корпусной лингвистике, были впервые использованы в 1960-х гг., в то время как сам термин «корпусная лингвистика» появился в 1980-х. В центре внимания корпусной лингвистики находится группа методов, направленных на изучение языка. С другой стороны, корпусную лингвистику также рассматривают как независимую теорию. С. Кюблер и Х. Цинсмайстер отмечают, что «ответ на вопрос, является ли корпусная лингвистика теорией или инструментом, заключается в том, что она может быть и тем, и другим. Это зависит от того, как именно применяется корпусная лингвистика» [Kübler, Zinsmeister 2015, 248–260].
Важно заметить, что корпусную лингвистику рассматривает не только как теорию, а и как методологию, которая помогает получать и анализировать количественные и качественные языковые данные. Также анализ на основе корпуса способствует изучению любых языковых шаблонов, указывая их частоту и выявляя контекстуальные факторы, которые могут влиять на вариативность. Кроме того, исследования на основе корпуса позволяет сравнить два или более корпусов определенных типов дискурса, что дает возможность установить их специфические черты, а также различия и сходства.
Методы и средства, необходимые для подробного сравнительного исследования, фактически представлены корпусами. Особое внимание следует обратить на то, что изучить корпуса можно с помощью различных инструментов, что позволяет быстро получить достоверные данные. С одной стороны, можно представить квантитативную информацию, показывающую, как часто используется определенная лемма – слово, которое исследуем. С другой стороны, возможен также качественный анализ.
Способность компьютеров искать, получать, сортировать и вычислять данные делает возможной проработку большого объема информации. Это, в свою очередь, дает ученым основу, на которой можно строить модели лингвистического поведения [Begagić 2013, 106]. Сложные вычисления можно проводить на больших по объему текстах в течение минимального времени. Корпусный анализ дает такие типы данных для лингвистических исследований, как: эмпирическая поддержка, информация о частотности, экстралингвистическая информация или метаинформация (временная или пространственная информация о происхождении текста, жанре текста и т. д.), которая позволяет сравнивать разные типы текстов.
При создании корпуса используют ряд процедур и программ, среди которых: токенизация, лемматизация, стемминг, парсинг. Токенизация – это процесс разделения текста на отдельные значимые единицы, такие как как слова или символы. Лемматизация – процесс выделения начальной формы слова, принимая во внимание другие его словоформы. Во многих языках слово может иметь разные формы в зависимости от контекста или грамматических особенностей, которые называется флексией. Базовая форма слова, записанная в словаре, называется его леммой. Лемматизация – это процесс объединения различных форм одного слова таким образом, чтобы они рассматривались как одно слово при анализе.
Процесс, отличный от лемматизации, называется стеммингом. Он заключается в нахождении темы (основы) слова без учета контекста. В отличие от лемматизации, стемминг не учитывает значение слова или его часть речи, а просто отделяет аффиксы или суффиксы для выделения основы. Однако стеммеры более просты для реализации и быстрее обрабатывают данные.
Парсинг – это процесс анализа синтаксической структуры текста или его части, базирующейся на сопоставлении линейной последовательности лексем (слов, токенов) языка с ее формальной грамматикой. Разработка автоматических анализаторов (парсеров) для больших корпусов является одной из важнейших отраслей компьютерной лингвистики [Barron-Cedeno 2009, 136].
Применение современных программ в корпусной лингвистике
Сегодня существует относительно небольшое количество ученых, посвятивших себя проблеме разработки специализированных инструментов для анализа корпуса, среди работ которых наиболее распространены компьютерные программы WordSmith Tools, AntConc и #LancsBox X для запросов одноязычных корпусов и ParaConc для параллельного согласования. Несомненно, эти инструменты значительно упростили процесс обработки и анализа корпусов за последние 20 лет, и большое количество исследований на основании корпусов было бы невозможно без новаторского вклада, сделанного этими инструментами и их разработчиками. Тем не менее, учитывая многочисленные достижения и значительные прорывы, достигнутые после начала нового тысячелетия во многих областях информатики, особенно при обработке естественного языка NLP (Natural Language Processing) и взрыв искусственного интеллекта AI (Artificial Intelligence) с 2010-х гг. и далее, что приводит к экспоненциальному росту машинного обучения и алгоритмов глубокого обучения, приходится с сожалением признать, что разработка корпусных инструментов не успевает по темпам быстрой итерации компьютерных технологий.
В рамках лингвистических корпусов существуют корпусные менеджеры [Щукин 2007, 746], т.е. современные программы, которые делают анализ более эффективным, что, в свою очередь, обогащает язык. Среди корпусных менеджеров выделяются следующие приложения:
-
1. TermoStat. Это приложение предоставляет собой текстовую информацию и позволяет составлять списки биграмм.
-
2. EXMARaLDA. Данный менеджер представляет собой систему, ориентированную на создание текстов и предназначен для анализа разговорной речи, что расширяет горизонты лингвистических исследований.
-
3. Partitur Editor и ДикТУМ-1. Эти ПО предназначены для обработки текстовых данных, а также для создания корпуса текстов и их аннотирования. Последнее ПО в автоматическом режиме маркирует тексты, объём, жанр и дату публикации, что упрощает работу с текстом.
-
4. Sketch Engine и AntConc. Эти менеджеры помогают лингвистам выявлять контексты и частоту слов, при помощи которых они сформированы, что способствует глубокому пониманию языковых явлений. Важно отметить, что данный программный инструмент в большей степени подходит корпусной лингвистике китайского языка.
Инструмент Sketch Engine является веб-системой, которая служит для изучения того, как работает язык. С помощью его алгоритмов анализируют корпуса аутентичных текстов для мгновенного определения типичных или редких, необычных словоупотреблений в языке. Эта система также разработана для приложений анализа или распознавания текста.
Веб-система Sketch Engine содержит более триллиона слов в 800 готовых к использованию корпусах на более чем 100 языках, каждый из которых имеет размер до 80 миллиардов слов [Дмитриев, Крупнова 2024], чтобы обеспечить действительно репрезентативную выборку языка. Это дает возможность лингвистам, лексикографам, переводчикам исследовать большие корпуса текстов и создавать сложные запросы.
Преимуществами системы является наличие списков слов, возможность поиска ключевых слов, наличие Concordance, статистики, функции создания корпуса, семантического анализа. Предлагается 30-дневная бесплатная версия, далее приложение платное.
С помощью него можно выявить контексты, в которых употребляется определенное слово, или же определить ключевые слова определенного текста либо корпуса. Этот инструмент представляет собой сочетание статистических данных с лингвистическими критериями для извлечения ключевых слов и терминов. В частности, благодаря инструменту Concordance можно обнаружить расширенный контекст слова или термина, как просто сочетания слов, так и целые предложения, в которых встречается указанное слово. Используя веб-систему Sketch Engine, можно формировать перечни коллокаций на необходимом лексическом уровне, а также выделять перечень с указанием частоты каждой коллокации в корпусе и значения связи между ключевым словом и его коллокацией.
Другим популярным программным инструментом в лингвистических исследованиях является корпусный менеджер AntConc, который облегчает точный анализ и эффективное исследование лингвистических данных. Будучи начат благодаря инновационным усилиям разработчиков Лоуренса Энтони (Laurence Anthony) и его команды, корпусный менеджер AntConc появился в 2002 году как необходимый инструмент для лингвистических исследований, изначально был задуман для удовлетворения педагогических потребностей студентов на курсе научно-технического письма в Высшей школе инженерии Университета Осаки. На фоне бурного развития корпусных исследований языка корпусный менеджер AntConc быстро привлек внимание благодаря удобному интерфейсу и мощным функциональным возможностям. Основанный на методологии согласования KWIC (англ. Key Word in Context), корпусный менеджер AntConc предоставляет пользователям средства для легкой навигации лингвистическими корпусами, делая возможным всесторонний анализ речевых моделей и их употребление.
Корпусный менеджер AntConc занял важную нишу в области корпусной лингвистики благодаря интуитивно понятному графическому пользовательскому интерфейсу, поскольку он разработан с использованием инструментария PERL / TK и обеспечивает бесперебойную работу в средах Windows, Linux и Unix, что указывает на его адаптивность и универсальность.
Преимуществами AntConc являются:
-
– анализ текста. Инструмент может осуществлять конкорданс-анализ (поиск в заданных текстах), а также позволяет работать с любым текстовым файлом txt, а не только с аннотированными текстами, типа DWDS, DDD и др.;
-
– создание собственных корпусов. Инструмент может определять кодировку сохранения файлов для чтения в формате AntConc;
-
– наличие видеоинструкций. Инструмент имеет возможность просматривать видеоролики на разных языках, а также применения в образовательных целях.
В данном инструменте отсутствует возможность семантического анализа. Приложение бесплатное.
Приложение AntConc не требует регистрации и позволяет быстро осуществлять корпусные исследования, программа проста и понятна в использовании и может создаваться непосредственно пользователями и включать в себя любое количество файлов, что позволяет в ходе одного применения проводить корпусное исследование на любом языке, в том числе и китайском. Это дает возможность провести анализ практически любого текста – цифрового и не цифрового. Также сервис дает возможность анализировать несколько файлов одновременно за один раз, что способствует удобной и оперативной аналитике материала.
Применение приложения AntConc в корпусной лингвистике китайского языка
Терминология корпусной лингвистики китайского языка рассматривается как лингвистическая коллекция текстов, которая может быть сформирована с полной статистической проработкой и функционированием концептов при помощи приложения AntConc. Данная многокомпонентная терминология объединяет в себе слова для составления окончательного списка терминов лингвистического корпуса, тем самым многократно сокращает работу лингвиста.
Специфика китайского языка обусловливает особенности формирования корпусов на его базе. В частности, затруднено создание морфологической и синтаксической разметок в силу того, что морфологические признаки в китайском языке выражены в более низкой степени, чем в других языках. Кроме того, поскольку китайские иероглифы на письме не разделяются пробелами, усложняется процесс выделения отдельных лексических единиц, что приводит к трудностям с сегментацией текста.
Несмотря на отмеченные сложности, на сегодня процесс составления корпусов в китайской лингвистике отличается достаточно высокой продуктивностью.
Исходя из того, что создание китайского лингвистического корпуса требует комплексного подхода – выделения терминов, формирования терминологической базы и обработки данных с помощью специализированных инструментов (например, AntConc), при добавлении текстов необходимо соблюдать следующие принципы:
-
1. Тематическая направленность : Отбор текстов по конкретным областям (научные, медийные, литературные), а не только теоретические работы.
-
2. Хронологический охват : Включение современных текстов (после 2000 года) для анализа актуального языка, а также исторических материалов для изучения эволюции терминов.
-
3. Балансировка : Пропорциональное представление жанров и социальных контекстов. Учитывая существенные различия в языковых стилях, лексическом использовании и влиянии социального контекста на коммуникацию между текстами разных жанров (научные, медийные, художественные, устные), необходимо обеспечить пропорциональное распределение категорий текстов. Такой подход минимизирует риск доминирования отдельных жанров, повышает репрезентативность корпуса и обеспечивает объективность лингвистических выводов.
Китайские исследования показывают, что инструмент AntConc с помощью анализа коллокаций эффективно выявляет культурно-специфические концепты. Так, Чжао Цзяньцзюнь и его коллеги, взяв за материал рассказ Лу Синя «Родина» («故乡»), провели анализ нарративных особенностей, развития сюжета, художественных приёмов и ключевых персонажей с использованием функций Word List и Collocates в AntConc. Это позволило визуализировать художественную ценность произведения, подтвердить данные о созданном Лу Синем образе замкнутой, консервативной «Родины» и апатичных персонажей, а также продемонстрировать потенциал корпусных методов в выявлении явных и скрытых смыслов литературных текстов [Jianjun 2019, 23–27].
Аналогичный подход применяется в межкультурных исследованиях корпоративных ценностей. Например, Сунь Кэсинь на основе AntConc создала сопоставимый корпус из 50 ведущих компаний Китая и США, выявив через анализ высокочастотной лексики ключевые различия: американские компании акцентируют «клиентоориентированность» (напр., «customer» ) и «многообразие и инклюзивность» ( «diversity» ), тогда как китайские фокусируются на «инновациях» ( « 创新 » ) и «гармонии» ( « 和谐 » ), отражая технологические прорывы и коллективную этику. Контекстуальный анализ подтвердил, что американские ценности укоренены в индивидуализме и прагматизме, в то время как китайские синтезируют конфуцианство и коллективное сознание, что отражает фундаментальные различия национальных ценностных систем [Kexin 2022, 118–120].
AntConc демонстрирует универсальность как инструмент для межкультурных исследований. На примере анализа рассказа Лу Исиня и корпоративных ценностей видно, что статистическая обработка коллокаций и ключевых слов позволяет не только систематизировать лингвистические данные, но и выявлять глубинные культурные коды – будь то конфуцианский коллективизм в китайских текстах или индивидуализм в американских. Этот подход не только сокращает временные затраты лингвистов на рутинные операции (например, подсчёт частотности), но и обеспечивает научную базу для объективного сопоставления идеологических парадигм.
Выводы
Достижения корпусной лингвистики подтверждают, что инструмент AntConc не только не ограничивается анализом поверхностных языковых структур, но и обеспечивает декодирование культурных кодов через методы контекстуальной коонкуренции , коллокационных сетей и статистического моделирования. Это создает методологическую базу для междисциплинарных исследований, объединяющих лингвистику, культурологию и цифровые гуманитарные науки.
Как демонстрируют кейсы анализа литературных текстов (напр., «Родина» Лу Синя) и сопоставления корпоративных ценностей между компаниями Китая и США, корпусная лингвистика становится ключевым инструментом современной филологии. Ее универсальность проявляется в способности:
-
1. Систематизировать многокомпонентные языковые процессы через статистическую экспертизу;
-
2. Выявлять динамику языковых изменений на макро- и микроуровнях;
-
3. Адаптироваться к типологически различным системам – от изолирующего китайского языка с его иероглифической многомерностью до флективного русского языка.
Среди корпусных менеджеров особое место занимает AntConc, чьи функционалы – от автоматического конкорданс-анализа до обработки многобайтовых кодировок – оптимизируют работу с изолирующими языками. Его эффективность доказана как в выявлении имплицитных культурных концептов, так и в сопоставительных исследованиях.
Современные исследования демонстрируют тенденцию к специализации, охватывая такие направления, как анализ стратегий межкультурного нарратива в литературе, многомодальный дизайн учебных материалов и динамический анализ межличностных функций. Научный фокус сместился с изучения семантической ауры к концептуальной метафоре и текстовому анализу, способствуя интеграции лингвистики и когнитивных наук [Yuxin 2023, 115–119]. В перспективе, с углублением интеграции технологий искусственного интеллекта, AntConc может стать ключевым инструментом для межмодального анализа корпусов и динамического семантического моделирования, предлагая методологическую основу для цифровых гуманитарных исследований. В этом контексте AntConc может эволюционировать в платформу для синергии когнитивной лингвистики и цифровых технологий, предлагая новые решения для задач вроде автоматического распознавания культурно-маркированных метафор или прогнозирования языковой динамики.