Значение конечности языка для лингвистической идеологии корпусов текстов: язык как пространство

Автор: Мордовин Алексей Юрьевич

Журнал: Вестник Бурятского государственного университета. Философия @vestnik-bsu

Статья в выпуске: 10, 2012 года.

Бесплатный доступ

Рассматривается вопрос (бес)конечности языка как метафорического пространства, имеющий отношение к лингвистическому обоснованию целесообразности корпуса текстов как репрезентативной модели языка и обоснованности попыток создания системы управления глобальным контентом. Исследуется природа кажущегося противоречия между представлением о бесконечности языка и очевидной конечностью корпуса/«облака» контента, предлагается способ его устранения путем приложения геометрических пространственных категорий (бесконечности к естественному языку.

Корпус текстов, корпусная лингвистика, конечность языка, глобальный контент

Короткий адрес: https://sciup.org/148180670

IDR: 148180670 | УДК: 8Г322;

Текст научной статьи Значение конечности языка для лингвистической идеологии корпусов текстов: язык как пространство

Идея этой статьи возникла у автора в ходе продолжительного знакомства и работы со специализированным программным обеспечением для перевода класса «translation memory» (ТМ). Созданные под лозунгом «не переводить дважды», эти программы навсегда сохраняют пары сегментов «оригинал-перевод» в памяти машины, действительно позволяя не выполнять перевод одного сегмента дважды (при условии выполнения соответственных технических требований).

После появления программ в широком обиходе отдельные переводчики, крупные компании и бюро переводов начали накапливать собственные базы памяти ТМ, обмениваться ими, коллекционировать, укрупнять. На сегодняшний день однажды выполненный перевод становится собственностью переводчика (компании) навсегда, после чего начинает опосредованно создавать прибыль в пользу последнего (путем экономии сил и времени), уже не требуя какого-либо вмешательства или усилий. Это достижение можно без преувеличения назвать революцией в отрасли перевода.

Описанное явление может не показаться чем-то особенным, всего лишь автоматизацией производства - аналогичные процессы затронули практически все сферы человеческой жизни. Однако понимание глобальных последствий появления технологии ТМ пришло не сразу. Лишь сравнительно недавно под началом таких организаций, как, например, LISA (Организация стандартов индустрии локализации) или TAUS, появилось понятие «глобализации перевода», «глобального контента» и «управления (менеджмента)» этим контентом.

Идея оказалась проста и заманчива: глобальный контент, т.е. на языке лингвистов совокупность всех письменных текстов, порожденных и порождаемых, представляет собой конечное (или условно конечное) множество, которое с течением времени может быть зафиксировано в виде файла машинной памяти, содержащего такое количество пар сегментов (целых предложений и их фрагментов, выделенных по синтаксическому принципу), которое считается удовлетворительным для определенной цели.

Иначе говоря, если долго собирать все пары сегментов «оригинал-перевод», переведенные как можно большим количеством переводчиков, то получится то, что принято называть «облаком переводов», т.е. гигантским комплектом из множества двуязычных или мультиязычных параллельных корпусов микротекстов. Каждый из переводчиков безвозмездно отдает плоды собственного труда в облако, а за небольшой членский взнос, необходимый для технического обеспечения работоспособности облака, получа- ет возможность мгновенного онлайн-доступа к облаку в целях поиска необходимых пар сегментов, ранее переведенных другими переводчиками. Несмотря на весьма юный возраст идеи, она быстро развивается и в ее будущем успехе не приходится сомневаться.

В чем же заключается научный методологический интерес описанного явления и что в нем общего с корпусами текстов? Несомненно, создатели собственно продукта, т.е. прототипа системы управления глобальным контентом, по крайней мере на этапе ее практического воплощения, были движимы весьма практическими соображениями: развитие индустрии перевода в современном мире определяется двумя принципами: необходимостью сокращения сроков перевода и снижения его стоимости. «Облако» переводов позволяет реализовать обе эти цели, причем его эффективность прямо пропорциональна размеру. Но, с другой стороны, даже за такой предельно прагматичной целью должна стоять определенная языковая парадигма, т.е. система взглядов на язык, в рамках которой реализуется практический подход к языку как к «облаку» контента. То, что объединило корпусы текстов и систему управления глобальным контентом, - это идея конечности языка, которая и является предметом статьи. Как видим, без идеи о вполне реальной конечности языка ни корпусы текстов, ни понятие глобального контента не имеют смысла. А поскольку обе идеи существуют и успешно развиваются, то теперь уже ретроспективно придется восстановить, какова была природа представления о конечности языка, на основании которого они возникли.

В порядке игры слов спор о конечно-сти/бесконечности языка можно назвать бесконечным. Но именно в кажущейся простоте и неразрешимости этого дуализма и следует различать ряд более дробных признаков конечно-сти/бесконечности, сочетание которых и составляет собой гносеологический фундамент современного представления об инструментальноконечной сущности языка. Оттолкнемся от «до-корпусной» точки зрения на язык как бесконечное явление.

Прежде чем приступить к анализу соотношения конечного/бесконечного в языке, сделаем оговорку, что под языком мы будем понимать не совокупность системы отношений, т.е. структуры языка, и его словарного состава на указанный момент времени, а совокупность порожденных, порождаемых и способных быть порожденными языковых сегментов - словосочетаний, фраз, предложений.

Философский словарь указывает на то, что «бесконечное - это философская категория для характеристики бытия в его целостности и структурной расчлененности, его пространственных и временных, качественных и количественных свойств, видов и форм движения и развития». Соответственно, «конечное имеет очень узкое мировоззренческое значение, поскольку вне конкретной рациональной выделенности приложений не имеет» [1].

Прилагая определение бесконечного к языку, нетрудно увидеть, что бесконечность языка -это, дословно, категория для характеристики бытия языка в его целостности и структурной расчлененности. Понятие целостности языка, а точнее, гарантии целостности языка, при его очевидной структурной дробности, лежит в основе любого корпуса текстов. Квинтэссенция философии корпуса текста заключается в том, что корпус не отрицает бесконечности языка с онтологической точки зрения, однако постулирует его конечность инструментальную, методологическую. Язык в корпусе в первую очередь доступен измерению и управлению и по этому признаку считается конечным. При этом в философии считается, что «говорить о бесконечности имеет смысл только при задании той или иной метрики...Там, где нет размеров, не может быть речи и о бесконечности... определение бесконечности только как отсутствие конца (предела) - фундаментально неверно... Прежде чем делать заявления об отсутствии предела, необходимо найти соответствие с той или иной (естественной, искусственной) предметностью и задать способы измерения и соизмерения» [2].

Воспользуемся указанным способом - «нахождение соответствия с той или иной предметностью» - для того, чтобы обнаружить отсутствие «предела» в языке или убедиться в его наличии на основе именно онтологических, внутренних его свойств. Это позволит сделать вывод о конечности/бесконечности языка.

С какой естественной или искусственной предметностью наиболее часто соотносится язык? Возвращаясь к определению бесконечного, можем очертить круг принадлежности возможных метафор: это пространство, время, свойства (качественные и количественные), движение и развитие. Обратившись к каждой из этих (а возможно, и других) метрик, получим представление об уместности мнения о конечности/бесконечности языка. По причинам ограниченного объема статьи нами выбрано представление о языке как о пространстве.

Исследования языка как метафорического пространства характерны для лингвистики. Под пространственностью в первую очередь понимается некоторая «трехмерность» языковых единиц. Трехмерность метафорична и противопоставляется двухмерности. К выводу о двух/трехмерности языка ведут структурные описания языка семиотического характера. Такое описание трехмерной, «пространственной» модели языка, например, принадлежит Ю.С. Степанову [3]. В качестве «измерений» трехмерного языка он предлагает семантику, синтак-тику и прагматику как параметры языка, тогда как сам язык образует «пространство мысли», в котором формируются идеи. Несмотря на отсутствие каких-либо сходных с пространством онтологических свойств, язык допускает осмысление в качестве пространства, а значит, наследует характерные для последнего представления о конечности/бесконечности.

Представление о безграничности и бесконечности трехмерного мирового пространства основано на евклидовой геометрии. Первое свойство имеет топологический характер и указывает на то, что пространство ни в каком из направлений не имеет границ. Второе - имеет метрический характер и показывает, что в любом направлении пространства можно перемещаться сколь угодно далеко [4].

Еще не заканчивая геометрического описания пространственной метрики языка, попробуем немедленно перевести язык геометрии на лингвистическую почву. Выдвинем гипотезу: язык безграничен в том смысле, что ни по одному из измерений (семантика, синтактика и прагматика) он не имеет границ. Предпосылкой для того, чтобы подтвердить или опровергнуть эту гипотезу, будет согласие с уместностью соотнесения метрик пространства и языка. К сожалению, такое согласие не может быть свободно от погрешности в виде гносеологических установок каждого исследователя. Кроме того, хитрость в ответе на вопрос о том, справедливо ли утверждение о безграничности языка по аналогии с безграничным пространством, заключается в том, каким именно способом приложить геометрическую границу к «границе» в языке. Как бы то ни было, другого способа ответить на поставленный вопрос, кроме как рассмотреть каждое из «измерений» языкового «пространства» в отдельности, не представляется возможным.

Имеет ли язык «границы» в части семантики? Многочисленные исследования в области процесса именования так или иначе были связаны с проблемой семантического треугольника, т.е. подсистемы семантического «измерения». Даже несмотря на то, что позднейшая философия смогла различить собственно именование и выражение, на отношение имени к понятию предмета не представляется возможным наложить какое-либо ограничение. Именование - это процесс, рождающий семантику как констатацию факта, его следует рассматривать как творческий процесс.

В свою очередь, в отношении понятия творчества в языке возможны как минимум два полярных мнения. Очень точно описать суть этой антитезы удалось В.А. Плунгяну в статье «О (бес)конечности языка» [5]. Первое представление - обыденное, или наивное, заключается в том, что поэт «движет» язык, что он его творец. С каждым языкотворческим актом язык «прирастает». Второе, к которому склоняется В.А. Плунгян, это представление о том, что поэзия есть всего лишь концентрированное выражение обыденной речи, поэтому поэт черпает все то, что в языке уже предопределено, просто в силу дара он «знает, где искать».

Указанное различие принципиально именно для корпуса текстов. Если поэт, т.е. творческое начало в языке, именно творит язык, то язык -бесконечен, а если «черпает», то язык - конечный источник. Нетрудно увидеть, что первый вывод не способствует укреплению представления об условной конечности языка в целом и методологической обоснованности корпусного подхода, в частности, тогда как второй, напротив, чрезвычайно благоприятен для видения языка в качестве «облака» предопределенных сегментов, часть из которых уже зафиксирована в машинной памяти, а менее употребляемая часть еще не зафиксирована, однако ни она, ни изменения зафиксированной части языка во времени не препятствуют рассматривать крупный корпус в качестве адекватной модели языка с постоянно растущей точностью - ведь язык «предопределен».

Внимательный читатель мог заметить, что приведенное ранее описание не относится отдельно ни к семантическому, ни к синтаксическому «измерениям» языка, а, скорее, описывает возможность «порождения» или «черпания», соответственно бесконечного или конечного числа семантико-синтаксических микропродуктов речевой деятельности человека - сегментов глобального контента.

В строгом смысле это не препятствует выбранному нами ходу размышления. Во-первых, ни в рамках классического асимметрического дуализма языкового знака, ни в свете позднейших представлений о знаках-симулякрах утвер- ждать наличие (вне времени) каких-либо семантических «границ» знака не представляется возможным. Во-вторых, наблюдение чистой семантики в языке онтологически весьма ограничено и практически всегда совмещается с определенной синтаксической реализацией.

Равным образом не случаен выбор В.А. Плунгяна - морфолога и члена авторского коллектива НКРЯ - в пользу «исчерпаемости» языка. С точки зрения морфологических категорий и их манифестаций язык - это конечное множество. Например, в исследованиях в области типологии стихотворных категорий у МЛ. Гаспарова наблюдается все та же идея о просчиты-ваемости, предопределенности, конечности языка.

Из выбранных Ю.С. Степановым измерений языка именно синтактика нередко представлялась лингвистам конечным множеством, тогда как безграничность семантики вносила неисчисляемую до поры величину в количество возможных вариантов. Вот, например, в генеративной грамматике Хомского вновь наблюдается та же антитеза: число генеративных трансформаций - ограничено, лексический запас языка -пусть и условно, но все же ограничен, а количество порождаемых фраз только потому безгранично, что изъято требование семантической сочетаемости.

Не противоречим ли мы сами себе, ведь ранее мы заключили, что семантика в чистом виде безгранична? Действительно, в чистом виде безгранична, но по состоянию на любой данный синхронный «срез» ограничена циркулирующими единицами, да еще и конечным числом морфологических вариантов и синтаксических сочетаний.

Напрашивающийся вывод иначе, как банальным, не назвать: язык вообще или, как минимум, язык в диахронии не обладает «границами» пространственного характера, тогда как синхронный срез обладает. А ведь корпус текстов и есть синхронный срез. Следовательно, вопрос об условной конечности языка для корпуса текстов решается сравнительно легко.

Это верно, но лишь пропорционально той степени, в которой корпус текстов «сихронен». В этом смысле база «глобального контента» -антипод синхронного корпуса: она не только не синхронна, но даже и не диахронична, а, скорее, панхронична. В результате по мере «рассинхронизации» корпуса невозможно считать его условно конечным на основании топологических признаков бесконечности.

Наименьшее внимание из них при определе нии конечности/бесконечности языка как пространства следует уделить прагматике. Прагматика языка свободна от ингерентных границ, поскольку связана с бесконечно изменяющимися от человека к человеку фоновыми знаниями, условиями восприятия, контекстами и т.д.

Напомним, что описанная проверка языка как трехмерного пространства на конеч-ность/бесконечность основана на ингерентных свойствах «осей» языка, т.е. по топологическим признакам бесконечности. Нам удалось установить, что основания утверждать конечность языка в рамках топологии присущи синхронным его состояниям. Каким же образом можно, представляя язык как пространство, обосновать условную конечность панхронических структур вроде системы глобального контента? Для этой цели необходимо задействовать ранее упомянутый метрический критерий бесконечности пространства: «в любом направлении пространства можно перемещаться сколь угодно далеко».

Отсутствие каких бы то ни было границ у пространства является фундаментальным предположением для понятия любого пространства. С другой стороны, «неограниченность» пространства не исключает возможности того, что оно может быть конечным. Такие конечные, но не ограниченные пространства знакомы нам из нашего ближайшего окружения. Примером одномерного пространства является полная окружность, примером двумерного - поверхность земного шара. В самом деле, эта поверхность не имеет никаких границ или «берегов», но протяжение ее конечное. Расстояние между двумя точками (вдоль поверхности), самое большее, равно половине длины экватора, т.е. около 20000 км. Аналогичным свойством обладают и более сложные фигуры, например тороид («бублик»), Это двумерное пространство не имеет никаких границ, однако оно конечно, в чем легко убедиться, если измерить длину путей на этой поверхности при помощи масштаба окружающего евклидова пространства, для чего в отношении разных фигур имеются разработанные математические методы.

Принцип сочетания неограниченности и конечности также справедлив и для трехмерных пространств. Для этого они представляются ограничивающими четырехмерные пространства. Так как мы не обладаем способностью непосредственного восприятия четвертого измерения, то такие построения остаются довольно абстрактными, но вполне возможными [4].

Видимо, описанное геометрическое свойство пространств и подходит наилучшим образом для обоснования идеи конечности языка, задействованной в корпусах текстов и в системе управления глобальным контентом. В подобных системах язык признается метрически неограниченным, но при этом конечным. Аналогом воображаемого максимального геометрического расстояния, подлежащего измерению, является воображаемый охват всех грамматических конструкций языка от первой до последней. Поскольку число возможных морфологических / синтаксических связей, заключенных внутри языкового «шара», ингерентно конечно, оно измеримо. Однако это не мешает неограниченно совершать геометрические «путешествия» по неограниченному пространству-поверхности, т.е. неограниченно, собственно говоря, говорить/писать.

Этот вывод не претендует на новизну. Еще В. фон Гумбольдт сформулировал его в виде суждения о том, что язык вынужден бесконечно использовать конечный набор средств. В целом эта идея была и остается бесспорной, однако теперь мы понимаем, что не стоит ставить во прос следующим образом: каким именно образом атрибут конечности перешел с языка как системы отношений, по Соссюру, на язык как совокупность всех текстов, по Г. Паулю?

Подлинная языковая бесконечность складывается из конечного языкового пространства и неограниченного движения по нему. Соответственно, в терминах метафоры «язык - пространство», корпус текстов или система управления глобальным контентом представляют собой «контейнер» для «объема» конечной составляющей языка, и если этот объем достаточно полно представлен, то весь объем неограниченных его реализаций (геометрических путешествий) уже заложен, предопределен в нем независимо от фактической наполненности контейнера (его размера).

Таким образом, метафорическое осмысление языка как пространства позволяет обосновать целесообразность создания корпусов текстов и «облаков» контента.