Роль формальных текстовых признаков при построении семантической сети научного текста

Автор: Найханова Л.В., Аюшеева Н.Н., Кушеева Т.Н.

Журнал: Вестник Восточно-Сибирского государственного университета технологий и управления @vestnik-esstu

Статья в выпуске: 1 (32), 2011 года.

Бесплатный доступ

В статье рассмотрены основные характеристики научного текста и соответствующие им формальные текстовые признаки, а также их использование при построении семантической сети.

Семантическая сеть, индикаторные методы свертывания информации, характеристики научного текста, формальные текстовые признаки, научный текст

Короткий адрес: https://sciup.org/142142281

IDR: 142142281

Текст научной статьи Роль формальных текстовых признаков при построении семантической сети научного текста

При построении семантической сети научного текста необходимо обратить внимание на многоас-пектность связного научного текста. Это объясняется тем, что текст – с одной стороны, представляет собой структуру, замкнутое организованное целое, в рамках которого знаки образуют систему отношений, определяющих стилистические эффекты этих знаков [8], с единым коммуникативным заданием – выражением коммуникативной потребности человека; а с другой – результат мыслительной деятельности человека [9]. Поэтому при анализе текста целесообразно учитывать ряд аспектов: гносеологический (характер отражения объективной действительности в тексте), онтологический (характер существования текста), лингвистический (характер языкового оформления текста), психологический и др.

Частично данная проблема может быть решена применением индикаторных методов формализованного свертывания текстов. Отметим, что максимальным уровнем свертывания является индексирование текста. Индикаторные методы основаны на функциональной идентификации фраз первичного документа с помощью индексации их специальными словами – маркерами, индикаторами и коннекторами, являющимися формальными текстовыми признаками.

Основной функцией формальных текстовых признаков является структурно-смысловая организация текста – оформление и упорядочение рассуждений, связывание отдельных текстовых фрагментов. Формальные текстовые признаки позволяют различать отдельные аспекты содержания в тексте, прослеживать развитие авторской мысли, отражать композиционно-логические связи между ключевыми словами текста, характеризовать степень объективности информации и указывать на отношение автора к высказыванию.

В основе индикаторных методов свертывания информации лежит представление о том, что фразы текста, особенно научного, выполняют не только внетекстовую, но и внутритекстовую, грамматикостилистическую функцию. Внетекстовая функция фразы заключается в отражении некоторой экстра-лингвистической реальности – что и о чем говорится, внутритекстовая функция фразы позволяет определить логику, структуру, целостность композиции, выразительность – как, каким образом говорится. Также отметим, что именно научные тексты насыщены маркерами, индикаторами, коннекторами, что позволяет использовать их при построении семантической сети научного документа.

Характеристики научного текста

Научный текст имеет свои особенности языка и стиля. Он представляет собой рассуждение, которое строго организованно и взаимосвязано. Рассмотрим главные черты научного стиля изложения.

Научный текст характеризуется логичностью , которая коррелирует с основными этапами научной работы: постановка и понимание проблемы, изучение опыта предшественников, предлагаемый вариант решения проблемы, его доказательство и аргументация, обобщение полученных данных, подведение итогов. Логичность достигается путем использования следующих устойчивых конструкций:

  • -    при постановке и понимании проблемы: в настоящей статье, далее будет описана, материал будет излагаться в следующей последовательности, прежде чем говорить о .„, следует дать определение понятия, рассмотрим, остановимся на .„, предварительно рассмотрим, обратимся к .„;

  • -    при изучении опыта предшественников: в своих работах .„, исходя из опыта ученых .„, вслед за

•;

  • -    при изложении варианта решения проблемы, доказательства и аргументации: исследование показало, следует подчеркнуть, необходимо отметить, существенным является, важно подчеркнуть, так;

  • -    при обобщении полученных данных и подведении итогов: таким образом, итак, следовательно, стало быть, в итоге, из всего сказанного следует, в результате.

Стилевой чертой научного текста является его точность. Достигается точность использованием однозначных выражений, терминов, слов с ясной лексико-семантической сочетаемостью. Внутри системы текста термин стремится к однозначности, не выражает экспрессии и является стилистически нейтральным. Специфическими особенностями терминов являются [3]: системность, наличие дефиниции, абсолютная и относительная точность, краткость, простота и понятность и др.

Отвлеченность и обобщенность также являются основными характеристиками научного текста. Наличие следующих речевых средств придает соответствующую окраску тексту:

  • -    использование неопределенно-личных предложений, пассивных конструкций: среди характерных черт можно выделить, на современном этапе исследований наблюдается тенденция, на основе этих данных, в настоящее время в и т.п.

  • -    использование авторского «мы», «нами»: мы рассмотрим, как нам кажется, на наш взгляд, предположим, докажем, что и т.п.

Научный текст нельзя представить без клише - устойчивого речевого оборота, готового оборота, стандарта, легко используемого в определенных условиях. В научном тексте клише, которые выражены формальными текстовыми признаками, активно используются как средство, обеспечивающее однозначное и объективное изложение информации, а также облегчающее ее восприятие.

Традиционно сложившаяся форма научного общения ученых предопределила четкую структуру научных текстов. Как правило, можно выделить три семантических блока: введение, основная часть, заключение. Каждый блок можно разделить на фрагменты - аспекты содержания, относительно самостоятельные части текста, обладающие смысловым единством. Аспект может быть выражен в тексте одним или несколькими предложениями, а иногда и несколькими абзацами. Научные тексты не только характеризуются четкой структурой (семантический блок - аспекты), но и наличием у каждого аспекта своих, только ему присущих, формальных признаков (маркеров) [6].

Формальные текстовые признаки в структуре научных текстов

Важнейшим свойством всех формальных текстовых признаков является универсальность их использования, то есть независимость от отрасли знания. Идентификация формальных текстовых признаков позволяет легко ориентироваться в тексте, отделять главную информацию от дополнительной , менее существенной.

Различают три основных разновидности формальных текстовых признаков (метаинформативных фрагментов) в структуре научных текстов: маркеры, индикаторы, коннекторы.

Маркеры - это отдельные слова или словосочетания, обеспечивающие однозначную идентификацию фраз, принадлежащих к различным смысловым (содержательным) аспектам текста. Существуют два типа содержательных аспектов : первый тип отражает структуру вида документа (например, статьи, патентного описания, методического пособия и т.д.), второй тип - структуру (логику) той или иной области знания или группы объектов.

Индикаторы - лексические единицы, призванные выполнять преимущественно модальнооценочные функции, - с содержательными аспектами четко не связаны, а отражают отношение автора к рассматриваемому в документе вопросу. Они подразделяются на подытоживающие, акцентирующие, констатирующие, оценочно-вероятностные, иллюстрирующие и др. Например: итак, следовательно, следует подчеркнуть, важным представляется, существенным является, главное в и многие другие.

Коннекторы - лексические единицы, обеспечивающие межфразовые связи.

Различают два вида коннекторов:

  • 1)    коннекторы, отсылающие к предшествующей части текста ( вышеуказанный, ранее представленный, этот, тот, такой ) и требующие для своего понимания операции типа «шаг назад» в тексте;

  • 2)    коннекторы, отсылающие к последующей части текста ( нижеприведенный, рассматриваемый далее, характеризуемый ниже и т.п. ) и требующие для своего понимания операции типа «шаг вперед» в тексте.

Формальные текстовые признаки устанавливаются на логико-семантической основе. Все элементы текста, выполняющие одну и ту же логико-семантическую функцию, являются маркерами одного текстового параметра. Различают шесть текстовых параметров [7]:

  • 1)    тематические цепочки текста, соотносящиеся с основной и дополнительными темами текста;

  • 2)    логическая цепочка текста, маркирующая логическое развитие всего текста;

  • 3)    текстовое время и текстовое пространство, которые маркируют время и пространство развития "событий" в тексте;

  • 4)    текстовая модальность, соответствующая отношению автора текста к описываемым "событиям";

  • 5)    текстовая структура, то есть деление текста на различные коммуникативные блоки.

Маркеры этих параметров в своей совокупности позволяют отразить свойства текста и его струк-туру. Подавляющее большинство маркеров всех параметров представлены простыми и сложными лексическими единицами (одиночными существительными, устойчивыми словосочетаниями, связанными глаголом или глагольной группой, которые играют в предложении роль сказуемого). Единственным исключением являются некоторые маркеры логической цепочки и структуры текста, выражаемые лексикосинтаксическими и графическими средствами.

Между всеми маркерами одного параметра существуют тесные семантические и прагматические связи, поскольку они выполняют одну и ту же логико-семантическую функцию в тексте. В то же время, помимо общей текстовой функции, маркеры каждого параметра отличается друг от друга своим собственным семантическим значением, что позволяет выделить различные семантические группы в рамках каждого параметра.

Выделение текстовых параметров может оказать существенное влияние на отражение коммуника-тивной, аспектной, семантической, информативной, функционально-смысловой структуры научного текста.

Применение формальных текстовых признаков при построении семантической сети текстового документа

Рассмотрим, каким образом можно использовать знание формальных текстовых признаков при построении семантической сети, предназначенной для адекватного отражения плана содержания (смысла, семантики) текстового документа.

Обработка текстов, посвященных анализу качества баз данных, выявила ТЕМАТИЧЕСКИЕ ЦЕПОЧКИ ТЕКСТА по следующим четырем семантическим группам: Базы данных, Информация, Качество и Характеристики, соотносимым с главной и второстепенными темами рассмотренных текстов. Каждая тематическая цепочка состоит из различных номинаций одного и того же референта как объекта мысли. В каждой тематической цепочке различаются основная номинация, то есть основной маркер ( базы данных, информация, качество, характеристики ), и вторичные номинации. Все они связаны между собой единой логико-семантической функцией в тексте. Среди маркеров одного и того же параметра существуют отношения синонимии, например, информация - данные, характеристики-особенности ; гипонимии - гиперонимии, например, сложные программные средства - системы управления базами данных ; метонимии: сущность или объект вместо базы данных . Каждая семантическая группа образует фрагмент семантической сети документа. При этом вторичные номинации, расположенные на расстоянии, большем некоторого значения, от основного маркера группы можно в семантическую сеть не включать.

Маркеры параметра ТЕКСТОВОЕ ВРЕМЯ представлены простыми и сложными лексическими единицами, которые выражают понятие «время» семантически или прагматически, то есть обозначают время: в настоящее время, на данный момент , или же ассоциируются с этим понятием, поскольку уточняют временные рамки текстового «события»: обычно , по завершении . Оценить эти последние маркеры можно только в лингвистическом контексте, что является достаточно сложной задачей, однако знание временных рамок может оказать непосредственное влияние на точность поиска.

То же можно сказать о маркерах ТЕКСТОВОГО ПРОСТРАНСТВА . Отличаться будут только семантические группы: библиографические ссылки и документированные данные ( из стандарта ISO

9126, в работе, в таблице, на рисунке ); местоположение ( на практике, в рамках, в статье ); топонимия ( в России, в Улан-Удэ ) и др.

Что касается ЛОГИЧЕСКОЙ ЦЕПОЧКИ ТЕКСТА , следует отметить, что, помимо имплицитной логики каждого текста, существуют различные лексические, лексико-синтаксические и графические средства, которые эксплицируют логику развития текста в соответствии с авторским замыслом, помогая тем самым адресату текста в понимании его смысла. Среди таких средств можно выделить три семантические группы: логико-структурные, логико-"объективные" и логико-субъективные [7].

Логико-структурные указывают на информацию, связанную с постекстом ( в дальнейшем, далее, в следующем разделе ); информацию, связанную с претекстом ( вышеперечисленный, сказанное, указанный ); развитие информации ( более того, помимо, с другой стороны, двоеточие + перечисление ); начало развития субтем (подзаголовки текста, выделяемые определенными графическими средствами); окончание информации ( вывод, в заключении, итак, в итоге, таким образом ).

Логико- " объективные " вводят различные типы информации: выделяемую информацию ( в основном, важно, в первую очередь, рассмотрим ); дополнительную информацию ( более того, кроме, тем более, что ); иллюстрирующую информацию ( например ); информацию из других источников ( данные литературы ); информацию о часто/редко повторяющихся событиях ( всегда, нередкий, как правило ); информацию, противоположную претексту ( хотя, однако, тем не менее ); основную информацию ( цель настоящего исследования, особо выделить ); разъяснительную информацию ( иными словами, то есть, скобки ); уточняющую информацию ( следующий + двоеточие; такой, как ).

Логико-субъективные обозначают отношение автора к излагаемым в тексте фактам и полностью совпадают с маркерами модальности текста. Их семантика сводится к выражению рациональной оценки ( хорошо зарекомендовать себя, быть оправданным, слабая аргументация ); убежденности ( на наш взгляд, быть убежденным, достоверно известно ); эмотивно-оценочной характеристики ( неизбежно, к сожалению ).

Индикаторы и коннекторы логической цепочки текста, также как и других текстовых параметров, являются полифункциональными, поскольку одна и та же единица языка может маркировать в тексте различные параметры и/или входить в разные семантические группы.

Пристальное внимание к функциям маркеров, индикаторов и коннекторов в научном тексте позволяет говорить о существующей возможности с помощью их выделения и анализа их содержащих фраз повысить или понизить степень значимости предложений, а следовательно, и терминов предложений.

Логико-структурные индикаторы дают возможность уточнить отношения между элементами тематических цепочек текста. Логико-объективные индикаторы позволяют выделить основные и вторичные номинации в тематических цепочках текста. Логико-субъективные индикаторы помогают на основе анализа отношения автора к излагаемому материалу определить, например, степень достоверности изложенных фактов, уровень проработанности исследуемой проблемы и т.п.

На наш взгляд, можно снизить значимость предложений с индикаторами иллюстрирующей информации. Если учитывать такие предложения при построении семантической сети текстового документа, то повышается вероятность появления фрагментарности сети. В анализируемом тексте предложение: «Например, в системе VBASE наряду со специально разработанным языком TDL, предназначенным для определения типов, используется объектно-ориентированное расширение языка Си - COP (C Object Processor) », при построении семантической сети текста не будет использовано.

Анализ текстов показал, что степень значимости предложения повышают индикаторы, указывающие на итог или вывод, а также на переход от одной мысли к другой. Предложения с логикоструктурными индикаторами, указывающими на окончание информации, обычно несут основную мысль части текста, резюмируя все сказанное в этой части текста. И поэтому важность таких предложений по сравнению с другими будет выше. Предложение « Таким образом, формализация характеристик качества информации баз данных, на основе стандартов, разработанных для оценивания программных средств, открывает путь для применения апробированных на комплексах программ методов систематизации, определения и повышения их качества » будет иметь более высокую степень значимости, чем все другие предложения текста. В связи с этим термины формализация характеристик качества информации, оценивание программных средств, методы систематизации и другие из этого предложения должны в семантической сети иметь более высокий вес.

Логико-объективными средствами связи, указывающими на переход одной мысли к другой, являются такие сочетания слов, как «рассмотрим», «обратимся к», «остановимся на» и другие. Предложения с такими индикаторами обычно содержат информацию о том, о чем далее пойдет речь, то есть объекты таких предложений могут выражать главный предмет дальнейшего повествования, и иногда их можно интерпретировать как заголовочные термины. Например, в предложении «Рассмотрим особен- ности организации двух объектно-ориентированных СУБД - ORION и O2» объектом является терминологическое словосочетание «особенности организации двух объектно-ориентированных СУБД», которое указывает на то, что далее речь пойдет именно об этом объекте, выделение которого является существенным при идентификации множества узлов семантической сети.

Заключение

Формальные текстовые признаки играют достаточно важную роль в построении семантической сети научного текста. Индикаторы, маркеры и коннекторы позволяют выделить текстовые параметры, которые способствуют отражению коммуникативной, аспектной, семантической, информативной, функционально-смысловой структуры научного текста.

Для того чтобы текстовые параметры были представлены семантической сетью, можно использовать весовой коэффициент вершин сети, представленный вектором из шести элементов, соответствующих одному из текстовых параметров. Дальнейшему исследованию подлежат вопросы шкалирования значений элементов вектора, их вычисление и интерпретация.

Надо отметить, что практика применения индикаторного метода при решении задачи автоматического реферирования показывает достаточно неплохие результаты, в связи с чем машинная реализация индексирования текстовых документов этим методом возможна при наличии специальных словарей.

Статья научная