Метод автоматизированного формирования сборников архивных документов

Автор: Куртюкин С.В.

Журнал: Теория и практика современной науки @modern-j

Рубрика: Основной раздел

Статья в выпуске: 5 (35), 2018 года.

Бесплатный доступ

В этой статье разработан и описан метод формирования сборников архивных документов. Описаны задачи, которые должен выполнять данный метод. Выделены языки разметки, с помощью которых будет производиться работа с документами. Сформулированы главные особенности и преимущества данного метода.

Язык разметки, метод, теги, сборник документов, оцифровка

Короткий адрес: https://sciup.org/140273309

IDR: 140273309

Текст научной статьи Метод автоматизированного формирования сборников архивных документов

Задача оцифровки исторических документов и организации доступа к их электронным копиям – одна из важнейших на современном этапе развития информационных технологий. Помимо сугубо научных целей – введения в научный оборот больших массивов источников в машиночитаемой форме, у этой задачи есть и общегуманитарная составляющая – сохранение для потомков культурного наследия, накопленного за долгое время в архивах, в библиотеках или даже в музейном деле. Библиотеки, музейное дело в последнее время стали основными организациями, осуществляющими сбор, хранение и распространение различных видов, в частности научно-технической информации. Вместе с тем, мощное развитие средств вычислительной техники и информационных технологий кардинальным образов изменили, коммуникативную среду, способы потребления и использования информации, средства ее хранения и распространения.

Одной из областей, для которых характерно в настоящее время активное внедрение информационных технологий, является музейное дело.

Известно, что большое количество хранящихся в архивах документов никогда не было опубликовано. Публикация таких архивных документов в виде тематических сборников позволила бы решить задачу ввода их в научный оборот. Оцифровка архивных документов позволяет не только поместить их электронные копии в базу данных информационной системы, но и сильно упрощает процесс подготовки их к публикации — фактически предоставляет уже набранный материал, готовый для вёрстки.

Таким образом, для решения описанной задачи необходимо разработать метод формирования сборников архивных документов.

Настоящая статья посвящена разработке метода формирования сборников документов.

Автору представляется, что наиболее удобным к решению поставленной задачи является использование популярного языка разметки XML. Получить же из документа в формате XML документ в формате TEX возможно автоматическим способом методом XSLT-преобразования по однажды разработанной программе.

Метод автоматизированного формирования сборников документов

Рис.1 – cхема метода формирования сборников документов

Метод автоматизированного формирования сборников документов можно разделить на несколько этапов, изображенных на Рис.1:

На начальном этапе на вход подаются размеченные документы в формате XML, в которых предварительно была произведена разметка наиболее важной информации с помощью тегов index. Самое главное в документах формата XML - тэги index. Этими тэгами выделяются части текста, ссылающиеся на важные с точки зрения историка объекты базы данных - например, конкретную историческую личность. Внедрение index'ов в документ позволяет впоследствии быстро находить в базе данных документы (с точностью до абзаца, фразы, и т.д), в которых упомянут некоторый исторический факт. Пример размеченного документа изображен на рис.2.

Информационная безопасность и человеческий фактор

Прет*ч*:кн тк^м ю^сриидн! э^длелмт КОРП» да рбегпччахме ее «мсокязгт* рпбоемгттсы opnimawv* аж пржжил? =;«тлемк г.д именами илу зяшад oihukgjm ц вепре см иифтоизхапни Тзгсй полез позволяет ергиогжни сляпсит cpu-rei аз зиккотооо! а «емалиггл я сбазпх миферюкенеп безосасяосп1 НеоЗоиаммс отэнтггз. тг: меютрг Xi to, что 1 пкыы ZT-ratnuinncnj яоетжточео пгнефинзр-ЕЕ-ити дав'. rrixMxu шхзкееых ямиста «тпжхр. сое 2 рзлтрасвиим при пясти ылмемгеий не вини оержезамм ytn ошип! €0 стероны рнсесамтетей, котореее гчшажл. что течзегчеэ.жх jeep оогосмогге бузят дгезжгенхо. хе ’• чгпаа четэеенеохё ^нггер

Рсссебам зиисезьха-з *acai« ^слид-ее ехвааке пмасьей ист ИЕф:рьиды1Лш;4 С*>:с»лзо:"П1 гас.ззрежявых езр.трт ■ сртзсыдхИ пелдз с»лкг:ттхаше беаетдсыше mkw ■ axewi-wNMi hr лггерм I яшюЯ ефчре law »ai Фчлчрпнм «i «* бемаасюсти. Фамрелы»» cv лба вс :пххче лс^ ш жпсртняит к^прмк- Фчлара'ипл! елх <5i вс нжпер з сфере скгш, RH^cpcznzcezant техгслстий п иксоша есызгтзплппп есесэечизисз о^лЕлзенпе -тгаквзешшх треСсЕлялл тяике ' .-алкая 5езспагвэса с^ргСгтапаегслё их^орыкзж С—ллжлжлзйа ыпжт* Ап Г'

Онфашть

ID

Тип ГСЫЛ-0Ч1Г0ГО ооъекта

Зиачекие ссылочного oobea.il

Значение Patlr

1

per э-ои

П-аюшалпсгы

Ш

ore animation

Федеральная сл>~л;оа безопасности

22

3

organisation

Федеральна* служба по техническому и экспортному контролю

333

4

address

Актау

21

Рис.2 – размеченный документ

На следующем этапе при помощи XSLT-преобразования формируется сам сборник документов, который состоит из документов, подданных на входе. Сборник документов также в формате XML. Принцип работы преобразования состоит в том, что:

  • -    создается XML документ, в котором записываются названия нужных размеченных XML документов, из которых формируется сборник документов;

  • -    разрабатывается программа для формирования сборников документов;

  • -    в результате работы программы на выходе образуется сформированный сборник в формате XML, в котором помимо размеченного текста документов находится список всех возможных ссылочных объектов(указателей). На следующем этапе сформированный сборник в формате XML переводится в формат TEX/LATEX. Решается данная задача также при помощи XSLT-преобразования.

После сформированного сборника в формате XML требуется перевести его в формат TEX/LATEX. Данная задача также реализуется с помощью XSLT-преобразования. Принцип работы преобразования:

  • -    есть сформированный сборник в формате XML, который требуется перевести в другой формат;

  • -    разрабатывается программа, которая переводит сформированный сборник в новый формат TEX/LATEX;

  • -    в результате работы программы на выходе образуется сформированный сборник документов в формате TEX/LATEX.

На заключительном этапе метода автоматизированного формирования сборников архивных документов в формате TEX/LATEX в сформированном сборнике документов, производится работа с указателями на ссылочные объекты базы данных с использованием специального программного окружения \index (\makeindex), которые входят в список программ языка TEX/LATEX. В дальнейшем эти ссылочные объекты позволят находить информацию(исторический факт) в сформированном сборнике и также в базе данных. Наконец, в формате TEX сборник приводится к удобоваримому виду к печати, предварительно оформляется информация(разметка страницы, ее нумерация, отступы, абзацы и т.д). На вывод, на печать подается сформированный сборник - файл с расширением .dvi/.ps .

Предложенный метод автоматизированного формирования сборника архивных документов позволяет привлечь к таковому формированию обычных пользователей, которые не являются специалистами в сфере информационных технологий. Привлекаемым к данной работе пользователям не требуется наличие специальных знаний в сфере информационных технологий. Для пользователя программы достаточно будет ввести названия размеченных документов в формате XML в программу, чтобы сформировать сборник документов, остальное программа сделает автоматически, что является наиболее удобным вариантом для решения проблемы.

Список литературы Метод автоматизированного формирования сборников архивных документов

  • Вигурский К.В., Трифонов С.И.\\ Представление печатных изданий в электронных библиотеках -Межотраслевая информационная служба. 2011. №2. С.17-29.
  • Филатов В. О./ Специализированный XML-редактор для создания полнотекстовых баз данных на основе изображений исторических источников // Информационный бюллетень Ассоциации История и компьютер. - 2006. - № 34. - С. 67-69.
  • Чернышов А. В., Евдокимова Е. Ю./ Метод преобразования текстового документа OpenDocument в заданный XML-формат - Молодой ученый. - 2016. - №7. - С. 26-29.
  • Мангано С. XSLT. Сборник рецептов. - М.: ДМК Пресс, 2008. -864 с.
Статья научная