Концептуальные основы информационной палеопалинологии
Автор: Тельнова О.П., Бабенко В.В.
Журнал: Вестник геонаук @vestnik-geo
Статья в выпуске: 6 (210), 2012 года.
Бесплатный доступ
Показана необходимость анализа информационных потоков в рамках палеопалинологических исследований. Основное внимание уделено определению функциональных требований к проектируемой программно-компьютерной системе, предназначенной для обеспечения информацией палеопалинологических решений.
Палеопалинология, информация, хранилище данных, обеспечение принятия решений
Короткий адрес: https://sciup.org/149128566
IDR: 149128566
Текст научной статьи Концептуальные основы информационной палеопалинологии
Термин «информационная палеопалинология» пока широкого распространения не получил. По нашему мнению, необходимость его введения назрела в силу того, что накоплен очень большой объем разнородной палинологической информации, которая требует современного инструментария для эффективного анализа.
В задачи информационной палинологии входят:
-
• построение модели изменчивости морфологических и ультраструктурных характеристик спорового зерна в процессе его фоссилизации [5];
-
• оценка значимости вероятностностатистических закономерностей в распределении миоспор (например, ответ на вопрос:«Какое количество зерен одного
таксона в одном образце свидетельствует о появлении этого вида?»);
-
• формирование генетической модели эволюции растений на базе особенностей миоспор и их ультратонкого строения;
-
• стандартизация процесса накопления палеопалинологической информации в формате современных информационных хранилищ;
-
• проектирование и разработка современного информационно-компьютерного инструментария, необходимого палеопалинологудля эффективного решения геологических задач.
На передний план выходят задачи, которые сформулированы последними, так как современный уровень исследований невозможен без программных систем, обладающих специальной функцио нальностью. Существенное продвижение по генетико-эволюционным направлениям маловероятно без накопления значительной информационной базы и опыта аналитической обработки этих данных. Поэтому настоящая статья посвящена прежде всего выявлению функциональных требований к программе с условным названием «Палеопалинолог».
Особенности работы палеопалинолога во многом определяются спецификой объектов его исследований и методологией. Абстрагируясь от деталей, сформируем понятийную модель [3] предметной области « палеопалинологическое исследование в интересах геологических построений » необходимым набором терминов.
Дисперсные споры, миоспоры (по [4]
с изменениями) — споры древних расте-

ний, микроскопические зерна (размером менее 200 мкм), в большей или меньшей степени диагенетически измененные, но сохраняющие при этом структурно-морфологические родовые или видовые признаки. Могут быть изоспорами, микроспорами, мелкими мегаспорами, пред-пыльцой или пыльцевыми зернами.
Диагностика миоспоры — процесс (операция) отнесения конкретного зерна к таксону по комплексу морфологических, структурных и ультраструктурных признаков. Как правило, диагностический вывод носит феноменологический характер и редко подкрепляется генетическими построениями. Процесс генерации выводов подвержен субъективизму, сильно зависит от опыта и квалификации исследователя и во многом определяется наличием релевантной справочной информации (см. рисунок).
Паспортизация миоспоры — формальное обобщение частных наблюдений отдельных зерен к усредненному набору характеристик, пригодных для диагностики.
Диагностическая информация — в первую очередь, графические изображения спор в формате фотографий, зарисовок и непосредственно наблюдаемых образов с увеличением в 100—1000 раз в просвечивающем световом микроскопе. Дополняется формализованными качественными и количественными характеристиками, пригодными для более точной диагностики (например, количественные соотношения различных структурных элементов на поверхности спорового зерна).
Палиноспектр — список (множество S) таксонов (род или род. вид) ископаемых дисперсных спор и количество зерен каждого таксона, определенных в конкретном образце, имеющем геологическую привязку. Может рассматриваться как статистически устойчивая харак теристика конкретного образца, позволяющая сравнивать его с другими образцами с целью генерации вывода (положительного или отрицательного): «породы формировались в одинаковое геологическое время в одинаковых геологических условиях».
Выделение палиноспектра — процесс, позволяющий ответить на вопрос: «Какие количественные таксономические соотношения характерны для конкретного образца?».
Палинокомплекс — список (множество P) таксонов (род или род. вид) ис-копаемыхдисперсных спор, определенных в множестве образцов I (P — это объединение всех множеств S i при i >= 1). Помимо характеристического множества таксонов, может иметь характеристические тренды (например, «впервые появляется вид А»). Имеет возрастную и региональную привязку (например, «ми-оспоровая зона Corbulispora vimineus-Geminospora vasjamica, ранний фамен, волгоградский горизонт Русской платформы») и ряд характеристических особенностей (паспорт палинокомплекса пока не стандартизирован). Объединение в палинокомплекс нескольких палино-спектров повышает статистическую устойчивость выводов при последующих сравнениях.
Выделение палинокомплекса — процесс неформального сопоставления пали-носпектров из образцов, входящих в исследуемый интервал. Аналитик выделяет наиболее статистически устойчивое множество таксонов и дополнительные характеристики-тренды.
Палеопалинологическая задача — условная цель (и, как следствие, результат) исследования, которая в общем виде на основании диагностики и выделения палинокомплекса, а также путем сравнения последнего с эталонами позволяет ответить на вопрос (или уточнить ответ на этот вопрос) о стратиграфическом положении заданного интервала опробования, имеющего пространственную привязку. В рамках решения палеопалинологической задачи можно выделить несколько типов информации (см. таблицу).
До настоящего времени компьютерные технологии при решении палеопа-линологических задач используются главным образом на вспомогательных операциях — при визуализации полученных трендов [1]. Накопление информации, необходимой при диагностике и выделении палинокомплексов, традиционно происходит на «бумажных» носителях — в отчетах, статьях, монографиях. Высокая трудозатратность использования таких баз данных очевидна, тем более что палеопалинологическая диагностика — это, по сути, перебор различных вариантов визуальных сравнений образца с эталонами.
Создание эффективного палеопалино-логического программного инструмента, основанного на принципах накопления требуемой информации, позволит следующее:
-
• облегчить поиск и визуальное сравнение плохо формализуемых данных (изображений и текстовых описаний);
-
• упростить тиражирование и стандартизацию палинологическихданных, в том числе с использованием интернет-технологий;
-
• понизить субъективизм принятия решений в рамках палеопалинологической задачи;
-
• задействовать формальную (в первую очередь статистическую) обработку накопленной информации с целью поиска временных (в относительной шкале времени) и пространственных закономерностей по произвольному набору признаков.
Проектируемая система относится к классу «хранилище данных» (Data

Упрощенная SADT-диаграмма диагностики и генерации стратиграфических выводов (по нотации [2] с изменениями)

Основные типы информации при решении палеопалинологической задачи
Тип информации |
Формат представления |
Примечание |
Фотографические |
Файлы растровых графических |
Имеют определяющее значение для диагностики. |
изображения |
форматов (jpeg, tif, bmp). |
Плохо формализуются, автоматизация |
споровых зерен |
Могут иметь измерительную шкалу и метрические размеры |
распознавания и анализа почти невозможна. Поиск в архивах малопроизводителен. При хранении занимают большой объем |
Формализованные |
Списочные или шкалированные |
Наборы характеристик (признаков) |
морфологические |
данные, производные от |
стандартизированы только на уровне конкретного |
характеристики |
изображений. Определяются |
специалиста-палинолога. |
(«паспорта») |
исследователем субъективно по |
Могут иметь самостоятельное значение при |
споровых зерен |
стандартизированным методикам и справочникам |
анализе эволюционных трендов. При определенной стандартизации являются важным дополняющим критерием диагностики и поисковыми индексами в базах данных изображений |
Геологическая |
Списочные, шкалированные или |
На диагностику влияет незначительно. Может |
характеристика |
полнотекстовые данные. Могут |
использоваться при интерпретации полученных |
вмещающей |
включать любые характеристики: |
закономерностей изменчивости |
споры породы |
минералогический состав, литологические особенности, геохимические параметры и т. д. |
палинокомплексов |
Координатная, |
Относительный возраст, |
Влияет на диагностику на начальном этапе |
стратиграфическая |
установленный по |
исследования путем уменьшения множества |
и геологическая |
«непалинологическим» данным, |
эталонных таксонов: «Для горизонта А ожидается |
привязка точки отбора пробы |
привязка к геологическим структурам |
присутствие таксонов Sa» |
Warehouse [6,9], традиционно рассматривается как метод решения информационно-аналитических задач в области принятия и поддержки решений и предполагает интеграцию оптимизированных баз данных и специальной аналитики по их обработке. Подчеркнем, что речь не идет о «перекладывании на плечи» компьютера плохо формализуемых геологических решений. Все нетривиальные результаты по-прежнему генерируются исследователем, а компьютерная система отвечает за адекватное и своевременное обеспечение человека информацией.
Программная система должна обладать следующей базовой функциональностью (бизнес-логикой):
В части хранения и манипуляции данными:
-
• Хранение больших объемов разноплановой информации (см. таблицу), свободное управление данными по стандарту DML (Data Management Language) SQL 92 [8].
-
• Простота ввода информации в хранилище, верификации информации при вводе.
-
• Настраиваемые интерфейсы ввода данных (диалоговый и пакетный режимы).
-
• Конвертация данных из формата хранения xls и экспорт любых табличных данных в Microsoft Excel.
-
• Быстрый поиск любых данных по различным видам пространственно-временной привязки.
-
• Поиск и выборка миоспор (во всей полноте описания) по любому набору значимых критериев.
-
• Протоколирование времени добавления и источников новой информации.
В части визуализации информации и особенностей интерфейсов пользователя (экранных форм):
-
• Возможность сравнения микрофотографий миоспор попарно или в группах (сравнения производит пользователь, использование алгоритмов распознавания образов не предполагается).
-
• Масштабирование растровых изображений (увеличение вертикального и горизонтального размеров до 3 раз) без существенной потери качества.
-
• Простая обработка растровых изображений (повышение контрастности, осветление, изменение цветовой кодировки).
-
• Возможность создания фототаблиц путем перемещения фотографий манипулятором «мышь» и экспорт результата в Microsoft Word.
-
• Построение стратиграфических колонок по формализованному послойному описанию разреза (обнажения или скважины) с визуализацией точек отбора проб и интерактивным отображе
нием всей информации по конкретным точкам.
-
• Возможности настройки интерфейса диалогового описания слоев разреза.
-
• Построение корреляционных разрезов по любому количеству скважин в интерактивном режиме (на основе манипулятора «мышь»).
-
• Визуализация мест расположения обнажений (скважин) на географической (геологической) карте (схеме).
-
• Визуализация трендов изменчивости любых характеристик палиноспект-ров и отдельных зерен по разрезу.
-
• Возможность выделения палино-спектров и формирования палинокомп-лексов посредством манипулятора «мышь».
В части аналитических и алгоритмических возможностей:
-
• Аппроксимация пространственной (двухмерной) изменчивости любых характеристик миоспор и палиноспектров.
-
• Свертка многомерной информации по палиноспектрам и палинокомплексам (алгоритмы Decision Cube и «Лица Чернова» [7]) с целью их парного визуального сравнения.
-
• Алгоритмы корреляционного, факторного и кластерного анализа.
-
• Алгоритмы аппроксимации изменчивости любых характеристик автокорреляционными функциями и рядами Фурье.
—есЛ^ЁК , июнь, 2012 г., № 6
*
В части технологических и нефункциональных требований:
-
• Доступ к данным по технологии «тонкий клиент-сервер».
-
• Реализация прикладных интерфейсов в средах Windows 32 (основной интерфейс с максимальными аналитическими интерактивными возможностями) и Интернет (вспомогательный, предполагает контролируемый доступ к базам данных и аналитикой по типу «формирование отчетов»).
-
• Возможности кодирования информации при необходимости, защита от несанкционированного доступа, в том числе при работе в интернет-среде.
-
• Авторизация, управляемое разграничение и контроль доступа к защищен-нымданным.
В настоящий момент проект, базирующийся на описанных выше требовани ях, находится в фазах «прототипирование интерфейсов», «физическая реализация базы данных» и «накопление информации».
Список литературы Концептуальные основы информационной палеопалинологии
- Кочанова М. Д., Спиридонова Е. А., Алешинская А. С. Новое программное обеспечение для обработки данных спорово-пыльцевого анализа//Палинология: теория и практика: Материалы XI Всероссийской палинологической конференции. М., 2005.
- Марка Д. А., МакГоуэн К. SADT -методология структурного анализа и проектирования. М.: Метатехнология, 1993.
- Мартынюк В. И. Информационное исчисление. М.: Открытые Системы, № 5, 1996. С. 66-69.
- Ошуркова М. В. Морфология, классификация и описание форма -родов миоспор позднего палеозоя. СПб.: Изд-во ВСЕГЕИ, 2003. 377 с.
- Тельнова О. П. Миоспоры из средне-верхнедевонских отложений Тимано-Печорской провинции. Екатеринбург: УрО РАН. 2007. 136 с.
- Туманов В. Е. Проектирование хранилищ данных для систем бизнес-аналитики -БИНОМ. Лаборатория знаний, интернет-университет информационных технологий -ИНТУИТ.ру, 2010.
- Chernoff H. Using faces to represent points in K-dimensional space graphically//J. ASA, 1973, № 68.
- Database Language SQL -Текст стандарта (англ.), электронный ресурс. Режим доступа: http://www.contrib.andrew.cmu. edu/~shadow/sql/sql1992.txt [25.06.2012]
- Inmon W. H. Building the Data Warehouse, Third Edition -John Wiley & Sons, Inc. New York, 2002. 428 p.