Итоги первого этапа разработки он-лайнового археологического статистического пакета
Автор: Холюшкин Ю.П., Воронин В.Т., Костин В.С.
Журнал: Проблемы археологии, этнографии, антропологии Сибири и сопредельных территорий @paeas
Рубрика: Вопросы методики и организации исследований
Статья в выпуске: XIII, 2007 года.
Бесплатный доступ
Короткий адрес: https://sciup.org/14521400
IDR: 14521400
Текст статьи Итоги первого этапа разработки он-лайнового археологического статистического пакета
За более чем десятилетнюю историю в секторе археологической теории и информатики ИАЭт СО РАН было разработано несколько оригинальных методов анализа данных, учитывающих специфические особенности археологической информации. Применение этих методов отражено в многочисленных статьях и монографиях, написанных сотрудниками сектора. К сожалению, программные реализации этих методов сделаны в разные годы и представляют собой разношерстный “зоопарк”.
В последнее время появилась мысль объединить все разрозненные программные разработки в едином пакете и сделать их доступным более широкому кругу пользователей. Наиболее адекватным решением этой задачи, на наш взгляд, является создание Web-сайта, включающего подсистемы ввода/хранения данных, методов анализа данных и представления результатов.
Первый год работы потребовал значительных затрат на выявлении аналогов предполагаемой разработки. Выяснилось, что Международный рынок насчитывает более 1000 пакетов, решающих задачи статистического анализа данных в среде операционных систем Windows, DOS, OS/2. и все они являются локальными приложениями, к которым нет доступа из сети Интернет. Кроме того, статистические программы относятся к наукоемкому программному обеспечению, цена которых часто недоступна индивидуальному пользователю. Притом, все пакеты требуют наличие профессиональных навыков и высокой квалификации, широкого первоначального статистического образования, доступной литературы и консультационных служб. У большинства из них отсутствует подробная и доступная для начинающих документация на русском языке.
Поэтому на начальном этапе были сформулированы основные принципы построения нашей системы и вытекающие из них требования к пакету.
Одним из главных результатов реализации первого этапа проекта –раз-работка интерфейса пользователя и администратора системы, встроенных в пакет. Разработка содержит следующие разделы:
Главная страница – описание Пакета и его сравнение с аналогами;
Анализ данных – раздел, в котором пользователь может проанализировать свои данные. В настоящее время для пользователей доступны следующие процедуры:
-
а ) ввод информации для ее последующего статистического анализа. Корректно вводимые данные должны соответствовать следующей структуре и формату представления:
-
– собственно данные, подлежащие процедурам анализа в формате таблиц MS Excel;
-
– формат (описание всех переменных с указанием типов);
-
– метки (расшифровка меток, используемых в данных).
Пример организации данных можно посмотреть в разделе Пример данных .
-
а) анализ связей. В пакете реализованы три метода анализа (дисперсионный, корреляционный и ХИ -квадрат ). Целью анализа связей является обнаружение взаимосвязей зависимостей между признаками. В статистике имеется множество критериев для проверки связей в данных. Но все они построены по одному принципу: в каждом критерии формулируется нулевая гипотеза, которая утверждает, что исследуемые признаки являются независимыми случайными величинами, связь между которыми если и проявляется, то исключительно в силу случайного совпадения.
В процедурах анализа связей проверка любого критерия начинается с вычисления своей статистики – величины, характеризующей степень отклонения от независимости. Поскольку археологические признаки могут быть измерены в любой из трёх шкал (номинальной, порядковой и количественной), то для каждого сочетания шкал надо применять свои критерии. Например, если обе переменные измерены в шкале наименований, то можно применять критерий ХИ -квадрат, если одна из них - номинальная, а другая – количественная, то можно пользоваться дисперсионным анализом, а если обе количественные, то подойдёт корреляция по Пирсона.
-
б) анализ структуры. В пакете в настоящее время реализованы два метода анализа структуры (метод k-средних и агломеративный метод иерархической классификации).
-
в) способ вывода результатов анализа. Существует два варианта отображения результатов: HTML-таблица и трёхмерная VRML-диаграмма. Для отображения VRML-диаграмм необходимо, чтобы на машине пользователя был установлен VRML-клиент (Cortona VRML). Ссылка для закачки данного плагина приведена на странице анализа данных.
Для полноценного пользования пакетом требуется регистрация пользователя. Алгоритм последующего поведения пользователя выглядит так.
После ввода данных пользователь выбирает метод, с помощью которого будет производиться анализ данных. При этом обязательное указание количества кластеров требует только метод k-средних. Для остальных методов это необязательно. Кроме того, пользователь выбирает один их двух способов вывода результатов анализа: HTML-таблица или трёхмерная VRML-диаграмма.
Пункт меню Сделать эти данные рабочими позволяет активизировать информацию пользователя, размещенную на странице сайта в таблице данных (поля Данные, Описание, Метки) . Эти данные будут занесены в системный буфер. При последующих обращениях в раздел Анализ данных повторно вводить эти же самые данные не требуется. Активация пункта меню Сделать эти данные рабочими может потребоваться, например, в тех случаях, если пользователь хочет проанализировать одни и те же данные на разных методах или с различным способом вывода результатов.
Время анализа зависит от объёма данных и от выбранного метода, но обычно не превышает 3-5 секунд.
На странице сайта Общедоступные данные (переход осуществляется нажатием соответствующей ссылки в главном меню) представлены данные и результаты анализа, которые пользователи посчитали интересными и (или) полезными для других пользователей системы. Данные добавляются только после проверки администратором на корректность.
Для зарегистрированных пользователей имеется доступ к процедуре Архив для хранения и обновления файлов с данными, когда-либо анализировавшимися пользователем. Для удобства поиска нужных архивных данных их названия состоят из двух частей: собственно название, под которым пользователь анализировал эти данные, и дата анализа. При нажатии на соответствующее название данные будут представлены в полноразмерном виде вместе с результатами анализа. Чтобы войти в собственный архив нужно ввести логин (имя, под которым Вы зарегистрировались) и пароль (выбранный при регистрации) и нажать кнопку Войти . Если логин и пароль правильные, то происходит автоматическое перемещение на главную страницу личного архива. В противном случае система выдаст сообщение о неправильности логина или пароля и предложит повторно ввести логин и пароль.
При нажатии на кнопку выбранные данные удалятся из архива.
Кнопка позволяет отправить администратору запрос на добавление выбранных данных и результатов в раздел общедоступных. После одобрения администратором, эти данные попадут в раздел общедоступных данных.
Дополнительно к описанным разделам в пакете имеются следующие:
Пример данных – содержит примеры данных, которые можно просмотреть в полноразмерном виде и скачать на свой компьютер.
Информация о методах – содержит информацию о методах, с помощью которых можно проанализировать данные.
Отзывы и предложения – раздел, в котором пользователи могут оставлять сообщения. Ссылка на страницу отправки сообщений находится в правом нижнем углу каждой страницы приложения. Ссылка представлена в виде картинки - . Здесь в поле ФИО вводится фамилия, имя и отчество отправителя письма. В поле Имя пользователя вводится имя, под которым пользователь, отправляющий письмо, зарегистрирован в системе. В поле Ваш e-mail вводится обратный адрес электронной почты отправителя. В поле Текст письма вводится собственно текст сообщения электронной почты. Для отправки письма нужно нажать кнопку Отправить.
Помощь – интерактивное руководство пользователя системы.
Точки роста программы.
В дальнейшем в пакет будут встроены методы факторного анализа, дискриминантного анализа, многомерного шкалирования, а также новые методы кластерного анализа. Для расширения возможностей статистического пакета предполагается использовать также отдельные модули пакета PSPP, аналогичного по функциональности SPSS, но распространяемого бесплатно по соглашению “Open source”, которое предусматривает возможность использовать и модифицировать исходный код программы для включения в некоммерческие программные продукты. Кроме того, будут расширены виды представления результатов анализа, а именно: пошаговое исполнение как в HTML-варианте, VRML-диаграмме, а также дополнением представления данных методами картографии.