Классификация исторических документов по политическому признаку с помощью BERT: взаимодействие LLM с историческим доменом

Бесплатный доступ

На современном этапе изучения отечественной истории становятся особенно актуальны дискуссии о работе с большими массивами документов по истории конца XIX – начала XXI в. Сегодня активно идет процесс оцифровки архивных коллекций, но в большинстве случаев созданный корпус просто выставляется на сайт, и многие годы с ним никто не работает, так как нередко мы сталкиваемся с трудностями обработки всего массива материалов при обращении к фондам крупного социального института. Оцифрованные фонды могут содержать сотни тысяч листов делопроизводственной документации. Ограниченность временных возможностей одного человека не позволяет даже на уровне беглого чтения охватить все имеющиеся документы. Данную проблему хотя бы частично может решить применение LLM (large language models) для аннотирования или оптимизации текстового поиска. Однако на текущем этапе развития архивного дела специалисты только начинают работать с методами обработки естественного языка. И основной запрос профессионального сообщества состоит в изучении специфики работы моделей искусственного интеллекта и машинного обучения с текстами исторического домена. Данная работа представляет собой предварительное исследование взаимодействия современных LLM с историческими текстами. Для анализа были выбраны одна из наиболее популярных моделей – BERT – и одна из наиболее распространенных NLP-задач – классификация. Важной частью исследования стал анализ весов внимания модели при решении задачи классификации текстов и заполнения пропусков в предложениях. При таком подходе у нас появилась возможность проанализировать, как модель использует семантический контекст для принятия решения.

Еще

Классификация текстов, политическая история, искусственный интеллект, анализ механизмов внимания, машинное обучение, BERT, NLP

Короткий адрес: https://sciup.org/147250818

IDR: 147250818   |   DOI: 10.17072/2219-3111-2025-2-147-158

Статья научная