Цифровая герменевтика исторического источника: формализация как толкование

Бесплатный доступ

Статья посвящена осмыслению трансформации методологии исторической науки под влиянием «цифрового поворота», с фокусом на ключевую дисциплину ‒ источниковедение. Автор исследует, как стремительное развитие технологий искусственного интеллекта (ИИ), особенно машинного обучения, ставит перед исследователямиисториками новые вызовы и открывает возможности, требуя переосмысления традиционных практик работы с историческими источниками. Центральной проблемой статьи является процесс перехода от исторического источника к формализованным данным (например, путем цифровой герменевтики) и обратно к интерпретации и новому историческому знанию. Автор подчеркивает, что этот процесс не просто техническая операция, а глубоко методологический акт абстрагирования (на примере собранных исторических данных, capta), сопряженный с неизбежными потерями нюансов и требующий критической рефлексии. Рассматриваются методологические дилеммы исторического исследования, такие как противостояние источникоориентированного (ad fontes, стремление к максимальной полноте) и проблемноориентированного (ceteris paribus, фокус на избранных параметрах) подходов, их эволюция в цифровую эпоху и связанные с ними дискуссии. Критически анализируется «иллюзия объективности» цифровых методов. Автор утверждает, что алгоритмы, цифровые инструменты (СУБД, ГИС, NLP) и интерфейсы не нейтральны: они несут в себе предубеждения, ограничивают фокус, упрощают сложность и иногда даже предопределяют исследовательские вопросы, что порождает риски: предвзятость алгоритмов, селективность данных, влияние дизайна визуализаций и интерфейсов, некритичное принятие результатов ИИ. В качестве перспективного решения, преодолевающего ключевые ограничения генеративных моделей (галлюцинации, «черный ящик», оторванность от источников), в статье подробно рассматривается RAGподход (RetrievalAugmented Generation), показаны его преимущества для историка. Главный вывод статьи подчеркивает незаменимую роль историкаисследователя в эпоху ИИ. RAGсистемы и подобные инструменты выступают не как замена, а как мощные «цифровые лупы» или интеллектуальные ассистенты, берут на себя трудоемкие задачи поиска и первичной обработки данных, освобождая время историка для критической интерпретации, оценки достоверности источников, построения аргументации, формулировки исследовательских вопросов и создания нового исторического знания.

Еще

Данные, капта, герменевтика, формализация, историческая информатика, методология исторического исследования, цифровые гуманитарные исследования, цифровая история, RAG

Короткий адрес: https://sciup.org/147250814

IDR: 147250814   |   DOI: 10.17072/2219-3111-2025-2-87-100

Текст научной статьи Цифровая герменевтика исторического источника: формализация как толкование

avOpronov, Фгр1, ZnT®.

AioYevnQ о Kvvikoq [Aioyevqg Лаертюд VI:41]

Ищу человека.

Диоген Синопский [Диоген Лаэртский V:41]

Мир науки никогда не будет прежним. Кажется, что мы говорим так слишком часто. Но успехи машинного обучения середины 2020-х гг. изумляют, пугают и вдохновляют одновременно. Как найти место для ученого-исследователя, вокруг которого ошеломительно быстро развиваются технологии искусственного интеллекта, рассмотрим на примере классического и, уверен, принципиально важного для любого историка предмета ‒ источниковедения. Источниковедение неслучайно оказывается в центре внимания дискуссий о «цифровом повороте» в исторических исследованиях, потому что именно на основе источниковедения строится современная методология превращения исторических наблюдений в исторические данные. Исторические данные ‒ представление сведений с исторической датировкой (или собранных за определенный период) в формализованном виде, пригодном для передачи, интерпретации или обработки людьми или компьютерами ‒ оказываются основой для задач и решений машинного обучения. Теоретическое источниковедение особое внимание уделяет носителю исторической информации, источник - посредник, medium, средство коммуникации исторической информации ‒ позволяет делать ученому опосредованные систематические наблюдения о прошлом, являющиеся основой научного исторического исследования.

Источниковедение сегодня главная методологическая основа исторического знания. Именно понимание источника как главной опоры для сбора исторических данных и наблюдений отличает историка в современном хоре цифровых гуманитарных наук. Как справедливо отметил С. О. Шмидт, «источниковедение возникло из практики» [ Шмидт , 1997, с. 23]. Причем источниковед смотрит на источник в контексте современных источнику систем коммуникации, пытается расшифровать и оценить источник как с точки зрения его современников, так и «прочитать» его «свежими, и нынешними очами» [Там же, с. 46]. Следуя за правилами классических методик, практика исторического исследования в цифровую эпоху существенно меняется в инструментальном смысле. Историки постепенно овладевают навыками более проникновенного «прочтения» исторического источника, будь то мультиспектральная съемка или выявление скрытых связей путем сложной семантической разметки полнотекстовой базы данных. Соответственно, возникает то, что можно назвать более адекватным отражение содержания источников в познавательных образах [Там же]. Отметим, что сейчас не рассматриваем проблемы источниковедения цифровой эпохи. Источниковедение электронных исторических источников подробнейшим образом рассмотрено Ю. Ю. Юмашевой в пионерской монографии «Источниковедение информационной эпохи» [ Юмашева , 2024]. Самостоятельным сюжетом современных исследований является анализ взаимосвязей исторического знания и философской герменевтики [ Fairfield, 2025; Romele, 2020].

Одним из широко распространенных способов систематизации исторических наблюдений является их формализация с последующей фиксацией таких наблюдений в наборе данных, дата-сете. Фиксация наблюдений совсем не такой формальный процесс, она основывается на прочтении и толковании исследователя, зависит в том числе и от того, с каким вопросом историк приходит к источнику. Очевидно, что историк должен иметь представление о природе и особенностях исследуемых источников. Но в этом смысле природа источника не играет решающей роли, хотя с технологической точки зрения мы часто предполагаем, что цифровые копии исторических источников или источники, существующие в формате компьютерных файлов, должны легче поддаваться формализации и машинной обработке. На практике это оптимистическое ожидание совсем не всегда может оправдаться. И здесь уместно говорить про цифровую герменевтику как подход, позволяющий перевести наблюдение историка в машиночитаемый набор данных.

Цифровая герменевтика ‒ перевод наблюдений историка, полученных из исторических источников, в данные. Можно назвать эту процедуру абстрагированием; при этом с методической точки зрения это формализация. Данные ‒ это представление информации в формализованном виде, пригодном для передачи, связи или обработки людьми и машинами. Формализация может осуществляться разными способами: наблюдение может стать записью в базе данных, точкой с определенной координатой на карте, деталью объекта на трехмерной модели и т.д. Как отмечал К. Шёх, гуманитарные данные ‒ это цифровая, выборочно сконструированная, управляемая компьютером абстракция, представляющая некоторые аспекты определенного объекта гуманитарного исследования. «Независимо от того, являемся ли мы историками, использующими тексты или другие культурные артефакты как окна в другое время или другую культуру, или же мы литературоведы, использующие знания других времен и культур для построения смысла текстов, – утверждает К. Шёх, – цифровые данные добавляют еще один уровень посредничества в уравнение. Данные (а также инструменты, с помощью которых мы ими манипулируем) добавляют сложности в отношения между исследователями и их объектами изучения» [ Schöch , 2013, p. 3‒4].

Методически данные получаются путем абстрагирования, т.е. отвлечения от несущественных (для исследователя и текущего исследования) характеристик объекта с целью определить его основные свойства и признаки, что позволяет сформулировать абстрактные понятия и модели, которые должны помочь понять суть изучаемого явления. При этом наблюдения собираются в определенную коллекцию (датасет), собранные сведения можно назвать каптой (capta), или исследовательским «уловом» из изученных исторических источников, полнота и представительность которого требуют дополнительного доказательства (подробнее см. [ Володин , 2019; Drucker , 2011; Lavin , 2021]).

Абстрагирование предполагает отбрасывание конкретных особенностей опосредованно (т.е. через информацию исторического источника) наблюдаемого явления прошлого, позволяющее сосредоточиться на его основных и общих характеристиках. Исследователь оказывается в ситуации выбора: держаться за полноту и конкретность наблюдения (историки часто выступают против любой редукции, которая рассматривается как упрощение) или же конструировать модель явления прошлого, осознанно фокусируя внимание на определенных чертах изучаемого явления. Принцип первого подхода ‒ ad fontes (к источникам) ‒ предполагает сбор максимально большого количества сведений из источника (при этом, как нас учит теоретическое источниковедение, всех сведений мы не раздобудем, а источник останется неисчерпаемым, по И. Д. Ковальченко [ Ковальченко , 2003, с. 132]), именно так формулировалась цель источникоориентированного подхода, которую критиковал П. Доорн. Принцип второго подхода ‒ ceteris paribus (при прочих равных) ‒ основан на допущении, что исследователь должен отобрать интересные и важные черты и параметры явления прошлого, а все остальные параметры остаются постоянными или неизменными, но фактически находящимися за пределами исследовательского наблюдения. Принципы исторического моделирования представлены в фундаментальном исследовании «Моделирование исторических процессов: от реконструкции реальности к анализу альтернатив» [ Бородкин , 2016].

«Историк с самого начала попадает в странное положение, ‒ рассуждал Ю. М. Лотман, ‒ в других науках исследователь начинает с фактов, историк получает факты как итог определенного анализа, а не в качестве его исходной точки» [Лотман, 1994, с. 354]. Таким же образом обстоит ситуация и при сборе исторических данных. В отличие от многочисленных современных датасетов социальных и гуманитарных наук, собранных иногда автоматическим, а иногда коллективным путем, после чего собранные датасеты многократно используются для научных исследований, в истории данные, базы данных собираются обычно для конкретного исследования самим автором или небольшим авторским коллективом, что уже не первое десятилетие вызывает дискуссии вокруг повторного использования таких данных (подробнее см. [Володин, 2023]). Таким образом, создание датасета оказывается не только технологическим, но и методологическим решением, когда необходимо сформулировать основные свойства изучаемого явления, зафиксированные в исторических источниках, чтобы собрать их в цельную информационную модель [Цифровые гуманитарные исследования, 2023].

М. Таллер в одной из своих работ пишет: «Более формально, данные ‒ это отметки в некоторой репрезентативной системе, которые можно хранить. Информация возникает, когда эти отметки помещаются в некоторый контекст. Так, “22°” ‒ это данные. “Температура в этой комнате 22°” ‒ это информация. Знания возникают, когда эта информация сталкивается со способностью извлекать из нее советы для действий» [ Thaller , 2019, с. 161]. Историческое исследование опирается на исторические источники, из которых получает данные, которые необходимо связать для получения информации, и интерпретировать для получения знаний.

Соотношение реальности и баз знаний описывается по-разному. Весьма интересным подходом к этому вопросу является концептуальная эталонная модель CIDOC CRM, описывающую формальную онтологию, являющуюся теоретическим и практическим инструментом представления знаний и данных в области культурного наследия [Концептуальная эталонная модель…, 2024]. Никола Гуарино, один из разработчиков модели CIDOC, определяет формальную онтологию как спецификацию набора именованных понятий, используемых для описания и аппроксимации части реальности, к которой добавляется логическая теория первого порядка, сужающая предполагаемое значение названных понятий [ Guarino , 1998]. Материальная реальность с точки зрения онтологического описания рассматривается как все, что обладает субстанцией, которая может быть воспринята с помощью органов чувств или инструментов. Материальная реальность ограничена пространством и временем. То, что происходит в нашем сознании или создается нашим разумом, также рассматривается как часть материальной реальности, поскольку это становится очевидным для других людей, по крайней мере по нашим высказываниям, поведению и результатам деятельности. Смысл создания онтологии состоит в том, чтобы определить единицы описания, т.е. сущности и отношения, которые мы можем зафиксировать и на которые мы можем сослаться, чтобы различать части реальности [Концептуальная эталонная модель…, 2024, c. 37‒38]. Получается, что формальные наблюдения, которые становятся основой современных баз данных и датасетов, являются результатом абстракции свойств наблюдаемого целостного исторического источника.

Цифровой поворот в мировой историографии ускорил производство таких абстракций, которыми как раз и оперируют разнообразные исторические датасеты, и описывают многочисленные стандарты описания данных и метаданных (включая уже рассмотренный пример CIDOC, от классических MARC и Дублинского ядра до Schema и WikiData). Причем в случае исторического исследования опосредованные наблюдения, полученные из исторического источника, разделяются на метаданные (в классическом источниковедении часто они описываются как внешняя критика) и собственно данные (сведения, полученные путем внутренней критики).

При этом следует учитывать различение источнико-ориентированного и проблемноориентированного подходов в исторических исследованиях. Если в первом случае речь идет и максимально полном переносе информации исторического источника в базу данных (иногда такой результат даже описывается как создание самостоятельного вторичного источника), то во втором случае предполагается создание базы данных как средства систематизации исследовательского материала для последующих запросов и обработки формализованных наблюдений (база данных становится инструментом для решения конкретно-исторической проблемы, встречается понятие «историко-ориентированные информационные системы» [Корниенко и др., 2021]). Концепция источнико-ориентированного подхода относится к рубежу 1980–1990-х гг., когда интерес к теории и практике создания баз данных на основе материалов исторических источников был высоким. Автором этого подхода стал М. Таллер, который в 1987 г. сформулировал тезис о фундаментальном различии между обработкой информации исторических источников и обработкой данных в других науках, в том числе между источнико-ориентированным и проблемно-ориентированным подходами или способами использования компьютера в историческом исследовании [Таллер, 1993]. Таллер также доказывал, что опыт квантификации исторических наблюдений показал ограниченную применимость статистики к решению проблемы «размытых» исторических данных. Например, в предисловии к инструкции по использованию созданной для таких целей системе управления базами данных Κλειώ уточнялось, что «исторические науки, ввиду специфики данных, с которыми они главным образом работают, представляют такие требования к гибкости структуры данных, которые не могут быть выполнены в короткие сроки коммерческими программами», «с точки зрения дальнейшего развития науки сказываются к тому же возрастающие особенности исторических данных (общая неотчетливость информации исторических источников, их сильная чувствительность к контексту и т.д.), решение которых также не приходится ожидать долгое время ни от кого, кроме заинтересованных в этих проблемах исторических наук» [Таллер, 1995, c. III]. Сегодня программное обеспечение пошло по пути применения общих как коммерческих, так и открытых решений. Тем не менее задачи оптимизации имеющихся программ для нужд исторических исследований стоят весьма остро (в том числе при создании специализированных больших языковых моделей, учитывающих исторический контекст и способных к алгоритмической проверке фактов).

Таким образом, при источнико-ориентированном подходе в исторических исследованиях необходимо максимально полно сформулировать весь перечень наблюдений как внешней, так и внутренней критики исторического источника, чтобы постараться не упустить ничего важного (как показывает практика, это фактически невозможно, и в дальнейшем, на следующем шаге вслед за пионерскими исследованиями ученые начинают обращать внимание на упущения прошлых наблюдений). При проблемно-ориентированном подходе в исторических исследованиях необходимо сформулировать исследовательские вопросы, которые уже будут складываться с систему наблюдений, заносимых в соответствующие информационные поля.

Основные постулаты применения технологий баз данных в исторических исследованиях появились еще в середине 1990-х гг. Ключевым исследованием в этой области была монография И. М. Гарсковой «Базы и банки данных в исторических исследованиях» [ Гарскова , 1994]. К тому же времени относится и начало жаркой дискуссии, к которой в размышлениях о формализации исторических наблюдений мы возвращаемся и 30 лет спустя. Речь о докладе нидерландского исследователя П. Доорна «Я и моя база данных: движение к концу направления “История и компьютинг”», прозвучавшем в 1994 г. [ Доорн , 1995]. Доорн сформулировал следующие проблемы компьютеризации исторической науки: обратил внимание на преобладание технической работы над аналитической, упрекнул в низком уровне методологической сложности работы с данными, отметил маргинализацию компьютеризованных результатов в академическом сообществе, указал на неудачу источнико-ориентированного подхода с акцентом на создание баз данных как самоцели, сделал прогноз о необходимости переориентации на междисциплинарные подходы и поиск целей с научно значимыми результатами. Критика Доорна сыграла роль катализатора: современная историческая информатика активно сочетает технические возможности с глубоким содержательным анализом исторических источников. Подробно содержание дискуссии и ее роль в развитии исторической информатики представлены в фундаментальной монографии «Историческая информатика. Эволюция междисциплинарного направления» [ Гарскова , 2018].

М. М. Кром приводит находчивое различение метода от подхода, использующегося в историческом исследовании [Кром, 2015, с. 127]. Так, метод легко описывается как последовательность операций и воспроизводится, сохраняет безличность и анонимность, свободен от какой-либо идеологии или мировоззрения, существует длительное время, слабо подвержен научной моде, не связан с каким-то одним научным направлением. В таком смысле формализация при создании баз данных оказывается устойчивым методом абстракции свойств от объектов реальности, в том числе и исторических источников. Однако сложности формализации исторических (шире ‒ гуманитарных) наблюдений остаются на повестке дня. В качестве примера можно привести иллюстрацию методологического «моста» из монографии Modelling Between Digital and Humanities [Ciula et al., 2023, p. 2], который символизирует взаимодействие между цифровыми методами и гуманитарными науками, подчеркивая их принципиальные различия и необходимость методической интеграции. Авторы отмечают ключевые противоположности между цифровым (digital) представлением знаний ‒ формальным, структурированным, основанным на правилах ‒ и гуманитарным (humanities) ‒ аналоговым, непрерывным, нюансированным, герменевтическим. Взаимодействие этих двух подходов как раз создает методологиче- ское напряжение и отражает существующие эпистемологические противоречия. Метафора моста соединяет два «берега», символизируя моделирование как инструмент преодоления разрыва между гуманитарным и цифровым, подчеркивается модульность и гибкость используемых сейчас моделей, которые могут сочетать структуру (цифровое) с творчеством (гуманитарное). При этом мост стоит на «изменяющейся почве», что указывает на нестабильность и динамичность взаимодействия между разными гуманитарными дисциплинами, потому что сегодня вполне заметны сложности в создании устойчивых методологических связей из-за различий в методах и целях наблюдений. Основная идея авторов достаточно проста: моделирование выступает как посредник, позволяющий перекинуть мост между точностью цифровых инструментов и интерпретативной глубиной гуманитарных наук. Однако этот процесс требует баланса между жесткими, строгими структурами и гибкостью, иногда противоречивостью, которая порождает творческое напряжение. Такая метафорическая иллюстрация взаимодействия призывает к осознанному диалогу, где различия становятся ресурсом, а не барьером для инноваций.

Рассуждая о герменевтике как искусстве правильного понимания чужой речи Ф. Шлей-ермахер справедливо отмечал, что «работать на понимание без осознавания (правил) и прибегать к ним только в единичных случаях значит действовать непоследовательно» [ Шлейермахер , 1994, с. 42]. Именно он сформулировал идею герменевтического круга как принципа толкования, основанного на диалектике части и целого. При этом важной составляющего этого круговорота смыслов является именно человек с его видением или точкой зрения. «Неизбежное движение по кругу, – как писал Г.-Г. Гадамер, – именно в том и состоит, что за попыткой прочесть и намерением понять нечто “вот тут” написанное “стоят” собственные наши глаза (и собственные наши мысли), коими мы это “вот” видим» [ Гадамер , 1991, c. 18].

Как замечают коллеги из Центра цифровой истории в Университете Люксембурга, сегодня происходит «лабораторный поворот», когда от привычных научных центров, благодаря успехам технологий коммуникаций, цифровые гуманитарные исследования оказываются основой для создания концептуальных лабораторий, основанных на новых формах мышления, коммуникации и обучения [ Fickers , Tatarinov , 2022, p. 1‒22]. Появляются своеобразные «зоны обмена» ( trading zone ) как пространство взаимодействия между разными эпистемическими культурами, где встречаются историки, специалисты в информационных технологиях, филологи, философы. Такая концепция происходит из рассуждений П. Галисона о координации убеждений и действий [ Галисон , 2004]. Смысл таких действий ‒ в преодолении дисциплинарных барьеров через общий язык и договоренности о принципах междисциплинарности.

В таком варианте пересекающихся «зон обмена» цифровая герменевтика рассматривает такие проблемы, как критическая рефлексия над влиянием цифровых инструментов на исторические исследования, а значит, включает анализ алгоритмов, интерфейсов, визуализации данных и их роли в интерпретации прошлого. С практической точки зрения актуальным становится сочетание цифровой грамотности и критического мышления. Несмотря на успехи исторической информатики в России и цифровой истории в мире, цифровые технологии еще можно считать зоной эксперимента в исторических исследованиях (здесь идет речь и о компьютеризованном анализе текстов, и о географических информационных системах, и о примерах компьютерного моделирования). Но размышления о методе сегодня концентрируются над процессами перехода от «источников» к «данным» и затем обратно. Такое развитие требует коллаборации между дисциплинами с разными эпистемическими традициями, когда снимается конфликт между количественными и качественными методами, а смешанные методы позволяют подбирать необходимую сборку методов под конкретную историческую задачу. Также необходимым условием развития можно считать преодоление терминологических различий, например, между базовым для исследователей историков понятием «источники» и базовым для специалистов в области информационных технологий понятием «данные».

Цифровая герменевтика ‒ это не только теория, но и практика thinkering (сочетание мышления и экспериментов), требующая постоянной рефлексии над тем, как технологии формируют наше понимание прошлого [Fickers, van der Heijden, 2020]. Таким образом, возникают разные стратегии критики «цифрового» в самом широком смысле этого слова. Внимание кри- тического подхода направлено прежде всего на преодоление иллюзии «объективности» цифровых методов. Иллюзия «объективности» цифровых методов заключается в ошибочном восприятии технологий как нейтральных и беспристрастных инструментов, тогда как на деле они подвержены влиянию человеческих предубеждений, методологических ограничений и контекстуальных искажений. Такие убеждения можно назвать мифом о «технической нейтральности». Цифровые методы часто воспринимаются как «объективные» из-за их технической природы, хотя они встроены в социальные и культурные контексты (например, см. [Дастон, Галисон, 2018]). Так, использование больших данных в истории может создавать иллюзию «истины в числах», при этом игнорируются качественные аспекты развития. Цифровая герменевтика требует рефлексии над тем, как именно используемые инструменты (пере)формулируют исследовательские вопросы.

Одним из путей развития цифровой герменевтики является мультимодальная грамотность ‒ способность понимать, интерпретировать и создавать информацию, используя различные формы представления данных (модальности), такие как текст, изображения, звук, видео, карты, 3D-модели и интерактивные интерфейсы. В контексте цифровой истории она подразумевает умение работать с разнообразными историческими источниками и инструментами, критически анализируя, как разные медиа влияют на восприятие и интерпретацию информации. Мультимодальная грамотность ‒ это не просто технический навык, а критическое мышление, позволяющее историкам адаптироваться к цифровой эпохе, работать с разнообразными источниками и создавать многомерные интерпретации прошлого. Как образно отмечают коллеги, мультимодальная грамотность становится ключевым элементом «цифровой кухни» исследователя, где «сырые данные» превращаются в «приготовленные знания» через эксперименты и рефлексию [ Fickers , Tatarinov , 2022, p. 16].

Сегодня данные часто «готовят» для исследователей специальные алгоритмы, к которым относят и большие языковые модели (LLM), и генеративные предобученные трансформеры

(GPT). Речь уже идет не только о применении известных сервисов (GPT, DeepSeek, GigaChat, YandexGPT и др.), сколько о построении таких моделей под собственные исследовательские нужды. Например, в книге Себастьяна Рашки Build a Large Language Model From Scratch представлено пошаговое руководство по созданию GPT-подобных больших языковых моделей (LLM) с нуля [ Raschka , 2024]. Автор делает акцент на понимание архитектуры трансформеров и их практическую реализацию, последовательно разбирает этапы разработки LLM ‒ от подготовки данных (токенизация через BPE, создание эмбеддингов, позиционное кодирование) и реализации механизмов внимания (self-attention, каузальные маски, multi-head attention) до сборки полноценной модели с трансформерными блоками, остаточными связями и слоевой нормализацией. Особое внимание уделяется предобучению на больших текстовых корпусах через задачу предсказания следующего токена, а также тонкой настройке под конкретные задачи, такие как классификация наблюдений или генерация инструкций. Книга сочетает теорию с практикой, предлагая примеры кода на PyTorch, упражнения и советы по оптимизации вычислительных ресурсов, что делает ее ценным ресурсом для разработчиков и исследователей, желающих глубоко понять внутреннюю работу современных LLM и создать свою модель, начиная с базовых компонентов и заканчивая интеграцией предобученных весов, как в известных коммерческих моделях GPT-2/3.

Важным направлением в улучшении качества результатов машинного обучения сегодня является построение исследовательских процессов на основе генерации, дополненной поиском (так называемый RAG-подход, Retrieval-Augmented Generation ). Такой метод позволяет моделям генеративного искусственного интеллекта извлекать из баз данных или корпусов текстов информацию и включать извлеченную информацию в свои расчеты. Он изменяет принципы взаимодействия с большой языковой моделью (LLM), потому что она начинает отвечать на запросы пользователя уже с прямой ссылкой на указанный набор документов, используя эту информацию для дополнения информации из своих уже обработанных данных обучения. Это позволяет языковой модели использовать данные из конкретного объема исторических источников. Варианты такого использования включают предоставление, например, чат-боту доступа к собранным исследователем данным, а вывод будет основываться на отобранных им массивах данных (хотя и такой подход полностью не гарантирует отсутствия «галлюцинаций» у модели; под «галлюцинациями» обычно понимают такую выдачу модели, которая не имеет смысла или не соответствует действительности). Рассмотрим этот подход подробнее.

Технология генерации, дополненная поисковой информацией (RAG), может стать мощным инструментом в руках историка, работающего с методами машинного обучения, решительно преодолевая ключевые ограничения «чистых» генеративных моделей (генеративных предобученных трансформеров и больших языковых моделей) и усиливая их сильные стороны в контексте исторических исследований. Перечислим отличительные черты RAG-подхода.

Во-первых, он позволяет успешно бороться с так называемыми «галлюцинациями» языковых моделей, а вместе с этим дает шанс повысить фактическую точность выдачи чат-ботов. Стандартные большие языковые модели, обученные на обширных, но часто неспециализированных и потенциально содержащих многочисленные ошибки данных, склонны «галлюцинировать», т.е. генерировать правдоподобно звучащие, но фактически неверные утверждения (в исторических запросах такой материал встречается часто ‒ условные даты, неточные имена, недостоверные события, выдуманные монографии, ошибочные интерпретации). Для историка такие действия алгоритма часто означают одно: таким алгоритмом пользоваться нельзя. RAG-подход может быть решением в таком случае, потому что перед генерацией ответа система извлекает данные из проверенных исторических источников (из подготовленного датасета). И генеративная модель основывает свой вывод строго на этой извлеченной информации. Эта возможность важнее, чем может показаться, потому что, по сути, такой подход позволяет обучить модель на данных, отражающих конкретный исторический период, тогда как большие языковые модели обычно лишены темпоральности и склонны к методологическому презентиз-му, так как основаны на современных интернет-источниках. В результате значительно снижается риск выдумывания фактов, ответы становятся надежно «заземленными» в реальных исторических источниках и научной литературе. Конечно, для этого необходимо тщательно подходить к отбору обучающих материалов.

Во-вторых, RAG-подход обеспечивает большую прозрачность результатов и повышает возможности для верификации полученных ответов. Большие языковые модели ‒ это «черный ящик», когда историк не может понять, на основании каких именно данных модель пришла к тому или иному выводу, что критически важно для научной строгости. (Заметим, что существуют исключения: например, модель Perplexity Pro, позволяющая получить доступ к источникам генерации.) Ключевая особенность RAG-подхода ‒возможность показать источники, использованные для генерации ответа. Система может предоставить историку конкретные фрагменты текста из оцифрованных архивов, датасетов, статей, на которых основан ответ, приводятся ссылки на документы или публикации. Таким образом, историк получает возможность проверить обоснованность вывода, свериться с первоисточником, оценить контекст извлеченной информации, что критически важно для методологии и построения аргументации.

В-третьих, RAG-подход позволяет работать со специализированными данными. Исторические исследования часто фокусируются на узких темах, редких событиях, специфических коллекциях документов, просто не отраженных в общем обучающем корпусе больших языковых моделей. По этой причине традиционные модели плохо справляются с такими запросами. Историк может настроить базу знаний для поиска под свою конкретную задачу, чтобы решить эту задачу. Таким датасетом может быть любой подготовленный набор данных, например, оцифрованный личный архив изучаемой персоны, или коллекция писем или дневников определенного периода или региона, специализированная база данных по экономической истории, корпус научных работ по конкретной историографической проблеме. В итоге модель получает доступ к узкоспециализированной, актуальной информации, которой нет (и часто не могло быть) в ее общей памяти модели, позволяя историку задавать сложные, контекстно-зависимые вопросы по собственному уникальному материалу.

Запросы историка часто требуют сложного анализа в конкретном информационном контексте. Простые ответы больших языковых моделей могут быть поверхностными и упускать важные нюансы. Извлекая релевантные фрагменты из отобранных исторических источников, RAG-подход предоставляет генеративной модели богатый, специфический контекст. Модель не полагается только на свои обобщенные знания, а синтезирует ответ, глубоко интегрируя извлеченную информацию. Следовательно, генерируемые выводы или обобщенные наблюдения становятся более глубокими, нюансированными и релевантными конкретному историческому контексту, поставленной задаче и используемым источникам. Например, RAG-подход может помочь сравнить точки зрения разных историков на событие, извлекая соответствующие фрагменты из их работ.

С эвристической точки зрения ручной поиск информации в больших оцифрованных архивах весьма трудоемок, а формулировка сложных поисковых запросов для традиционных систем может быть затруднительна. Возможное подспорье ‒ если историк сможет вести диалог с RAG-системой. В таком диалоге человека с машиной историк сможет задавать уточняющие вопросы по извлеченной информации, просить сравнить информацию из разных извлеченных источников, запрашивать резюме группы релевантных документов по теме на основе найденных данных. Получается, что RAG-система выступает в роли интеллектуального ассистента, позволяющего ему интерактивно и эффективно исследовать массив отобранных исторических источников, формулируя запросы на естественном языке и получая осмысленные, основанные на данных ответы, что ускоряет и обогащает процесс анализа.

Важно подчеркнуть, что RAG-система ‒ это не замена исследователя, а удобный усилитель его возможностей. Как в свое время электронные таблицы или системы управления базами данных существенно усилили возможности исследователей в расчетах и выявлении взаимосвязей и поиске скрытых взаимосвязей, так и RAG-системы позволяют использовать новые и сильные возможности генеративных предобученных трансформеров, но с опорой на комплексы исторических данных с возможностью избежать классических «галлюцинаций» больших языковых моделей. Таким образом, исследователь сможет больше доверять выводам искусственного интеллекта благодаря привязке к источникам и возможностям верификации сгенерированного контента, фокусироваться на уникальных, специализированных коллекциях данных, а вместе с тем и понимать, почему система выдала тот или иной ответ. RAG-подход позволяет углублять исторический анализ за счет интеграции релевантного контекста из исторических источников. Он помогает преодолеть главные опасения историков при работе с искусственным интеллектом ‒ неточность ответов, «черный ящик» алгоритмов, оторванность от исходных источников. Данный подход позволяет раскрыть истинный потенциал машинного обучения для анализа исторических данных, делая взаимодействие с искусственным интеллектом безопасным, прозрачным и научно обоснованным.

Тем не менее важно подчеркнуть незаменимость историка-исследователя. Внедрение RAG-подхода (как и любого другого ИИ-инструмента) в историческую науку принципиально не заменяет историка, а усиливает его возможности, становясь интеллектуальным ассистентом исследователя. RAG-система может отлично находить, например, релевантные фрагменты текста по запросу к огромной коллекции исторических источников. Но понимание смысла этих фрагментов, их культурного, социального, политического и временного контекста пока лежит за пределами возможностей искусственного интеллекта. Историк интерпретирует нюансы языка, подтекст, иронию, пропаганду, личные мотивы автора источника ‒ все то, что требует глубокого понимания человеческой природы и исторической эпохи. RAG-подход предоставляет «кирпичики» (например, текстовые фрагменты), но здание смысла (нарратив и аргументацию) строит историк.

Самая ценная часть научной работы ‒ формулировка исследовательских вопросов. Какие проблемы важны? Какие гипотезы стоит проверить? Какую точку зрения стоит использовать? Все это требует научной интуиции, знания историографии, понимания белых пятен в науке и творческого подхода. RAG-системы реагируют на запросы пользователя. Это мощный инструмент для поиска ответов, но не для формулировки значимых вопросов. Инициатива в постановке значимых, новаторских, методологически обоснованных вопросов целиком принадлежит историку.

RAG-подход и лежащие в его основе методы машинного обучения могут выявлять статистические закономерности, корреляции, кластеры. Но объяснение, почему эти паттерны возникли, каковы их исторические причины и долгосрочные последствия, в чем их культурное или социальное значение, ‒ это сфера исторической интерпретации. Историк выходит за рамки констатации факта к объяснению. RAG-системы помогают увидеть паттерны, а историк может их объяснить. RAG-подход эффективен только в рамках той базы знаний (оцифрованных исторических источников, научной литературы), на основе которой он работает. Критическая оценка репрезентативности, полноты и системных ошибок самой этой базы знаний ‒ задача историка. Он понимает, почему одни документы сохранились, а другие нет, чьи голоса представлены в архивах, а чьи замалчиваются, осознает эпистемологические ограничения доступного корпуса данных. RAG не может самостоятельно оценить границы и предвзятость источника.

RAG может суммировать информацию, компилировать данные из разных источников, но создание нового исторического знания, построение убедительного, доказательного и осмысленного исторического нарратива, вписывающегося в контекст современной историографии, ‒ это интеллектуальный акт творчества и синтеза, доступный только человеку-исследователю. RAG ‒ инструмент в его руках, но не соавтор научного открытия или монографии. Историк берет на себя ответственность за свои выводы и интерпретации.

Образно говоря, RAG-система ‒ это «цифровая лупа» современного историка. Она берет на себя трудоемкие задачи поиска, первичной обработки и структурирования огромных массивов информации, предоставляя отфильтрованный, релевантный запросу и верифицируемый материал. Такой инструмент освобождает драгоценное время и когнитивные ресурсы исследователя для главного ‒ критического анализа, глубокой интерпретации, формирования суждений, построения аргументации и создания нового исторического знания. RAG-подход расширяет масштаб и эффективность работы историка, но не заменяет его экспертизу, критическое мышление, творческую интерпретацию и научную ответственность. Он становится помощником, ассистентом и усилителем человеческого интеллекта в эпоху цифровой истории.

Цифровая герменевтика, вооруженная современными технологическими решениями, позволяет историку обращаться ко все большему числу исторических источников. Путь от историче- ского источника через формализацию данных к новому знанию напоминает работу реставратора. Цифровые инструменты, подобно современным микроскопам и спектрографам, дают беспрецедентную детализацию, выявляют скрытые слои и связи, позволяют «очистить» источники от наслоений времени. Технология генерации, дополненная поисковой информацией, действует как интеллектуальный пинцет, бережно извлекающий нужные фрагменты мозаики прошлого из гигантского массива. Но сам акт интерпретации – восстановление целостной картины, понимание замысла и, главное, осмысление восстановленного – остается исключительной прерогативой историка, реставратора прошлого в данных. Цифровая герменевтика предоставляет инструменты невиданной точности, но не отменяет необходимости человеческого взгляда, способного отличить подлинный шедевр от искусной подделки времени или алгоритма.

Статья научная