Применение искусственного интеллекта в поиске по патентной и технической литературе
Автор: Горбунов А.В., Генин Б.Л., Золкин Д.С.
Журнал: Культура: теория и практика @theoryofculture
Рубрика: Информационная инфраструктура цифровой экономики
Статья в выпуске: 2 (41), 2021 года.
Бесплатный доступ
Рассматривается новое направление исследований в патентном поиске - автоматический поиск «похожих» патентных документов, поиск документов, характеризующих уровень техники в конкретной предметной области, в задачах экспертизы изобретений и полезных моделей. Описан новый критерий качества патентного поиска для целей экспертизы. Приведены первые результаты поиска похожих с использованием методов и средств искусственного интеллекта, полученные авторами для поиска по массивам патентных документов на русском языке. Предложены направления развития использованных методов для поиска в англоязычных массивах, и в перспективе для многоязычного поиска, а также для некоторых сценариев поиска в научно-технической литературе.
Патентный поиск, поиск
Короткий адрес: https://sciup.org/144161566
IDR: 144161566
Текст научной статьи Применение искусственного интеллекта в поиске по патентной и технической литературе
ИНФОРМАЦИОННАЯ ИНФРАСТРУКТУРА ЦИФРОВОЙ ЭКОНОМИКИ. ГОРБУНОВ А.В., ГЕНИН Б.Л., ЗОЛКИН Д.С. ПРИМЕНЕНИЕ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА В ПОИСКЕ ПО ПАТЕНТНОЙ И ТЕХНИЧЕСКОЙ ЛИТЕРАТУРЕ
Современный этап совершенствования деятельности при решении многих задач часто определяют термином "Цифровая трансформация". Рассмотрим, что же такое "Цифровая трансформация" и чем она отличается от обычной автоматизации деятельности, на примере патентного ведомства. Обычная автоматизация деятельности направлена на повышение эффективности решения технических задач ведомства, то есть задач экспертизы заявок и регистрации прав. В отличие от автоматизации деятельности при решении технических задач, цифровая трансформация непосредственно направлена на решение основных стратегических задач ведомства - повышение изобретательской активности и активизация вовлечения инноваций в экономику. Цифровая трансформация - это возможность на новом, более высоком уровне автоматизации решать более сложные стратегические задачи ведомства.
Ключевым субъектом решения этих задач является изобретатель. В наше время разработку важнейших объектов новой техники выполняют большие коллективы специалистов, но по-прежнему ключевая идея новой разработки, определяющая «изобретательский уровень», рождается как результат интеллектуальной деятельности отдельного человека или небольшой группы лиц. Чтобы повысить изобретательскую активность нужно в первую очередь создать комфортную среду для изобретателя, обеспечивающую подачу заявки на изобретение с минимальной трудоемкостью, с минимальными затратами времени, труда и финансовых ресурсов. Эти задачи всегда считались важными задачами патентного ведомства, но только сейчас в наше время цифровой трансформации появились новые возможности эффективного решения этих задач на новом уровне с использованием новых современных средств.
В любой современной системе патентного поиска необходимо разрешить противоречие между необходимостью обеспечить наименее затратный с точки зрения времени эксперта поиск в огромных массивах патентной и непатентной информации и высоким качеством проведения поиска по патентной заявке. В настоящее время широко применяемым при проведении автоматического информационного поиска в патентных ведомствах всего мира является следующий алгоритм: извлечение из поданной заявки ключевых слов, классификация технического решения и проведение поиска по информационным ресурсам на данной основе. Дополнительным расширением такого алгоритма является не просто извлечение ключевых слов, но и подбор синонимов к ним и поиск с их участием.
Наиболее многообещающими, по мнению ряда авторов и по мнению авторов настоящей статьи, являются методики, основанные на использовании новых подходов к поиску «похожих» документов (similarity search) с использованием методов искусственного интеллекта [2].
В последние годы подобная функциональность появилась во многих известных системах патентного поиска, в качестве примера можно упомянуть такие известные проекты, как Google Patent Similarity Search, Questel Similarity Search, Automatic preliminary search ЕПВ, Yandex Patent.
Во внутренней системе патентного поиска Роспатента для экспертизы изобретений и полезных моделей также реализована и развивается возможность поиска «похожих» документов, то есть автоматический поиск семантически близких патентов.
Развитие и совершенствование функциональности поиска «похожих» документов в поисковой система Роспатента в существенной мере опирается на разработанные авторами критерии качества автоматического поиска, ориентированные на решение задач поиска при экспертизе заявок на изобретения, что позволило упорядочить и повысить эффективность исследований в области поиска и, в частности, в области использования искусственного интеллекта в поиске.
В соответствии со Стандартом термины релевантность и пертинентность означают:
-
• - релевантность; релевантный: Соответствие полученной информации информационному запросу;
-
• - пертинентность; пертинентный: Соответствие полученной информации информационной потребности.
Иными словами, релевантность - это соответствие результатов поиска поисковому запросу, текст найденного документа должен содержать термины поискового запроса.
Другая характеристика эффективности поиска, пертинентность - это степень удовлетворенности пользователя результатами поиска.
В последние годы термин пертинентность редко употребляется в работах по развитию информационных технологий, хотя в современных информационно-поисковых системах понятие релевантность уже постоянно трактуется расширительно, как смысловое (семантическое) соответствие запроса и результатов поиска.
Патентный поиск — это очень специфическая область информационного поиска. Мы здесь сконцентрируем внимание на еще более специфической части задач патентного поиска - поиск для целей экспертизы заявок на изобретения и полезные модели, а именно, поиск патентных документов, характеризующих уровень техники в предметной области заявки.
Такой поиск часто называется в технической литературе “similarity search” или по-русски - поиск “похожих”, хотя понятие похожести здесь понимается весьма своеобразно и расширительно.
С технической точки зрения такой поиск отличается от типичных задач веб-поиска тем, что в качестве некоего аналога поискового запроса используется заявка на изобретение. Именно заявка на изобретение в целом, а не только текст заявки, так как ряд известных систем используют для поиска “похожих” не только текст заявки, но и некоторые библиографические поля, характерные для патентных документов, такие как индексы патентной классификации, сведения о цитировании, сведения о принадлежности к семействам патентов - аналогов и некоторые другие.
С точки зрения оценки эффективности поиска такой патентный поиск “похожих” характерен тем, что нам заранее известна задача пользователя, намерение пользователя, его информационная потребность, и нам нужно максимизировать оценку качества, то есть максимизировать пертинентность системы патентного поиска. Задача патентного поиска для целей экспертизы заявок на изобретения это поиск патентных документов, характеризующих уровень техники в предметной области заявки. А термин “патентные документы, характеризующие уровень техники”, означает документы, по сравнению с которыми экспертиза сможет оценить степень новизны предложенного в заявке технического решения, то есть документы, в которых описаны похожие технические решения.
Для таких сложных и не имеющих формального определения задач на сегодняшний день не существует детерминированных методов и алгоритмов решения. Однако уже сегодня можно успешно решать подобные задачи с использованием методов искусственного интеллекта. Напрашивается желание попытаться решить задачу патентного поиска, используя известные в технологии информационного поиска подходы с представлением методами машинного обучения искусственных нейронных сетей документов поискового массива векторами в некотором многомерном пространстве таким образом, чтобы близкие в этом пространстве вектора и соответствующие документы оказывались удовлетворительными по критерию качества поиска, по пертинентности.
У такого подхода в применении к патентному поиску есть две важные особенности. С одной стороны, в огромных массивах патентной информации имеется большое количество информации о ранее принятых экспертизой решений и ранее проведенных поисках по заявкам. Ни в какой другой области информационного поиска нет такого количества размеченных для машинного обучения положительных и отрицательных примеров.
Начиная работу по совершенствованию патентного поиска нужно определиться с формальными критериями оценки качества. Оценки качества поиска это большая тема, неплохо освещенная в литературе, например в [3].
Различных критериев оценки качества поиска много и целесообразность использования того или иного критерия зависит от решаемой задачи, от характеристик поискового массива, а также от индивидуальных предпочтений пользователя поисковой системы.
В данном исследовании нас интересует задача патентного поиска для экспертизы заявок на изобретения. Уточним задачу, как задачу поиска патентных документов, определяющих предшествующий уровень техники в предметной области заявки на изобретение.
Попробуем сформулировать продуктивное и достаточно корректное определение требования к качеству поиска патентных документов, определяющих предшествующий уровень техники в предметной области заявки на изобретение.
Сначала определим исходные положения для постановки задачи. Будем исходить из того, что вся исходная информация для поиска содержится в заявке, для экспертизы которой проводится поиск.
Теперь попробуем найти формально вычисляемый критерий, оптимизация которого позволит найти и “хорошее” решение задачи поиска патентных документов, определяющих предшествующий уровень техники в предметной области заявки на изобретение.
Хорошим будем считать решение, наиболее близкое в среднем к соответствующим ранее выполненным решениям экспертов. Это очень важный тезис, лежащий в основе настоящего исследования. Ниже мы подробно разъясним этот тезис.
Вернемся к нашей основной задаче, задаче поиска патентных документов, определяющих предшествующий уровень техники в предметной области заявки на изобретение. Очевидно, что качество результата поиска в первую очередь зависит от формулировки запроса на поиск и от стратегии поиска, то есть от итеративной последовательности запросов с их расширением/сужением, с изменением набора полей в запросе и т.д.. Соответственно современные системы патентного поиска представляют собой многофункциональные наборы инструментов классификационного, именного и словесного поиска. Эксперт выполняет сложную работу по поиску при экспертизе заявки комбинируя использование этих инструментов в рамках выбранной стратегии поиска.
Возникает естественное желание к обычному набору поисковых инструментов в системе патентного поиска добавить еще один инструмент – автоматический поиск «похожих» на рассматриваемую заявку патентных документов. Такие инструменты в последние годы появились во многих системах патентного поиска. Подход выглядит очень привлекательным, ведь вместо сложной и длительной работы по подготовке серии запросов, стратегии поиска с использованием разнообразных видов поиска здесь нужно просто дать команду «найти похожие» и система самостоятельно выполнит все промежуточные построения и выдаст результат поиска. При высококачественном автоматическом поиске «похожих» эксперту будет достаточно после этого провести сравнительный анализ заявки и документов, находящихся в начале отсортированного по релевантности списка результатов поиска.
Так как мы решили, что хорошим будем считать решение, наиболее близкое в среднем к соответствующим ранее выполненным решениям экспертов, то для проведения оценки выполним множество автоматических поисков «похожих» на патентные документы, для которых у нас есть отчеты о поиске, выполненные ранее экспертами. Затем сравним результаты поиска экспертами с результатами автоматического поиска. Чем в среднем ближе эти результаты, тем выше качество нашего автоматического поиска «похожих».
Это позволяет создавать и использовать для машинного обучения очень большие массивы патентных документов. В этом заключается принципиальное отличие фонда патентных документов от любых других массивов научно-технической информации и принципиальная возможность создания уникальных высокоэффективных систем автоматического патентного поиска на базе использования современных методов и средств искусственного интеллекта.
Укрупненная схема подхода, реализованного в PatSearch [1], включает следующие основные этапы:
-
• -по заявке на изобретение, поступившей на экспертизу, автоматически составляется расширенный терминологический перечень;
-
• - полученный терминологический перечень документа дополнительно обогащается семантически близкими квазисинонимами из предварительно построенного дистрибутивного тезауруса и конвертируется в структуру запроса на поиск;
-
• - выполняется поиск в базе данных системы с получением ранжированного по релевантности списка результатов поиска;
-
• - список результатов поиска переранжируется для лучшего соответствия поставленным целям, определяемым по формализованному критерию качества поиска.
PatSearch эксплуатируется в промышленном режиме, для широкой публики приложение доступно в патентной библиотеке (ВПТБ). При поиске предшествующего уровня техники по заявкам на изобретения в русскоязычной базе данных патентных документов система автоматически находит для заявок более 50% документов, которые впоследствии экспертиза указывает в качестве документов, определяющих уровень техники в данной области.
Отметим, что в этой систем е реализована и функциональность поиска на естественном языке. Эта функциональность позволяет в качестве документа-образца при поиске похожих использовать не только заявку на изобретение, как это было описано выше, но и например, фрагмент научно -технической статьи или технической документации. При этом система поиска похожих будет выполнять поиск документов, в которых рассматриваются подобные технические проблемы.
Сейчас в Роспатенте ведется разработка новой цифровой платформы патентного поиска, которая позволит развить описанные здесь и уже апробированные на русскоязычной базе данных подходы, на поиск в англоязычных массивах, а в перспективе и на многоязычный поиск.
Цифровая платформа, создаваемая в Роспатенте в рамках программы Цифровая экономика, содержит сервис патентного поиска, сервис поиска средств индивидуальности, сервис анализа патентной статистики. Совокупность этих сервисов позволяет удовлетворить в режиме омниканального взаимодействия потребности пользователей, как в поиске патентной информации, так и в решении задач управления интеллектуальной собственностью. При этом платформа предоставляет возможность размещения на платформе других, в том числе коммерческих, сервисов с бесплатным доступом к массивам государственного патентного фонда и с низким порогом вхождения в сферу информационно-аналитического обслуживания пользователей.
Представляется важным поиск "золотой середины" между публикацией сведений о решениях Роспатента по результатам экспертизы (с элементами информационного обслуживания) и развитым информационно -аналитическим обслуживанием широкого круга потребителей патентной информации.
Новые задачи системы электронной публикации патентного ведомства приводят к формулированию новых целей и новых требований к ведомственным системам публикации:
-
- предоставление широкому кругу заинтересованных лиц официальной информации о состоянии правовой охраны объектов интеллектуальной собственности;
-
- предоставление широкому кругу заинтересованных лиц возможностей эффективного поиска информации о состоянии правовой охраны объектов интеллектуальной собственности в интересующей их тематической области;
-
- информационное обеспечение и обслуживание заинтересованных лиц (как юридических, так и физических) информацией о состоянии и об изменениях в состоянии правовой охраны объектов интеллектуальной собственности в интересующей их тематической области;
-
- предоставление широкому кругу заинтересованных лиц аналитической информации о патентной активности и трендах ее развития в интересующей их тематической области;
-
- создание эргономичной среды поиска и обработки информации о состоянии правовой охраны объектов интеллектуальной собственности.
Указанные новые задачи системы официальных публикаций патентного ведомства направлены на «размывание» водораздела между ведомственной системой официальной публикации, все больше выполняющей функции системы патентно-информационного обслуживания, и классической патентной библиотекой. Однако, возникающие здесь проблемы и противоречия еще ждут своего осмысления. При этом авторы настоящей статьи придерживаются мнения, что функции библиотеки претерпевают изменения, но роль патентной библиотеки в организации эффективного функционирования системы патентно-информационного обслуживания заинтересованных лиц при этом только возрастает.
Список литературы Применение искусственного интеллекта в поиске по патентной и технической литературе
- Горбунов, А.В., Генин, Б.Л., Золкин Д.С., Киселев С.Л. (2018), "Опыт применения методов искусственного интеллекта для повышения качества поиска "сходных" документов в патентно-поисковой системе экспертизы изобретений", в сборнике: Роль интеллектуальной собственности в прорывном научно-техническом развитии общества, Федеральный институт промышленной собственности, Роспатент, Москва, 19-20 сентября 2018. - С. 17-19.
- Hasan, M., Spangler, W., Griffin, T. and Alba, A. (2009), COA: finding novel patents through test analysis, Proceedings of the 15th ACM SIGKDD international conference of Knowledge discovery and data mining, ACM, pp. 1175-1184. 10.1145 / 1557019.1557146 DOI: 10.1145/1557019.1557146
- Кураленок И.Е., Некрестьянов И.С. (2004), "Оценка систем текстового поиска", Программирование 28 (4): 226 242, Докторская диссертация, Системный анализ, управление и обработка информации, Санкт-Петербургский государственный университет, Санкт-Петербург, Россия.