Разработка модифицированного метода Winnowing для агрегирования данных библиографической информации из систем цитирования в условиях неполной информации

Автор: Болодурина Ирина Павловна, Иванова Луговскова Юлия Петровна, Анциферова Лариса Михайловна, Блинов Владислав Дмитриевич

Журнал: Вестник Южно-Уральского государственного университета. Серия: Компьютерные технологии, управление, радиоэлектроника @vestnik-susu-ctcr

Рубрика: Краткие сообщения

Статья в выпуске: 4 т.20, 2020 года.

Бесплатный доступ

В настоящее время переход к представлению библиографической информации о научных работах к электронному виду послужил причиной повышенного интереса к наукометрическим исследованиям. При этом существующие наукометрические методы подвергаются критике со стороны ученых, так как неполная библиографическая база и инструменты ее оценивания не позволяют наиболее точно оценить вклад научного труда. Проблема качества наукометрических оценок, как правило, основывается на исследовании данных некоторой системы цитирования, которая не включает полные сведения обо всех публикациях авторов, содержащихся в других системах цитирования. Цель исследования. Данное исследование направлено на разработку адаптивного подхода для формирования агрегированных данных библиографической информации научной организации в условиях неполной информации из систем цитирования РИНЦ, «Академия Google» и Scopus. Методы. Определение агрегированного списка публикаций для анализа наукометрических показателей проведено методом Winnowing, алгоритмом Левенштейна, методом шинглов и Джаро - Винклера. В рамках экспериментального исследования проведена оценка эффективности применения рассмотренных методов для агрегирования информации систем цитировния на основе анализа точности, полноты и F-меры. Результаты. Эксперименты на тестовых данных списка публикаций авторов Оренбургского государственного университета из систем цитирования РИНЦ, «Академия Google» и Scopus показали, что наиболее точные списки публикаций по критерию F-меры сформировал метод Winnowing. Для повышения производительности данного алгоритма проведена двухэтапная оптимизация процесса агрегирования, которая позволила улучшить время работы алгоритма при формировании списка библиографических описаний. Заключение. Предложенный подход для формирования агрегированных данных библиографической информации научной организации в условиях неполной информации из систем цитирования РИНЦ, «Академия Google» и Scopus позволяет повысить производительность при формировании списка публикаций авторов и показывает хорошую эффективность при определении наукометрических характеристик авторов.

Еще

Система цитирования, наукометрические методы, агрегирование библиографической информации, модификация метода Winnowing, метод Левенштейна, метод шинглов

Короткий адрес: https://sciup.org/147233779

IDR: 147233779   |   УДК: 519.673   |   DOI: 10.14529/ctcr200413

Development of a modified Winnowing method for aggregating bibliographic information data from citation systems under the conditions of incomplete information

Currently, transition to the electronic presentation of bibliographic information about scientific works has caused an increased interest in scientometric research. At the same time, the existing scientometric methods are criticized by scientists, since the incomplete bibliographic base and tools for its assessment do not allow the most accurate assessment of the contribution of scientific work. The problem of the quality of scientometric assessments, as a rule, is based on the study of the data of a certain citation system, which does not include complete information about all publications of the authors contained in other citation systems. Aim. This study is aimed at developing an adaptive approach for the formation of aggregated data of bibliographic information of a scientific organization in conditions of incomplete information from the citation systems of the RSCI, “Google Academy” and Scopus. Methods. The definition of the aggregated list of publications for the analysis of scientometric indicators was carried out by the Winnowing method, the Levenshtein algorithm, the shingle method and the Jaro-Winkler method. In the framework of the experimental study, the effectiveness of the application of the considered methods for aggregating information from citation systems was assessed based on the analysis of accuracy, completeness and F-measure. Results. Experiments on test data from the list of publications by authors of the Orenburg State University from the citation systems RSCI, Google Academy and Scopus showed that the Winnowing method formed the most accurate lists of publications by the F-measure criterion. To improve the performance of this algorithm, a two-stage optimization of the aggregation process was carried out, which made it possible to improve the running time of the algorithm when generating a list of bibliographic descriptions. Conclusion. The proposed approach for the formation of aggregated data of bibliographic information of a scientific organization in conditions of incomplete information from the citation systems of the Russian Science Citation Index, Google Academy and Scopus allows increasing productivity in the formation of a list of authors' publications and shows good efficiency in determining the scientometric characteristics of authors.

Еще

Список литературы Разработка модифицированного метода Winnowing для агрегирования данных библиографической информации из систем цитирования в условиях неполной информации

  • Yang, K. Citation Analysis: A Comparison of Google Scholar, Scopus, and Web of Science / K. Yang, L.I. Meho // Proceedings of the American Society for Information Science and Technology. -2006. - Vol. 43, no. 1. - P. 1-15.
  • Collection statistics for fast duplicate document detection / A. Chowdhury, O. Frieder, D. Grossman, C. Mccabe // ACM Trans. Inform. Syst. - 2002. - Vol. 20, no. 2. - P. 171-191.
  • Kotsemir, M.N. Publication Activity of Russian Researches in Leading International Scientific Journals /M.N. Kotsemir //Acta naturae. - 2012. - Vol. 4, no. 2 (13). - P. 15-35.
  • Мазов, Н.А. Программы для наукометрических и библиометрических исследований: краткий обзор и сравнительный анализ /Н.А. Мазов, В.Н. Гуреев // Труды 15-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции». - 2013. - С. 23-28.
  • Косинов, Д.И. Использование статистической информации при выявлении схожих документов / Д.И. Косиянов // Сборник «Интернет-математика». - 2007. - С. 84-90.
  • Baneyx, A. «Publish or Perish» as citation metrics used to analyze scientific output in the humanities: international case studies in economics, geography, social sciences, philosophy, and history /A. Baneyx //Archivum Immunologiae et Therapiae Experimentalis. - 2008. - Vol. 56, no. 6. - P. 363-371.
  • Болдырев, П.А. Обзор программных средств в области анализа публикационной активности учёных / П.А. Болдырев, И.Б. Крылов //XXIII студенческая международная заочная научно-практическая конференция «Молодёжный научный форум: технические и математические науки». - 2015. - http://nauchforum.ru/ru/node/6914 (дата обращения: 01.10.2020).
  • Квелидзе-Кузнецова, Н.Н. Библиометрические показатели как оценочный критерий деятельности преподавателя университета /Н.Н. Квелидзе-Кузнецова, С.А. Морозова // Universum: Вестник Герценовского университета. - 2009. - № 4. - С. 38-45.
  • Москалева, О.В. Потери публикаций России: почему и как избежать? / О.В. Москалева // 4-я Международная научно-практическая конференция «Научное издание международного уровня - 2015: современные тенденции в мировой практике редактирования, издания и оценки научных публикаций». - 2015. - С. 87-91.
  • Полянин, А.Д. Об индексе Хирша и других наукометрических показателях / А.Д. Полянин // Научное сообщество. - 2013. - № 8-9. - С. 20-22.
  • Штовба, С.Д. Обзор наукометрических показателей для оценки публикационной активности учёного / С.Д. Штовба, Е.В. Штовба // Управление большими системами. Специальный выпуск 44: «Наукометрия и экспертиза в управлении наукой» . - 2013. - С. 262-278.
  • Холодов, А.С. Об индексах цитирования научных работ / А.С. Холодов // Вестник Российской академии наук. - 2015. - Т. 85, № 4. - С. 310-320.
  • Garcia-Perez, M.A. The Hirsch h index in a nonmainstream area: methodology of the behavioral sciences in Spain /M.A. Garcia-Perez // The Spanish Journal of Psychology. - 2009. - Vol. 12, no. 2. -P. 833-849.
  • Egghe, L. Mathematical theory of the h- and g-index in case offractional counting of authorship / L. Egghe // Journal of the American Society for Information Science and Technology. - 2008. - Vol. 59, no. 10. - P. 1608-1616.
  • Krylov, I.B. Several characteristics of existing automated systems according to survey of russian scientists publishing activity / I.B. Krylov, P.A. Boldyrev // Theoretical & Applied Science. - 2015. -no. 5 (25). - P. 6-9.
Еще