Проблемы проведения экспериментов и воспроизводимости исследований в науках о данных

Автор: Воронцов К.В., Игловиков В.И., Стрижов В.В., Устюжанин А.Е., Хританков А.С.

Журнал: Труды Московского физико-технического института @trudy-mipt

Рубрика: Информатика и управление

Статья в выпуске: 2 (50) т.13, 2021 года.

Бесплатный доступ

Приводится тезисное изложение результатов круглого стола по проблемам проведения экспериментов и воспроизводимости исследований в науках о данных. Указывается на различие форматов результатов научных и прикладных исследований, поясняется, в чем суть воспроизводимости результатов. Рассматриваются критерии качества результатов обоих видов исследований, в чем суть воспроизводимости результатов в каждом случае. Определяются направления дальнейшего развития методологии разработки предсказательных моделей, разработки алгоритмов и проведения экспериментов. Сформулированные рекомендации полезны для развития программ учебных курсов по машинному обучению.

Еще

Воспроизводимость исследований, повторяемость экспериментов, науки о данных, машинное обучение, круглый стол

Короткий адрес: https://sciup.org/142231481

IDR: 142231481   |   DOI: 10.53815/20726759_2021_13_2_100

Текст научной статьи Проблемы проведения экспериментов и воспроизводимости исследований в науках о данных

Технологии машинного обучения являются результатом теоретических исследований и прикладных разработок в академической среде и в индустрии. Анализ представленных на.

Список авторов приведен в алфавитном порядке

конференциях AAAI, IJCAI, NeurlPS, ICLR работ показывает [1,2], что доля экспериментальных исследований существенно выше чисто теоретических. Несмотря на имеющийся прогресс в области постановки и проведения экспериментов, воспроизводимость и повторяемость результатов пока еще не достигла ожидаемого уровня [3].

Более 70% из опрошенных исследователей не удалось хотя бы раз воспроизвести результаты, полученные ранее. В цитируемой 1140 раз (по данным Scopus на 16.04.2021) статье в журнале Nature [4] изучается отношение к воспроизводимости исследований и приводятся результаты опроса более полутора тысяч подписчиков этого журнала: ученых из области химии, физики, наук о земле, социологии, медицины и других. При этом 52% опрошенных указывают на наличие кризиса воспроизводимости в науке, а 31% считают, что сложности в воспроизведении исследований могут означать их недостоверность.

В более близком к машинному обучению мета-исследовании (исследовании, объектом изучения которого являются процесс или результаты научных исследований) [1] авторы указывают на факторы и переменные, влияющие на повторяемость экспериментов, и приводят результаты анализа 385 статей с эмпирическими исследованиями, представленных на конференциях AAAI (2014, 2016) и IJCAI (2013, 2016). Примерно в половине просмотренных авторами работ предствлен псевдокод алгоритма, описание проблемы, использованных для обучения данных, и более двух третей работ приводят постановку эксперимента. При этом вопросы исследования, цели исследования, проверяемые гипотезы, исходный код и анализ результатов чаще всего не включаются в опубликованные работы.

Организаторы конференций по машинному обучению NeurlPS (2019) и ICLR (2018, 2019) [2,5] изучили, какие средства издатели и научные сообщества могли бы использовать для повышения воспроизводимости исследований. Организаторы предложили своим авторам использовать контрольные списки для самопроверки подаваемых статей, возможность представить исходный код и инструкции по воспроизведению результатов вместе со статьей, пригласили к публикации статьи с повторением исследований [5]. При этом наибольшей поддержкой у авторов пользовалась именно публикация исходного кода на открытой платформе, например Github.

Проблема воспроизводимости в машинном обучении находится в поле зрения научного сообщества не первый год. Так, Google Scholar приводит статьи, в которых обсуждаются вопросы воспроизводимости вычислительных экспериментов для эвристических методов еще с 1992 года [6-9], когда авторы попробовали совместить программы расчета результатов и скрипты подготовки публикации на одном CD-ROM диске для распространения коллегам [7]. В 2015 году была создана рабочая группа ACM (Association of Computing Machinery) по воспроизводимости исследований. На данный момент группой разработана система маркировки публикаций по уровню воспроизводимости результатов [10]. Эту схему использует, например, сообщество АСМ по поиску информации SIGIR [11] с 2019 года, в том числе, в рамках совместной инициативы CLEF/NTCIR/TREC (CENTRE) [12] по сравнительному анализу алгоритмов и программных систем.

В индустрии [13] проблема воспроизводимости актуальна с точки зрения своевременного получения и внедрения результатов прогнозируемого качества. Возможное решение — в объединении идей DevOps [14] (сочетание Software Development and Operations в рамках единого рабочего процесса) и научного метода постановки эксперимента. Концепция MLOps (Machine Learning and Operations, по аналогии c DevOps) предполагает выстраивание единого потока работ подготовки данных и выполнения эксперимента от постановки задачи до внедрения и измерения результата. Известные облачные платформы и стартапы [15-17] предлагают программные средства для организации процессов создания и внедрения моделей машинного обучения в рамках MLOps.

В данной статье представлены результаты и рекомендации круглого стола, проведенного в рамках 63-й Всероссийской научной конференции МФТИ. Участники обсудили проблемы воспроизводимости экспериментов и повышения качества научных публикаций, возможные пути решения проблемы. В следующем разделе обсудим, в чем состоит проблема воспроизводимости исследований и ее значимость. В третьем разделе приведем возможные решения, а также инструменты проведения экспериментов. В четвертом разделе обсудим вопросы подготовки специалистов в науках о данных.

2.    Воспроизводимость и качество исследований

В чем состоит проблема воспроизводимости, и в каких ситуациях она особенно актуальна? Проблемы воспроизводимости возникают при изучении научных статей, при повторном использовании результатов других команд, при переносе результатов на другие наборы данных, при повторном использовании разработанных алгоритмов и предсказательных моделей, особенно в случае невозможности обращения к их авторам. При этом суть воспроизводимости и понимания качества результатов зависит от цели исследования или эксперимента.

В литературе указывают на множество причин невоспроизводимости результатов, например, неполное описание в научной статье, недоступность исходного кода эксперимента или данных [1]. Кроме того, наблюдается эффект влияния самого экспериментатора [18,19], он заключается в более тщательной проработке и настройке собственных алгоритмов по сравнению с референтными. Этот эффект можно преодолеть, если кто-то еще воспроизводит результаты эксперимента без участия автора, например, если проводить соревнования и независимое сравнение алгоритмов в обзорных работах [20], а также применять автоматизированные методы проведения экспериментов.

Существуют социологические причины не делиться промежуточными результатами даже в небольших командах, в том числе вследствие научной конкуренции. Вероятно поэтому, на практие требования и стремление к воспроизводимости результатов исходят не от самих авторов, а от спонсоров исследования и издателей. При этом методологические аспекты подготовки и проведения повторяемых экспериментов не всегда хорошо проработаны. Перечисленные факторы не способствуют воспроизводимости экспериментов.

При определении понятия воспроизводимости результатов, можно выделить воспроизводимость результатов в малом, или слабую воспроизводимость — возможность получения заявленных в результатов на тех же входных данных, и сильную воспроизводимость — повторение результатов и их повторное использование другими исследователями (в англоязычной литературе это называется repeatability и reproducibility соответственно [7]).

Для учебных и научных работ важна повторная используемость и применимость результатов и частей решения в новых условиях, а не фактический результат по показателям качества, таким как Fl-мера или частота ошибок второго рода. Для индустриальных работ важна воспроизводимость другими исследователями и повторяемость результатов при переносе предсказательных моделей с исследовательских на реальные данные. В отличие от исследовательских работ для удовлетворения ожидания и целей бизнеса важно продемонстрировать высокую точность и полезность результатов, скажем, для повышения дохода от продаж. Остальные требования реализуются через регуляторные ограничения и административно установленные регламенты работы, чтобы удовлетворить требованиям законодательства или поддержать исследовательский уровень организации.

3.    Инструменты и процессы поддержки проведения экспериментов

Машинное обучение - это во многом экспериментальная дисциплина, предполагающая получение практически значимых результатов с использованием сложных программных средств группой исследователей [21-23]. При этом для обеспечения необходимого качества на практике рекомендуется организовать совместную командную работу с реальными данными и обмен результатами с другими командами, которые решают связанные задачи. Формирующаяся в настоящее время концепция MLOps объединяет программные средства, практики и непрерывные процессы проведения исследований, выпуска и наблюдения за предсказательными моделями на базе единой вычислительной платформы и общих рабочих процессов.

Концепция ML Ops применима и в научных исследованиях для многокритериальной оценки моделей и алгоритмов, и формирования переднего края исследований [24]. Понимание и соотнесение с этим передним краем помогает исследователям и прикладным специалистам воспользоваться подходящим инструментом для решения своей задачи. Такие программные средства, как MLflow, DVC, Kubeflow [15,17], MLdev [16], NextFlow [25], используются для проведения вычислительных экспериментов как в индустрии, так и при проведении научных исследований.

В то же время применение MLOps в индустрии помогает решить проблемы доступа к данным и внедрения предсказательных моделей за счет автоматизации и снижения накладных расходов. Облачные платформы и сервисы проведения экспериментов на реальных и обновляемых данных, измеряющие эффективность моделей и смещение данных, существенно снижают накладные расходы и повышают продуктивность работы. При использовании таких платформ работа аналитика данных становится в чем-то аналогична работе трейдера, добивающегося увеличения KPI бизнеса [26-28] в реальном режиме времени.

В отличие от естественных и фундаментальных наук результаты исследований в науках о данных во многом имеют непосредственное практическое применение. Вероятно, поэтому научных мегапроектов и коллабораций, как в экспериментальной физике, в машинном обучении пока нет. В то время как мегапроекты строятся вокруг больших установок, которые участникам сложно создать по отдельности, в машинном обучении есть масштабные проекты для ограниченного круга пользователей и небольшого числа проверяемых гипотез [29]. Проблема доступа к уникальным экспериментальным установкам не является первоочередной, при наличии финансирования даже небольшие группы могут проводить исследования на доступном оборудовании.

С другой стороны, решение прикладных задач с помощью технологий машинного обучения может требовать объединения ресурсов. Например, при решении проблем докинга, сворачивания белков [30], исследований мозга в коллективе необходима как экспертиза в предметной области, так и в области машинного обучения. Известны коллаборации и другого рода — соревнования, направленные на развитие методов и технологий в выбранной задаче, так называемого технологического барьера, например Up Great ПРО//Чтение [31] в машинном понимании текста или широко известный Netflix Prize [32] для рекомендательных систем.

4.    Подготовка специалистов в науках о данных

Обучение специалистов и исследователей в области анализа данных — важная задача. В последнее время популярными стали краткосрочные курсы повышения квалификации, на которых будущие аналитики данных изучают программные средства и алгоритмы для повышения KPI бизнеса с использованием уже готовых методов. Обучение методикам выполнения экспериментов поможет в получении предсказуемых результатов в работе и создания ценности для бизнеса.

В то же время для высшего образования важным дополнением к текущим программам могут стать темы по проведению экспериментов и обеспечению качества прикладного анализа данных. Для поддержки процесса научной работы студентам нужно передавать ценности научного знания [33], понимания сути научного исследования. В чем значение воспроизводимости и повторяемости, совместных обсуждений и обмена идеями, донесения своих результатов до широкой аудитории, популяризации результатов для того, чтобы они были приняты научным сообществом? В этой сфере необходимы дополнительные усилия по систематизации, определению критериев качества исследований и развитию образовательных программ.

5.    Заключение

В заключение представим основные выводы и рекомендации.

Первое, экспериментальная проверка и сравнение предсказательных моделей и алгоритмов - это важная часть наук о данных. В зависимости от целей исследования по-разному понимается и качество эксперимента. При этом сложности связаны не только с инструментами и методами, но и с влиянием самих исследователей и их отношением к получаемым результатам.

Второе, при оценке научных исследований и учебных работ следует рассматривать совокупность критериев, достижение которых обеспечивает общеприменимость и воспроизводимость результатов. Здесь воспроизводимость научного эксперимента состоит в повторяемости на других наборах данных другими исследователями, возможность повторного использования результатов. Более сильный вариант воспроизводимости, к которому нужно стремиться - это получение другими исследователями тех же выводов и следствий, что и в исходном эксперименте.

Третье, качество прикладного исследования в индустрии во многом определяется достижением заданных КПЭ (ключевые показатели эффективности), воспроизводимость в этом случае предполагает подтверждение и повторение результатов на меняющихся реальных данных на промышленной системе. При этом вопросам безопасности, надежности, производительности и другим нефункциональным характеристикам качества следует уделить особое внимание как ключевым для бизнеса. Методология и инструменты MLOps, являясь развитием подходов из программной инженерии в применении к анализу данных, будет способствовать решению этих вопросов. Несмотря на быстрое развитие в этой области [34], на данный момент все еще не сформулировано, какие именно продукты и решения востребованы в этой сфере, и в чем состоят ключевые функции платформ автоматизации проведения экспериментов.

Четвертое, образовательные программы для аналитиков данных и для исследователей в области машинного обучения имеют разные цели и должны отличаться. Для будущих исследователей необходимо предусмотреть изучение тем по методологии исследований, проведению экспериментов и оценке полученных результатов.

6.    Информация о проведении круглого стола

Круглый стол был проведен 23 ноября 2020 г. вместе с 63-й Всероссийской конференцией МФТИ. В работе круглого стола приняли участие:

Воронцов К. В. — доктор физ.-мат. наук, заведующий лабораторией Машинного интеллекта МФТИ, заведующий кафедрой Интеллектуальных систем ФПМИ.

Игловиков В. И. — кандидат физ.-мат. наук, старший исследователь, Kaggle Grandmaster.

Стрижов В. В. — доктор физ.-мат. наук, проф. кафедры Интеллектуальных систем МФТИ. Автор курса «Моя первая научная статья».

Список литературы Проблемы проведения экспериментов и воспроизводимости исследований в науках о данных

  • Gundersen O.E., Gil Y., Aha D.W. On reproducible AI: Towards reproducible research, open science, and digital scholarship in AI publications //AI magazine. 2018. V. 39.3. P. 56-68.
  • Pineau J., Vincent-Lamarre P., Sinha K., Lariviere V., Beygelzimer A., d'Alche-Buc F., ... & Larochelle H. Improving reproducibility in machine learning research (a report from the neurips 2019 reproducibility program) // arXiv preprint. 2018. [Электронный ресурс] URL: https://arxiv.org/abs/2003.12206 (дата обращения: 20.03.2021).
  • Hutson M. Artificial intelligence faces reproducibility crisis // Science. 2018. V. 359(6377). P. 725-726.
  • Baker, M., Penny, D. Is there a reproducibility crisis? // Nature. 2016. V. 533(7604). P. 452-454.
  • Pineau J., Sinha K., Fried G., Ke R.N., Larochelle H. ICLR Reproducibility Challenge 2019 11 ReScience C. 2020. V. 5(2). P. 5.
  • Stodden V. The legal framework for reproducible scientific research: Licensing and copyright // Computing in Science k, Engineering. 2008. V. 11(1). P. 35-40.
  • Claerbout J.F., Karrenbach M. Electronic documents give reproducible research a new meaning / Society of Exploration Geophvsicists // SEG Technical Program Expanded Abstracts. 1992. P. 601-604.
  • LeVeque R.J., Mitchell I.M., Stodden V. Reproducible research for scientific computing: Tools and strategies for changing the culture // Computing in Science k, Engineering. 2012. V. 14(4). P. 13-17.
  • Barr R.S., Golden B.L., Kelly J.P., Resende M.G., Stewart W.R. Designing and reporting on computational experiments with heuristic methods // Journal of heuristics. 1995. V. 1(1). P. 9-32.
  • ACM Artifact Review and Badging [Электронный ресурс], URL: https://www.acm.org/publications/policies/artifact-review-and-badging-current (дата обращения: 20.03.2021).
  • Ferro N., Kelly D. SIGIR initiative to implement ACM artifact review and badging // ACM SIGIR Forum. New York, NY, USA : ACM. V. 52, N 1. P. 4-10.
  • CLEF/NTCIR/TREC REproducibilitv (CENTRE) [Электронный ресурс], URL: https://www.centre-eval.org/ (дата обращения: 20.03.2021).
  • Tech Trends 2021 // Deloitte Insigts. 2020 [Электронный ресурс], URL: https://www2.deloitte.com/us/en/insights/focus/tech-trends.html (дата обращения: 20.03.2021).
  • Ким Г., Вер К., Спаффорд К. Проект «Феникс»: Роман о том, как DevOps меняет бизнес к лучшему. Москва : Эксмо, 2014. 384 с.
  • A curated list of awesome MLOps tools [Электронный ресурс], URL: https://github.com/kelvins/awesome-mlops (дата обращения: 20.03.2021).
  • MLdev experiment automation software [Электронный ресурс], URL: https://gitlab.com/mlrep/mldev (дата обращения: 20.03.2021).
  • Machine Learning Operations [Электронный ресурс], URL: https://github.com/pyseany/awesome-machine-learning-operations (дата обращения: 20.03.2021).
  • Kerr N.L. HARKing: Hypothesizing after the results are known // Personality and social psychology review. 1998' V. 2(3). P. 196-217.
  • Hollenbeck J.R., Wright P.M. Harking, sharking, and tharking: Making the case for post hoc analysis of scientific data // Journal of Management. 2016. V. 4, I. 1. P. 5-18.
  • How to win a kaggle competition [Электронный ресурс], URL: https://www.import.io/post/how-to-win-a-kaggle-competition/ (дата обращения: 20.03.2021).
  • Wirth R., Hipp J. CRISP-DM: Towards a standard process model for data mining // Proceedings of the 4th international conference on the practical applications of knowledge discovery and data mining. London, UK : Springer-Verlag. 2000. Т. 1.
  • Huber S. [et al.\. DMME: Data mining methodology for engineering applications-a holistic extension to the CRISP-DM model 11 Procedia Cirp. 2019. V. 79. P. 403-408.
  • Shafique U., Qaiser H. A comparative study of data mining process models (KDD, CRISP-DM and SEMMA) // International Journal of Innovation and Scientific Research. 2014. V. 12., N 1. P. 217-222.
  • Papers with Code [Электронный ресурс], URL: https://paperswithcode.com (дата обращения: 20.03.2021).
  • Di Tommaso P., Chatzou M., Floden E. W., Barja P.P., Palumbo E., Notredame C. Nextflow enables reproducible computational workflow // Nature biotechnology. 2017. V. 35(4). P. 316-319.
  • Система YT [Электронный ресурс], URL: https: //habr. com/ru/company/yandex/blog/ 311104/ (дата обращения: 20.03.2021).
  • Sberbank Huge Data Platform [Электронный ресурс], URL: https://www.tadviser.ru/index.php/Пpoeкт:Cбepбaнк_(нoвaя_тexнoлoгичecкaя_плaт-4>opMa)https://www.tadviser.ru/index.php/np0eKT:C6ep6anK_(H0BaH_Texm№0rn4ecKaH ^платформа) (дата обращения: 20.03.2021).
  • Sber.DS [Электронный ресурс], URL: https://habr.com/ru/company/sberbank/blog/ 489158/ (дата обращения: 20.03.2021).
  • Brown Т.В., Mann В., Ryder N., Subbiah М., Kaplan J., Dhariwal P., ... & Amodei D. Language models are few-shot learners // arXiv preprint. 2020. [Электронный ресурс] URL: https://arxiv.org/abs/2005.14165 (дата обращения: 20.03.2021).
  • Senior A.W., Evans R., Jumper J. [et al.}. Improved protein structure prediction using potentials from deep learnin // Nature. 2020. V. 577. P. 706^710. URL: https://doi.org/10.1038/s41586-019-1923-7
  • Технологический конкурс ПРО 41T.IIIIK [Электронный ресурс], URL: https://ai.upgreat.one (дата обращения: 20.03.2021).
  • Netflix Prize [Электронный ресурс], URL: https://en.wikipedia.org/wiki/Netflix _Prize (дата обращения: 20.03.2021).
  • Учебный курс «Моя первая научная статья» [Электронный ресурс], URL: https://mlp.org (дата обращения: 20.03.2021).
  • Makinen S., Skogstrom Н., Laaksonen Е., Mikkonen Т. Who Needs MLOps: What Data Scientists Seek to Accomplish and How Can MLOps Help? // IEEE/ACM 1st Workshop on AI Engineering - Software Engineering for AI (WAIN) of 43rd International Conference on Software Engineering (ICSE). 2021.
Еще
Статья научная