Идеальное и реальность в эпоху больших данных. Системные аспекты
Автор: Тищенко В.И.
Журнал: Общество: философия, история, культура @society-phc
Рубрика: Философия
Статья в выпуске: 10, 2025 года.
Бесплатный доступ
В статье исследуется трансформация классических эпистемологических представлений идеального и реальности в контексте современной науки о данных (Data Science). Рассматривается переход исследовательской парадигмы от теории к данным (theory-driven) к парадигме от данных к знанию (data-driven). Показано существование иного подхода к природе данных, в рамках которого они предстают не нейтральной «копией» реальности, а идеальной – продуктом целенаправленного структурирования предметного пространства. Подобный подход требует пересмотра устоявшихся эпистемологических представлений о процессе познания и теоретическом моделировании, что знаменует становление новой, по своей сути конструктивистской, познавательной установки. Она акцентирует внимание на том, что знание не просто открывается, а создается в процессе работы с данными, что открывает новые горизонты для исследования и понимания окружающего мира. Таким образом, статья подчеркивает важность переосмысления традиционных взглядов на эпистемологию в свете новых реалий, связанных с использованием данных, и призывает к более глубокому осмыслению роли последних в формировании нашего знания о мире.
Идеальное, эпистемология, большие данные (Big Data), наука о данных (Data Science), интеллектуальный анализ данных (data mining)
Короткий адрес: https://sciup.org/149149503
IDR: 149149503 | УДК: 130.2 | DOI: 10.24158/fik.2025.10.11
Текст научной статьи Идеальное и реальность в эпоху больших данных. Системные аспекты
,
проблема приобретает в эпоху повсеместной цифровизации и феномена Big Data, для которой характерно представление о реальности как о массивах цифровых данных, что ставит перед философией вопрос о гносеологической природе последних.
Проблема больших массивов данных возникла задолго до современной эпохи, но изначально решалась технологически. Так, обработка результатов переписи населения в США в 1880 г. заняла семь лет, что стимулировало создание перфокарточных машин Холлерита (Anderson, 2015: 100– 101). Другой пример – астрономический проект «Cape Photographic Durchmusterung» (1885 г.), ручная обработка данных по которому заняла около двенадцати лет (Kruit van der, 2015: 153–204).
Исторически такие массивы были статичными «снимками» состояния систем. Современные Big Data, напротив, часто представляют собой непрерывные потоки «поведенческой» информации в реальном времени. Акцент сместился со статистической регистрации материальных процессов на фиксацию нематериальных аспектов человеческой деятельности – настроений, связей и предпочтений. Этот процесс приобрел универсальный характер, конституируя новую среду – реальность, основанную на данных1.
Первоначально дискурс вокруг Big Data фокусировался на технологических аспектах – обработке массивов, характеризующихся объемом, скоростью и разнообразием (volume, velocity, variety). Однако вскоре стал очевиден более глубокий эпистемологический сдвиг: переход от ги-потетико-дедуктивной модели к индуктивной практике, где знание «проистекает из данных» (data-driven science) (Kitchin, 2014). Этот переход порождает тезис о необходимости «большой теории» для больших данных (Coveney et al., 2016).
Широко распространена и более радикальная позиция, провозглашающая «конец теории», где утверждение «пусть говорят данные» и обнаруженные алгоритмами корреляции рассматриваются как достаточное доказательство взаимосвязей2.
Эти взгляды формируют ощущение подлинной революции и смены парадигм. Однако природа новой парадигмы остается предметом дискуссий: представляет ли она собой радикальный разрыв с традиционной эпистемологией или ее имманентное развитие.
Данная эпистемологическая неопределенность проистекает из фундаментального противоречия. Data Science, с одной стороны, претендует на прямое, не опосредованное теорией извлечение «истины» из данных как цифрового следа реального. С другой – сами алгоритмы машинного обучения являются сложнейшими идеализированными системами, которые не пассивно отражают, но активно конструируют реальность.
Таким образом, системный аспект проблемы заключается в рассмотрении диалектики между данными как «сырым материалом» и алгоритмической средой их интерпретации («идеальное»). В данной статье исследуется, каким образом в data-центричной парадигме переосмысливаются классические философские категории, и аргументируется, что новая эпистемология не отменяет, но усложняет понимание идеального. Методологической основой анализа служит системный подход, интерпретирующий Data Science как комплекс технологических, эпистемологических и социальных практик.
От индустриальной к цифровой реальности: контекст возникновения проблемы . Технологическое развитие человечества отмечено нелинейными сдвигами, сопоставимыми с «научными революциями» Т. Куна, которые влекут за собой смену инструментария, мышления и социально-экономических парадигм. Таким переломным рубежом стали 1960–1970-е гг., ознаменовавшие исчерпание одной технологической эпохи и зарождение другой (Bijker et al., 2012).
После Второй мировой войны триумф индустриального прогресса олицетворяли масштабные государственные проекты: космическая гонка, сверхзвуковая авиация, строительство гигантских гидроэлектростанций. Они воплощали веру в безграничные возможности централизованного планирования и были нацелены на «перестраивание материального мира» (Широков, 2016: 150).
Данная «технологическая парадигма», основанная на принципах фордизма и тейлоризма, измеряла успех в физических категориях: мощности, скорости, размере. Однако к 1970-м гг. эта модель исчерпала себя: проекты стали чрезмерно дорогими и сложными, а их отдача – неочевидной. Созданные системы стали неуправляемыми, порождая аварии и непредвиденные последствия (Hughes, 2004: 89–90).
Кризис «больших систем» совпал с революцией в микроэлектронике: изобретение интегральной схемы (1958), микропроцессора (1971) и персонального компьютера (1975) заложило основу для нового типа прогресса (Coughlin, Hundy, 2024). Его мерилом стали не физические параметры, а скорость обработки информации и пропускная способность сетей. Индустриальная парадигма перестраивала физическое пространство, тогда как новая – формировала виртуальное. Экспоненциальный рост объемов информации стал наглядной иллюстрацией этого сдвига.
Однако масштабы трансформации выходят далеко за рамки роста мощности отдельного устройства. Речь идет о возникновении «глобальной датасферы» (global datasphere) – совокупности всех создаваемых, копируемых и потребляемых в мире данных (Floridi, 2007). По прогнозам, в 2025 г. ее объем достигнет 175 зеттабайт, что означает взрывной рост более чем на 300 % за деся-тилетие1. Это обусловлено распространением IoT-устройств, видеонаблюдения, облачных вычислений и активностью пользователей цифровых сервисов.
Экономические последствия технологического перелома оказались столь же глубоки: данные превратились в ключевой фактор производства, «нефть XXI века»2, что привело к формированию новых платформенных бизнес-моделей. Капитал все меньше воплощается в физических активах и все больше – в алгоритмах, базах данных и программном обеспечении, создавая вызовы для традиционных систем регулирования и налогообложения.
Как следствие, происходят качественные изменения в способах познания. Данные перестали быть лишь инструментом проверки гипотез и сами стали источником нового типа знания. Как отмечают Д. Бойд и К. Кроуфорд, большие данные трансформируют саму эпистемологию, ставя под вопрос природу знания и исследовательского процесса (Boyd, Crawford, 2012: 662). Реальность все больше предстает как множество данных, что требует глубокой философской рефлексии.
Новая эпистемология данных: от DIKW к Data Science . В научном и технологическом дискурсе данные традиционно воспринимаются как нечто самоочевидное, определяясь сугубо технически как зафиксированные наборы значений или информация в формализованном виде3. Однако это понимание скрывает глубокую эпистемологическую проблему, особенно актуальную в эпоху цифровой трансформации (Петрунин, 2024).
В условиях датафикации общества генерация знания все чаще сводится к сбору массивов «сырых» данных (сенсорные показания, логи, транзакции), обработке их алгоритмами и последующему выявлению непредсказуемых паттернов и корреляций. Этот процесс перестал быть линейной процедурой верификации, превратившись в итеративный поиск. Для осмысления подобного представления о восхождении от данных к знанию, его генерации, и была предложена методология DIKW (Data, Information, Knowledge, Wisdom).
Иерархическая модель DIKW систематически описана Р. Акоффом в 1989 г. в его президентской речи в Международном обществе наук о системах (ISSS). Рассматривая эпистемологический аспект генерации знания, он предложил интуитивно понятное представление о восхождении от низших, «сырых» форм (данные) к высшим, ценностно-насыщенным (мудрость). Согласно его модели, этот путь представляет собой процесс добавления ценности через последовательные преобразования. В этой модели данные (Data) понимаются как простые, неинтерпретиро-ванные факты, лишенные контекста. В результате обработки и структурирования они предстают в виде информации (Information). Усвоение ее формирует знание (Knowledge). И, наконец, мудрость (Wisdom) представляет собой способность оценивать, выносить суждения и применять знания в соответствии с этическими нормами (Ackoff, 1989: 3).
Несмотря на интуитивную понятность, модель DIKW подвергается серьезной критике (Rowley, 2007; Frické, 2009). Ее упрекают в теоретической неполноте, линейности, статичности и размытости границ между уровнями. Ключевой недостаток – игнорирование «гносеологического скачка»: как возможен переход от «лишенных» смысла данных к наделенной смыслом информации? Модель также фокусируется на индивидуальном познании, игнорируя коллективный и сетевой характер современного производства знания.
Стремление преодолеть схематизм DIKW, собственно, и обусловило становление науки о данных (Data Science). Ее суть – в обосновании методологии извлечения знания из экзабайтов неструктурированной информации. Это породило новую познавательную установку – data-driven science, где гипотезы выводятся из данных, а не из теории (Kelling et al., 2009). Как отмечает
Д. Дайч, в этой парадигме корреляция зачастую вытесняет каузальность, позволяя обнаруживать не заметные иначе закономерности1.
Таким образом, фокус смещается от парадигмы Big Data (объем и скорость) к парадигме Smart Data (ценность и достоверность). Данные превращаются из пассивного объекта в активного агента познания, генерирующего новое знание через вычислительные процедуры. Эта эпистемология, позволяющая получать выводы, не доступные традиционной науке, претендует на роль новой парадигмы научного метода в эпоху больших данных (Hey et al., 2009).
Альтернативные модели познания: к эпистемологии больших данных . Эпоха больших данных знаменует радикальный сдвиг в понимании природы научного исследования. Если ранее «непосредственное» знание (данные) рассматривалось как результат противостояния наблюдателя и реальности, в ходе которого фиксировалась совокупность выделенных объектов, характеристик или параметров (в качестве их прямых «копий»), то сегодня ситуация изменилась. «Датафикация» социального пространства приводит к тому, что реальный мир предстает множеством цифровых данных, возникающих на границе знания и бытия. В этом контексте они уже не «даны» извне, а произведены нашим восприятием, инструментарием и технологиями; существуют объективно, вне индивидуального сознания, но их природа оказывается иной.
Используя термин «данные» в обыденном и научном дискурсе, мы часто не отдаем себе отчета в его антропоцентрическом контексте. Усвоенное через речевую практику, это слово воспринимается как естественный образ реальности, не отличимый от самой осознаваемой реальности. Однако, как справедливо отмечал Э.В. Ильенков, ментальные образы и представления не являются копиями вещей. По его определению, они представляют собой «форму вещи, но вне этой вещи, а именно, в человеке, в виде формы его активной жизнедеятельности, <…> отражающей другую вещь, <…> которая существует независимо от человека и человечества» (Ильенков, 2021: 85). Таким образом, феномен больших данных бросает вызов классической эпистемологической схеме, в рамках которой исследовательский процесс понимается как интерпретация и отображение «предстоящей» реальности. Это заставляет пересмотреть саму природу данных и исследовательской установки.
Тот факт, что стереотипы исторически устоялись и воспринимаются как нечто, что нам «противостоит» и «навязывается» извне, сам по себе не придает им материального характера. Согласно Э.В. Ильенкову, они по-прежнему представляют собой «формы общественного сознания, то есть всецело идеальные формы» (Ильенков, 2021: 38). И, соответственно, феномен больших данных требует новой, конструктивистской эпистемологической установки. Утверждение «данные не даны, а произведены» становится ключевым. Они возникают в результате строго определенной деятельности по «освоению» реальности: настройки датчиков, выбора метрик, проектирования схем баз данных. Таким образом, восприятие данных всегда концептуально нагружено.
Как верно отмечает Г.А. Смирнов, «пока субъект не установит и не задействует “фильтры воздействия”, позволяющие выделить влияние разных типов, его сознанию будет предстоять неразличимая реальность» (Смирнов, 2019). Следовательно, анализ данных есть не пассивное наблюдение, а активное конструирование познавательной ситуации. Исследователь не столько проверяет априорную гипотезу, сколько с помощью логических «средств» (в определенной ментальной среде – алгоритмов) выявляет возможные конфигурации и паттерны в сконструированном им же поле данных, что зачастую приводит к генерации гипотез a posteriori.
Возникая в результате строго определенного соотношения между материальными объектами, процессами или событиями, данные представляют собой результат деятельности, направленной на изменение образа вещи, а не ее материальной сущности. Иными словами, данные – это опредмеченная схема реальной деятельности по освоению фрагмента бытия, идеальный продукт, возникающий в момент процедур структуризации.
Таким образом, необходимость интеллектуального анализа данных (data mining) порождает иную эпистемологическую установку. В ее основе лежит процесс «разворачивания» субъектом познания процедуры структурирования предметного пространства. И ответ на вопрос о природе данных лежит в плоскости проблемы идеального, которое понимается не как психическая субстанция, а как форма деятельности, зафиксированная в виде внешнего, объективно существующего предмета.
Перенося эту логику на данные, можно утверждать, что они представляют собой не «данность», а «идеальную форму», продукт деятельности по структурированию, измерению и кодированию реальности. Данные объективны (существуют в виде записей), но их онтологический статус идеален, поскольку они являются опредмеченной схемой человеческой деятельности.
Заключение . Проведенный анализ позволяет заключить, что современная наука о данных (Data Science) и практики работы с большими данными требуют глубокого философского переосмысления. Эпистемология «data-driven science» представляет собой не простое продолжение классического эмпиризма, а «сдвиг» в сторону деятельностной, конструктивистской модели познания. В ее рамках ключевую роль играет не отражение реальности, а конструирование идеальных объектов – данных – с последующим выявлением в них объективных, но неочевидных связей.
В русле концепции Э.В. Ильенкова природа данных является идеальной: это опредмечен-ная в цифровой среде форма деятельности человека. Таким образом, данные принадлежат не сфере реальности, а сфере познания, выступая одновременно его продуктом и инструментом. Это снимает ложное противоречие между подходами «data-driven» и «theory-driven»: теория и концептуальные схемы воплощаются в самом способе производства данных, а их последующий анализ открывает пространство для новых теоретических обобщений. Следовательно, новая эпистемология не отменяет роль теории, но смещает ее на более фундаментальный уровень – уровень конструирования цифровой реальности.
Согласно предлагаемой концепции, данные понимаются как продукт структурирования предметного пространства, выступающего сферой научной коммуникации. Это пространство, будучи социальным конструктом, служит концептуальным каркасом для познавательной деятельности. Элементами анализа в нем являются не документальные формы знания (теории, открытия), а сами акты взаимодействия между субъектами познания. Всегда обладающие конкретноисторической природой, они и становятся первичными данными для исследования.