Сравнение производительности библиотек VAEX и DASK
Автор: Пальмов С.В., Шаталов Н.В.
Журнал: Инфокоммуникационные технологии @ikt-psuti
Рубрика: Новые информационные технологии
Статья в выпуске: 1 (85) т.22, 2024 года.
Бесплатный доступ
Цель исследования заключалась в сравнении производительности библиотек Vaex и Dask, предназначенных для повышения эффективности процесса обработки данных. Для решения поставленной задачи были проведены эксперименты, связанные с оценкой временных затрат на выполнение различных классов операций. Исследование включало подготовку датасетов, формирование выборок данных, настройку исполнительных сред, установку и настройку указанных выше модулей, написание скриптов на языке Python, тестирование производительности и последующий анализ результатов. Было установлено, что Vaex демонстрирует высокое быстродействие в случае обработки больших наборов данных, состоящих из миллиона объектов, на одном локальном компьютере; показатели Dask уступают первой библиотеке. Сей факт указывает на то, что Vaex является более эффективным инструментом для обработки крупных датасетов в условиях, аналогичных использованным в настоящей работе. Результаты и выводы исследования подчеркивают значимость выбора оптимальной библиотеки при обработке данных большого объема, а также подтверждают преимущества библиотеки Vaex в данном контексте.
Vaex, dask, python, большие данные, обработка данных
Короткий адрес: https://sciup.org/140307957
IDR: 140307957 | DOI: 10.18469/ikt.2024.22.1.12
Список литературы Сравнение производительности библиотек VAEX и DASK
- What is Vaex? URL: https://vaex.readthedocs.io/en/latest/index.html (дата обращения: 15.04.2024).
- Dask – Dask documentation. URL: https://docs.dask.org/en/stable/ (дата обращения: 15.04.2024).
- GitHub – dask/dask: Parallel computing with task scheduling. URL: https://github.com/dask/dask (дата обращения: 16.04.2024).
- NumPy. URL: https://numpy.org/ (дата обращения: 16.04.2024).
- GitHub – vaexio/vaex. URL: https://github.com/vaexio/vaex (дата обращения: 17.04.2024).
- Dask vs Vaex – a qualitative comparison. URL: https://vaex.io/blog/dask-vs-vaex-a-qualitativecomparison (дата обращения: 17.04.2024).
- Как использовать HDF5-файлы в Python. URL: https://habr.com/ru/companies/otus/articles/416309/ (дата обращения: 17.04.2024).
- 52 датасета для тренировочных проектов. URL: https://habr.com/ru/companies/edison/articles/480408/ (дата обращения: 18.04.2024).
- Vaex и Dask: когда Pandas не может обработать большие данные. URL: https://python-school.ru/blog/analiz-dannyh/vaex-vs-dask/ (дата обращения: 18.04.2024).
- Использование библиотеки Vaex для обработки больших объемов данных. URL: https://newtechaudit.ru/ispolzovanie-biblioteki-vaexdlya-obrabotki-bolshih-obyomov-dannyh/ (дата обращения: 19.04.2024).
- Анализ данных с использованием библиотеки Dask. URL: https://habr.com/ru/companies/otus/articles/759552/ (дата обращения: 19.04.2024).
- Груздев А.В., Хейдт М. Изучаем pandas / пер. с англ. А.В. Груздева. М.: ДМК, 2019. 682 с.
- Уэс М. Python и анализ данных. Первичная обработка данных с применением pandas, Numpy и Jupiter / пер. с англ. А.А. Слинкина, 3-е изд. М.: ДМК, 536 с.
- Васильев Ю.А. Python для data science. СПб.: Питер, 272 с.