데이터 분석/MLOps

Dask(1): Dask 다루기

민서타 2024. 7. 10. 15:51

1. 대규모 계산을 위한 병렬 처리, 지연 실행 및 대규모 데이터셋 처리 목적

 -동적 작업 스케줄링, 대규모 배열, 데이터프레임, 머신러닝, 병렬처리 등 지원


-유연한 스케줄링: 개인 노트북부터 대용량 서버까지 범용적, 분산 스케줄러 -> 수백대 머신의 클러스터 확장

-복잡한 알고리즘 -> 작업 그래프(task graphs)로 병렬 연산 표현  

-유사한 용법

pandas df dask.dataframe
numpy array dask.array
python iterators, PySpark dask.bag
for문 dask import delayed

 

반응형