1. 대규모 계산을 위한 병렬 처리, 지연 실행 및 대규모 데이터셋 처리 목적
-동적 작업 스케줄링, 대규모 배열, 데이터프레임, 머신러닝, 병렬처리 등 지원
-유연한 스케줄링: 개인 노트북부터 대용량 서버까지 범용적, 분산 스케줄러 -> 수백대 머신의 클러스터 확장
-복잡한 알고리즘 -> 작업 그래프(task graphs)로 병렬 연산 표현
-유사한 용법
pandas df | dask.dataframe |
numpy array | dask.array |
python iterators, PySpark | dask.bag |
for문 | dask import delayed |
반응형
'데이터 분석 > MLOps' 카테고리의 다른 글
Airflow(1): 소개 (0) | 2024.07.16 |
---|---|
MLOps(1): 파이프라인 (0) | 2024.07.12 |