데이터 분석/MLOps
Dask(1): Dask 다루기
민서타
2024. 7. 10. 15:51
1. 대규모 계산을 위한 병렬 처리, 지연 실행 및 대규모 데이터셋 처리 목적
-동적 작업 스케줄링, 대규모 배열, 데이터프레임, 머신러닝, 병렬처리 등 지원
-유연한 스케줄링: 개인 노트북부터 대용량 서버까지 범용적, 분산 스케줄러 -> 수백대 머신의 클러스터 확장
-복잡한 알고리즘 -> 작업 그래프(task graphs)로 병렬 연산 표현
-유사한 용법
pandas df | dask.dataframe |
numpy array | dask.array |
python iterators, PySpark | dask.bag |
for문 | dask import delayed |
반응형