(2) ML - 데이터 샘플링

FastCampus UpStage AI/ML

하오츠(해석:맛있다) 2024. 11. 26. 13:54

1. Data Sampling

: 큰 데이터 집합에서 작은 부분 집합을 추출하는 프로세스

: 통계 및 데이터 분석 분야에서 사용되는 일반적인 기술로, 데이터의 일부를 조사하고 전체 데이터 집합에 대해 결론을 도출하는데 활용 -> 전체 데이터 셋에 대한 통찰력을 얻거나 계산/저장 공간을 줄이는데 도움

* 데이터 샘플링의 목적

: 자원 및 시간 절약, 품질향상, 통계적 추론, 데이터 시각화, 데이터 테스트

2. Data Sampling 의 종류

- Random Sampling

: 무작위로 데이터 집합에서 샘플을 선택하는 방법

- Stratified Sampling

: 데이터를 계층적으로 분류한 후, 각 계층에서 샘플을 추출하는 방법

: 각 계층의 특성을 고려하여 샘플을 얻기 위해 사용

- Cluster Sampling

: 데이터를 여러 Cluster로 나누고, 몇개의 Cluster 를 무작위로 선택해서 Cluster내의 모든 데이터를 포함하는 방법

- Weight Sampling

: 데이터 포인트에 가중치를 할당하고 이러한 가중치를 기반으로 샘플을 추출하는 방법

- Importance Sampling

: 확률 분포에 기반한 통계 샘플링 기법

3. Data Sampling 고려사항

: 특정 데이터 세트에 대한 과소 또는 과대 표현이 일어나지 않도록 Sampling을 선정

하오츠

맛있다

하오츠