FastCampus UpStage AI/ML

(2) ML - 데이터 샘플링

하오츠(해석:맛있다) 2024. 11. 26. 13:54

1. Data Sampling

: 큰 데이터 집합에서 작은 부분 집합을 추출하는 프로세스

: 통계 및 데이터 분석 분야에서 사용되는 일반적인 기술로, 데이터의 일부를 조사하고 전체 데이터 집합에 대해 결론을 도출하는데 활용 -> 전체 데이터 셋에 대한 통찰력을 얻거나 계산/저장 공간을 줄이는데 도움

 

* 데이터 샘플링의 목적 

: 자원 및 시간 절약, 품질향상, 통계적 추론, 데이터 시각화, 데이터 테스트

 

2. Data Sampling 의 종류

 

- Random Sampling 

: 무작위로 데이터 집합에서 샘플을 선택하는 방법

 

- Stratified Sampling

: 데이터를 계층적으로 분류한 후, 각 계층에서 샘플을 추출하는 방법

: 각 계층의 특성을 고려하여 샘플을 얻기 위해 사용

 

- Cluster Sampling 

: 데이터를 여러 Cluster로 나누고, 몇개의 Cluster 를 무작위로 선택해서 Cluster내의 모든 데이터를 포함하는 방법

  

- Weight Sampling 

: 데이터 포인트에 가중치를 할당하고 이러한 가중치를 기반으로 샘플을 추출하는 방법

 

- Importance Sampling 

: 확률 분포에 기반한 통계 샘플링 기법

 

3. Data Sampling 고려사항

: 특정 데이터 세트에 대한 과소 또는 과대 표현이 일어나지 않도록 Sampling을 선정

 

 

 

 

'FastCampus UpStage AI > ML' 카테고리의 다른 글

(3) ML - 라벨링  (0) 2024.11.26
(1) ML - 학습시킬 데이터 준비  (1) 2024.11.26
ML  (2) 2024.10.29
웹 크롤링  (0) 2024.10.28