1. Data Sampling
: 큰 데이터 집합에서 작은 부분 집합을 추출하는 프로세스
: 통계 및 데이터 분석 분야에서 사용되는 일반적인 기술로, 데이터의 일부를 조사하고 전체 데이터 집합에 대해 결론을 도출하는데 활용 -> 전체 데이터 셋에 대한 통찰력을 얻거나 계산/저장 공간을 줄이는데 도움
* 데이터 샘플링의 목적
: 자원 및 시간 절약, 품질향상, 통계적 추론, 데이터 시각화, 데이터 테스트
2. Data Sampling 의 종류
- Random Sampling
: 무작위로 데이터 집합에서 샘플을 선택하는 방법
- Stratified Sampling
: 데이터를 계층적으로 분류한 후, 각 계층에서 샘플을 추출하는 방법
: 각 계층의 특성을 고려하여 샘플을 얻기 위해 사용
- Cluster Sampling
: 데이터를 여러 Cluster로 나누고, 몇개의 Cluster 를 무작위로 선택해서 Cluster내의 모든 데이터를 포함하는 방법
- Weight Sampling
: 데이터 포인트에 가중치를 할당하고 이러한 가중치를 기반으로 샘플을 추출하는 방법
- Importance Sampling
: 확률 분포에 기반한 통계 샘플링 기법
3. Data Sampling 고려사항
: 특정 데이터 세트에 대한 과소 또는 과대 표현이 일어나지 않도록 Sampling을 선정
'FastCampus UpStage AI > ML' 카테고리의 다른 글
(3) ML - 라벨링 (0) | 2024.11.26 |
---|---|
(1) ML - 학습시킬 데이터 준비 (1) | 2024.11.26 |
ML (2) | 2024.10.29 |
웹 크롤링 (0) | 2024.10.28 |