1. Data Cleansing
: 노이즈 데이터, 이상치 데이터, 누락된 데이터를 처리해서 데이터 분포를 잘 학습할 수 있도록 전처리
: 데이터의 정확성과 품질을 확보
- Noise Data 식별
: 오류나 무작위한 값으로 인해 데이터 셋을 혼란스럽게 만들 수 있음
- Anomaly Data 식별
: 다른 데이터와 너무나 다른 데이터이며, 모델 학습에 부정적인 영향을 미침
- 누락 Data 식별
: 다른 데이터에는 있지만 일부 데이터에 누락된 속성을 식별하여 보정
2. Feature Selection의 중요성
: 입력 데이터의 특성중에서 가장 관련성이 높거나 유요한 특성을 선택하고, 불필요한 특성을 제거하는 과정
: 머신 러닝 모델을 개선하고, 모델 효율성을 향상시킬 수 있음
- 차원의 저주 : 높은 차원의 데이터는 모델 학습에 시간이 오래 걸릴 뿐만 아니라, 과적합의 위험이 있음
- 계산 효율성 : 중요하지 않은 특성을 제거하면 계산 효율성이 향상됨
- 모델의 해석 : 중요한 특성만 사용하면 모델의 해석이 더 쉬워짐
3. 통계기법
ANOVA(일원분산분석)
: 카테고리별 numeric data 분포 차이를 검증하는 방법
: 정규성, 등분산성, 독립성 -> 만족하지 않으면 해당 검정을 신뢰할 수 없음
ANOVA 원리
: 두 개 이상의 그룹간의 평균 차이가 통계적으로 의미 있는지 평가하는 방법
: p - value 를 통해 통계적 유의미성을 확인할 수 있음
- Chi-squared Test(카이 제곱 검정)
: 두 범주형 변수에 대한 분석방법
: 두 개의 피처 비교 -> 두 개의 피쳐가 유의미없다 -> 피쳐를 선택하지 않는다
- 적합도 검정(변수 1개인 경우)
- 독립성 검정(변수 2개인 경우) - 두 변수가 서로 연관되어있는 여부를 결정
- 동질성 검정(변수 2개인 경우) - 각 그룹들이 동질한지 알고 싶은 검정
4. Pearson Correlation Coefficient(피어슨 상관 계수)
: 두 변수간의 선형관계의 강도와 방향을 나타내는 값
: 두 개의 변수의 상관관계가 너무 높으면 하나의 변수를 제거
5. VIF(Variance Inflation Factor) Analysis
: 회귀 분석에서 독립변수들 간의 다중 공선성을 평가하는데 사용하는 값(두개 이상의 독립변수가 서로 밀접하게 관련되어 있는 상황)
VIF => 1 변수들간의 전혀 다중 공선성이 없음
VIF => 10이상 : 변수들간의 다중 공선선이 있음
해결방법
- VIF 값이 높은 변수들 중 하나나 더 많은 변수를 제거
- 변수를 결합하여 새로운 변수를 만듬
6. ml을 이용한 Feature selection
- Decision Tree-based Feature Importance
: 어떤 변수가 node 분할에 중요한 역할을 하는지 기반을 Feature Importance 를 평가
- RandomForest Importance
: 여러 Decision Tree 들의 Feature Importance를 평균 내어 전체 feature importance를 평가하는 방법
- Gradient Boosted Trees Importance
: Featur Importance를 합산하여 전체 importance를 계산하는 방법
- Feature Selection Using Regularization
:
- Recursive Feature Elimination with Cross-Validation(RFE)
: 모델의 importance를 기반으로 반복절으로 특성을 제거하는 동시에 교차 검증을 사용하여 모델의 성능을 평가하는 방법
7. Feature Reduction
: 데이터의 차원을 줄이는 과정을 의미
: 불필요한 특성을 제거하거나, 여러 특성을 결합하여 새로운 특성을 생성하는 식으로 수행
- PCA(Principal Component Analysis)
: 선형 차원 축소 방법, 원본 데이터의 정보 손시ㄹ을 최소화하면서 차원을 축소
- LDA(Linear Discriminant Analysis)
: 분류 문제에 적합, 각 클래스들을 잘 구분할 수 있는 특성을 생성하느 것이 목표