카테고리 없음

(5) ML - Feature Engineering

하오츠(해석:맛있다) 2024. 11. 27. 14:27

1. Data Cleansing

: 노이즈 데이터, 이상치 데이터, 누락된 데이터를 처리해서 데이터 분포를 잘 학습할 수 있도록 전처리

: 데이터의 정확성과 품질을 확보

 

- Noise Data 식별

: 오류나 무작위한 값으로 인해 데이터 셋을 혼란스럽게 만들 수 있음

 

- Anomaly Data 식별

: 다른 데이터와 너무나 다른 데이터이며, 모델 학습에 부정적인 영향을 미침

 

- 누락 Data 식별

: 다른 데이터에는 있지만 일부 데이터에 누락된 속성을 식별하여 보정

 

2. Feature Selection의 중요성

: 입력 데이터의 특성중에서 가장 관련성이 높거나 유요한 특성을 선택하고, 불필요한 특성을 제거하는 과정

: 머신 러닝 모델을 개선하고, 모델 효율성을 향상시킬 수 있음

 

- 차원의 저주 : 높은 차원의 데이터는 모델 학습에 시간이 오래 걸릴 뿐만 아니라, 과적합의 위험이 있음

- 계산 효율성 : 중요하지 않은 특성을 제거하면 계산 효율성이 향상됨

- 모델의 해석 : 중요한 특성만 사용하면 모델의 해석이 더 쉬워짐

 

3. 통계기법 

ANOVA(일원분산분석)

: 카테고리별 numeric data 분포 차이를 검증하는 방법

: 정규성, 등분산성, 독립성 -> 만족하지 않으면 해당 검정을 신뢰할 수 없음

 

ANOVA 원리 

: 두 개 이상의 그룹간의 평균 차이가 통계적으로 의미 있는지 평가하는 방법

: p - value 를 통해 통계적 유의미성을 확인할 수 있음

 

- Chi-squared Test(카이 제곱 검정)

: 두 범주형 변수에 대한 분석방법

: 두 개의 피처 비교 -> 두 개의 피쳐가 유의미없다 -> 피쳐를 선택하지 않는다

- 적합도 검정(변수 1개인 경우)

- 독립성 검정(변수 2개인 경우) - 두 변수가 서로 연관되어있는 여부를 결정

- 동질성 검정(변수 2개인 경우) - 각 그룹들이 동질한지 알고 싶은 검정

 

4. Pearson Correlation Coefficient(피어슨 상관 계수)

: 두 변수간의 선형관계의 강도와 방향을 나타내는 값

: 두 개의 변수의 상관관계가 너무 높으면 하나의 변수를 제거

 

5. VIF(Variance Inflation Factor) Analysis 

: 회귀 분석에서 독립변수들 간의 다중 공선성을 평가하는데 사용하는 값(두개 이상의 독립변수가 서로 밀접하게 관련되어 있는 상황)

VIF  => 1 변수들간의 전혀 다중 공선성이 없음

VIF => 10이상 : 변수들간의 다중 공선선이 있음

 

해결방법

-  VIF 값이 높은 변수들 중 하나나 더 많은 변수를 제거

-  변수를 결합하여 새로운 변수를 만듬

 

6. ml을 이용한 Feature selection

- Decision Tree-based Feature Importance

: 어떤 변수가 node 분할에 중요한 역할을 하는지 기반을 Feature Importance 를 평가

 

- RandomForest Importance

: 여러 Decision Tree 들의 Feature Importance를 평균 내어 전체 feature importance를 평가하는 방법

 

- Gradient Boosted Trees Importance

: Featur Importance를 합산하여 전체 importance를 계산하는 방법

 

- Feature Selection Using Regularization

 

- Recursive Feature Elimination with Cross-Validation(RFE)

: 모델의 importance를 기반으로 반복절으로 특성을 제거하는 동시에 교차 검증을 사용하여 모델의 성능을 평가하는 방법

 

7. Feature Reduction

: 데이터의 차원을 줄이는 과정을 의미

: 불필요한 특성을 제거하거나, 여러 특성을 결합하여 새로운 특성을 생성하는 식으로 수행

 

- PCA(Principal Component Analysis)

: 선형 차원 축소 방법, 원본 데이터의 정보 손시ㄹ을 최소화하면서 차원을 축소

 

- LDA(Linear Discriminant Analysis)

: 분류 문제에 적합, 각 클래스들을 잘 구분할 수 있는 특성을 생성하느 것이 목표