1. Data Cleansing: 노이즈 데이터, 이상치 데이터, 누락된 데이터를 처리해서 데이터 분포를 잘 학습할 수 있도록 전처리: 데이터의 정확성과 품질을 확보 - Noise Data 식별: 오류나 무작위한 값으로 인해 데이터 셋을 혼란스럽게 만들 수 있음 - Anomaly Data 식별: 다른 데이터와 너무나 다른 데이터이며, 모델 학습에 부정적인 영향을 미침 - 누락 Data 식별: 다른 데이터에는 있지만 일부 데이터에 누락된 속성을 식별하여 보정 2. Feature Selection의 중요성: 입력 데이터의 특성중에서 가장 관련성이 높거나 유요한 특성을 선택하고, 불필요한 특성을 제거하는 과정: 머신 러닝 모델을 개선하고, 모델 효율성을 향상시킬 수 있음 - 차원의 저주 : 높은 차원의 데이터..