2024/11 5

(5) ML - Feature Engineering

1. Data Cleansing: 노이즈 데이터, 이상치 데이터, 누락된 데이터를 처리해서 데이터 분포를 잘 학습할 수 있도록 전처리: 데이터의 정확성과 품질을 확보 - Noise Data 식별: 오류나 무작위한 값으로 인해 데이터 셋을 혼란스럽게 만들 수 있음 - Anomaly Data 식별: 다른 데이터와 너무나 다른 데이터이며, 모델 학습에 부정적인 영향을 미침 - 누락 Data 식별: 다른 데이터에는 있지만 일부 데이터에 누락된 속성을 식별하여 보정 2. Feature Selection의 중요성: 입력 데이터의 특성중에서 가장 관련성이 높거나 유요한 특성을 선택하고, 불필요한 특성을 제거하는 과정: 머신 러닝 모델을 개선하고, 모델 효율성을 향상시킬 수 있음 - 차원의 저주 : 높은 차원의 데이터..

카테고리 없음 2024.11.27

(4) ML - Class Imbalance

1. Class Imbalance : 기계 학습과 분류 문제에서 발생하는 현상 중 하나, 클래스 간의 데이터 불균형을 나타내는 개념: 하나의 클래스가 다른 클래스에 비해 데이터 포인트 수가 현저히 적을때 바랭: 현실 세계의 불균형한 데이터 분포를 가짐 : 데이터 수집과정에서 클래스 불균형 발생 - Sampling 오류, Data 수집 방법, Labeling 오류 2. Class Imbalance 를 줄이는 방법 2가지- 데이터 기반 접근법 : Resampling: ML Algorithm 접근법 3. Resampling: 데이터 수를 조절하여 Class Imbalance를 다루는 방법- OverSampling: 소수 클래스 데이터를 확장하지만, 데이터 중복 및 과적합 문제가 발생할 수 있음 - UnderS..

카테고리 없음 2024.11.26

(3) ML - 라벨링

1. Data Labeling: 모델을 훈련하기 위해 필요한 데이터에 의미를 부여하는 과정 2. Data Labeling의 예시 - Image Labeling: 객체 인식, 세그멘테이션, 특징 포인트 지정, 이미지 분류  - Text Labeling : 텍스트 분류, 감정 분류, 주관적 의견 분석, 키워드 추출 - Audio Labeling: 음성 인식, 음악 분류, 화자 인식 - 의료 분야: 의료 영상 데이터의 Labeling - 자연어 처리: Text Labeling - 자율 주행 자동차: 센서 데이터의 Labeling - 환경 모니터링: 환경 데이터의 Labeling 3. Labeling과 AI 모델 학습 유형 - Supervised Learning: Data에 모든 Labeling이 존재한 상태에..

(2) ML - 데이터 샘플링

1. Data Sampling: 큰 데이터 집합에서 작은 부분 집합을 추출하는 프로세스: 통계 및 데이터 분석 분야에서 사용되는 일반적인 기술로, 데이터의 일부를 조사하고 전체 데이터 집합에 대해 결론을 도출하는데 활용 -> 전체 데이터 셋에 대한 통찰력을 얻거나 계산/저장 공간을 줄이는데 도움 * 데이터 샘플링의 목적 : 자원 및 시간 절약, 품질향상, 통계적 추론, 데이터 시각화, 데이터 테스트 2. Data Sampling 의 종류 - Random Sampling : 무작위로 데이터 집합에서 샘플을 선택하는 방법 - Stratified Sampling: 데이터를 계층적으로 분류한 후, 각 계층에서 샘플을 추출하는 방법: 각 계층의 특성을 고려하여 샘플을 얻기 위해 사용 - Cluster Sampli..

(1) ML - 학습시킬 데이터 준비

1. 데이터 유형- 정형 데이터: 구조화된 데이터로 표 형태로 표형되며 고정된 스키마를 갖는다: 데이터베이스, CSV 및 스프레드 시트  - 비정형 데이터 : 구조가 없거나 매우 제한적인 구조를 가지지 않는 데이터로 텍스트, 이미지, 오디오, 비디오 같은 형태를 갖음: 트위터의 트윗, 의료이미지(X-ray 이미지 또는 MRI 스캔 이미지) - 반정형 데이터: 구조가 명확하게 정의되어 있지 않은 데이터로 일부 구조화된 정보를 갖음: XML, JSON, HTML 과 같은 마크업 언어를 사용하여 주로 표현된다.: 웹 스크래핑 데이터, 기업 문서 데이터 - 실시간 데이터: 데이터를 실시간으로 분석하고 수행해야 하는 데이터: 유투브 시청 데이터, 금융 거래 데이터, IoT  센서 데이터 * 실시간 데이터 처리의 ..