FastCampus UpStage AI/ML

(1) ML - 학습시킬 데이터 준비

하오츠(해석:맛있다) 2024. 11. 26. 12:41

1. 데이터 유형

- 정형 데이터

: 구조화된 데이터로 표 형태로 표형되며 고정된 스키마를 갖는다

: 데이터베이스, CSV 및 스프레드 시트 

 

- 비정형 데이터 

: 구조가 없거나 매우 제한적인 구조를 가지지 않는 데이터로 텍스트, 이미지, 오디오, 비디오 같은 형태를 갖음

: 트위터의 트윗, 의료이미지(X-ray 이미지 또는 MRI 스캔 이미지)

 

- 반정형 데이터

: 구조가 명확하게 정의되어 있지 않은 데이터로 일부 구조화된 정보를 갖음

: XML, JSON, HTML 과 같은 마크업 언어를 사용하여 주로 표현된다.

: 웹 스크래핑 데이터, 기업 문서 데이터

 

- 실시간 데이터

: 데이터를 실시간으로 분석하고 수행해야 하는 데이터

: 유투브 시청 데이터, 금융 거래 데이터, IoT  센서 데이터

 

* 실시간 데이터 처리의 필요성 예시

- 금융거래 : 주식 거래 및 금융 거래 데이터는 실시간으로 처리되어야 하며 시장 조건에 따라 신속한 결정을 내려야함

- IoT 센서 데이터(미세먼지) : 환경 데이터를 센싱하는 경우, 실시간으로 분석하며 환경 상태를 모니터링 하거나 경고를 생성

 

- 스트리밍 데이터

: 지속적으로 생성되고 전송되는 데이터을 나타냄

: 시간이 지나면서 변경되며 새로운 데이터가 계속해서 이전 데이터에 추가됌

 

* 스트리밍 데이터 처리 특징

- 무한한 데이터 스트림 : 데이터의 끝이 없고, 지속적으로 생성되므로 스트리밍 데이터를 처리하기 위한 특수한 방법이 필요

- 실시간 분석 : 데이터가 도착하자마자 분석되며, 지연이 발생하지 않아야 함

 

 

- IoT데이터 개념

: 다양한 종류의 데이터가 복합적으로 스트리밍 형식으로 수집

: 대량 데이터 처리 

 

2. 데이터 저장소

- DBMS

: 구조화된 데이터를 효율적으로 저장, 관리 및 검색하기 위한 소프트웨어 시스템

: SQL 을 사용하여 데이터 베이스에 대한 쿼리 및 조작을 위한 MySQL, PostgreSQL

 

- NoSQL Database

: 정형 데이터 외에도 비정형 데이터를 저장하고 관리하기 위한 데이터베이스

: 데이터 형식 유연성 제공, 대량 데이터 처리와 분산 환경 확장 가능

: MongoDB, Cassandra, Redis

 

- Data Lake

: 다양한 비구조화 데이터를 저장하는 시스템으로, 원시데이터를 보관하고 나중에 분석 및 처리에 활용

: 스키마의 유연성을 제공하고 나중에 정의되거나 변경될 수 있으며, 쉽게 새로운 데이터 형식을 수용할 수 있음

 

- Data WareHouse

: 다양한 데이터 원본에서 데이터를 추출, 변환 및 로드하여 중앙 집계 및 분석을 위한 중앙 데이터 저장소를 만드는 시스템

: 주로 정형 데이터 중심, 구조화된 데이터를 저장하고 분석 

 

 

3. 데이터 버전관리 

: 데이터의 변경 이력을 추적하고 이전상태로 롤백할 수 있게 하는 프로세스

: 데이터의 무결성과 안전성을 보장하며, 잘못된 변경으로 인한 문제를 예방

 

- git-lfs 

: git 확장도구로 대용량 데이터 파일을 관리할 수 있음 

 

- feature store 

: feature의 버전 관리를 지원

 

4. 데이터 품질과 보안

- 데이터 품질의 중요성 및 영향

: 데이터 품질은 데이터가 정확하고 신뢰할 수 있는지 나타냄

 

- 데이터 품질 검사 및 개선 방법

:  데이터 입력 및 수집 프로세스를 개선하여 데이터 품질을 유지하고 향상

 

- 데이터 보안

: 데이터를 무단 액세스, 변조, 유출 또는 파괴로부터 보호하는 것을 의미 

 

- 데이터 보안을 위한 방어적 조치

: 방어적 조치를 위해 암호화, 액세스 제어, 물리적 보안, 네트워크 보안, 모바일 기기 보안, 정책 및 교육등이 포함

 

 

'FastCampus UpStage AI > ML' 카테고리의 다른 글

(3) ML - 라벨링  (0) 2024.11.26
(2) ML - 데이터 샘플링  (0) 2024.11.26
ML  (2) 2024.10.29
웹 크롤링  (0) 2024.10.28