1. 데이터 유형
- 정형 데이터
: 구조화된 데이터로 표 형태로 표형되며 고정된 스키마를 갖는다
: 데이터베이스, CSV 및 스프레드 시트
- 비정형 데이터
: 구조가 없거나 매우 제한적인 구조를 가지지 않는 데이터로 텍스트, 이미지, 오디오, 비디오 같은 형태를 갖음
: 트위터의 트윗, 의료이미지(X-ray 이미지 또는 MRI 스캔 이미지)
- 반정형 데이터
: 구조가 명확하게 정의되어 있지 않은 데이터로 일부 구조화된 정보를 갖음
: XML, JSON, HTML 과 같은 마크업 언어를 사용하여 주로 표현된다.
: 웹 스크래핑 데이터, 기업 문서 데이터
- 실시간 데이터
: 데이터를 실시간으로 분석하고 수행해야 하는 데이터
: 유투브 시청 데이터, 금융 거래 데이터, IoT 센서 데이터
* 실시간 데이터 처리의 필요성 예시
- 금융거래 : 주식 거래 및 금융 거래 데이터는 실시간으로 처리되어야 하며 시장 조건에 따라 신속한 결정을 내려야함
- IoT 센서 데이터(미세먼지) : 환경 데이터를 센싱하는 경우, 실시간으로 분석하며 환경 상태를 모니터링 하거나 경고를 생성
- 스트리밍 데이터
: 지속적으로 생성되고 전송되는 데이터을 나타냄
: 시간이 지나면서 변경되며 새로운 데이터가 계속해서 이전 데이터에 추가됌
* 스트리밍 데이터 처리 특징
- 무한한 데이터 스트림 : 데이터의 끝이 없고, 지속적으로 생성되므로 스트리밍 데이터를 처리하기 위한 특수한 방법이 필요
- 실시간 분석 : 데이터가 도착하자마자 분석되며, 지연이 발생하지 않아야 함
- IoT데이터 개념
: 다양한 종류의 데이터가 복합적으로 스트리밍 형식으로 수집
: 대량 데이터 처리
2. 데이터 저장소
- DBMS
: 구조화된 데이터를 효율적으로 저장, 관리 및 검색하기 위한 소프트웨어 시스템
: SQL 을 사용하여 데이터 베이스에 대한 쿼리 및 조작을 위한 MySQL, PostgreSQL
- NoSQL Database
: 정형 데이터 외에도 비정형 데이터를 저장하고 관리하기 위한 데이터베이스
: 데이터 형식 유연성 제공, 대량 데이터 처리와 분산 환경 확장 가능
: MongoDB, Cassandra, Redis
- Data Lake
: 다양한 비구조화 데이터를 저장하는 시스템으로, 원시데이터를 보관하고 나중에 분석 및 처리에 활용
: 스키마의 유연성을 제공하고 나중에 정의되거나 변경될 수 있으며, 쉽게 새로운 데이터 형식을 수용할 수 있음
- Data WareHouse
: 다양한 데이터 원본에서 데이터를 추출, 변환 및 로드하여 중앙 집계 및 분석을 위한 중앙 데이터 저장소를 만드는 시스템
: 주로 정형 데이터 중심, 구조화된 데이터를 저장하고 분석
3. 데이터 버전관리
: 데이터의 변경 이력을 추적하고 이전상태로 롤백할 수 있게 하는 프로세스
: 데이터의 무결성과 안전성을 보장하며, 잘못된 변경으로 인한 문제를 예방
- git-lfs
: git 확장도구로 대용량 데이터 파일을 관리할 수 있음
- feature store
: feature의 버전 관리를 지원
4. 데이터 품질과 보안
- 데이터 품질의 중요성 및 영향
: 데이터 품질은 데이터가 정확하고 신뢰할 수 있는지 나타냄
- 데이터 품질 검사 및 개선 방법
: 데이터 입력 및 수집 프로세스를 개선하여 데이터 품질을 유지하고 향상
- 데이터 보안
: 데이터를 무단 액세스, 변조, 유출 또는 파괴로부터 보호하는 것을 의미
- 데이터 보안을 위한 방어적 조치
: 방어적 조치를 위해 암호화, 액세스 제어, 물리적 보안, 네트워크 보안, 모바일 기기 보안, 정책 및 교육등이 포함
'FastCampus UpStage AI > ML' 카테고리의 다른 글
(3) ML - 라벨링 (0) | 2024.11.26 |
---|---|
(2) ML - 데이터 샘플링 (0) | 2024.11.26 |
ML (2) | 2024.10.29 |
웹 크롤링 (0) | 2024.10.28 |