FastCampus UpStage AI/통계

기초 통계량 - 데이터 분포 이해 (분산도)

하오츠(해석:맛있다) 2024. 10. 8. 17:22

목표 

통계를 알아보자

 

분산도란?

데이터의 변동성을 나타내는 지표입니다.

분산이 높을수록 평균값 주위로 넓게 퍼져있음을 뜻하고, 

분산이 낮을수록 평균값에 가까이 모여있습니다.

 

1. 분산도에 사용되는 용어

편차 : 현재 데이터 - 산술평균

분산 : 편차 제곱의 평균

표준 편차 : √분산

 

2. 사분위 

 

Q1 : 중앙값의 25퍼센트

Q3 : 중앙값의 75퍼센트

Medium : 중앙값

IQR : Q3 - Q1

 

Minimum :  Q1에서 IQR 1.5배를 뺸 값  -   Q1 - 1.5 IQR

Maximum : Q3에서 IQR 1.5배를 더한 값  - Q3 + 1.5 IQR

 

Outliers : Minimum, Maximum 을 넘어가는 이상한 값 (이상치)

 

3. 변동 계수

변동 계수  = 표준편차 / 평균 

A 회사의 평균 월 매출액 : 100억, 표준 편차 : 12억 => 변동 계수 : 12 / 100 = 0.12

B 회사의 평균 월 매출액 : 40억, 표준 편차 2억 => 변동 계수 : 2 / 40 = 0.05

 

B 회사가 A 회사보다 안정적이다. => A회사의 월간 변동이 많다, 더 불안정하다

 

4. 왜도(Skewness)와 첨도(Kurtosis)

왜도 - 분포의 비대칭을 나타냄 (꼬리의 위치에 따라 -1 ~ +1 로 절대값으로 표현)

 

 

첨도 - 중앙의 뾰족함으로 데이터 분포를 알 수 있음 (Mesokurtic : 정규 분포, LeptoKurtic : 이상치가 많아 중앙분포도가 높다, PlatyKurtic : 이상치가 없다 => 데이터 확인 요망)