2024/10/08 2

기초 통계량 - 데이터 분포 이해 (분산도)

목표 통계를 알아보자 분산도란?데이터의 변동성을 나타내는 지표입니다.분산이 높을수록 평균값 주위로 넓게 퍼져있음을 뜻하고, 분산이 낮을수록 평균값에 가까이 모여있습니다. 1. 분산도에 사용되는 용어편차 : 현재 데이터 - 산술평균분산 : 편차 제곱의 평균표준 편차 : √분산 2. 사분위  Q1 : 중앙값의 25퍼센트Q3 : 중앙값의 75퍼센트Medium : 중앙값IQR : Q3 - Q1 Minimum :  Q1에서 IQR 1.5배를 뺸 값  -   Q1 - 1.5 IQRMaximum : Q3에서 IQR 1.5배를 더한 값  - Q3 + 1.5 IQR Outliers : Minimum, Maximum 을 넘어가는 이상한 값 (이상치) 3. 변동 계수변동 계수  = 표준편차 / 평균 A 회사의 평균 월 매출..

기초 통계량 - 데이터 분포 이해 (대푯값)

목표 통계를 배워보자  우리는 왜 통계를 배워야 하는가?- 데이터의 분포, 중앙값, 분산등을 이해하는데, 도움을 주며 이는 ai 모델 성능에 영향을 줄 수 있다.- 데이터를 분석해서 패턴을 찾고 예측한다 1. 대푯값을 찾아라  - 평균값, 중앙값, 최빈값실무에서 어떤 값을 기준으로 고려할지 생각해보자  1) 평균값 - 산술평균, 기하평균, 조화평균 산술평균 - 정말 평균 값을 알고 싶을때, 예를 들어 n명의 연봉 평균=> (a의 연봉 + b의 연봉 + c의 연봉) / (3) import pandas as pddf = pd.read_excel('{}.xlsx')df.mean() 기하평균 - 연 평균 증가율을 알고 싶을때, 예를 들어 매출 증가액=> 회사의 매출액 2019년 15억, 2020년 30억, 20..