FastCampus UpStage AI/통계 4

FastCamPus X Upstage AI 5기 Statistics(통계학) 강의

목표1. 통계학이란 무엇일까?2. 우리는 왜  AI를 접하기 위해 통계학을 해야만 할까?3. 통계학을 어느 정도의 깊이로, 어떤 입장으로  어떻게 공부를 해야할까? 1. 통계학이란 무엇일까? 통계학은 데이터를 수집, 분석, 해석, 표현하는 학문입니다. 다양한 분야에서 데이터를 활용하여 현상을 이해하고 예측하는 데 중요한 역할을 합니다. 통계학은 확률론에 기반하여 불확실성을 다루고, 실험이나 조사 결과를 통해 결론을 도출하는 방법을 제공합니다. 2. 우리는 왜  AI를 접하기 위해 통계학을 해야만 할까?AI, 특히 머신러닝 모델은 데이터 기반으로 학습합니다. 통계학은 데이터의 특성과 분포를 이해하고, 모델의 성능을 평가하는 데 필수적인 도구입니다. 통계학적 지식을 통해 데이터 전처리, 변수 선택, 결과 해..

기술 통계 + 통계 실험과 유의성 검사

목표   1. 모집단과 표본 / 샘플링 모집단(Population)통계를 통해 알고 싶어하는 군단모집단의 특정(모수 : parameter) - 모평균, 모분산, 모표준편차 등 표본(Sample)모집단의 분포, 특성을 알기 위해 모집단에서 추출된 일부 집단표본의 특성(통계량 : statistic) - 표본평균, 표본분산, 표본표준편차 등 추출(Sampling)모집단에서 표본을 추출하는 방법  추출 방법 :- 단순 샘플링(랜덤 샘플 추출)- 층화 샘플링(모집단을 그룹으로 나눠서 각 그룹에 랜덤하게 몇몇을 뽑는 형식)- 계통 샘플링(모집단 데이터에 1~n 번호를 붙여서 일정 간격별로 데이터를 추출하는 방법)- 군집샘플링(모집단을 군집으로 여러개 나누고 여러개의 군집중 몇몇개만 뽑아서 데이터로 사용한다) 추론(..

기초 통계량 - 데이터 분포 이해 (분산도)

목표 통계를 알아보자 분산도란?데이터의 변동성을 나타내는 지표입니다.분산이 높을수록 평균값 주위로 넓게 퍼져있음을 뜻하고, 분산이 낮을수록 평균값에 가까이 모여있습니다. 1. 분산도에 사용되는 용어편차 : 현재 데이터 - 산술평균분산 : 편차 제곱의 평균표준 편차 : √분산 2. 사분위  Q1 : 중앙값의 25퍼센트Q3 : 중앙값의 75퍼센트Medium : 중앙값IQR : Q3 - Q1 Minimum :  Q1에서 IQR 1.5배를 뺸 값  -   Q1 - 1.5 IQRMaximum : Q3에서 IQR 1.5배를 더한 값  - Q3 + 1.5 IQR Outliers : Minimum, Maximum 을 넘어가는 이상한 값 (이상치) 3. 변동 계수변동 계수  = 표준편차 / 평균 A 회사의 평균 월 매출..

기초 통계량 - 데이터 분포 이해 (대푯값)

목표 통계를 배워보자  우리는 왜 통계를 배워야 하는가?- 데이터의 분포, 중앙값, 분산등을 이해하는데, 도움을 주며 이는 ai 모델 성능에 영향을 줄 수 있다.- 데이터를 분석해서 패턴을 찾고 예측한다 1. 대푯값을 찾아라  - 평균값, 중앙값, 최빈값실무에서 어떤 값을 기준으로 고려할지 생각해보자  1) 평균값 - 산술평균, 기하평균, 조화평균 산술평균 - 정말 평균 값을 알고 싶을때, 예를 들어 n명의 연봉 평균=> (a의 연봉 + b의 연봉 + c의 연봉) / (3) import pandas as pddf = pd.read_excel('{}.xlsx')df.mean() 기하평균 - 연 평균 증가율을 알고 싶을때, 예를 들어 매출 증가액=> 회사의 매출액 2019년 15억, 2020년 30억, 20..