[ADP] 통계 정리

티스토리 뷰

Computer Science/Machine Learning

[ADP] 통계 정리

GOD동하 2021. 3. 23. 10:38

[Big Data Analysis]
EDA - Garbage In Garbage Out 으로 쓰레기 데이터가 들어가면 쓰레기 데이터가 나옴
자료를 활용하기 전에 주요 통계량 요약하고 그래프를 통해 시각적으로 파악해본다. 이게 젤 중요
EDA 방법 - 기술통계, 시각화

[기술통계]
Measures of Central Tendency (중심경향값, 대표값)
- 분포의 중심을 찾음
- Mean, Median, Mode, Quartile

Dispersion (산포도)
- 분포의 퍼짐 정도
- Variance, Min, Max, Range, Standard Deviation, Standard Error, Coefficient...

Distribution (분포도)
- 분포의 모양
- Kurtosis (첨도)
   . positive -> data가 몰려있어 뾰족함
   . negative -> data가 퍼져있어 완만함
   . 0? -> normal distribution
- ★Skewness (왜도)
   . 꼬리가 오른쪽으로 길다 (mode < median < mean) - positive
   . 꼬리가 왼쪽으로 길다 (mean < median < mode) - negative

[상관계수]
Covariance
- 두 변수가 같이 커지는 지 작아지는 지 확인
  (Xi - Xm)(Yi - Ym) 합의 평균
Correlation (상관계수)
- Cov 를 Normalize 한 값 (x, y의 표준편차로 나눠서)
- -1, 0, 1에 따라서 0에 가까울 수록 두 변수의 상관관계는 없다
- Pearson 상관계수
   . 선형 값에 대한 상관계수
   . 산점도가 비선형적으로 나올 경우 선형으로밖에 표현이 안됨..-> error가 많아짐
- Spearman 상관계수
   . Rank 값에 대한 상관계수 (선형으로 표현 안될 때) -> non-parametric
- ★피어슨이 높으면 스피어만도 높음, But 스피어만이 높다고 피어슨이 높지는 않음

[확률분포]
카이제곱 검정
- 두 개 분포도 차이
T-Test
- 두 집단간 평균 차이 (같은 모집단에 속했는지 테스트)
ANOVA
- One-way (변수가 하나일 때)
  . 한 변수의 집단이 여러개 일 경우
- Two-way (두 독립변수가 영향을 줄 때)
  . (Category) 독립변수 두 개 이상 (교호작용)
  . 교호작용 변수가 포함되며 교호작용 변수가 영향을 주는 경우 같이 고려해야함
ANCOVA
- Covariate 한 변수가 영향을 주는지
- 선형적인 변수 (ex: 나이) 가 집단간 동질성을 파악할 때 영향을 주게 되는 경우
   그 평균적인 값을 빼줌으로써 영향을 없애고 파악하고 싶다
   . 평균적인 값을 빼기 위해 두 결과는 선형적인 결과
   . 두 선이 평행해야함

[Time Series]
구성요소
- 불규칙변동 (Random)
- 계절변동 (Seasonal)
- 추세변동 (Trend)
- 순환변동 (Cyclic)
  . 보통 얘는 빼고 함, 너무 길어서
분석 방법
- Moving Average
  . Naive
=> 현재의 demand가 앞으로도 쭉 요구 될 것이다
  . Simple MR
=> 최근의 주기에 따라 앞으로가 예측 될 것이다
   주기가 짧으면 변동폭이 큼
  . Weighted MR
=> 전체를 보는데 최근의 Data에 weighted를 더 많이 준다
   주기가 fix되어 있고 weight를 어떻게 주느냐가 어려움
  . Exponential Smooting
    => 불규칙한 것을 평균을 내어 평평하게 만듦
   과거의 모든 자료를 사용하여 평균을 구하면서 최근 Data에 가중치를 주는 방식 a*demand + (1-a)*Ft
=> Adjusted로 trend factor를 반영함
- ARIMA
  . Stationary 시계열 특징
    => Mean, Variance가 상수
   즉, 시계열의 평균값이 시간에 따라서도 일정하고 분산이 일정하다
  . Dickey-Fuller Unit-Root test
    => 타임시리즈 모델이 정상성이 있다를 판단하고 싶음 (보통 시계열은 비정상성이므로)
  . AR (Autoregressive)
    => 자기 자신을 얼마나 반복하는지

'Computer Science > Machine Learning' 카테고리의 다른 글

[ADP] 텍스트 마이닝 정리 (1)	2021.03.23
Machine Learning 구성요소 (0)	2019.08.21
Machine Learning 이란? (1)	2019.08.21

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2026/06 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

글 보관함

GOD동하님의 블로그

티스토리 뷰

[ADP] 통계 정리

'Computer Science > Machine Learning' 카테고리의 다른 글

티스토리툴바