[Big Data Analysis]
EDA - Garbage In Garbage Out 으로 쓰레기 데이터가 들어가면 쓰레기 데이터가 나옴
자료를 활용하기 전에 주요 통계량 요약하고 그래프를 통해 시각적으로 파악해본다. 이게 젤 중요
EDA 방법 - 기술통계, 시각화
[기술통계]
Measures of Central Tendency (중심경향값, 대표값)
- 분포의 중심을 찾음
- Mean, Median, Mode, Quartile
Dispersion (산포도)
- 분포의 퍼짐 정도
- Variance, Min, Max, Range, Standard Deviation, Standard Error, Coefficient...
Distribution (분포도)
- 분포의 모양
- Kurtosis (첨도)
. positive -> data가 몰려있어 뾰족함
. negative -> data가 퍼져있어 완만함
. 0? -> normal distribution
- ★Skewness (왜도)
. 꼬리가 오른쪽으로 길다 (mode < median < mean) - positive
. 꼬리가 왼쪽으로 길다 (mean < median < mode) - negative
[상관계수]
Covariance
- 두 변수가 같이 커지는 지 작아지는 지 확인
(Xi - Xm)(Yi - Ym) 합의 평균
Correlation (상관계수)
- Cov 를 Normalize 한 값 (x, y의 표준편차로 나눠서)
- -1, 0, 1에 따라서 0에 가까울 수록 두 변수의 상관관계는 없다
- Pearson 상관계수
. 선형 값에 대한 상관계수
. 산점도가 비선형적으로 나올 경우 선형으로밖에 표현이 안됨..-> error가 많아짐
- Spearman 상관계수
. Rank 값에 대한 상관계수 (선형으로 표현 안될 때) -> non-parametric
- ★피어슨이 높으면 스피어만도 높음, But 스피어만이 높다고 피어슨이 높지는 않음
[확률분포]
카이제곱 검정
- 두 개 분포도 차이
T-Test
- 두 집단간 평균 차이 (같은 모집단에 속했는지 테스트)
ANOVA
- One-way (변수가 하나일 때)
. 한 변수의 집단이 여러개 일 경우
- Two-way (두 독립변수가 영향을 줄 때)
. (Category) 독립변수 두 개 이상 (교호작용)
. 교호작용 변수가 포함되며 교호작용 변수가 영향을 주는 경우 같이 고려해야함
ANCOVA
- Covariate 한 변수가 영향을 주는지
- 선형적인 변수 (ex: 나이) 가 집단간 동질성을 파악할 때 영향을 주게 되는 경우
그 평균적인 값을 빼줌으로써 영향을 없애고 파악하고 싶다
. 평균적인 값을 빼기 위해 두 결과는 선형적인 결과
. 두 선이 평행해야함
[Time Series]
구성요소
- 불규칙변동 (Random)
- 계절변동 (Seasonal)
- 추세변동 (Trend)
- 순환변동 (Cyclic)
. 보통 얘는 빼고 함, 너무 길어서
분석 방법
- Moving Average
. Naive
=> 현재의 demand가 앞으로도 쭉 요구 될 것이다
. Simple MR
=> 최근의 주기에 따라 앞으로가 예측 될 것이다
주기가 짧으면 변동폭이 큼
. Weighted MR
=> 전체를 보는데 최근의 Data에 weighted를 더 많이 준다
주기가 fix되어 있고 weight를 어떻게 주느냐가 어려움
. Exponential Smooting
=> 불규칙한 것을 평균을 내어 평평하게 만듦
과거의 모든 자료를 사용하여 평균을 구하면서 최근 Data에 가중치를 주는 방식 a*demand + (1-a)*Ft
=> Adjusted로 trend factor를 반영함
- ARIMA
. Stationary 시계열 특징
=> Mean, Variance가 상수
즉, 시계열의 평균값이 시간에 따라서도 일정하고 분산이 일정하다
. Dickey-Fuller Unit-Root test
=> 타임시리즈 모델이 정상성이 있다를 판단하고 싶음 (보통 시계열은 비정상성이므로)
. AR (Autoregressive)
=> 자기 자신을 얼마나 반복하는지