티스토리 뷰

[Big Data Analysis]
EDA - Garbage In Garbage Out 으로 쓰레기 데이터가 들어가면 쓰레기 데이터가 나옴
자료를 활용하기 전에 주요 통계량 요약하고 그래프를 통해 시각적으로 파악해본다. 이게 젤 중요
EDA 방법 - 기술통계, 시각화

[기술통계]
Measures of Central Tendency (중심경향값, 대표값)
 - 분포의 중심을 찾음
 - Mean, Median, Mode, Quartile
 
Dispersion (산포도)
 - 분포의 퍼짐 정도
 - Variance, Min, Max, Range, Standard Deviation, Standard Error, Coefficient...
 
Distribution (분포도)
 - 분포의 모양
 - Kurtosis (첨도)
   . positive -> data가 몰려있어 뾰족함
   . negative -> data가 퍼져있어 완만함
   . 0? -> normal distribution
 - ★Skewness (왜도)
   . 꼬리가 오른쪽으로 길다 (mode < median < mean) - positive
   . 꼬리가 왼쪽으로 길다 (mean < median < mode) - negative
   
[상관계수]
Covariance
 - 두 변수가 같이 커지는 지 작아지는 지 확인
  (Xi - Xm)(Yi - Ym) 합의 평균
Correlation (상관계수)
 - Cov 를 Normalize 한 값 (x, y의 표준편차로 나눠서)
 - -1, 0, 1에 따라서 0에 가까울 수록 두 변수의 상관관계는 없다
 - Pearson 상관계수 
   . 선형 값에 대한 상관계수
   . 산점도가 비선형적으로 나올 경우 선형으로밖에 표현이 안됨..-> error가 많아짐
 - Spearman 상관계수
   . Rank 값에 대한 상관계수 (선형으로 표현 안될 때) -> non-parametric
 - ★피어슨이 높으면 스피어만도 높음, But 스피어만이 높다고 피어슨이 높지는 않음

[확률분포]
카이제곱 검정
 - 두 개 분포도 차이
T-Test 
 - 두 집단간 평균 차이 (같은 모집단에 속했는지 테스트)
ANOVA
 - One-way (변수가 하나일 때) 
  . 한 변수의 집단이 여러개 일 경우
 - Two-way (두 독립변수가 영향을 줄 때)
  . (Category) 독립변수 두 개 이상 (교호작용)
  . 교호작용 변수가 포함되며 교호작용 변수가 영향을 주는 경우 같이 고려해야함
ANCOVA
 - Covariate 한 변수가 영향을 주는지
 - 선형적인 변수 (ex: 나이) 가 집단간 동질성을 파악할 때 영향을 주게 되는 경우
   그 평균적인 값을 빼줌으로써 영향을 없애고 파악하고 싶다
   . 평균적인 값을 빼기 위해 두 결과는 선형적인 결과
   . 두 선이 평행해야함

[Time Series]
구성요소
 - 불규칙변동 (Random)
 - 계절변동 (Seasonal)
 - 추세변동 (Trend)
 - 순환변동 (Cyclic)
  . 보통 얘는 빼고 함, 너무 길어서
분석 방법
 - Moving Average
  . Naive 
=> 현재의 demand가 앞으로도 쭉 요구 될 것이다
  . Simple MR
=> 최근의 주기에 따라 앞으로가 예측 될 것이다
   주기가 짧으면 변동폭이 큼
  . Weighted MR
=> 전체를 보는데 최근의 Data에 weighted를 더 많이 준다
   주기가 fix되어 있고 weight를 어떻게 주느냐가 어려움
  . Exponential Smooting
    => 불규칙한 것을 평균을 내어 평평하게 만듦
   과거의 모든 자료를 사용하여 평균을 구하면서 최근 Data에 가중치를 주는 방식 a*demand + (1-a)*Ft
=> Adjusted로 trend factor를 반영함
 - ARIMA
  . Stationary 시계열 특징
    => Mean, Variance가 상수
   즉, 시계열의 평균값이 시간에 따라서도 일정하고 분산이 일정하다
  . Dickey-Fuller Unit-Root test
    => 타임시리즈 모델이 정상성이 있다를 판단하고 싶음 (보통 시계열은 비정상성이므로)
  . AR (Autoregressive)
    => 자기 자신을 얼마나 반복하는지 

'Computer Science > Machine Learning' 카테고리의 다른 글

[ADP] 텍스트 마이닝 정리  (0) 2021.03.23
Machine Learning 구성요소  (0) 2019.08.21
Machine Learning 이란?  (0) 2019.08.21
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함