티스토리 뷰

[텍스트 마이닝]
PoS (Part of Speech) 
 - Markov Model
  . 각 feature에서 다음 feature로 전이 될 확률 모델
  . 근데 단어가 똑같은 개수로 들어오면 똑같은 확률로 나옴
 - Hidden Markov Model
  . lexical generation probability 사용
    => 관사, 명사 등 별로 현재 단어가 나올 확률을 계산
  . 요거도 supervised learning
WSD
 - 단어가 ambiguous 할 수 있음
 - 두 의미 중 뭐를 골라야해? context를 보고 판단
 
[Term Feature 추출]
검색에서 Term Feature
 - bag of words (단어들을 다 bag에 집어 넣는다)
 - doc, term 간의 matrix를 정의하면 vector로 표현 가능
  => 질의도 vector로 표현 해서 cosine similarity 계산 가능
 - tf-idf (term frequency- inversed document frequency)
  . tf : 용어가 doc에 나오는 빈도수
  . df : 용어가 출현하는 doc의 빈도수
   => idf를 사용하는 이유
      . 검색에서는 doc마다 feature가 발생하면 별로 중요하다고 안여김
   * classification은 feature가 doc(class)을 얼마나 잘 표현하느냐기 때문에 df를 씀
  . 대표적으로 BM25 (Best Matched) 사용
Classification에서 Feature Selection
 - Feature selection할 때 term feature 잘 뽑아야함
  . accuracy 향상
  . space reduce
  . training time reduce
 - 방법 4가지
  . DF
  . Information Gain
=> entropy (불확실성) 을 낮춰야함
   X feature를 뽑아냄으로써 entropy가 얼마나 낮아지느냐를 찾음
  . Mutual Information
  . Chi-squared

'Computer Science > Machine Learning' 카테고리의 다른 글

[ADP] 통계 정리  (0) 2021.03.23
Machine Learning 구성요소  (0) 2019.08.21
Machine Learning 이란?  (0) 2019.08.21
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함