[텍스트 마이닝]
PoS (Part of Speech)
- Markov Model
. 각 feature에서 다음 feature로 전이 될 확률 모델
. 근데 단어가 똑같은 개수로 들어오면 똑같은 확률로 나옴
- Hidden Markov Model
. lexical generation probability 사용
=> 관사, 명사 등 별로 현재 단어가 나올 확률을 계산
. 요거도 supervised learning
WSD
- 단어가 ambiguous 할 수 있음
- 두 의미 중 뭐를 골라야해? context를 보고 판단
[Term Feature 추출]
검색에서 Term Feature
- bag of words (단어들을 다 bag에 집어 넣는다)
- doc, term 간의 matrix를 정의하면 vector로 표현 가능
=> 질의도 vector로 표현 해서 cosine similarity 계산 가능
- tf-idf (term frequency- inversed document frequency)
. tf : 용어가 doc에 나오는 빈도수
. df : 용어가 출현하는 doc의 빈도수
=> idf를 사용하는 이유
. 검색에서는 doc마다 feature가 발생하면 별로 중요하다고 안여김
* classification은 feature가 doc(class)을 얼마나 잘 표현하느냐기 때문에 df를 씀
. 대표적으로 BM25 (Best Matched) 사용
Classification에서 Feature Selection
- Feature selection할 때 term feature 잘 뽑아야함
. accuracy 향상
. space reduce
. training time reduce
- 방법 4가지
. DF
. Information Gain
=> entropy (불확실성) 을 낮춰야함
X feature를 뽑아냄으로써 entropy가 얼마나 낮아지느냐를 찾음
. Mutual Information
. Chi-squared