[ADP] 텍스트 마이닝 정리

티스토리 뷰

Computer Science/Machine Learning

[ADP] 텍스트 마이닝 정리

GOD동하 2021. 3. 23. 10:39

[텍스트 마이닝]
PoS (Part of Speech)
- Markov Model
  . 각 feature에서 다음 feature로 전이 될 확률 모델
  . 근데 단어가 똑같은 개수로 들어오면 똑같은 확률로 나옴
- Hidden Markov Model
  . lexical generation probability 사용
    => 관사, 명사 등 별로 현재 단어가 나올 확률을 계산
  . 요거도 supervised learning
WSD
- 단어가 ambiguous 할 수 있음
- 두 의미 중 뭐를 골라야해? context를 보고 판단

[Term Feature 추출]
검색에서 Term Feature
- bag of words (단어들을 다 bag에 집어 넣는다)
- doc, term 간의 matrix를 정의하면 vector로 표현 가능
  => 질의도 vector로 표현 해서 cosine similarity 계산 가능
- tf-idf (term frequency- inversed document frequency)
  . tf : 용어가 doc에 나오는 빈도수
  . df : 용어가 출현하는 doc의 빈도수
   => idf를 사용하는 이유
      . 검색에서는 doc마다 feature가 발생하면 별로 중요하다고 안여김
   * classification은 feature가 doc(class)을 얼마나 잘 표현하느냐기 때문에 df를 씀
  . 대표적으로 BM25 (Best Matched) 사용
Classification에서 Feature Selection
- Feature selection할 때 term feature 잘 뽑아야함
  . accuracy 향상
  . space reduce
  . training time reduce
- 방법 4가지
  . DF
  . Information Gain
=> entropy (불확실성) 을 낮춰야함
   X feature를 뽑아냄으로써 entropy가 얼마나 낮아지느냐를 찾음
  . Mutual Information
  . Chi-squared

'Computer Science > Machine Learning' 카테고리의 다른 글

[ADP] 통계 정리 (0)	2021.03.23
Machine Learning 구성요소 (0)	2019.08.21
Machine Learning 이란? (0)	2019.08.21

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

글 보관함

GOD동하님의 블로그

티스토리 뷰

[ADP] 텍스트 마이닝 정리

'Computer Science > Machine Learning' 카테고리의 다른 글

티스토리툴바