티스토리 뷰
[텍스트 마이닝]
PoS (Part of Speech)
- Markov Model
. 각 feature에서 다음 feature로 전이 될 확률 모델
. 근데 단어가 똑같은 개수로 들어오면 똑같은 확률로 나옴
- Hidden Markov Model
. lexical generation probability 사용
=> 관사, 명사 등 별로 현재 단어가 나올 확률을 계산
. 요거도 supervised learning
WSD
- 단어가 ambiguous 할 수 있음
- 두 의미 중 뭐를 골라야해? context를 보고 판단
[Term Feature 추출]
검색에서 Term Feature
- bag of words (단어들을 다 bag에 집어 넣는다)
- doc, term 간의 matrix를 정의하면 vector로 표현 가능
=> 질의도 vector로 표현 해서 cosine similarity 계산 가능
- tf-idf (term frequency- inversed document frequency)
. tf : 용어가 doc에 나오는 빈도수
. df : 용어가 출현하는 doc의 빈도수
=> idf를 사용하는 이유
. 검색에서는 doc마다 feature가 발생하면 별로 중요하다고 안여김
* classification은 feature가 doc(class)을 얼마나 잘 표현하느냐기 때문에 df를 씀
. 대표적으로 BM25 (Best Matched) 사용
Classification에서 Feature Selection
- Feature selection할 때 term feature 잘 뽑아야함
. accuracy 향상
. space reduce
. training time reduce
- 방법 4가지
. DF
. Information Gain
=> entropy (불확실성) 을 낮춰야함
X feature를 뽑아냄으로써 entropy가 얼마나 낮아지느냐를 찾음
. Mutual Information
. Chi-squared
'Computer Science > Machine Learning' 카테고리의 다른 글
[ADP] 통계 정리 (0) | 2021.03.23 |
---|---|
Machine Learning 구성요소 (0) | 2019.08.21 |
Machine Learning 이란? (0) | 2019.08.21 |
- Total
- Today
- Yesterday
- kubernetes
- 스프링
- 암호화폐
- 블록체인
- SpringBoot
- Blockchain
- Redis
- Nealford
- k8s
- 스프링 시큐리티
- excel parsing
- Java
- vuejs
- 백준
- gRPC
- Spring
- 카르다노
- Vue.js
- 비트코인
- 동적계획법
- 아키텍처
- 사토시 나가모토
- 알고리즘
- Bitcoin
- DP
- architecture
- white paper
- Bruteforce
- leetcode
- CARDANO
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |