[AI]분산표현

 희소표현(희소행렬)의 대표적인 예시가 One-Hot Encoding 이라면, CoD(Curse of Dimensionality) 나 메모리 낭비, 계산 복잡도 등의 문제가 발생한다.

데이터의 정보를 희소적인 형태가 아닌, 단순히 벡터의 형태로 정의한다면 메모리의 크기를 대폭 줄일 수 있을 것이다.(ex: RGB 표현방법)

- 연관성이 있는 단어들은 인접한 벡터를 가짐
인접한 거리의 단어(데이터)들은 유사하거나, 동일한 데이터로 취급할 수 있을 것이다.(남성↔남자)

분산표현(분산벡터)의 데이터를 학습 후 데이터를 예측하는 경우도 인접한 정도를 계산하여 수행한다.


Word2Vec

- Google 제공 단어 임베딩(분산벡터) 모델

- CBOW(continuous bag of words), Skip-gram 모델로 제안됨


CBOW : Continuous bag of words

- 주변 단어들을 이용해 타깃 단어를 예측하는 신경망 모델
- Skip-gram 에 비해 예측해야 할 단어의 개수, 손실의 계산만 하므로 상대적으로 연산이 빠름


Skip-gram

- 하나의 단어를 기준으로 주변 단어들을 예측하는 신경망 모델
- CBOW 에 비해 다수의 단어를 예측해야 하므로 단어 분산 표현력이 우수함



댓글