GloVe
GloVe(Global Vectors for Word Representaion)는 word embedding을 위한 방법론이다.
Word2Vec는 embedding vector가 window 크기에서만 고려하기 때문에, 전체 정보를 반영하지 못한다.
즉, 특정 단어쌍이 등장하는 빈도가 높아질수록 그에 맞춰서 학습을 진행한다는 말이다.
이에 비해 GloVe는 단어쌍이 등장한 횟수를 미리 계산해서 학습을 진행한다.
그리고 log를 취해 중복 계산을 피하기 때문에 상대적으로 학습이 빠르고 적은 데이터에서도 잘 동작한다.
GloVe의 동작 과정은 low rank matrix factorization(행렬 분해) task로도 이해할 수 있다.
이를 선형대수 관점에서 보면, 추천 시스템에 많이 사용하는 co-occurrent matirx 알고리즘이다.
GloVe - Example
왼쪽에서부터 순서대로 남성-여성, 사람 성-이름, 미국 주-우편번호, 비교급 영단어에 대한 GloVe 학습 이후 임베딩이다.
man-woman, strong-stronger-strongest 등이 이어져있고, 각 단어의 특징에 따라 위치가 일정함을 볼 수 있다.
해당 차원은 2차원보다 고차원이지만, PCA를 통해 2차원으로 낮추어 그래프를 그렸다.
'공부 > BoostCourse 자연어 처리' 카테고리의 다른 글
06. NLP DL - Character-level Language Model (0) | 2025.03.11 |
---|---|
05. NLP DL - Recurrent Neural Network (RNN) (0) | 2025.03.10 |
03. NLP Basic - Word Embedding (1)Word2Vec (0) | 2025.03.08 |
02. NLP Basic - 기존의 자연어 처리 기법 (0) | 2025.03.07 |
01. NLP Basic - 자연어 처리 활용 분야와 트렌드 (0) | 2025.03.06 |