๐ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ/NLP
[Word2Vec] Distributed Representations of Words and Phrases and their Compositionality
2022. 8. 11. 00:10
- -
Word2Vec์ Skip-gram ๋ชจ๋ธ
Distributed Representations of Words and Phrases and their Compositionality
๐ก๋ค์ด๊ฐ๊ธฐ ์ ๊ฐ๋ ์ ๋ฆฌ
- Distributed Representation(๋ถํฌ ๊ธฐ๋ฐ์ ๋จ์ด ํํ)
- '๋น์ทํ ์์น์์ ๋ฑ์ฅํ๋ ๋จ์ด๋ค์ ๋น์ทํ ์๋ฏธ๋ฅผ ๊ฐ์ง๋ค'๋ผ๋ ๋ถํฌ ๊ฐ์ค์ ๊ธฐ๋ฐํด ์ฃผ๋ณ ๋จ์ด ๋ถํฌ๋ฅผ ๊ธฐ์ค์ผ๋ก ๋จ์ด์ ๋ฒกํฐ ํํ์ด ๊ฒฐ์ ๋๊ธฐ ๋๋ฌธ์ ๋ถ์ฐ ํํ(Distributed representation)์ด๋ผ๊ณ ๋ถ๋ฆ
- cf) ์-ํซ ์ธ์ฝ๋ฉ(One-hot Encoding)
- ๋ฒ์ฃผํ(categorical) ๋ณ์๋ฅผ ๋ฒกํฐํ
- ex) [1 0 0 0], [0 1 0 0], [0 0 1 0], [0 0 0 1]
- ๋จ์ : ์ฝ์ฌ์ธ ์ ์ฌ๋ ๊ฐ์ด 0 => ๋จ์ด ์ฌ์ด ๊ด๊ณ ํ์ X, ์ฐจ์์ด ๋๋ฌด ์ปค์ง
- ์๋ฒ ๋ฉ(Embedding)
- ์ํซ ์ธ์ฝ๋ฉ ๋จ์ ํด๊ฒฐ -> ๋จ์ด ์ฌ์ด ๊ด๊ณ ํ์ ๊ฐ๋ฅ
- ๋จ์ด๋ฅผ ๊ณ ์ ๋ ๊ธธ์ด์ ์ฐจ์์ผ๋ก ๋ฒกํฐํ => ๋ฒกํฐ๊ฐ ์๋ ๊ฒ์ ๊ณ ์ ๊ธธ์ด์ ๋ฒกํฐ๋ก ๋ํ๋ด๊ธฐ
- ๋ฒกํฐ ๋ด ๊ฐ ์์๊ฐ ์ฐ์์ ์ธ ๊ฐ์ ๊ฐ์ง -> ex) [0.04227, -0.0033, 0.1607, -0.0236, ...]
- Word2Vec
- ๋จ์ด๋ฅผ ๋ฒกํฐ๋ก ๋ํ๋ด๋ ๋ฐฉ๋ฒ
- ๊ฐ์ฅ ๋ง์ด ์ฌ์ฉ๋๋ ์๋ฒ ๋ฉ ๋ฐฉ๋ฒ
- ํน์ ๋จ์ด ๊ธฐ์ค ์ ์์ ๋ ๋จ์ด (window size = 2)์ ๊ด๊ณ ์ด์ฉ
- -> ๋ถํฌ ๊ฐ์ค์ ์ ๋ฐ์ํจ
- ๋ฒกํฐํํ๊ณ ์ ํ๋ ํ๊ฒ ๋จ์ด(Target word)์ ํํ์ด ํด๋น ๋จ์ด ์ฃผ๋ณ ๋จ์ด์ ์ํด ๊ฒฐ์ ๋จ
- CBoW(Continuous Bag-of-Words)
- ์ฃผ๋ณ ๋จ์ด -> ์ค์ฌ ๋จ์ด ์์ธก
- Skip-gram
- ์ค์ฌ ๋จ์ด -> ์ฃผ๋ณ ๋จ์ด ์์ธก
- CBoW๋ณด๋ค ์ฑ๋ฅ ์ข์ -> ์ญ์ ํ ๊ณผ์ ์์ ํ์ต์ด ๋ง์์ => ๊ฐ์ค์น๊ฐ ๋ ์ ์๋ฏธํ ๊ฐ์ ๊ฐ์ง๊ฒ ๋จ
- ๋จ์ : ๊ณ์ฐ๋์ด ๋ง์ -> ๋ฆฌ์์ค ํผ (= ๋น์ฉ ์ฆ๊ฐ)
Abstract
- ๋
ผ๋ฌธ์์๋ Skip-gram ๋ชจ๋ธ์ ๋ํด ๋ฒกํฐ์ ํ์ง๊ณผ ํ์ต ์๋๋ฅผ ์ฆ์ง์ํจ ๋ช ๊ฐ์ง extension๋ค์ ์ ์
- subsampling
- negative sampling
- ์์ฃผ ๋ฑ์ฅํ๋ ๋จ์ด๋ฅผ subsamplingํจ์ผ๋ก์จ ๋์ ๋๊ฒ ๋นจ๋ผ์ง ํ์ต ์๋์ regular word representations๋ฅผ ๋ ๋ง์ด ํ์ตํ ์ ์์์
- hierarchical softmax(๊ณ์ธต์ ์ํํธ๋งฅ์ค)์ ๊ฐ๋จํ ๋์์ธ negative sampling ์ ์
- word representation์ ํ๊ณ๋ ๋จ์ด ์์์ ๋ํ ๋ฌด๊ด์ฌ๊ณผ ๊ด์ฉ๊ตฌ(idiomatic phrase)๋ฅผ ํํํ ์ ์๋ค๋ ๊ฒ
- ex) "Canada"์ "Air"์ ์๋ฏธ๋ฅผ ๊ฒฐํฉํด์ "Air Canada"๋ผ๋ ๋จ์ด๋ฅผ ์ฝ๊ฒ ์ป์ง ๋ชปํจ
- ์ด ์์์์ ์ฐฉ์ํด ๋ ผ๋ฌธ์์๋ ํ ์คํธ์์ ๊ตฌ(phrase)๋ฅผ ์ฐพ๋ ๊ฐ๋จํ ๋ฐฉ๋ฒ์ ์ ์ํ๊ณ , ์๋ฐฑ๋ง ๊ฐ์ ๊ตฌ์ ๋ํ ์ข์ ๋ฒกํฐ ํํ(vector representation)์ ํ์ตํ๋ ๊ฒ์ด ๊ฐ๋ฅํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค
Introduction
- Skip-gram ๋ชจ๋ธ: ๋๋์ ๋น์ ํ ํ ์คํธ ๋ฐ์ดํฐ์์ ๋จ์ด์ ๊ณ ํ์ง vector representations๋ฅผ ํ์ตํ๋ ํจ์จ์ ์ธ ๋ฐฉ๋ฒ
- Skip-gram ๋ชจ๋ธ์ ํ๋ จ ๋ชฉํ๋ ์ฃผ๋ณ ๋จ์ด๋ฅผ ์ ์์ธกํ๋ ๋จ์ด ๋ฒกํฐ ํํ(word vector representations)์ ํ์ตํ๋ ๊ฒ
- word vector๋ฅผ ํ์ตํ๊ธฐ ์ํด ์ด์ ์ ์ฌ์ฉ๋ ๋๋ถ๋ถ์ neural network architectures์ ๋ฌ๋ฆฌ Skip-gram ๋ชจ๋ธ์ ํ๋ จ(training)์๋ ์กฐ๋ฐํ ํ๋ ฌ ๊ณฑ์ ์ด ํฌํจ๋์ง ์์
- → ์ด๋ก ์ธํด ํ๋ จ์ด ์์ฃผ ํจ์จ์ ์ด๊ฒ ๋จ (์ต์ ํ๋ single-machine implementation์ผ๋ก ํ๋ฃจ์ 1000์ต ๊ฐ ์ด์์ ๋จ์ด ํ์ต ๊ฐ๋ฅ)
- ๋ ผ๋ฌธ์์๋ ์ค๋ฆฌ์ง๋ Skip-gram ๋ชจ๋ธ์ ๋ํ ๋ช๊ฐ์ง extension๋ค์ ์ ์
- ํ๋ จ ์ค ์์ฃผ ๋ฑ์ฅํ๋ ๋จ์ด๋ค์ ๋ํ subsampling์ ์ฌ์ฉํ๋ฉด ์๋๊ฐ ํฌ๊ฒ ํฅ์๋์๊ณ (์ฝ 2๋ฐฐ์์ 10๋ฐฐ๊น์ง) ๋ ์์ฃผ ๋ฑ์ฅํ๋ ๋จ์ด์ ๋ํ representations์ ์ ํ๋๊ฐ ํฅ์๋ ๊ฒ์ ํ์ธ
- Skip-gram ๋ชจ๋ธ ํ๋ จ์ ์ํ Noise Contrastive Estimation (NCE)์ ๋จ์ํ๋ ๋ณํ์ ์ ์
- -> ์ด์ ์์
์ ์ฌ์ฉ๋ ๋ ๋ณต์กํ hierarchical softmax์ ๋นํด์ ์์ฃผ ๋ฑ์ฅํ๋ ๋จ์ด๋ค์ ๋ํด ๋ ๋น ๋ฅธ ํ๋ จ๊ณผ ๋ ๋์ vector representation์ด ๊ฐ๋ฅํด์ง
- Noise Contrastive Estimation (NCE)
- CBOW์ Skip-Gram ๋ชจ๋ธ์์ ์ฌ์ฉํ๋ ๋น์ฉ ๊ณ์ฐ ์๊ณ ๋ฆฌ์ฆ
- ์ ์ฒด ๋ฐ์ดํฐ์ ์ ๋ํด softmax ํจ์๋ฅผ ์ ์ฉํ๋ ๊ฒ์ด ์๋๋ผ ์ํ๋ง์ผ๋ก ์ถ์ถํ ์ผ๋ถ์ ๋ํด์๋ง ์ ์ฉ
- ๊ธฐ๋ณธ ์๊ณ ๋ฆฌ์ฆ: k๊ฐ์ ๋๋น๋๋ ๋จ์ด๋ค์ noise distribution์์ ๊ตฌํด์ (๋ชฌํ ์นด๋ฅผ๋ก) ํ๊ท ์ ๊ตฌํจ
- Hierarchical softmax, Negative Sampling ๋ฑ ์ฌ๋ฌ ๊ฐ์ง ๋ฐฉ๋ฒ ์กด์ฌ
- ์ผ๋ฐ์ ์ผ๋ก ๋จ์ด์ ๊ฐ์๊ฐ ๋ง์ ๋ ์ฌ์ฉ
- NCE๋ฅผ ์ฌ์ฉํ๋ฉด ๋ฌธ์ ๋ฅผ <์ค์ ๋ถํฌ์์ ์ป์ ์ํ>๊ณผ <์ธ๊ณต์ ์ผ๋ก ๋ง๋ ์ก์ ๋ถํฌ(noise distribution)์์ ์ป์ ์ํ>์ ๊ตฌ๋ณํ๋ ์ด์ง ๋ถ๋ฅ ๋ฌธ์ ๋ก ๋ฐ๊ฟ ์ ์๊ฒ ๋จ
- Negative Sampling์์ ์ฌ์ฉํ๋ ๋ชฉ์ ํจ์๋ ๊ฒฐ๊ณผ๊ฐ์ด ์ต๋ํ๋ ์ ์๋ ํํ๋ก ๊ตฌ์ฑ
- ํ์ฌ(= ๋ชฉํ, target, positive) ๋จ์ด์๋ ๋์ ํ๋ฅ ์ ๋ถ์ฌ, ๋๋จธ์ง ๋จ์ด(= negative, noise)์๋ ๋ฎ์ ํ๋ฅ ์ ๋ถ์ฌํด์ ๊ฐ์ฅ ํฐ ๊ฐ์ ๋ง๋ค ์ ์๋ ๊ณต์ ์ฌ์ฉ
- ๊ณ์ฐ ๋น์ฉ์์ ์ ์ฒด ๋จ์ด V๋ฅผ ๊ณ์ฐํ๋ ๊ฒ์ด ์๋๋ผ ์ ํํ k๊ฐ์ noise ๋จ์ด๋ค๋ง ๊ณ์ฐํ๋ฉด ๋๊ธฐ ๋๋ฌธ์ ํจ์จ์
- ํ ์ํ๋ก์ฐ -> tf.nn.nce_loss()์ ๊ตฌํ
- Noise Contrastive Estimation (NCE)
- word representation๋ ๊ฐ๋ณ ๋จ์ด์ ๊ตฌ์ฑ์ด ์๋ ๊ด์ฉ๊ตฌ(idiomatic phrases)๋ฅผ ํํํ ์ ์๋ค๋ ํ๊ณ๋ฅผ ๊ฐ์ง
- ex) “Boston Globe(: ๋ฏธ๊ตญ์ ์ผ๊ฐ ์ ๋ฌธ)”๋ ์ ๋ฌธ์ ๋ปํ์ง “Boston”๊ณผ “Globe”๋ผ๋ ๋จ์ด์ ์๋ฏธ๊ฐ ๊ฒฐํฉ๋ ๊ฒ์ด ์๋
- ๋ฐ๋ผ์ ์ ์ฒด ๊ตฌ(phrases)๋ฅผ ํํํ๊ธฐ ์ํด ๋ฒกํฐ๋ฅผ ์ฌ์ฉํ๋ฉด Skip-gram ๋ชจ๋ธ์ ํํ๋ ฅ์ด ํจ์ฌ ๋ ์ข์์ง
- ๋จ์ด ๊ธฐ๋ฐ(word based) ๋ชจ๋ธ์์ ๊ตฌ๋ฌธ ๊ธฐ๋ฐ(phrase based) ๋ชจ๋ธ๋ก์ ํ์ฅ(extension)์ ๋น๊ต์ ๊ฐ๋จํจ
- 1) ๋ฐ์ดํฐ ๊ธฐ๋ฐ ์ ๊ทผ ๋ฐฉ์์ ์ฌ์ฉํด ๋ง์ ์์ phrase๋ฅผ ์๋ณ
- 2) 2) ํ๋ จ ์ค phrase๋ฅผ ๊ฐ๋ณ ํ ํฐ์ผ๋ก ์ฒ๋ฆฌ
- phrase vector์ ํ์ง์ ํ๊ฐํ๊ธฐ ์ํด์ ๋จ์ด์ ๊ตฌ๋ฅผ ๋ชจ๋ ํฌํจํ๋ analogical reasoning tasks์ test์
์ ๊ฐ๋ฐํจ
- Analogical Reasoning Task
- ์ด๋ค ๋จ์ด์ pair(์), ์๋ฅผ ๋ค์ด "(Athens, Greece)" ๋ผ๋ pair๊ฐ ์ฃผ์ด์ก์ ๋, ๋ค๋ฅธ ๋จ์ด “Oslo”๋ฅผ ์ฃผ๋ฉด ์ด ๊ด๊ณ์ ์์ํ๋ ๋ค๋ฅธ ๋จ์ด๋ฅผ ์ ์ํ๋ ๋ฐฉ์์ ์ํ
- Analogical Reasoning Task
- test์
์ ์ผ๋ฐ์ ์ธ ์ ์ถ ์(analogy pair)
- “Montreal”:“Montreal Canadiens”::“Toronto”:“Toronto Maple Leafs”.
- vec("Montreal Canadiens") - vec("Montreal") + vec("Toronto")์ ๊ฐ์ฅ ๊ฐ๊น์ด representation์ด vec("Toronto Maple Leafs")์ธ ๊ฒฝ์ฐ ์ฌ๋ฐ๋ฅด๊ฒ ์๋ต๋ ๊ฒ์ผ๋ก ๊ฐ์ฃผ๋จ
- simple vector addition์ด ์ข
์ข
์๋ฏธ ์๋ ๊ฒฐ๊ณผ๋ฅผ ์์ฑํ ์ ์๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌ
- ex) vec(“Russia”) + vec(“river”)๋ vec(“Volga River”)์ ๊ฐ๊น์
- vec(“Germany”) + vec(“capital”)๋ vec(“Berlin”)๊ณผ ๊ฐ๊น์
- ์ด ๋ณตํฉ์ฑ(compositionality)์ word vector representations์ ๊ธฐ๋ณธ ์ํ์ ์ฐ์ฐ์ ์ฌ์ฉํด์ ๋ช ํํ์ง ์์ ์์ค์ ์ธ์ด ์ดํด(language understanding)๋ฅผ ์ป์ ์ ์์์ ์์ฌํจ
2.1 Hierarchical Softmax
- full softmax์ ๊ณ์ฐ์ ์ผ๋ก ํจ์จ์ ์ธ ๊ทผ์ฌ์น๊ฐ hierarchical softmax
- ์ด ๋ฐฉ๋ฒ์ ์ฃผ๋ ์ด์ ์ ํ๋ฅ ๋ถํฌ๋ฅผ ์ป๊ธฐ ์ํด ์ ๊ฒฝ๋ง์์ $W$(vocabulary ๋ด word์ ์)๊ฐ์ output node๋ฅผ ํ๊ฐํ๋ ๋์ $log_2(W)$ nodes์ ๋ํด์๋ง ํ๊ฐํ๋ค๋ ๊ฒ
- hierarchical softmax๋ ์ด์ง ํธ๋ฆฌ๋ฅผ ์ด์ฉํด์ $W$์ output layer๋ฅผ ํํํจ
- ์ด๋ ํธ๋ฆฌ์ ๊ฐ ๋ ธ๋์ leaf๋ child node์ ํ๋ฅ ๊ณผ ๊ด๋ จ๋จ
- ์ด๋ ๋จ์ด์ ์์์ ํ๋ฅ ์ ์ ์ํ๊ฒ ํด์ค
- hierarchical softmax์์ ์ฌ์ฉํ๋ ํธ๋ฆฌ์ ๊ตฌ์กฐ๋ ์ฑ๋ฅ์ ์๋นํ ์ํฅ์ ๋ฏธ์นจ
- ๋ ผ๋ฌธ์์๋ binary Huffman tree๋ฅผ ์ฌ์ฉํ๋๋ฐ ์์ฃผ ๋ฑ์ฅํ๋ ๋จ์ด์ short codes๋ฅผ ํ ๋นํ๊ธฐ ๋๋ฌธ์ ํ๋ จ์ ๋น ๋ฅด๊ฒ ์งํํ ์ ์์์
- Hierarchical Softmax
- ๊ธฐ์กด softmax์ ๊ณ์ฐ๋์ ํ๊ฒฉํ ์ค์ธ softmax์ ๊ทผ์ฌ์ํค๋ ๋ฐฉ๋ฒ๋ก
- Word2Vec์์ skip-gram๋ฐฉ๋ฒ์ผ๋ก ๋ชจ๋ธ์ ํ๋ จ์ํฌ ๋ negative sampling๊ณผ ํจ๊ป ์ฐ์
- Huffman tree
- Word2Vec์์ vocabulary์ ์๋ ๋ชจ๋ ๋จ์ด๋ค์ ์์ผ๋ก ๊ฐ๋ Huffman tree๋ฅผ ๋ง๋ฆ
- Huffman tree๋ ๋ฐ์ดํฐ์ ๋ฑ์ฅ ๋น๋์ ๋ฐ๋ผ ๋ฐฐ์นํ๋ ๊น์ด๊ฐ ๋ฌ๋ผ์ง๋ ์ด์ง ํธ๋ฆฌ
- Word2Vec์์๋ ์์ฃผ ๋ฑ์ฅํ๋ ๋จ์ด(frequent word)๋ ์๊ฒ, ๊ฐ๋ ๋ฑ์ฅํ๋ ๋จ์ด(rare word)๋ ๊น๊ฒ ๋ฐฐ์นํจ
- ๋ชจ๋ ๋ ธ๋์ ๋ํด ํ๋ฅ ์ ๋ค ๋ํ๋ฉด 1์ด ๋์ค๋ฏ๋ก ํ๋ฅ ๋ถํฌ๋ฅผ ์ด๋ฃจ๊ณ , ์ด ํ๋ฅ ๋ถํฌ๋ฅผ ์ด์ฉํ๋ฉด ์ผ๋ฐ์ ์ธ ์ํํธ๋งฅ์ค์ฒ๋ผ ํ์ฉ ๊ฐ๋ฅ
2.2 Negative Sampling
- hierarchical softmax์ ๋์์ด Noise Contrastive Estimation(NCE)
- NCE๋ logistic regression(๋ก์ง์คํฑ ํ๊ท)์ ํ๊ท ์ ํตํด ๋ ธ์ด์ฆ์ ๋ฐ์ดํฐ๋ฅผ ๊ตฌ๋ณํ ์ ์๋ ๊ฒ ์ข์ ๋ชจ๋ธ์ด๋ผ๊ณ ๊ฐ์
- NCE๋ softmax์ ๋ก๊ทธํ๋ฅ ์ ๊ทผ์ฌํ๊ฒ(approximately) ์ต๋ํํํ๋ ค ํ์ง๋ง Skip-gram ๋ชจ๋ธ์ ์ค์ง ๊ณ ํ์ง vector representations๋ฅผ ํ์ตํ๋ ๊ฒ์ ๋ชฉํ๋ก ํจ
- ๋ฐ๋ผ์ ๋ ผ๋ฌธ์์๋ vector representations์ ํ์ง์ด ์ ์ง๋๋ ํ NCE๋ฅผ ๋จ์ํํ ์ ์์์
- Negative sampling๊ณผ NCE์ ์ฃผ์ ์ฐจ์ด์ ์ NCE๋ ์ํ๊ณผ ๋ ธ์ด์ฆ ๋ถํฌ์ ์์น์ ํ๋ฅ ์ด ๋ชจ๋ ํ์ํ์ง๋ง negative sampling์ ์ํ๋ง ์ฌ์ฉํ๋ค๋ ๊ฒ
- ์ ์ด๋ฏธ์ง๋ ํ๋ จ ์ค์ ์๋๊ฐ ์๋ฏธํ๋ ๋ฐ์ ๋ํ supervised information๋ฅผ ์ ๊ณตํ์ง ์์์์๋ ๊ฐ๋ ์ ์๋์ผ๋ก ๊ตฌ์ฑํ๊ณ ๊ฐ๋ ๊ฐ์ ๊ด๊ณ๋ฅผ ์๋ฌต์ ์ผ๋ก ํ์ตํ ๋ชจ๋ธ์ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ค
- Negative Sampling
- Word2Vec ๋ชจ๋ธ์ ๋ง์ง๋ง ๋จ๊ณ์์ ์ถ๋ ฅ์ธต Layer์ ์๋ softmax ํจ์๋ ์ฌ์ ํฌ๊ธฐ ๋งํผ์ Vector์ ๋ชจ๋ ๊ฐ์ 0๊ณผ 1์ฌ์ด์ ๊ฐ์ด๋ฉด์ ๋ชจ๋ ๋ํ๋ฉด 1์ด ๋๋๋ก ๋ฐ๊พธ๋ ์์ ์ ์ํ
- ์ด์ ๋ํ ์ค์ฐจ๋ฅผ ๊ตฌํ๊ณ , ์ญ์ ํ๋ฅผ ํตํด ๋ชจ๋ ๋จ์ด์ ๋ํ ์๋ฒ ๋ฉ์ ์กฐ์
- ๊ทธ ๋จ์ด๊ฐ ๊ธฐ์ค ๋จ์ด๋ ๋ฌธ๋งฅ ๋จ์ด์ ์ ํ ์๊ด ์๋ ๋จ์ด๋ผ๋ ๋ง์ฐฌ๊ฐ์ง๋ก ์งํํจ
- → ์ฌ์ ์ ํฌ๊ธฐ๊ฐ ์๋ฐฑ๋ง์ ๋ฌํ๋ค๋ฉด, ์ด ์์ ์ ๊ต์ฅํ ๋ฌด๊ฑฐ์ด ์์ ์ด ๋จ
- ์ด๋ฅผ ์กฐ๊ธ ๋ ํจ์จ์ ์ผ๋ก ์งํํ๊ธฐ ์ํด ์๋ฒ ๋ฉ ์กฐ์ ์ ์ฌ์ ์ ์๋ ์ ์ฒด ๋จ์ด ์งํฉ์ด ์๋, ์ผ๋ถ ๋จ์ด ์งํฉ๋ง ์กฐ์ ํ๋ ๊ฒ์ด Negative Sampling
- ์ด ์ผ๋ถ ๋จ์ด ์งํฉ์, positive sample(๊ธฐ์ค ๋จ์ด ์ฃผ๋ณ์ ๋ฑ์ฅํ ๋จ์ด)์ negative sample(๊ธฐ์ค ๋จ์ด ์ฃผ๋ณ์ ๋ฑ์ฅํ์ง ์์ ๋จ์ด)๋ก ์ด๋ฃจ์ด์ง
- ⇒ ๊ธฐ์ค ๋จ์ด์ ๊ด๋ จ๋ parameter๋ค์ ๋ค ์ ๋ฐ์ดํธ ํด์ฃผ๋๋ฐ ๊ด๋ จ๋์ง ์์ parameter๋ค์ ๋ช ๊ฐ ๋ฝ์์ ์ ๋ฐ์ดํธ ํด์ฃผ๊ฒ ๋ค๋ ๊ฒ
- ์ด ๋, ๋ช ๊ฐ์ negative sample์ ๋ฝ์์ง๋ ๋ชจ๋ธ์ ๋ฐ๋ผ ๋ค๋ฅด๊ณ ๋ณดํต ๋ฌธ๋งฅ ๋จ์ด ๊ฐ์ + 20๊ฐ๋ฅผ ๋ฝ์
- ๋ํ, ๋ง๋ญ์น์์ ๋น๋์๊ฐ ๋์ ๋จ์ด๊ฐ ๋ฝํ๋๋ก ์ค๊ณ๋์ด์์
2.3 Subsampling of Frequent Words
- ํฐ ๊ท๋ชจ์ ๋ง๋ญ์น์์๋ ๊ฐ์ฅ ์์ฃผ ๋ฑ์ฅํ๋ ๋จ์ด๋ค(ex. "in", "the", "a")์ด ์์ต ๋ฒ ๋ํ๋ ์ ์์ง๋ง ์ผ๋ฐ์ ์ผ๋ก ์ด๋ฌํ frequent words๋ rare words๋ณด๋ค ์ ๋ณด์ ๊ฐ์น๊ฐ ์ ์
- ์๋ฅผ ๋ค์ด์ Skip-gram ๋ชจ๋ธ์ “France”์ “the”์ ๋์ ๋ฐ์์ ๊ด์ฐฐํ๋ ๊ฒ๋ณด๋ค "France"์ "Paris"์ ๋์ ๋ฐ์์ ๊ด์ฐฐํจ์ผ๋ก์จ ๋ ๋ง์ ์ด์ ์ ์ป์ -> ์๋๋ฉด ๊ฑฐ์ ๋ชจ๋ ๋จ์ด๊ฐ ๋ฌธ์ฅ ๋ด์์ “the”๋ ํจ๊ป ๋ํ๋๊ธฐ ๋๋ฌธ
- ์์ฃผ ๋ฑ์ฅํ๋ ๋จ์ด์ vector representations๋ ์๋ฐฑ๋ง ๊ฐ์ ์์ ๋ฅผ ํ์ตํ ํ์๋ ํฌ๊ฒ ๋ณํ์ง ์์
- ๋ ผ๋ฌธ์์๋ rare words์ frequent words ์ฌ์ด์ ๋ถ๊ท ํ์ ๋์ํ๊ธฐ ์ํด ๊ฐ๋จํ subsampling ์ ๊ทผ ๋ฐฉ์์ ์ฌ์ฉํจ
- train์ ์ ๊ฐ ๋จ์ด $w_i$๋ ์๋์ ๊ณต์์ ์ํด ๊ณ์ฐ๋ ํ๋ฅ ๋ก ๋ฒ๋ ค์ง
- $P(w_i)$: ๋จ์ด ๋น๋ $f(w_i)$์ ๋ฐ๋ผ์ ์ด ๊ฐ์ด ๋์ ๋จ์ด๋ฅผ ๋๋ฝ์ํค๋ ํ๋ฅ
- $f(w_i)$: ๋จ์ด $w_i$์ ๋น๋
- $t$: ์ ํ๋ ์๊ณ๊ฐ(threshold), ์ผ๋ฐ์ ์ผ๋ก ์ฝ $10^{−5}$
- ์ด subsampling ๊ณต์์ ๋น๋์ ์์๋ฅผ ์ ์งํ๋ฉด์ ๋น๋๊ฐ $t$(์ ํ๋ ์๊ณ๊ฐ)๋ณด๋ค ํฐ ๋จ์ด๋ฅผ ์ ๊ทน์ ์ผ๋ก subsampleํจ
- ์ด ๋ฐฉ์์ ํ์ต ์๋๋ฅผ ๊ฐ์ํํ๊ณ , rare words์ ๋ํด ํ์ต๋ ๋ฒกํฐ์ ์ ํ๋๋ฅผ ํฌ๊ฒ ํฅ์์ํด
- Subsampling
- ์์ฃผ ๋ฑ์ฅํ๋ ๋จ์ด๋ฅผ ํ์ต ๋์์์ ์ ์ธํ๋ ๋ฐฉ๋ฒ
- stop words(๋ถ์ฉ์ด) ์ ๊ฑฐ์ ์ ์ฉ
-> ์์์ ๋ํ ์ค๋ช ์ฐธ๊ณ
Empirical Results(์ค์ฆ์ ๊ฒฐ๊ณผ)
- Hierarchical Softmax(HS), Noise Contrastive Estimation, Negative Sampling, ํ๋ จ ๋จ์ด์ ๋ํ subsampling์ ๋ํด ํ๊ฐํจ
- analogical reasoning task ์ด์ฉ
- task๋ “Germany” : “Berlin” :: “France” : ? ์ ๊ฐ์ ์ ์ถ(analogies)๋ก ๊ตฌ์ฑ๋จ
- ๊ทธ ์ ์ถ๋ค์ ์ฝ์ฌ์ธ ๊ฑฐ๋ฆฌ(cosine distance)์ ๋ฐ๋ผ vec("Berlin") - vec("Germany”) + vec(“France”)์ ๊ฐ์ฅ ๊ฐ๊น์ด vec(x)๋ฅผ ์ฐพ๋ ๊ฒ์ผ๋ก ํด๊ฒฐ๋จ → x๊ฐ “Paris”์ด๋ฉด ์ ๋ต
- task๋ 2๊ฐ์ง ์นดํ
๊ณ ๋ฆฌ๋ก ๋๋ ์ง
- syntactic analogies → “quick” : “quickly” :: “slow” : “slowly”
- semantic analogies → country - capital city relationship
- Skip-gram ๋ชจ๋ธ์ ํ๋ จํ๊ธฐ ์ํด์ ๋ค์ํ ๋ด์ค ๊ธฐ์ฌ๋ก ๊ตฌ์ฑ๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ (10์ต ๊ฐ์ ๋จ์ด๊ฐ ํฌํจ๋ Google ๋ฐ์ดํฐ์ )์ ์ฌ์ฉํจ
- train ๋ฐ์ดํฐ์์ 5ํ ๋ฏธ๋ง์ผ๋ก ๋ฐ์ํ ๋ชจ๋ ๋จ์ด๋ฅผ vocabulary์์ ์ญ์ → vocabulary ํฌ๊ธฐ: 69๋ง 2์ฒ
- NEG-$k$: ๊ฐ positive sample์ ๋ํด $k$๊ฐ์ negative samples๋ฅผ ์ฌ์ฉํ Negative Sampling
- NCE: Noise Contrastive Estimation
- HS-Huffman: Hierarchical Softmax + frequency-based Huffman codes
- analogical reasoning task์์ Negative Sampling์ด Hierarchical Softmax๋ณด๋ค ์ฑ๋ฅ์ด ๋ฐ์ด๋ฌ๊ณ , ์ฌ์ง์ด NCE๋ณด๋ค ์ฑ๋ฅ์ด ์ด์ง ๋ ๋์์
- frequent words์ ๋ํ subsampling์ ํ์ต ์๋๋ฅผ ๋ช ๋ฐฐ ํฅ์์์ผฐ๊ณ , word representations์ ํจ์ฌ ๋ ์ ํํ๊ฒ ๋ง๋ค์์
- skip-gram ๋ชจ๋ธ์ ์ ํ์ฑ(linearity)์ ๋ฒกํฐ๋ฅผ linear analogical reasoning์ ๋ ์ ํฉํ๊ฒ ๋ง๋ ๋ค๊ณ ์ฃผ์ฅํ ์ ์์
- ํ์ง๋ง ์ ๊ฒฐ๊ณผ๋ ๋งค์ฐ non-linearํ standard sigmoidal RNN์ ์ํด ํ์ต๋ ๋ฒกํฐ๋ค์ด ํ๋ จ ๋ฐ์ดํฐ์ ์์ด ์ฆ๊ฐํจ์ ๋ฐ๋ผ ์ด task์ ๋ํ ์ฑ๋ฅ์ด ํฌ๊ฒ ๊ฐ์ ๋์์์ ๋ณด์ฌ์ค
- ์ด๋ non-linear ๋ชจ๋ธ๋ word representations์ ์ ํ ๊ตฌ์กฐ(linear structure)๋ฅผ ์ ํธํ๋ค๋ ๊ฒ์ ์์ฌํ๋ค๊ณ ํ ์ ์์
Learning Phrases
- ๊ตฌ(phrase)์ ์๋ฏธ๋ ๋จ์ํ ๊ฐ๋ณ ๋จ์ด๋ค ์๋ฏธ์ ์กฐํฉ์ผ๋ก๋ง ์ด๋ฃจ์ด์ง์ง ์์
- ๋ ผ๋ฌธ์์๋ ๊ตฌ์ ๋ํ vector representation์ ํ์ตํ๊ธฐ ์ํด ๋จผ์ ํจ๊ป ์์ฃผ ๋ฑ์ฅํ๊ณ ๋ค๋ฅธ ๋งฅ๋ฝ์์๋ ๋๋ฌผ๊ฒ ๋ํ๋๋ ๋จ์ด๋ค์ ์ฐพ์
- ex) "New York Times", "Toronto Maple Leafs"๋ train ๋ฐ์ดํฐ์์ ๊ณ ์ ํ ํ ํฐ์ผ๋ก ๋์ฒด๋์ง๋ง bigram์ธ "this is"๋ ๋ณ๊ฒฝ๋์ง ์์ ์ํ๋ก ์ ์ง
- → ์ด๋ ๊ฒ ํ๋ฉด vocabulary ์ฌ์ด์ฆ๋ฅผ ํฌ๊ฒ ๋๋ฆฌ์ง ์๊ณ ๋ ํฉ๋ฆฌ์ ์ธ ๊ตฌ(phrase)๋ฅผ ๋ง์ด ํ์ฑํ ์ ์์
- ๊ตฌ(phrase)๊ฐ ์ ๋๊ทธ๋จ(unigram)๊ณผ ๋ฐ์ด๊ทธ๋จ(bigram) ์๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ์ฑ๋๋ ์ฌํํ data-driven approach ์ฌ์ฉ
- N-gram
- n๊ฐ์ ์ฐ์์ ์ธ ๋จ์ด ๋์ด์ ์๋ฏธ
- ๊ฐ๊ณ ์๋ ์ฝํผ์ค์์ n๊ฐ์ ๋จ์ด ๋ญ์น ๋จ์๋ก ๋์ด์ ์ด๋ฅผ ํ๋์ ํ ํฐ์ผ๋ก ๊ฐ์ฃผ
- ์ ๋๊ทธ๋จ(unigram): n = 1
- ๋ฐ์ด๊ทธ๋จ(bigram): n = 2
- ex) “An adorable little boy is spreading smiles.”
- -> unigrams : an, adorable, little, boy, is, spreading, smiles
- -> bigrams : an adorable, adorable little, little boy, boy is, is spreading, spreading smiles
- N-gram
- ๋ ผ๋ฌธ์์๋ ์ผ๋ฐ์ ์ผ๋ก ์๊ณ๊ฐ(threshold value)์ ๋ฎ์ถ๋ฉด์ train ๋ฐ์ดํฐ์ ๋ํด 2-4๋ฒ์ ํจ์ค๋ฅผ ์คํํด ์ฌ๋ฌ ๋จ์ด๋ก ๊ตฌ์ฑ๋ ๋ ๊ธด ๊ตฌ๋ฌธ(phrase)์ด ํ์ฑ๋๋๋ก ํจ
- ๊ตฌ๋ฅผ ํฌํจํ๋ ์๋ก์ด analogical reasoning task๋ฅผ ์ฌ์ฉํด์ phrase representations์ ํ์ง์ ํ๊ฐํจ
- ์๋์ ํ๋ ์ด task์ ์ฌ์ฉ๋ analogies์ 5๊ฐ์ง ์นดํ ๊ณ ๋ฆฌ ์์๋ฅผ ๋ณด์ฌ์ค
- ๋ชฉํ: ์ฒ์ 3๊ฐ๋ฅผ ์ฌ์ฉํด ๋ค ๋ฒ์งธ ๊ตฌ(phrase)๋ฅผ ๊ณ์ฐํ๋ ๊ฒ
- ์ด ๋ฐ์ดํฐ์ ์ ๋ํ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ธ ๋ชจ๋ธ์ ์ ํ๋: 72%
4.1 Phrase Skip-Gram Results
- ๋จผ์ phrase ๊ธฐ๋ฐ training corpus๋ฅผ ๊ตฌ์ฑํ ๋ค์ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ๋ค๋ฅด๊ฒ ํด์ ์ฌ๋ฌ Skip-gram ๋ชจ๋ธ์ ํ์ต์ํด
- ๋น๋ฒํ ํ ํฐ์ subsampling์ด ์๊ฑฐ๋ ์๋ Negative Sampling๊ณผ Hierarchical Softmax๋ฅผ ๋น๊ต
- Negative Sampling์ด k = 5์์๋ ์๋นํ ์ ํ๋๋ฅผ ๋ฌ์ฑํ์ง๋ง k = 15๋ฅผ ์ฌ์ฉํ์ ๋ ํจ์ฌ ๋ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํจ
- ๋๋๊ฒ๋ Hierarchical Softmax๋ subsampling ์์ด ํ๋ จ๋๋ฉด ๋ฎ์ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ง๋ง, ์์ฃผ ๋ฑ์ฅํ ๋จ์ด๋ฅผ ๋ค์ด์ํ๋งํ์ ๋ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ด๋ ๋ฐฉ๋ฒ์ด์์
- → subsampling์ด ํ๋ จ ์๋๋ฅผ ๋ ๋น ๋ฅด๊ฒ ํ๊ณ , ์ ํ๋๋ ํฅ์์ํจ๋ค๊ณ ํ ์ ์์
- phrase analogy task์ ์ ํ๋๋ฅผ ๊ทน๋ํํ๊ธฐ ์ํด์ ์ฝ 330์ต ๊ฐ์ ๋จ์ด ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํด train ๋ฐ์ดํฐ์ ์์ ๋๋ฆผ
- hierarchical softmax, 1000 ์ฐจ์, context์ ๋ํ ์ ์ฒด ๋ฌธ์ฅ์ ์ฌ์ฉํจ
- → ์ด ๋ฐฉ๋ฒ์ผ๋ก ๋ชจ๋ธ์ ์ ํ๋ 72% ๋ฌ์ฑ
- train ๋ฐ์ดํฐ์ ์ ์ฌ์ด์ฆ๋ฅผ ์ค์ด๋ฉด ์ ํ๋๊ฐ 66%๋ก ๋จ์ด์ก์
- → ๋ง์ ์์ train ๋ฐ์ดํฐ๊ฐ ์ค์ํ๋ค
- ์๊น ๋์๋ ๊ฒฐ๊ณผ์ฒ๋ผ hierarchical softmax์ subsampling์ ๊ฐ์ด ์ฌ์ฉํ ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ์ ๋์ด
Additive Compositionality
- Skip-gram representations๊ฐ vector representations์ ๋ํ element-wise addition์ ์ฌ์ฉํด์ ๋จ์ด๋ฅผ ์๋ฏธ ์๊ฒ ๊ฒฐํฉํ ์ ์๋ ๋ ๋ค๋ฅธ ์ข
๋ฅ์ ์ ํ ๊ตฌ์กฐ๋ฅผ ๋ํ๋ธ๋ค๋ ๊ฒ์ ์์๋
- element-wise addition = ํ๋ ฌ ๋ง์
- https://www.tutorialexample.com/element-wise-addition-explained-a-beginner-guide-machine-learning-tutorial/
- ๊ฐ์ฅ ์ฑ๋ฅ์ด ์ข์ Skip-gram ๋ชจ๋ธ์ ์ฌ์ฉํด ๋ ๋ฒกํฐ์ ํฉ์ ๊ฐ์ฅ ๊ฐ๊น์ด 4๊ฐ์ ํ ํฐ์ ํ์ํ ๊ฒ
- word vectors๊ฐ ๋ฌธ์ฅ์์ ์ฃผ๋ณ ๋จ์ด๋ฅผ ์์ธกํ๋๋ก ํ์ต๋๋๊น ๋ฒกํฐ๋ ๋จ์ด๊ฐ ๋ํ๋๋ context์ ๋ถํฌ๋ฅผ ๋ํ๋ด๋ ๊ฒ์ผ๋ก ๋ณผ ์ ์์
- ์ด ๊ฐ๋ค์ output layer์์ ๊ณ์ฐ๋ ํ๋ฅ ๊ณผ ๋์์ ์ผ๋ก(logarithmically) ๊ด๋ จ๋์ด ์๊ธฐ ๋๋ฌธ์ ๋ word vectors์ ํฉ์ ๋ context distributions์ ๊ณฑ๊ณผ ๊ด๋ จ๋จ
- ์ฌ๊ธฐ์์ ๊ณฑ์ AND function์ผ๋ก ์๋ํจ
- → ๋ word vectors์ ์ํด ๋์ ํ๋ฅ ์ด ํ ๋น๋ ๋จ์ด๋ ๋์ ํ๋ฅ ์ ๊ฐ์ง๊ณ , ๋ค๋ฅธ ๋จ์ด๋ ๋ฎ์ ํ๋ฅ ์ ๊ฐ์ง
- ex) "Volga River"๊ฐ "Russian"์ "river"๋ผ๋ ๋จ์ด์ ํจ๊ป ๊ฐ์ ๋ฌธ์ฅ์์ ์์ฃผ ๋ฑ์ฅํ๋ฉด "Russian"๊ณผ "river"์ ๋จ์ด ๋ฒกํฐ ์ ํฉ์ "Volga River"์ ๋ฒกํฐ์ ๊ฐ๊น์ด feature vector๋ฅผ ์์ฑํจ
Comparison to Published Word Representations
- ๋น์ด์๋ ๊ฑด ๋จ์ด๊ฐ vocabulary์ ์๋ค๋ ์๋ฏธ
- ํ์ต๋ representations์ ํ์ง ๋ฉด์์ ๊ท๋ชจ๊ฐ ํฐ ๋ง๋ญ์น(corpus)์ ๋ํด ํ์ต๋ ํฐ Skip-gram ๋ชจ๋ธ์ด ๋ค๋ฅธ ๋ชจ๋ธ๋ค๋ณด๋ค ๋์ ๋๊ฒ ์ฐ์ํจ
- ๋ํ, Skip-gram ๋ชจ๋ธ์ด train ๋ฐ์ดํฐ์ ์ ์์ด ํจ์ฌ ๋ ๋ง์ง๋ง ํ์ต ์๊ฐ์ ์ด์ ๋ชจ๋ธ๋ค๋ณด๋ค ํจ์ฌ ๋น ๋ฆ
Conclusion
- ๋ ผ๋ฌธ์์๋ Skip-gram ๋ชจ๋ธ์ ์ฌ์ฉํด ๋จ์ด์ ๊ตฌ(phrase)์ distributed representations์ ํ๋ จํ๋ ๋ฐฉ๋ฒ๊ณผ ์ด๋ฌํ representations๊ฐ ์ ํํ analogical reasoning(์ ์ถ ์ถ๋ก )์ ๊ฐ๋ฅํ๊ฒ ํ๋ ์ ํ ๊ตฌ์กฐ๋ฅผ ๋ณด์ธ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค
- ์ด ๊ธฐ์ ์ CBoW(continuous bag-of-words) ๋ชจ๋ธ์ ํ๋ จํ๋ ๋ฐ์๋ ์ฌ์ฉ ๊ฐ๋ฅ
- CBoW vs Skip-gram
- ๊ณ์ฐ์ ์ผ๋ก ํจ์จ์ ์ธ ๋ชจ๋ธ ์ํคํ ์ฒ ๋๋ถ์ ์ด์ ๋ชจ๋ธ๋ค๋ณด๋ค ๋ช ๋ฐฐ ๋ ๋ง์ ๋ฐ์ดํฐ๋ก ๋ชจ๋ธ์ ์ฑ๊ณต์ ์ผ๋ก ํ๋ จ์ํด
- ๊ทธ ๊ฒฐ๊ณผ, ํนํ rare entities์ ๋ํด ํ์ต๋ word representations์ phrase representations์ ํ์ง์ด ํฌ๊ฒ ํฅ์๋จ
- ๋ํ ์์ฃผ ๋ฑ์ฅํ๋ ๋จ์ด๋ค์ ๋ํ subsampling์ด ํ๋ จ์ ๋ ๋น ๋ฅด๊ฒ ํ๊ณ , ํํ์ง ์์ ๋จ์ด๋ฅผ ํจ์ฌ ๋ ์ ํํํ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํจ
- ํนํ ์์ฃผ ๋ฑ์ฅํ๋ ๋จ์ด๋ค์ ๋ํด ์ ํํ ํํ(representations)์ ํ์ตํ๋ ๋งค์ฐ ๊ฐ๋จํ ํ๋ จ ๋ฐฉ๋ฒ์ธ Negative sampling ์๊ณ ๋ฆฌ์ฆ์ด ๋ ผ๋ฌธ์ ๋ ๋ค๋ฅธ ๊ธฐ์ฌ
- ํ๋ จ ์๊ณ ๋ฆฌ์ฆ์ ์ ํ๊ณผ ํ์ดํผํ๋ผ๋ฏธํฐ์ ์ ํ์ task์ ๋ฐ๋ผ ๊ฒฐ์ ๋๋ ๊ฒ
- → ๋ฌธ์ ๋ง๋ค ์ต์ ์ ํ์ดํผํ๋ผ๋ฏธํฐ ๊ตฌ์ฑ์ด ๋ค๋ฅด๊ธฐ ๋๋ฌธ
- ๋ ผ๋ฌธ์์๋ ๋ชจ๋ธ ์ํคํ ์ฒ์ ์ ํ, ๋ฒกํฐ์ ์ฌ์ด์ฆ, subsampling rate, training window์ ์ฌ์ด์ฆ๊ฐ ์ฑ๋ฅ์ ์ํฅ์ ๋ฏธ์น ๊ฐ์ฅ ์ค์ํ ์์๋ค์ด์์
- ๋ ผ๋ฌธ ๊ฒฐ๊ณผ์์ ๋จ์ด ๋ฒกํฐ(word vectors)๊ฐ simple vector addition์ ์ฌ์ฉํด ๋ค์ ์๋ฏธ ์๊ฒ ๊ฒฐํฉ๋ ์ ์๋ค๋ ๊ฒ์ด ์์ฃผ ํฅ๋ฏธ๋กญ๋ค๊ณ ํ ์ ์์
- ๋ ผ๋ฌธ์์ ์ ์ํ๋ phrase representations๋ฅผ ํ์ตํ๊ธฐ ์ํ ๋ ๋ค๋ฅธ ์ ๊ทผ ๋ฐฉ์์ ๋จ์ํ ํ๋์ ํ ํฐ์ผ๋ก ๊ตฌ(phrase)๋ฅผ ํํํ๋ ๊ฒ
- ์ด ๋ ๊ฐ์ง ์ ๊ทผ ๋ฐฉ์์ ์กฐํฉ์ ๊ณ์ฐ ๋ณต์ก์ฑ์ ์ต์ํํ๋ฉด์ ํ ์คํธ์ ๋ ๊ธด pieces๋ฅผ ํํํ๋ ๊ฐ๋ ฅํ๋ฉด์๋ ๊ฐ๋จํ ๋ฐฉ๋ฒ์ ์ ๊ณตํจ
- ๋ฐ๋ผ์ ๋ ผ๋ฌธ์ ๋ชจ๋ธ์ recursive matrix-vector operations๋ฅผ ์ฌ์ฉํด ๊ตฌ(phrase)๋ฅผ ํํํ๋ ค๋ ๊ธฐ์กด ์ ๊ทผ ๋ฐฉ์์ ๋ณด์ํ๋ ๊ฒ์ผ๋ก ๋ณผ ์ ์์
์ฐธ๊ณ ์๋ฃ
https://pythonkim.tistory.com/92
https://uponthesky.tistory.com/15
https://wooono.tistory.com/244
https://yngie-c.github.io/nlp/2020/05/28/nlp_word2vec/
'๐ ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ > NLP' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Joint Learning of Words and Meaning Representations for Open-Text Semantic Parsing (0) | 2022.07.23 |
---|
Contents
๋น์ ์ด ์ข์ํ ๋งํ ์ฝํ ์ธ
์์คํ ๊ณต๊ฐ ๊ฐ์ฌํฉ๋๋ค :)