Joint Learning of Words and Meaning Representations for Open-Text Semantic Parsing
2022. 7. 23. 00:36
- -
Joint Learning of Words and Meaning Representations for Open-Text Semantic Parsing
๐ก๋ค์ด๊ฐ๊ธฐ ์ ๊ฐ๋ ์ ๋ฆฌ
- Semantic parsing
- ์์ฐ์ด ๋ฐํ(NLU)๋ฅผ ๊ธฐ๊ณ๊ฐ ์ดํดํ ์ ์๋ formal meaning representation(MR)๋ก ๋ณํํ๋ ๊ฒ
-> a~c: NLU, d: MR
- MR(meaning representation)
- ์ธ์ด์ input์ ์๋ฏธ๋ฅผ ํฌ์ฐฉํ๋ ํ์์ ๊ตฌ์กฐ(formal structure)
- ๋ฏธ๋ฌํ ์ธ์ด์ ๋์์ค์ ์ธ์์ ๋ํ ๋น์ธ์ด์ ์์ ์ฌ์ด์ ๋ค๋ฆฌ(bridge)๋ผ๊ณ ํ ์ ์์
- ex) ์๋๋ฐฉ์ด ๋๋ฅผ ์นญ์ฐฌํ ๊ฑด์ง ์ํ ๊ฑด์ง ์๋ ๋ฐฉ๋ฒ
- -> ์ธ์ด์ input(์๋๋ฐฉ์ ๋ง)์ meaningful structure๋ก ๋ถํดํ๊ณ , ์ด๋ฅผ ์ค์ ์ธ๊ณ์ ๋ํ ์ง์(์๋๋ฐฉ์ ๋ํ ์ ๋ณด, ์๋๋ฐฉ๊ณผ์ ๊ด๊ณ, ์ด์ ๊ฒฝํ ๋ฑ)๊ณผ ์ฐ๊ฒฐํจ์ผ๋ก์จ ์๋๋ฐฉ์ ์๋๋ฅผ ์ ์ ์์
- meaning representation ๋ฐฉ์
- First Order Logic(1์ฐจ ๋ ผ๋ฆฌ)
- Abstract Meaning Representation(AMR) using a directed graph
- Abstract Meaning Representation(AMR) using the textual form
- Frame-Based or Slot filter representation
- → ์ด 4๊ฐ์ง ๋ฐฉ์ ๋ชจ๋ meaning representation์ ๋์์ ํด๋นํ๋ ๊ตฌ์กฐ, ์์ฑ๊ณผ ๋์๋ค ๊ฐ์ ๊ด๊ณ(relation)๋ก ๊ตฌ์ฑ๋๋ค๋ ์ ์ ๊ณต์ ํจ
- representation
- ์ค์ ํ ์คํธ๋ฅผ ์ธ์ด ๋ชจ๋ธ์ด ์ฐ์ฐํ ์ ์๋๋ก ๋ง๋ ํํ
- ๋ฑ์ฅ ํ์ ๊ธฐ๋ฐ๊ณผ ๋ถํฌ ๊ธฐ๋ฐ์ผ๋ก ๋๋ ์ง
Abstract
- Open-text semantic parser๋ MR(meaning representation)์ ์ถ๋ก ํด ์์ฐ์ด์ ๋ชจ๋ ๋ฌธ์ฅ์ ํด์ํ๋๋ก ์ค๊ณ๋จ
- ๋๊ท๋ชจ ์์คํ ๋ค์ ์ง๋ ํ์ต ๋ฐ์ดํฐ์ ๋ถ์กฑ ๋๋ฌธ์ ์ฝ๊ฒ machine-learned(๊ธฐ๊ณ ํ์ต)๋๊ธฐ ํ๋ฆ
- ๋
ผ๋ฌธ์์๋ WordNet๊ณผ ๊ฐ์ knowledge base learning๊ณผ ์์ ํ
์คํธ(raw text)๋ฅผ ์ฌ์ฉํ learning์ ๊ฒฐํฉํ training scheme ๋์ ๊ด๋ฒ์ํ ํ
์คํธ(40,000๊ฐ ์ด์์ entity์ ๋งคํ๋ 70,000๊ฐ ์ด์์ ๋จ์ด ์ฌ์ ์ฌ์ฉ)์ MR์ ํ ๋นํ๋ ๋ฐฉ์์ ์ ์
- WordNet
- ์์ด์ ์๋ฏธ ์ดํ ๋ชฉ๋ก
- ์์ด ๋จ์ด๋ฅผ 'synset'์ด๋ผ๋ ์ ์์ด ์ง๋จ์ผ๋ก ๋ถ๋ฅํด ๊ฐ๋ตํ๊ณ ์ผ๋ฐ์ ์ธ ์ ์๋ฅผ ์ ๊ณตํ๊ณ , ์ด๋ฌํ ์ดํ ๋ชฉ๋ก ์ฌ์ด์ ๋ค์ํ ์๋ฏธ ๊ด๊ณ๋ฅผ ๊ธฐ๋ก
- => ์์ฐ์ด ์ฒ๋ฆฌ๋ฅผ ์ํด ํนํ๋ ์ฌ์
- WordNet
- ๋
ผ๋ฌธ์ ๋ชจ๋ธ์ ๋ค์ํ ๋ฐ์ดํฐ ์์ค์์ ์๋ํ๋ multi-task training process๋ฅผ ํตํด ๋จ์ด, entity, MR์ ํํ์ ๊ณต๋์ผ๋ก(jointly) ํ์ต
- Multi-Task Learning
- ์ฐ๊ด์๋ task๋ค์ ์ฐ๊ฒฐ์์ผ ๋์์ ํ์ต์ํด์ผ๋ก์จ ๋ชจ๋ task์์์ ์ฑ๋ฅ์ ์ ๋ฐ์ ์ผ๋ก ํฅ์์ํค๋ ค๋ ํ์ต ํจ๋ฌ๋ค์
- ๋ง์ labeled data๊ฐ ํ์ํ๋ฐ ๋ฐ์ดํฐ๋ฅผ ํ๋ณดํ๊ธฐ ์ด๋ ค์ด ๊ฒฝ์ฐ Multi-task learning์ด ์ข์ ํด๊ฒฐ ๋ฐฉ๋ฒ์ด ๋ ์ ์์
- ์ธ๊ฐ์ด ์๋ก์ด ๊ฒ์ ํ์ตํ ๋ ์ด์ ์ ํ์ตํ๋ ์ ์ฌ๊ฒฝํ์ ์ ๋ชฉ์์ผ ๋ ๋นจ๋ฆฌ ํ์ตํ๋ ๊ฒ์์ ์๊ฐ์ ์ป์ ๋ฐฉ์
- https://velog.io/@riverdeer/Multi-task-Learning
- Multi-Task Learning
- ํ๋์ ํ๋ ์์ํฌ์์ semantic parsing์ ๋งฅ๋ฝ ๋ด์์ knowledge acquisition๊ณผ word-sense disambiguation๋ฅผ ์ํ ๋ฐฉ๋ฒ๋ค์ ์ ๊ณต
- knowledge acquisition
- ์ง์ ์ต๋
- ์ง์ ๊ธฐ๋ฐ ์์คํ ์ ํ์ํ ๊ท์น๊ณผ ์จํจ๋ก์ง๋ฅผ ์ ์ํ๋ ๋ฐ ์ฌ์ฉ๋๋ ํ๋ก์ธ์ค
- https://en.wikipedia.org/wiki/Knowledge_acquisition
- word-sense disambiguation(WSD): ๋จ์ด ์๋ฏธ ์ค์์ฑ ํด์
- ํด๋น ๋ฌธ๋งฅ์์ ํน์ ๋จ์ด๊ฐ ์ฌ์ ์ ์๋ฏธ ์ค ์ด๋์ ํด๋นํ๋์ง ์ฐพ์๋ด๋ ์์
- ex) 1๋ฒ ๋ฐค->๋ฐค01, 2๋ฒ ๋ฐค->๋ฐค02, 3๋ฒ ๋ฐค->๋ฐค01 ์ฒ๋ผ ๊ฐ๊ฐ์ ๋จ์ด์ ๋ํด ์ฌ์ ์์ ์๋ฏธ์ ์ฐ๊ฒฐ ์ง์
- ํด๋น ๋จ์ด์ ์๋ฏธ๋ฅผ ์ฌ์ ์ ๊ฐ ์๋ฏธ์ ์ฐ๊ฒฐํ๋ ์์ ์ด ํ์์ ์ด๊ธฐ ๋๋ฌธ์ ์ฌ์ ์๋ฃ๋ ๊ธฐํ ์ง์ ๊ธฐ๋ฐ ๋ฐ์ดํฐ๋ฒ ์ด์ค๋ฅผ ํ์๋ก ํจ
- ๋ฐ๋ผ์ ๋๊ฒ ์ง์ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ(Knowledge-based approach)์ด๋ ์ง๋ ํ์ต ๋ฐฉ๋ฒ(Supervised approach) ์ฌ์ฉ
- https://bab2min.tistory.com/576
- knowledge acquisition
Introduction
semantic parsing์ ๊ดํ ์ฐ๊ตฌ๋ ๋๋ต 2๊ฐ์ ํธ๋์ผ๋ก ๋๋ ์ ์์
- 1) in-domain
- ๊ณ ๋๋ก ์งํ๋๊ณ ํฌ๊ด์ ์ธ MR์ ๊ตฌ์ถํ๊ธฐ ์ํ ํ์ต์ด ๋ชฉํ
- ์ด๋ ๊ณ ๋๋ก annotated(์ฃผ์์ด ๋ฌ๋ฆฐ)๋ train ๋ฐ์ดํฐ ์/๋๋ ํ๋์ ๋๋ฉ์ธ์ ์ํด์๋ง ๊ตฌ์ถ๋ MR์ ํ์๋ก ํ๊ธฐ ๋๋ฌธ์ ์ด๋ฌํ ์ ๊ทผ ๋ฐฉ์์ ๋ณดํต ์ ํ๋ ์ดํ(๋ช๋ฐฑ ๊ฐ์ ๋จ์ด)์ ๊ทธ์ ๋ฐ๋ผ ์ ํ๋ MR representation์ ๊ฐ์ง
- 2) open-domain ๋๋ open-text
- ๋ชจ๋ ์ข ๋ฅ์ ์์ฐ์ด ๋ฌธ์ฅ์ MR์ ์ฐ๊ด์ํค๊ธฐ ์ํ ํ์ต์ด ๋ชฉํ
- ์ฌ์ธต์ ์ธ ์๋ฏธ ๊ตฌ์กฐ๋ฅผ ํฌ์ฐฉํ๋ MR๋ก ๋ง์ ์์ free text์ ๋ ์ด๋ธ์ ์ง์ ํ๋ ๊ฒ์ด ๋ถ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์ ๋ weakํ supervision(๋ถ๋ฅ)
- ๊ทธ ๊ฒฐ๊ณผ, ๋ชจ๋ธ์ ๋ ์ฌํํ MR์ ์ถ๋ก ํจ → shallow semantic parsing์ด๋ผ๊ณ ๋ ํจ
- ๋ ผ๋ฌธ์์๋ open-domain์ ๋ํด ๋ค๋ฃธ
- ์ฃผ์ด์ง ๋ฌธ์ฅ์ ๋ํด 2๋จ๊ณ๋ก MR์ ์ถ๋ก ํจ
- (1) semantic role labeling step → ์๋ฏธ ๊ตฌ์กฐ ์์ธก
- (2) disambiguation step → ํ์ต๋ energy function์ ์ต์ํํ๊ธฐ ์ํด ๊ฐ๊ฐ์ ๊ด๋ จ ๋จ์ด์ ํด๋น entity ํ ๋น
- strong supervision์ ๋ถ์กฑ์ ๋ฐฉ์งํ๊ธฐ ์ํด ์ฌ๋ฌ ์์ค์ ๋ฐ์ดํฐ๋ก ํ๋ จ๋ energy-based model๋ก ๊ตฌ์ฑ๋จ
- energy-based model
- ๋ฐ์ดํฐ ๋ถํฌ ๋ด์ ์๋ ์ ๋ ฅ X์ ๋ฎ์ ์๋์ง, ๊ทธ ์ธ์ ์ ๋ ฅ์ ๋์ ์๋์ง๋ฅผ ์ฃผ๋ energy function์ ํ์ตํด ๋ฐ์ดํฐ๊ฐ ์กด์ฌํ๋ ๋ถ๋ถ์ ๋ถํฌ๋ฅผ ์ต๋ํํ๋ ๊ฒ๋ฟ๋ง ์๋๋ผ ๋ฐ์ดํฐ๊ฐ ์กด์ฌํ์ง ์๋ ๋ถ๋ถ์ ๋ถํฌ๋ฅผ ๋ฎ์ถ๋ ์์ฑ ๋ชจ๋ธ
- https://post.naver.com/viewer/postView.naver?volumeNo=31743752&memberNo=52249799
- energy-based model
- ๋ ผ๋ฌธ์ energy-based model์ ๋จ์ด, entity, ๊ทธ๋ฆฌ๊ณ ์ด๋ค์ ์กฐํฉ๋ค ๊ฐ์ ์๋ฏธ ์ ๋ณด๋ฅผ ๊ณต๋์ผ๋ก(jointly) ํฌ์ฐฉํ๋๋ก ํ์ต๋จ
- ๊ฐ symbol์ ๋ํด ์ ์ฐจ์ ์๋ฒ ๋ฉ ๋ฒกํฐ๊ฐ ํ์ต๋๋ distributed representation์ผ๋ก ์ธ์ฝ๋ฉ
- distributed representation: ๋ถํฌ ๊ธฐ๋ฐ์ ๋จ์ด ํํ
- ํ๊ฒ ๋จ์ด ์ฃผ๋ณ์ ์๋ ๋จ์ด ๊ธฐ๋ฐ์ผ๋ก ๋ฒกํฐํ
- '๋น์ทํ ์์น์์ ๋ฑ์ฅํ๋ ๋จ์ด๋ค์ ๋น์ทํ ์๋ฏธ๋ฅผ ๊ฐ์ง๋ค'๋ผ๋ ๋ถํฌ ๊ฐ์ค์ ๊ธฐ๋ฐํด ์ฃผ๋ณ ๋จ์ด ๋ถํฌ๋ฅผ ๊ธฐ์ค์ผ๋ก ๋จ์ด์ ๋ฒกํฐ ํํ์ด ๊ฒฐ์ ๋๊ธฐ ๋๋ฌธ์ ๋ถ์ฐ ํํ(distributed representation)์ด๋ผ๊ณ ๋ถ๋ฆ
- ex) Word2Vec, fastText
- distributed representation: ๋ถํฌ ๊ธฐ๋ฐ์ ๋จ์ด ํํ
- ๋ ผ๋ฌธ์ semantic matching energy function์ ๊ทธ๋ด๋ฏํ ์กฐํฉ์ ๋ฎ์ ์๋์ง ๊ฐ์ ํ ๋นํ๊ธฐ ์ํด ์ด๋ฌํ ์๋ฒ ๋ฉ์ blend ํ๋๋ก ์ค๊ณ๋จ
- WordNet, ConceptNet๊ณผ ๊ฐ์ ๋ฆฌ์์ค๋ entity ๊ฐ์ ๊ด๊ณ ํํ๋ก ์์(common-sense knowledge)์ ์ธ์ฝ๋ฉ ํ์ง๋ง(ex: ~has ~part( ~car, ~wheel) ) ์ด ์ง์์ ์์ ํ ์คํธ (๋ฌธ์ฅ๋ค)์ ์ฐ๊ฒฐํ์ง ์์
- ๋ฐ๋ฉด, Wikipedia์ ๊ฐ์ ํ ์คํธ ๋ฆฌ์์ค๋ entity๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ์ง ์์
- ๋ ผ๋ฌธ์ ํ์ต ์ ์ฐจ๋ ์ฌ๋ฌ ๋ฐ์ดํฐ์ ์ ๋ํ multi-task learning์ ๊ธฐ๋ฐ์ผ๋ก ํจ
- ์ด๋ฐ ๋ฐฉ์์ ์ฌ์ฉํ๋ฉด ํ ์คํธ์ entity ๊ฐ์ ๊ด๊ณ์์ ์ ๋๋ MR์ ๋์ผํ ๊ณต๊ฐ์ embedded(๊ทธ๋ฆฌ๊ณ integrated)๋จ
- ์ด๋ฅผ ํตํด ๋ง์ ์์ indirect supervision๊ณผ ์ ์ ์์ direct supervision์ ์ฌ์ฉํด์ ์์ ํ ์คํธ์ ๋ํด disambiguation(๋ช ํํ)์ ์ํํ๋ ๋ฐฉ์์ ํ์ตํ ์ ์์์
- ๋ชจ๋ธ์ ๋จ์ด์ ๋ํ ์ฌ๋ฐ๋ฅธ WordNet sense(์๋ฏธ)๋ฅผ ์ ํํ๋๋ก ์์(common-sense knowledge) (ex. entity ๊ฐ์ WordNet relation)์ ์ฌ์ฉํ๋ ๊ฒ์ ํ์ตํจ
- open-text semantic parsing์ ์ํ standard evaluation(ํ์ค ํ๊ฐ)๊ฐ ์กด์ฌํ์ง ์์์ ๋ชจ๋ธ ํ๊ฐ๋ฅผ ์ํด ๋ค๋ฅธ ํ๊ฐ ๋ฐฉ์ ์ฌ์ฉ
- ๊ฒฐ๊ณผ๋ ๋ ๊ฐ์ง ๋ฒค์น๋งํฌ์ธ WSD(word sense disambiguation)๊ณผ (WordNet) knowledge acquisition์ ๊ณ ๋ คํจ
- ์์ ํ ์คํธ๋ก multi-tasking์ ์ํํด์ WordNet์ ์กด์ฌํ์ง ์๋ ์๋ก์ด common-sense relations๋ฅผ ํ์ตํ๋ ๊ฒ์ธ knowledge extraction์ ์ํํ ์ ์๋ ๊ฐ๋ฅ์ฑ๋ ์ ์ฆํจ
Semantic Parsing Framework
2.1 WordNet-based Representations (MRs)
- semantic parsing์ ์ํด ๊ณ ๋ คํ MR์ $REL(A_0, . . . , A_n)$ ํ์์ ๊ฐ๋จํ ๋
ผ๋ฆฌ์
- $REL$: relation symbol
- $A_0, ..., A_n$: arguments
- ๋ ผ๋ฌธ์์๋ open-domain ์์ ํ ์คํธ๋ฅผ ๊ตฌ๋ฌธ ๋ถ์ํ๊ธฐ๋ฅผ ์ํ๋ฏ๋ก ๋ง์ relation types์ arguments๋ฅผ ๊ณ ๋ คํด์ผ ํ์
- $REL$๊ณผ $A_i$ arguments๋ฅผ ์ ์ํ๊ธฐ ์ํด WordNet ์ฌ์ฉ
- WordNet์ synset๋ผ๊ณ ๋ถ๋ฆฌ๋ node๊ฐ ์๋ฏธ(sense)์ ํด๋นํ๊ณ , edge๊ฐ ์ด๋ฌํ ์๋ฏธ๋ค ์ฌ์ด์ ๊ด๊ณ๋ฅผ ์ ์ํ๋ ๊ทธ๋ํ ๊ตฌ์กฐ ์์์ comprehensive knowledge(ํฌ๊ด์ ์ธ ์ง์)์ ํฌํจํจ
- synset: ์ ์์ด ์ง๋จ
- synset์ ์ผ๋ฐ์ ์ผ๋ก 8-digits codes๋ก ์๋ณ๋์ง๋ง ๋ช
ํ์ฑ์ ์ํด ๋
ผ๋ฌธ์์๋ synset์ ๋จ์ด + ํ์ฌ ํ๊ทธ(POS tag - NN: ๋ช
์ฌ, VB: ๋์ฌ, JJ: ํ์ฉ์ฌ, RB: ๋ถ์ฌ) + ์ซ์( ๋ช ๋ฒ์งธ ์๋ฏธ์ธ์ง)๋ก ํํํจ
- ex)
- _score_NN_1: ๋ช ์ฌ "score"์ ์ฒซ ๋ฒ์งธ ์๋ฏธ๋ฅผ ๋ํ๋ด๋ synset. "mark"์ "grade"๋ผ๋ ๋จ์ด๋ ํฌํจ ⇒ ์ ์
- _score_NN_2: ๋ช ์ฌ "score"์ ๋ ๋ฒ์งธ ์๋ฏธ ⇒ ์ ๋ณด
- ex)
- triplets $(lhs, rel, rhs)$์ ์ฌ์ฉํด์ WordNet์ relations instances๋ฅผ ๋ํ๋
- $lhs$: relation์ ์ผ์ชฝ(left-hand side)
- $rel$: relation์ type
- $rhs$: relation์ ์ค๋ฅธ์ชฝ(right-hand side)
- ex)
- (_score_NN_1, _hypernym, _evaluation_NN_1)
- (_score NN_2, _has_part, _musical_notation_NN_1)
- hypernym: ์์์ด
- ๋ฑ๋ง๋ค ์ค์์ ๋ฑ๋ง์ด ๋ค๋ฅธ ๋ฑ๋ง์ ํฌํจํ๋ ๊ฒฝ์ฐ
- <-> ํ์์ด: ์์์ด์ ํฌํจ๋๋ ๋ฑ๋ง
- ex) ์์์ด: ์ ๊ธฐ, ํ์์ด: ํผ์๋ ธ
- has_part: ์ ์ฒด์์ ๋ถ๋ถ์ผ๋ก
- ์ต์ข MR์ ๊ฒฝ์ฐ, $REL$ ๊ณผ $A_i$ arguments๋ฅผ WordNet synsets์ ํํ๋ก ํ์
- → $REL$์ ์๋ฌด ๋์ฌ๋ ๋ค ๋ ์ ์๊ณ , 18๊ฐ์ WordNet relations ์ค ํ๋๋ก ์ ํ๋์ง ์์
2.2 Inference Procedure (์ถ๋ก ์ ์ฐจ)
- step 0) input
- step 1) ์ ์ฒ๋ฆฌ (lemmatization, POS, chunking, SRL)
- step 2) ๊ฐ lemma(ํ์ ์ด)๊ฐ ํด๋นํ๋ WordNet synset์ ํ ๋น๋จ
- step 3) ์์ ํ MR(meaning representation) ์ ์
ํ ์คํธ ์ ์ฒ๋ฆฌ ๊ณผ์ (lemmatization, POS, chunking, SRL)
- lemmatization: ํ์ ์ด ์ถ์ถ
- ๊ธฐ๋ณธ ์ฌ์ ํ ๋จ์ด ํํ๋ก ๋ณํ
- ๋ณต์ -> ๋จ์, ๋์ฌ -> ํ๋์ฌ
- POS tagging: ํ์ฌ ํ๊น
- chunking = shallow parsing
- ์ฌ๋ฌ ๊ฐ์ ํ์ฌ๋ก ๊ตฌ(pharase)๋ฅผ ๋ง๋๋ ๊ฒ
- ๋ฌธ์ฅ์ ๊ฐ ํ์ฌ๋ก ๊ตฌ๋ถํ๊ณ , chunking์ ์ํด ๊ตฌ๋ก ๊ตฌ๋ถํ๋ฉด ๋ฌธ์ฅ์ ์๋ฏธ๋ฅผ ํ์ ํ๊ธฐ ์ฉ์ดํด์ง
- SRL: ์๋ฏธ์ญ ๊ฒฐ์ (Semantic Role Labeling)
- ๋ ผ๋ฌธ์์์ semantic parsing์ ๋ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋จ → step 1)๊ณผ step2)
Step (1): MR structure inference
- ํ ์คํธ๋ฅผ ์ ์ฒ๋ฆฌํ๊ณ , MR์ ๊ตฌ์กฐ๋ฅผ ์ถ๋ก ํ๋ ๋จ๊ณ
- ์ด ๋จ๊ณ์์๋ ์ด๋ฏธ ์กด์ฌํ๋ ํ์ค ๋ฐฉ์ ์ฌ์ฉ
- SENNA software๋ฅผ ์ฌ์ฉํด์ POS tagging, chunking, lemmatization, semantic role labeling(SRL) ์ํ
- ๋
ผ๋ฌธ์์๋ ํ์ ์ด ์ถ์ถ๋(lemmatized) ๋จ์ด์ POS tag์ ์ฐ๊ฒฐ์ ‘lemma’๋ผ๊ณ ํํํจ
- lemma: ํ์ ์ด
- lemma์ synset์ ๊ตฌ๋ณํ๋ ์ ์ ์ ๋ฏธ์ฌ๊ฐ ์๋ ๊ฒ์ ์ฃผ์ → lemma๊ฐ ์๋ฏธ์ ๋ชจํธํ ์ ์์
- SRL๋ ๊ฐ proposition์ ๋ํ ๋์ฌ์ ๊ด๋ จ๋ ๊ฐ๊ฐ์ grammatical argument์ semantic role label์ ํ ๋นํ๋ ๊ฒ
- → MR์ ๊ตฌ์กฐ๋ฅผ ์ถ๋ก ํ๋ ๋ฐ ์ฌ์ฉ๋๊ธฐ ๋๋ฌธ์ ์ค์
- ๋ ผ๋ฌธ์์๋ (subject_์ฃผ์ด, verb_๋์ฌ, direct object_์ง์ ๋ชฉ์ ์ด)์ ํ ํ๋ฆฟ๊ณผ ์ผ์นํ๋ ๋ฌธ์ฅ๋ค๋ง ๊ณ ๋ คํจ
- ์ด 3๊ฐ์ง ์์๋ค์ ํ์ ์ด ์ถ์ถ๋ ๋จ์ด๋ค์ ํํ(→ multi-word phrase)๊ณผ ๊ด๋ จ๋จ
- SRL์ ๋ฌธ์ฅ์ ($lhs$ = subject, $rel$ = verb, $rhs$ = object)์ ํ ํ๋ฆฟ์ผ๋ก ๊ตฌ์กฐํํ๋ ๋ฐ ์ฌ์ฉ๋จ
- ์์ ํ ์คํธ์์ ์์๊ฐ ๋ฐ๋์ ์ฃผ์ด/๋์ฌ/์ง์ ๋ชฉ์ ์ด์ผ ํ์๋ ์์ → ex) ์๋ํ ๋ฌธ์ฅ
- semantic parse(๋๋ MR)์ ์๋ฃํ๊ธฐ ์ํด์๋ lemma๊ฐ ๋ฐ๋์ synset์ผ๋ก ๋ณํ๋์ด์ผ ํจ -> step (2)์ disambiguation
Step (2): Detection of MR entities
- ๋ ๋ฒ์งธ ๋จ๊ณ์ ๋ชฉํ๋ ๋ฌธ์ฅ์ ํํ๋ ๊ฐ๊ฐ์ semantic entity๋ฅผ ์๋ณํ๋ ๊ฒ
- ๊ฐ ์์๊ฐ lemma์ ํํ๊ณผ ๊ด๋ จ๋ relation triplet $(lhs^{lem}, rel^{lem}, rhs^{lem})$์ด ์ฃผ์ด์ง๋ฉด lemma๊ฐ synset๋ก ๋์ฒด๋ corresponding triplet $(lhs^{syn}, rel^{syn}, rhs^{syn})$์ด ์์ฑ๋จ
- lemma์ ๋ฐ๋ผ ๊ฐ๋จํ๊ฑฐ๋
- _television_program_NN ๋๋ _world_war_ii_NN๊ณผ ๊ฐ์ ์ผ๋ถ lemma๋ ๋จ์ผ synset์ ํด๋น
- ๋งค์ฐ ์ด๋ ค์ธ ์ ์์
- _run_VB๋ 33๊ฐ์ ๋ค๋ฅธ synset์, _run_NN์ 10๊ฐ์ synset์ ๋งคํ๋ ์ ์์
- ๊ทธ๋์ ๋ ผ๋ฌธ์์ ์ ์ํ semantic parsing framework์์๋ MR์ด $rel^{syn} (lhs^{syn}, rhs^{syn})$ ํ์์ผ๋ก ์ฌ๊ตฌ์ฑ๋ ์ ์๋ synsets์ triplets์ธ $(lhs^{syn}, rel^{syn}, rhs^{syn})$ ์ ํด๋นํจ
- ๋ชจ๋ธ์ด relation triplets๋ฅผ ์ค์ฌ์ผ๋ก ๊ตฌ์ฑ๋์ด ์๊ธฐ ๋๋ฌธ์ MR๊ณผ WordNet relations๋ ๋์ผํ scheme์ผ๋ก ๋ณด๋ด์ง
- ex) WordNet relation ( _score_NN_2 , _has_part, _musical_notation_NN_1) ๋ WordNet relation type _has_part ๊ฐ ๋์ฌ์ ์ญํ ์ ํ๋ MR๊ณผ ๋์ผํ ํจํด์ fitํจ
Semantic Matching Energy
- ์ด ๋ ผ๋ฌธ์ main contribution
- -> lemma์ WordNet entity๋ค์ ๋์ผํ ๋ฒกํฐ ๊ณต๊ฐ์ ์๋ฒ ๋ํ๋ ๋ฐ ์ฌ์ฉํ energy function
- semantic matching energy function์ lemma๊ฐ ์ฃผ์ด์ง ์ ์ ํ synset์ ์์ธกํ๋ ๋ฐ ์ฌ์ฉ๋จ
3.1 Framework
key concepts
- 1) symbolic entities (synsets, relation types, lemmas)๋ผ๊ณ ๋ถ๋ฆฌ๋ ๊ฒ๋ค์ ๋ชจ๋ neural language model์ ์ด์ ์์
์ ๋ฐ๋ผ "์๋ฒ ๋ฉ ๊ณต๊ฐ"์ด๋ผ๊ณ ํ๋ ๊ณต๋์ d-์ฐจ์ ๋ฒกํฐ ๊ณต๊ฐ๊ณผ ๊ด๋ จ๋จ
- ์ด ๋ฒกํฐ๋ค์ ๋ชจ๋ธ์ parameter๋ค์ด๋ฉฐ semantic parsing ์์ ์์ ์ ์ํ๋๋๋ก ๊ณต๋์ผ๋ก ํ์ต๋จ
- 2) ํน์ triplet $(lhs, rel, rhs)$๊ณผ ๊ด๋ จ๋ semantic matching energy value๋ ๋ชจ๋ symbol์ ๊ทธ๋ค์ ์๋ฒ ๋ฉ์ ๋งคํํ๋ ๊ฒ์ผ๋ก ์์ํ๋ ๋งค๊ฐ ๋ณ์ํ๋ ํจ์ $ε$์ ์ํด ๊ณ์ฐ๋จ
- $ε$๋ variable-size arguments๋ ์ฒ๋ฆฌํ ์ ์์ด์ผ ํจ
- 3) energy function $ε$๋ ๊ฐ๋ฅํ ๋ค๋ฅธ symbols์ configurations ๋ณด๋ค training ์์ ์ ๋ํด ๋ ๋ฎ๊ฒ ์ต์ ํ๋จ
- ๋ฐ๋ผ์ lemma์ ๋ํ ๊ฐ์ฅ ๊ทธ๋ด๋ฏํ ์๋ฏธ๋ฅผ ์ ํํ๊ธฐ ์ํด์ semantic matching energy function์ด entity์ ๊ทธ๋ด๋ฏํ ์กฐํฉ๊ณผ ๊ทธ๋ด๋ฏํ์ง ์์ ์กฐํฉ์ ๊ตฌ๋ณํ ์ ์์
3.2 Parametrization
- 1) ํํ $(lhs, rel, rhs)$์ triplet์ ๋จผ์ ๊ฐ๊ฐ์ ์๋ฒ ๋ฉ์ธ $E_{lhs}$, $E_{rel}$, $E_{rhs}$์ ๋งคํ๋จ
- ํ๋ ์ด์์ symbol์ ํฌํจํ๋ ํํ์ ๋ํด ์ง๊ณ ํจ์๋ฅผ ์ฌ์ฉํด์
- 2) $E_{lhs}$์ $E_{rel}$๋ $g_{left}(.)$๋ฅผ ์ฌ์ฉํด์ ๊ฒฐํฉ๋์ด output์ผ๋ก $E_{lhs(rel)}$๋ฅผ ์ถ๋ ฅ
- $E_{rhs(rel)} = g_{right}(E_{rhs}, E_{rel})$
- 3) $ε((lhs, rel, rhs))$ ์๋์ง๋ $E_{lhs(rel)}$์ $E_{rhs(rel)}$๋ฅผ $h(.)$ ํจ์์ ํฉ์ณ์ ์ป์ด์ง
- semantic matching energy function์ ๋ณ๋ ฌ ๊ตฌ์กฐ(parallel structure)๋ฅผ ๊ฐ์ง
- ๋จผ์ , $(lhs, rel)$๊ณผ $(rel, rhs)$ ์์ด ๋ฐ๋ก๋ฐ๋ก ๊ฒฐํฉ
- ๊ทธ๋ฐ ๋ค์, ์ด๋ฌํ semantic combinations๊ฐ ๋งค์น๋จ
3.3 Training Objective
- $C$: ๋ชจ๋ entity๋ค(relation types, lemmas, synsets)์ ํฌํจํ dictionary
- $C^∗$: ์์๋ค์ด $C$์์ ์ทจํด์ง ํํ(๋๋ ์ํ์ค)์ ์งํฉ
3.4 Disambiguation of Lemma Triplets
- disambiguation: ๋ช ํํ
- semantic matching energy function์ Step (2): Detection of MR entities๋ฅผ ์ํํ๊ธฐ ์ํด ์์ ํ ์คํธ์ ์ฌ์ฉ๋จ
- → ์ฆ word-sense disambiguation ๋จ๊ณ๋ฅผ ์ํํ๊ธฐ ์ํด ์ฌ์ฉ๋๋ ๊ฒ
- lemma์ triplet $((lhs_1^{lem}, lhs_2^{lem}, . . .),(rel_1^{lem}, . . .),(rhs_1^{lem}, . . .))$์ ํ ๋ฒ์ ํ๋์ lemma์ฉ greedy ๋ฐฉ์์ผ๋ก synsets์ ๋ ์ด๋ธ ๋จ
- greedy ์๊ณ ๋ฆฌ์ฆ
- ํ์ฌ ์ํฉ์์ ๊ฐ์ฅ ์ข์ ๊ฒ(์ต์ ์ ์ ํ)์ ๊ณ ๋ฅด๋ ์๊ณ ๋ฆฌ์ฆ
- https://velog.io/@contea95/%ED%83%90%EC%9A%95%EB%B2%95%EA%B7%B8%EB%A6%AC%EB%94%94-%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98
- greedy ์๊ณ ๋ฆฌ์ฆ
- ์๋ฅผ ๋ค์ด, $lhs_2^{lem}$๋ฅผ ๋ผ๋ฒจ๋ง ํ๋ ค๋ฉด triplet์ ๋๋จธ์ง ๋ชจ๋ ์์๋ฅผ lemma๋ค๋ก ๊ณ ์ ํ๊ณ , ๊ฐ์ฅ ๋ฎ์ ์๋์ง๋ก ์ด์ด์ง๋ synset์ ์ ํํจ
- $C(syn|lem)$: $lhs_2^{lem}$์ด ๋งคํ๋ ์ ์๋ ํ์ฉ๋ synset์ ์งํฉ
- ์ด๊ฑธ ๋ชจ๋ lemma๋ค์ ๋ํด ๋ฐ๋ณต
- ๋ ผ๋ฌธ์์๋ ํญ์ lemma๋ฅผ context๋ก ์ฌ์ฉํจ (์ด๋ฏธ ํ ๋น๋ synset๋ ์ ๋ ์ฌ์ฉํ์ง ์์)
- ์ด ๋ฐฉ์์ ๋ฌธ์ฅ์ ๊ฐ ์์น์ ๋ํด์ lemma์ ์๋ฏธ๋ค์ ๊ฐ์์ ๋์ผํ ์ ์ ์์ ์๋์ง๋ง ๊ณ์ฐํ๋ฉด ๋๋ฏ๋ก ํจ์จ์ ์ธ ํ๋ก์ธ์ค์
- ํ์ง๋ง ์ด ๋ฐฉ์์ ์ด ์ค์ํ ๋จ๊ณ๋ฅผ ์ํํ๊ธฐ ์ํด์ ๊ณต๋์ผ๋ก ํจ๊ป ์ฌ์ฉ๋๊ธฐ ๋๋ฌธ์ synset๊ณผ lemma์ ๋ํ good representations( = ์ข์ ์๋ฒ ๋ฉ ๋ฒกํฐ $E_i$)๊ฐ ์๊ตฌ๋จ
- ๊ทธ๋์ multi-tasking training์ด synset๊ณผ lemma(๊ทธ๋ฆฌ๊ณ $g$ functions๋ฅผ ์ํ ์ข์ parameters)์ ๋ํด ๊ณต๋์ผ๋ก ์ข์ ์๋ฒ ๋ฉ์ ํ์ตํ๋ ค๊ณ ์๋ํจ
Multi-Task Training
4.1 Multiple Data Resources
๊ฐ๋ฅํ ํ ๋ง์ ์์(common-sense knowledge)์ ๋ชจ๋ธ์ ๋ถ์ฌํ๊ธฐ ์ํด์ ์ฌ๋ฌ ๋ค๋ฅธ ์ข ๋ฅ๋ค๋ก ์ด๋ค์ง ๋ฐ์ดํฐ ์์ค๋ค์ ๊ฒฐํฉํด์ ์ฌ์ฉํจ
- 1) WordNet v3.0 (WN)
- ๋ฉ์ธ ๋ฆฌ์์ค
- WordNet์ synset ๊ฐ์ relation๋ง ๊ฐ์ง๊ณ ์๋๋ฐ disambiguation process๋ฅผ ์ํด์๋ synset๊ณผ lemma์ ๋ํ ์๋ฒ ๋ฉ์ด ํ์ํจ
- ๊ทธ๋์ lemma ์๋ฒ ๋ฉ ๋ํ ํ์ต์ํค๊ธฐ ์ํด ๋ ๊ฐ์ง ๋ค๋ฅธ ๋ฒ์ ์ ๋ฐ์ดํฐ ์
์ ๋ง๋ฆ
- “Ambiguated” WN
- ๊ฐ triplet์ synset entities๊ฐ ํด๋น๋๋ lemma ์ค ํ๋๋ก ๋์ฒด๋จ
- ๊ทธ๋์ lemma๋ฅผ ์ ์์ด(synonym)๋ก ๋์ฒดํ๋ ๊ฒ๊ณผ ์ ์ฌํ ๋ง์ ์์ ๋ค๋ก ๋ชจ๋ธ์ ํ๋ จํจ
- “Bridge” WN
- ๋ชจ๋ธ์ synset๊ณผ lemma ์๋ฒ ๋ฉ ๊ฐ์ ์ฐ๊ฒฐ์ ๋ํด ํ์ต์ํค๋๋ก ์ค๊ณ๋จ
- relation ํํ์์ $lhs$ ๋๋ $rhs$ synset์ ํด๋น๋๋ lemma๋ก ๋์ฒด๋จ (๋ค๋ฅธ argument๋ synset์ผ๋ก ์ ์ง๋จ)
- “Ambiguated” WN
- 221,017 triplets
- → val์ : 5,000 triplets / test์ : 5,000 triplets
- 2) ConceptNet v2.1 (CN)
- ์์(common-sense knowledge) ๊ธฐ๋ฐ
- lemma ๋๋ lemma ๊ทธ๋ฃน๋ค์ด ํ๋ถํ semantic relations(์๋ฏธ ๊ด๊ณ)์ ์ฐ๊ฒฐ๋์ด ์์
- synset์ด ์๋ lemma๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๊ธฐ ๋๋ฌธ์ ์๋ก ๋ค๋ฅธ ๋จ์ด ์๋ฏธ์ ์ฐจ์ด๋ฅผ ๊ตฌ๋ถํ์ง ์์
- WN ์ฌ์ ์ lemma๋ฅผ ํฌํจํ๋ triplet๋ง ์ฌ์ฉํจ
- 11,332 training triplets
- 3) Wikipedia (Wk)
- ๋จ์ํ ๋น์ง๋ ๋ฐฉ์์ผ๋ก ๋ชจ๋ธ์ ์ง์(knowledge)์ ์ ๊ณตํ๊ธฐ ์ํ ์์ ํ ์คํธ๋ก ์ฌ์ฉ
- 5๋ง ๊ฐ์ ๊ธฐ์ฌ๋ก 3๋ฐฑ๋ง ๊ฐ ์ด์์ ์์ ์์ฑ
- 4) EXtended WordNet (XWN)
- WordNet glosses(→ definitions)๋ก๋ถํฐ ๊ตฌ์ถ๋๊ณ , ๊ตฌ๋ฌธ ๋ถ์(syntactically parsed)๋์๊ณ , WN synset์ ์๋ฏธ์ ์ผ๋ก ์ฐ๊ฒฐ๋ content word๋ค๋ก ๊ตฌ์ฑ
- 776,105 training triplets
- val์ : 10,000 triplets
- 5) Unambiguous Wikipedia (Wku)
- lemma ์ค ํ๋๊ฐ ๋ช ํํ๊ฒ synset์ ํด๋นํ๊ณ , ์ด synset์ด ๋ค๋ฅธ ambiguous(๋ชจํธํ) lemma์ ๋งคํ๋๋ฉด unambiguous(๋ชจํธํ์ง ์์) lemma๋ฅผ ambiguous lemma๋ก ๋์ฒดํด์ ์๋ก์ด triplet์ ์์ฑํจ
- -> ์ด ๋ฐฉ์์ผ๋ก ์์ ๋ Wikipedia ๋ง๋ญ์น์์ ์ถ์ถํ triplet์ผ๋ก train์ ์ ์ถ๊ฐ์ ์ผ๋ก ๋ง๋ฆ
- ์ ๋ฐฉ์์ ์ฌ์ฉํ๋ฉด ๋ชจํธํ context์์ true synset์ ์ ์ ์์
- 981,841 supervision triplets
4.2 Training Algorithmenergy function
- $ε$์ parameter๋ฅผ ํ์ต์ํค๊ธฐ ์ํด์ ๋ชจ๋ ํ๋ จ ๋ฐ์ดํฐ ๋ฆฌ์์ค๋ฅผ ๋ฐ๋ณตํ๊ณ , ํ๋ฅ ์ ๊ฒฝ์ฌํ๊ฐ๋ฒ(stochastic gradient descent)์ ์ฌ์ฉํ์
- ํ๋ฅ ์ ๊ฒฝ์ฌํ๊ฐ๋ฒ(stochastic gradient descent, SGD)
- ์กฐ๊ธ๋ง ํ์ด๋ณด๊ณ (Mini batch) ๋น ๋ฅด๊ฒ ๊ฐ๋ณด์
- ํ๋ฅ ์ ๊ฒฝ์ฌํ๊ฐ๋ฒ(stochastic gradient descent, SGD)
๋ค์ ๋จ๊ณ์ ๋ฐ๋ผ ํ์ต์ ๋ฐ๋ณต์ํด
- 1. ์์ ์์ ์์ค ์ค ํ๋์์ ๋ฌด์์๋ก positive training triplet $x_i$๋ฅผ ์ ํ (synset, lemma ๋๋ ๋ ๋ค๋ก ๊ตฌ์ฑ๋ triplet)
- 2. ์ ์ฝ ์กฐ๊ฑด(constraint) (1), (2), (3) ์ค ๋ฌด์์๋ก ์ ํ
- 3. $lhs_{xi}$, $rel_{xi}$ ๋๋ $rhs_{xi}$๋ฅผ ๊ฐ๊ฐ ๋์ฒดํ๊ธฐ ์ํด ๋ชจ๋ entity $C$ ์ ์์ entity๋ฅผ ์ํ๋งํด์ negative triplet $\tilde{x}$๋ฅผ ๋ง๋ฆ
- 4. $ε(x_i) > ε(\tilde{x}) − 1$ ์ด๋ฉด ๊ธฐ์ค(criterion) (4)๋ฅผ ์ต์ํํ๊ธฐ ์ํด์ ํ๋ฅ ์ ๊ฒฝ์ฌํ๊ฐ๋ฒ(stochastic gradient descent, SGD) ๋จ๊ณ๋ฅผ ์ํ
- 5. ๊ฐ๊ฐ์ ์๋ฒ ๋ฉ ๋ฒกํฐ๊ฐ ์ ๊ทํ๋๋ค๋ ์ ์ฝ ์กฐ๊ฑด(constraint)์ ์ ์ฉ. $||E_i|| = 1$, $∀i$
- ๊ฒฝ์ฌํ๊ฐ ๋จ๊ณ์์๋ $λ$์ ํ์ต๋ฅ ์ด ์๊ตฌ๋จ
- ์์ ์๊ณ ๋ฆฌ์ฆ์ XWN์ Wku ๋ฐ์ดํฐ๋ฅผ ์ ์ธํ ๋ชจ๋ ๋ฐ์ดํฐ์ ์ ์ฉํจ
- entity์ ๋ชจ๋ representation์ ํฌํจํ๋ ํ๋ ฌ $E$๋ ๋ณต์กํ multi-task learning ์ ์ฐจ๋ฅผ ํตํด ํ์ต๋จ
- -> ๋ชจ๋ relation๊ณผ ๋ชจ๋ ๋ฐ์ดํฐ ์์ค์ ๋ํด ๋จ์ผ ์๋ฒ ๋ฉ ํ๋ ฌ์ด ์ฌ์ฉ๋๊ธฐ ๋๋ฌธ
- ๊ทธ ๊ฒฐ๊ณผ, entity์ ์๋ฒ ๋ฉ์๋ entity๊ฐ $lhs$, $rhs$ ๋๋ $rel$ (๋์ฌ์ ๊ฒฝ์ฐ)๋ก ํฌํจ๋์ด ์๋ ๋ชจ๋ relation๊ณผ ๋ฐ์ดํฐ ์์ค์์ ์ค๋ ์ธ์๋ถํด๋(factorized) ์ ๋ณด๊ฐ ํฌํจ๋จ
- ๋ชจ๋ธ์ ๊ฐ entity์ ๋ํด ๋ค๋ฅธ entity๋ค๊ณผ ๋ค์ํ ๋ฐฉ์์ผ๋ก ์ํธ ์์ฉํ๋ ๋ฐฉ๋ฒ์ ํ์ตํ๋๋ก ๊ฐ์๋จ
Experiments
6.1 Benchmarks
- benchmark
- ์ฌ๋ฌ ์คํ ๋๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋น๊ตํ ์ ์๋ ํ์ค
- https://ifdean.tistory.com/3
- multi-task joint training๊ณผ ๋ค์ํ ๋ฐ์ดํฐ ์์ค๋ก ์ํ๋ ๋ชจ๋ธ๋ค์ ์ฑ๋ฅ์ ํ๊ฐํ๊ธฐ ์ํด ๋ ๊ฐ์ง ๋ฒค์น๋งํฌ task์์ ๋ฐ์ดํฐ ์์ค์ ์ฌ๋ฌ ์กฐํฉ๋ค๋ก ํ์ต๋ ๋ชจ๋ธ๋ค์ ํ๊ฐํจ
- WordNet knowledge encoding
- WSD(Word Sense Disambiguation)
- WN: WordNet์ผ๋ก๋ง ํ์ต๋ ๋ชจ๋ธ → “Ambiguated” WordNet๊ณผ “Bridge” WordNet
- WN+CN+Wk: WordNet, ConceptNet, Wikipedia ๋ฐ์ดํฐ๋ก ํ์ต๋ ๋ชจ๋ธ
- All: ๋ชจ๋ ๋ฐ์ดํฐ ์์ค๋ก ํ์ต๋ ๋ชจ๋ธ
- MFS: Most Frequent Sense ์ฌ์ฉ, WordNet frequency(๋น๋)๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํจ
- All+MFS: ์ฑ๋ฅ์ด ๊ฐ์ฅ ์ข๊ฒ ๋์จ ๋ชจ๋ธ
- SE (Bordeset al., 2011) : Structured Embeddings
- SE ๋ชจ๋ธ์ ๋ํ ์ค๋ช ์ฐธ๊ณ -> https://velog.io/@raqoon886/StructuredEmbeddings
1) Knowledge Acquisition
- ์ฃผ์ด์ง ์ง์(knowledge → training relations)์์ ์๋ก์ด relation์ ์ผ๋ฐํ(generalize)ํ ์ ์๋ ๋ฅ๋ ฅ์ ๋ค์ ์ ์ฐจ๋ก ์ธก์ ๋จ
- ๊ฐ๊ฐ์ test WordNet triplet์ ๋ํด ์ผ์ชฝ ๋๋ ์ค๋ฅธ์ชฝ entity๊ฐ ์ ๊ฑฐ๋๊ณ , ๊ฐ๊ฐ ์ฐจ๋ก์ฐจ๋ก ์ฌ์ (dictionary)์ 41,024๊ฐ์ synset์ผ๋ก ๋์ฒด๋จ
- ์ด triplet๋ค์ ์๋์ง๋ ๋ชจ๋ธ์ ์ํด ๊ณ์ฐ๋๊ณ , ์ค๋ฆ์ฐจ์์ผ๋ก ์ ๋ ฌ๋๋ฉฐ ์ฌ๋ฐ๋ฅธ synset์ ์์(rank)๊ฐ ์ ์ฅ๋จ
- ๊ทธ๋ฐ ๋ค์ ํ๊ท ์์ธก ์์(→ ํด๋น ์์๋ค์ ํ๊ท ), WordNet ์์์ precision@10( = p@10 → 1๊ณผ 10 ๋ด์ ์๋ ์์์ ๋น์จ์ 10์ผ๋ก ๋๋ ๊ฐ), WordNet p@10์ ์ธก์
- P@10 = Precision at 10
- precision: ์ ๋ฐ๋
- -> ๋ชจ๋ธ์ด True๋ผ๊ณ ๋ถ๋ฅํ ๊ฒ ์ค ์ค์ True์ธ ๊ฒ์ ๋น์จ
- Precision at K
- -> Top K๊ฐ์ ๊ฒฐ๊ณผ๋ก Precision(์ ๋ฐ๋)๋ฅผ ๊ณ์ฐ
- generalize: ์ผ๋ฐํ
- ํ์ต๋ ๋ชจ๋ธ์ด ๋ค๋ฅธ ์๋ก์ด ๋ฐ์ดํฐ์ ๊ดํด์๋ ์ ์๋ํ๋๋ก ํ๋ ๊ฒ
- https://glanceyes.tistory.com/entry/Deep-Learning-%EC%B5%9C%EC%A0%81%ED%99%94Optimization
- WordNet์ผ๋ก๋ง ํ์ต๋ ๋ชจ๋ธ(WN)์ ์ฑ๋ฅ์ SE๋ณด๋ค ์ด์ง ๋ฎ์
- SE (Bordes et al. (2011))๋ ์์ธก์ ๊ฐ์ ํ๊ธฐ ์ํด์ structured embeddings ์์ KDE(Kernel Density Estimator)๋ฅผ ์์
- Kernel Density Estimation(KDE)
- ์ปค๋ ํจ์(kernel function)๋ฅผ ์ด์ฉํ ๋ฐ๋ ์ถ์ ๋ฐฉ๋ฒ
- https://seongkyun.github.io/study/2019/02/03/KDE/
- Kernel Density Estimation(KDE)
- KDE๊ฐ ์๋ SE (no KDE) (Bordes et al., 2011)์ ๋น๊ตํ์ ๋๋ WN์ ์ฑ๋ฅ์ด ๋ ๋์
- ๋ค๋ฅธ ๋ฐ์ดํฐ์ multi-taskingํ WN+CN+Wk ๋ชจ๋ธ๊ณผ All ๋ชจ๋ธ์ WordNet๋ง ํ์ต์ํจ WN ๋ชจ๋ธ๋ณด๋ค ์ฑ๋ฅ์ด ์กฐ๊ธ ๋จ์ด์ง์ง๋ง ๊ทธ๋๋ WordNet knowledge๋ฅผ ์ ์ธ์ฝ๋ฉํจ
- ์์ ํ ์คํธ๋ก multi-taskingํ์ ๋, relation type์ ๊ฐ์๋ 18๊ฐ์์ ์์ฒ ๊ฐ๋ก ๋์ด๋จ
- ๋ชจ๋ธ์ ๋๋ฌด ๋ง์ relation์ผ๋ก ์ธํด์ ๋ ๋ณต์กํ ์ ์ฌ์ฑ(similarity)์ ํ์ตํจ
- → text relation์ ์ถ๊ฐํ๋ฉด WordNet์์ ์ง์(knowledge)์ ์ถ์ถํ๋ ๋ฌธ์ ๊ฐ ๋ ์ด๋ ค์์ง
- ์ด๋ฌํ ์ ํ ํจ๊ณผ๋ ์ ์ด๋ฏธ์ง์ ๋์์๋ ์์๊ฐ 41,024๊ฐ ์ด์์ entity์ ๋ํ ๊ฒ์ด๋ผ๋ ์ ์ ์ผ๋์ ๋๊ณ ๋ณด๋ฉด ์ฑ๋ฅ์ด ์ฌ์ ํ ๋งค์ฐ ์ฐ์ํ ํธ์ด๋๋ผ๋ multi-tasking process์ ์ ํ ์ฌํญ(limitation)์ด๋ผ๊ณ ํ ์ ์์
- ๊ฒ๋ค๊ฐ ์ด๋ WSD์ semantic parsing์ ์ค์ํ ์ฌ๋ฌ training ์์ค๋ค์ ๊ฒฐํฉํ๋ ๊ธฐ๋ฅ์ ์ ๊ณตํจ
2) Word Sense Disambiguation(WSD)
- WSD์ ๋ํ ์ฑ๋ฅ์ ๋ ๊ฐ์ง test์
์์ ํ๊ฐ๋จ
- XWN test์
- SensEval-3์ English All-words WSD task์ ์ผ๋ถ
- cf) SensEval-3
- SensEval-3 ๋ฐ์ดํฐ์ ๋ํด์๋ ์์์ ์ค๋ช ๋ Inference Procedure(์ถ๋ก ์ ์ฐจ)๋ฅผ ์ฌ์ฉํด ์๋ณธ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๊ณ , ๋ชจ๋ lemma๊ฐ WordNet์์ ์ ์ํ ์ดํ์ ์ํ๋ triplet(์ฃผ์ด, ๋์ฌ, ์ง์ ๋ชฉ์ ์ด)๋ง ์ ์ง
- F1 score๋ก ์ธก์
- WN ๋ชจ๋ธ๊ณผ WN+CN+Wk ๋ชจ๋ธ์ ์ฐจ์ด์ ์ direct supervision ์์ด๋ ๋ชจ๋ธ์ด ํ ์คํธ์์ ์๋ฏธ ์๋ ์ ๋ณด๋ฅผ ์ถ์ถํด ์ผ๋ถ ๋จ์ด๋ฅผ disambiguate ํ ์ ์๋ ๊ฒ (WN+CN+Wk ๋ชจ๋ธ์ด Random ๋ชจ๋ธ๊ณผ WN ๋ชจ๋ธ๋ณด๋ค ์ฑ๋ฅ์ด ํจ์ฌ ๋์)
- All+MFS ๋ชจ๋ธ์ด ์๋ํ๋ ๋ชจ๋ ๋ฐฉ๋ฒ๋ค ์ค์์ ์ ์ผ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑ
6.2 Representations
1) Entity Embeddings
- -> All ๋ชจ๋ธ์ ์ํด ์ ์๋ ์๋ฒ ๋ฉ ๊ณต๊ฐ์์ ๋ช๋ช entity์ ๋ํ ๊ฐ์ฅ ๊ฐ๊น์ด ์ด์๋ค
- ์์ํ๋ ๋๋ก, ์ด์๋ค์ lemma์ synset์ ํผํฉ์ผ๋ก ๊ตฌ์ฑ๋จ
- lemma์ ํด๋นํ๋ ์ด์์ ๋ค๋ฅธ generic(ํฌ๊ด์ ์ธ) lemma๋ค๋ก ๊ตฌ์ฑ๋๋ ๋ฐ๋ฉด, ๋ ๊ฐ์ ๋ค๋ฅธ synsets์ ๋ํ ์ด์์ ์ฃผ๋ก ๋ถ๋ช ํ ๋ค๋ฅธ ์๋ฏธ๋ฅผ ๊ฐ์ง synsets๋ก ๊ตฌ์ฑ๋จ
- ๋ ๋ฒ์งธ ํ์ common lemmas (์ฒซ ๋ฒ์งธ ์ด)์ ๊ฒฝ์ฐ ์ด์ ๋ํ generic(ํฌ๊ด์ ์ธ) lemma์ด์ง๋ง, precise ones (๋ ๋ฒ์งธ ์ด)๋ ์๋ฆฌํ ์๋ฏธ๋ฅผ ์ ์ํ๋ synset์ ๊ฐ๊น์
- _different_JJ_1์ ๋ํ ์ด์ ๋ฆฌ์คํธ(์ธ ๋ฒ์งธ ์ด)๋ ํ์ต๋ ์๋ฒ ๋ฉ์ด antonymy(๋ฐ์์ฑ → ๋ฐ์์ด)์ ์ธ์ฝ๋ฉํ์ง ์์์ ๋ํ๋
2) WordNet Enrichment
- WordNet๊ณผ ConceptNet์ ์ ํ๋ ๊ฐ์์ relation type์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ (→ 20๊ฐ ๋ฏธ๋ง, ex. _has_part, _hypernym) ๋๋ถ๋ถ์ ๋์ฌ๋ฅผ relation์ผ๋ก ๊ฐ์ฃผํ์ง ์์
- multi-task training๊ณผ MR, WordNet/ConceptNet์ relation์ ๋ํ ํตํฉ๋ representation ๋๋ถ์ ๋ชจ๋ธ์ด ์ ์ฌ์ ์ผ๋ก WordNet์ ์กด์ฌํ์ง ์๋ ๊ทธ๋ฌํ relation๋ก ์ผ๋ฐํ๊ฐ ๊ฐ๋ฅํจ
- -> ๋ knowledge bases(WordNet๊ณผ ConceptNet)์ ์กด์ฌํ์ง ์๋ relation type์ ๋ํ ์์ธก๋ synset ๋ฆฌ์คํธ
- TextRunner (Yates et al., 2007) : ๋ ผ๋ฌธ์์ ์ฌ์ฉํ 50,000๊ฐ์ Wikipedia ๊ธฐ์ฌ์ ๋น๊ตํ๊ธฐ ์ํด 1์ต ๊ฐ์ ์นํ์ด์ง์์ ์ ๋ณด๋ฅผ ์ถ์ถํ ์ ๋ณด ์ถ์ถ ๋๊ตฌ
- ๋ ผ๋ฌธ์ All ๋ชจ๋ธ๊ณผ TextRunner์ ๊ฒฐ๊ณผ ๋ชจ๋ ์์์ ๋ฐ์ํ๋ ๊ฒ์ฒ๋ผ ๋ณด์
- ํ์ง๋ง ๋ ผ๋ฌธ์ All ๋ชจ๋ธ๊ณผ ๋ฌ๋ฆฌ TextRunner๋ lemma์ ๋ค๋ฅธ ์๋ฏธ๋ฅผ disambiguateํ์ง ์์ผ๋ฏ๋ก ๊ทธ ์ง์์ ๊ธฐ์กด ๋ฆฌ์์ค์ ์ฐ๊ฒฐํด์ ํ๋ถํ๊ฒ(enrich) ๋ง๋ค์ง ๋ชปํจ
Conclusion
- ์ด ๋ ผ๋ฌธ์ ์์ ํ ์คํธ๋ฅผ ๋ช ํํ(disambiguated) MR์ ๋งคํํ๋ semantic parsing์ ์ํ ๋๊ท๋ชจ ์์คํ ์ ์ ์ํจ
- key contributions
- ๋ชจํธํ lemma์ ๋ชจํธํ์ง ์์ entities(synsets) ์ฌ์ด์ ๊ด๊ณ๋ค(relation)์ triplet์ ํ๊ฐํ๋ energy-based model
- ์๋์ ์ผ๋ก ์ ํ๋ supervision์ผ๋ก ์์ ํ ์คํธ์์ ๋ช ํํ(disambiguated) MRs๋ฅผ ๊ตฌ์ถํ๋ ๋ฐฉ๋ฒ์ ํจ๊ณผ์ ์ผ๋ก ํ์ตํ ์ ์๋๋ก ์ฌ๋ฌ ๋ฆฌ์์ค๋ฅผ ํตํด ๋ชจ๋ธ์ ํ์ต์ multi-taskingํ ๊ฒ
- ์ต์ข ์์คํ ์ ์ฌ๋ฌ ๋ฆฌ์์ค์ ๋ํ ์ง์์ ์ผ๋ฐํํ๊ณ ์ด๋ฅผ ์์ ํ ์คํธ์ ์ฐ๊ฒฐํ๋ ๊ฒ์ ํตํด์ energy function ์์์ ๋ฌธ์ฅ์ ๊น์ ์๋ฏธ๋ฅผ ์ ์ฌ์ ์ผ๋ก ํฌ์ฐฉํ ์ ์์
์ฐธ๊ณ ์๋ฃ
https://kilian.evang.name/sp/lectures/intro.pdf
https://excelsior-cjh.tistory.com/64
https://velog.io/@riverdeer/Multi-task-Learning
https://en.wikipedia.org/wiki/Knowledge_acquisition
https://bab2min.tistory.com/576
https://post.naver.com/viewer/postView.naver?volumeNo=31743752&memberNo=52249799
https://medium.com/sciforce/text-preprocessing-for-nlp-and-machine-learning-tasks-3e077aa4946e
https://byteiota.com/pos-tagging/
https://jynee.github.io/NLP%EA%B8%B0%EC%B4%88_3/
https://paperswithcode.com/task/semantic-role-labeling
https://seamless.tistory.com/38
https://velog.io/@raqoon886/StructuredEmbeddings
https://glanceyes.tistory.com/entry/Deep-Learning-%EC%B5%9C%EC%A0%81%ED%99%94Optimization
https://ddiri01.tistory.com/321
https://seongkyun.github.io/study/2019/02/03/KDE/
https://wdprogrammer.tistory.com/35
'๐ ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ > NLP' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Word2Vec] Distributed Representations of Words and Phrases and their Compositionality (0) | 2022.08.11 |
---|
๋น์ ์ด ์ข์ํ ๋งํ ์ฝํ ์ธ
์์คํ ๊ณต๊ฐ ๊ฐ์ฌํฉ๋๋ค :)