Joint Learning of Words and Meaning Representations for Open-Text Semantic Parsing
2022. 7. 23. 00:36
- -
Joint Learning of Words and Meaning Representations for Open-Text Semantic Parsing
๐ก๋ค์ด๊ฐ๊ธฐ ์ ๊ฐ๋ ์ ๋ฆฌ
- Semantic parsing
- ์์ฐ์ด ๋ฐํ(NLU)๋ฅผ ๊ธฐ๊ณ๊ฐ ์ดํดํ ์ ์๋ formal meaning representation(MR)๋ก ๋ณํํ๋ ๊ฒ
-> a~c: NLU, d: MR
- MR(meaning representation)
- ์ธ์ด์ input์ ์๋ฏธ๋ฅผ ํฌ์ฐฉํ๋ ํ์์ ๊ตฌ์กฐ(formal structure)
- ๋ฏธ๋ฌํ ์ธ์ด์ ๋์์ค์ ์ธ์์ ๋ํ ๋น์ธ์ด์ ์์ ์ฌ์ด์ ๋ค๋ฆฌ(bridge)๋ผ๊ณ ํ ์ ์์
- ex) ์๋๋ฐฉ์ด ๋๋ฅผ ์นญ์ฐฌํ ๊ฑด์ง ์ํ ๊ฑด์ง ์๋ ๋ฐฉ๋ฒ
- -> ์ธ์ด์ input(์๋๋ฐฉ์ ๋ง)์ meaningful structure๋ก ๋ถํดํ๊ณ , ์ด๋ฅผ ์ค์ ์ธ๊ณ์ ๋ํ ์ง์(์๋๋ฐฉ์ ๋ํ ์ ๋ณด, ์๋๋ฐฉ๊ณผ์ ๊ด๊ณ, ์ด์ ๊ฒฝํ ๋ฑ)๊ณผ ์ฐ๊ฒฐํจ์ผ๋ก์จ ์๋๋ฐฉ์ ์๋๋ฅผ ์ ์ ์์
- meaning representation ๋ฐฉ์
- First Order Logic(1์ฐจ ๋ ผ๋ฆฌ)
- Abstract Meaning Representation(AMR) using a directed graph
- Abstract Meaning Representation(AMR) using the textual form
- Frame-Based or Slot filter representation
- → ์ด 4๊ฐ์ง ๋ฐฉ์ ๋ชจ๋ meaning representation์ ๋์์ ํด๋นํ๋ ๊ตฌ์กฐ, ์์ฑ๊ณผ ๋์๋ค ๊ฐ์ ๊ด๊ณ(relation)๋ก ๊ตฌ์ฑ๋๋ค๋ ์ ์ ๊ณต์ ํจ
- representation
- ์ค์ ํ ์คํธ๋ฅผ ์ธ์ด ๋ชจ๋ธ์ด ์ฐ์ฐํ ์ ์๋๋ก ๋ง๋ ํํ
- ๋ฑ์ฅ ํ์ ๊ธฐ๋ฐ๊ณผ ๋ถํฌ ๊ธฐ๋ฐ์ผ๋ก ๋๋ ์ง
Abstract
- Open-text semantic parser๋ MR(meaning representation)์ ์ถ๋ก ํด ์์ฐ์ด์ ๋ชจ๋ ๋ฌธ์ฅ์ ํด์ํ๋๋ก ์ค๊ณ๋จ
- ๋๊ท๋ชจ ์์คํ ๋ค์ ์ง๋ ํ์ต ๋ฐ์ดํฐ์ ๋ถ์กฑ ๋๋ฌธ์ ์ฝ๊ฒ machine-learned(๊ธฐ๊ณ ํ์ต)๋๊ธฐ ํ๋ฆ
- ๋
ผ๋ฌธ์์๋ WordNet๊ณผ ๊ฐ์ knowledge base learning๊ณผ ์์ ํ
์คํธ(raw text)๋ฅผ ์ฌ์ฉํ learning์ ๊ฒฐํฉํ training scheme ๋์ ๊ด๋ฒ์ํ ํ
์คํธ(40,000๊ฐ ์ด์์ entity์ ๋งคํ๋ 70,000๊ฐ ์ด์์ ๋จ์ด ์ฌ์ ์ฌ์ฉ)์ MR์ ํ ๋นํ๋ ๋ฐฉ์์ ์ ์
- WordNet
- ์์ด์ ์๋ฏธ ์ดํ ๋ชฉ๋ก
- ์์ด ๋จ์ด๋ฅผ 'synset'์ด๋ผ๋ ์ ์์ด ์ง๋จ์ผ๋ก ๋ถ๋ฅํด ๊ฐ๋ตํ๊ณ ์ผ๋ฐ์ ์ธ ์ ์๋ฅผ ์ ๊ณตํ๊ณ , ์ด๋ฌํ ์ดํ ๋ชฉ๋ก ์ฌ์ด์ ๋ค์ํ ์๋ฏธ ๊ด๊ณ๋ฅผ ๊ธฐ๋ก
- => ์์ฐ์ด ์ฒ๋ฆฌ๋ฅผ ์ํด ํนํ๋ ์ฌ์
- WordNet
- ๋
ผ๋ฌธ์ ๋ชจ๋ธ์ ๋ค์ํ ๋ฐ์ดํฐ ์์ค์์ ์๋ํ๋ multi-task training process๋ฅผ ํตํด ๋จ์ด, entity, MR์ ํํ์ ๊ณต๋์ผ๋ก(jointly) ํ์ต
- Multi-Task Learning
- ์ฐ๊ด์๋ task๋ค์ ์ฐ๊ฒฐ์์ผ ๋์์ ํ์ต์ํด์ผ๋ก์จ ๋ชจ๋ task์์์ ์ฑ๋ฅ์ ์ ๋ฐ์ ์ผ๋ก ํฅ์์ํค๋ ค๋ ํ์ต ํจ๋ฌ๋ค์
- ๋ง์ labeled data๊ฐ ํ์ํ๋ฐ ๋ฐ์ดํฐ๋ฅผ ํ๋ณดํ๊ธฐ ์ด๋ ค์ด ๊ฒฝ์ฐ Multi-task learning์ด ์ข์ ํด๊ฒฐ ๋ฐฉ๋ฒ์ด ๋ ์ ์์
- ์ธ๊ฐ์ด ์๋ก์ด ๊ฒ์ ํ์ตํ ๋ ์ด์ ์ ํ์ตํ๋ ์ ์ฌ๊ฒฝํ์ ์ ๋ชฉ์์ผ ๋ ๋นจ๋ฆฌ ํ์ตํ๋ ๊ฒ์์ ์๊ฐ์ ์ป์ ๋ฐฉ์
- https://velog.io/@riverdeer/Multi-task-Learning
- Multi-Task Learning
- ํ๋์ ํ๋ ์์ํฌ์์ semantic parsing์ ๋งฅ๋ฝ ๋ด์์ knowledge acquisition๊ณผ word-sense disambiguation๋ฅผ ์ํ ๋ฐฉ๋ฒ๋ค์ ์ ๊ณต
- knowledge acquisition
- ์ง์ ์ต๋
- ์ง์ ๊ธฐ๋ฐ ์์คํ ์ ํ์ํ ๊ท์น๊ณผ ์จํจ๋ก์ง๋ฅผ ์ ์ํ๋ ๋ฐ ์ฌ์ฉ๋๋ ํ๋ก์ธ์ค
- https://en.wikipedia.org/wiki/Knowledge_acquisition
- word-sense disambiguation(WSD): ๋จ์ด ์๋ฏธ ์ค์์ฑ ํด์
- ํด๋น ๋ฌธ๋งฅ์์ ํน์ ๋จ์ด๊ฐ ์ฌ์ ์ ์๋ฏธ ์ค ์ด๋์ ํด๋นํ๋์ง ์ฐพ์๋ด๋ ์์
- ex) 1๋ฒ ๋ฐค->๋ฐค01, 2๋ฒ ๋ฐค->๋ฐค02, 3๋ฒ ๋ฐค->๋ฐค01 ์ฒ๋ผ ๊ฐ๊ฐ์ ๋จ์ด์ ๋ํด ์ฌ์ ์์ ์๋ฏธ์ ์ฐ๊ฒฐ ์ง์
- ํด๋น ๋จ์ด์ ์๋ฏธ๋ฅผ ์ฌ์ ์ ๊ฐ ์๋ฏธ์ ์ฐ๊ฒฐํ๋ ์์ ์ด ํ์์ ์ด๊ธฐ ๋๋ฌธ์ ์ฌ์ ์๋ฃ๋ ๊ธฐํ ์ง์ ๊ธฐ๋ฐ ๋ฐ์ดํฐ๋ฒ ์ด์ค๋ฅผ ํ์๋ก ํจ
- ๋ฐ๋ผ์ ๋๊ฒ ์ง์ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ(Knowledge-based approach)์ด๋ ์ง๋ ํ์ต ๋ฐฉ๋ฒ(Supervised approach) ์ฌ์ฉ
- https://bab2min.tistory.com/576
- knowledge acquisition
Introduction
semantic parsing์ ๊ดํ ์ฐ๊ตฌ๋ ๋๋ต 2๊ฐ์ ํธ๋์ผ๋ก ๋๋ ์ ์์
- 1) in-domain
- ๊ณ ๋๋ก ์งํ๋๊ณ ํฌ๊ด์ ์ธ MR์ ๊ตฌ์ถํ๊ธฐ ์ํ ํ์ต์ด ๋ชฉํ
- ์ด๋ ๊ณ ๋๋ก annotated(์ฃผ์์ด ๋ฌ๋ฆฐ)๋ train ๋ฐ์ดํฐ ์/๋๋ ํ๋์ ๋๋ฉ์ธ์ ์ํด์๋ง ๊ตฌ์ถ๋ MR์ ํ์๋ก ํ๊ธฐ ๋๋ฌธ์ ์ด๋ฌํ ์ ๊ทผ ๋ฐฉ์์ ๋ณดํต ์ ํ๋ ์ดํ(๋ช๋ฐฑ ๊ฐ์ ๋จ์ด)์ ๊ทธ์ ๋ฐ๋ผ ์ ํ๋ MR representation์ ๊ฐ์ง
- 2) open-domain ๋๋ open-text
- ๋ชจ๋ ์ข ๋ฅ์ ์์ฐ์ด ๋ฌธ์ฅ์ MR์ ์ฐ๊ด์ํค๊ธฐ ์ํ ํ์ต์ด ๋ชฉํ
- ์ฌ์ธต์ ์ธ ์๋ฏธ ๊ตฌ์กฐ๋ฅผ ํฌ์ฐฉํ๋ MR๋ก ๋ง์ ์์ free text์ ๋ ์ด๋ธ์ ์ง์ ํ๋ ๊ฒ์ด ๋ถ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์ ๋ weakํ supervision(๋ถ๋ฅ)
- ๊ทธ ๊ฒฐ๊ณผ, ๋ชจ๋ธ์ ๋ ์ฌํํ MR์ ์ถ๋ก ํจ → shallow semantic parsing์ด๋ผ๊ณ ๋ ํจ
- ๋ ผ๋ฌธ์์๋ open-domain์ ๋ํด ๋ค๋ฃธ
- ์ฃผ์ด์ง ๋ฌธ์ฅ์ ๋ํด 2๋จ๊ณ๋ก MR์ ์ถ๋ก ํจ
- (1) semantic role labeling step → ์๋ฏธ ๊ตฌ์กฐ ์์ธก
- (2) disambiguation step → ํ์ต๋ energy function์ ์ต์ํํ๊ธฐ ์ํด ๊ฐ๊ฐ์ ๊ด๋ จ ๋จ์ด์ ํด๋น entity ํ ๋น
- strong supervision์ ๋ถ์กฑ์ ๋ฐฉ์งํ๊ธฐ ์ํด ์ฌ๋ฌ ์์ค์ ๋ฐ์ดํฐ๋ก ํ๋ จ๋ energy-based model๋ก ๊ตฌ์ฑ๋จ
- energy-based model
- ๋ฐ์ดํฐ ๋ถํฌ ๋ด์ ์๋ ์ ๋ ฅ X์ ๋ฎ์ ์๋์ง, ๊ทธ ์ธ์ ์ ๋ ฅ์ ๋์ ์๋์ง๋ฅผ ์ฃผ๋ energy function์ ํ์ตํด ๋ฐ์ดํฐ๊ฐ ์กด์ฌํ๋ ๋ถ๋ถ์ ๋ถํฌ๋ฅผ ์ต๋ํํ๋ ๊ฒ๋ฟ๋ง ์๋๋ผ ๋ฐ์ดํฐ๊ฐ ์กด์ฌํ์ง ์๋ ๋ถ๋ถ์ ๋ถํฌ๋ฅผ ๋ฎ์ถ๋ ์์ฑ ๋ชจ๋ธ
- https://post.naver.com/viewer/postView.naver?volumeNo=31743752&memberNo=52249799
- energy-based model
- ๋ ผ๋ฌธ์ energy-based model์ ๋จ์ด, entity, ๊ทธ๋ฆฌ๊ณ ์ด๋ค์ ์กฐํฉ๋ค ๊ฐ์ ์๋ฏธ ์ ๋ณด๋ฅผ ๊ณต๋์ผ๋ก(jointly) ํฌ์ฐฉํ๋๋ก ํ์ต๋จ
- ๊ฐ symbol์ ๋ํด ์ ์ฐจ์ ์๋ฒ ๋ฉ ๋ฒกํฐ๊ฐ ํ์ต๋๋ distributed representation์ผ๋ก ์ธ์ฝ๋ฉ
- distributed representation: ๋ถํฌ ๊ธฐ๋ฐ์ ๋จ์ด ํํ
- ํ๊ฒ ๋จ์ด ์ฃผ๋ณ์ ์๋ ๋จ์ด ๊ธฐ๋ฐ์ผ๋ก ๋ฒกํฐํ
- '๋น์ทํ ์์น์์ ๋ฑ์ฅํ๋ ๋จ์ด๋ค์ ๋น์ทํ ์๋ฏธ๋ฅผ ๊ฐ์ง๋ค'๋ผ๋ ๋ถํฌ ๊ฐ์ค์ ๊ธฐ๋ฐํด ์ฃผ๋ณ ๋จ์ด ๋ถํฌ๋ฅผ ๊ธฐ์ค์ผ๋ก ๋จ์ด์ ๋ฒกํฐ ํํ์ด ๊ฒฐ์ ๋๊ธฐ ๋๋ฌธ์ ๋ถ์ฐ ํํ(distributed representation)์ด๋ผ๊ณ ๋ถ๋ฆ
- ex) Word2Vec, fastText
- distributed representation: ๋ถํฌ ๊ธฐ๋ฐ์ ๋จ์ด ํํ
- ๋ ผ๋ฌธ์ semantic matching energy function์ ๊ทธ๋ด๋ฏํ ์กฐํฉ์ ๋ฎ์ ์๋์ง ๊ฐ์ ํ ๋นํ๊ธฐ ์ํด ์ด๋ฌํ ์๋ฒ ๋ฉ์ blend ํ๋๋ก ์ค๊ณ๋จ
- WordNet, ConceptNet๊ณผ ๊ฐ์ ๋ฆฌ์์ค๋ entity ๊ฐ์ ๊ด๊ณ ํํ๋ก ์์(common-sense knowledge)์ ์ธ์ฝ๋ฉ ํ์ง๋ง(ex: ~has ~part( ~car, ~wheel) ) ์ด ์ง์์ ์์ ํ ์คํธ (๋ฌธ์ฅ๋ค)์ ์ฐ๊ฒฐํ์ง ์์
- ๋ฐ๋ฉด, Wikipedia์ ๊ฐ์ ํ ์คํธ ๋ฆฌ์์ค๋ entity๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ์ง ์์
- ๋ ผ๋ฌธ์ ํ์ต ์ ์ฐจ๋ ์ฌ๋ฌ ๋ฐ์ดํฐ์ ์ ๋ํ multi-task learning์ ๊ธฐ๋ฐ์ผ๋ก ํจ
- ์ด๋ฐ ๋ฐฉ์์ ์ฌ์ฉํ๋ฉด ํ ์คํธ์ entity ๊ฐ์ ๊ด๊ณ์์ ์ ๋๋ MR์ ๋์ผํ ๊ณต๊ฐ์ embedded(๊ทธ๋ฆฌ๊ณ integrated)๋จ
- ์ด๋ฅผ ํตํด ๋ง์ ์์ indirect supervision๊ณผ ์ ์ ์์ direct supervision์ ์ฌ์ฉํด์ ์์ ํ ์คํธ์ ๋ํด disambiguation(๋ช ํํ)์ ์ํํ๋ ๋ฐฉ์์ ํ์ตํ ์ ์์์
- ๋ชจ๋ธ์ ๋จ์ด์ ๋ํ ์ฌ๋ฐ๋ฅธ WordNet sense(์๋ฏธ)๋ฅผ ์ ํํ๋๋ก ์์(common-sense knowledge) (ex. entity ๊ฐ์ WordNet relation)์ ์ฌ์ฉํ๋ ๊ฒ์ ํ์ตํจ
- open-text semantic parsing์ ์ํ standard evaluation(ํ์ค ํ๊ฐ)๊ฐ ์กด์ฌํ์ง ์์์ ๋ชจ๋ธ ํ๊ฐ๋ฅผ ์ํด ๋ค๋ฅธ ํ๊ฐ ๋ฐฉ์ ์ฌ์ฉ
- ๊ฒฐ๊ณผ๋ ๋ ๊ฐ์ง ๋ฒค์น๋งํฌ์ธ WSD(word sense disambiguation)๊ณผ (WordNet) knowledge acquisition์ ๊ณ ๋ คํจ
- ์์ ํ ์คํธ๋ก multi-tasking์ ์ํํด์ WordNet์ ์กด์ฌํ์ง ์๋ ์๋ก์ด common-sense relations๋ฅผ ํ์ตํ๋ ๊ฒ์ธ knowledge extraction์ ์ํํ ์ ์๋ ๊ฐ๋ฅ์ฑ๋ ์ ์ฆํจ
Semantic Parsing Framework
2.1 WordNet-based Representations (MRs)
- semantic parsing์ ์ํด ๊ณ ๋ คํ MR์ $REL(A_0, . . . , A_n)$ ํ์์ ๊ฐ๋จํ ๋
ผ๋ฆฌ์
- $REL$: relation symbol
- $A_0, ..., A_n$: arguments
- ๋ ผ๋ฌธ์์๋ open-domain ์์ ํ ์คํธ๋ฅผ ๊ตฌ๋ฌธ ๋ถ์ํ๊ธฐ๋ฅผ ์ํ๋ฏ๋ก ๋ง์ relation types์ arguments๋ฅผ ๊ณ ๋ คํด์ผ ํ์
- $REL$๊ณผ $A_i$ arguments๋ฅผ ์ ์ํ๊ธฐ ์ํด WordNet ์ฌ์ฉ
- WordNet์ synset๋ผ๊ณ ๋ถ๋ฆฌ๋ node๊ฐ ์๋ฏธ(sense)์ ํด๋นํ๊ณ , edge๊ฐ ์ด๋ฌํ ์๋ฏธ๋ค ์ฌ์ด์ ๊ด๊ณ๋ฅผ ์ ์ํ๋ ๊ทธ๋ํ ๊ตฌ์กฐ ์์์ comprehensive knowledge(ํฌ๊ด์ ์ธ ์ง์)์ ํฌํจํจ
- synset: ์ ์์ด ์ง๋จ
- synset์ ์ผ๋ฐ์ ์ผ๋ก 8-digits codes๋ก ์๋ณ๋์ง๋ง ๋ช
ํ์ฑ์ ์ํด ๋
ผ๋ฌธ์์๋ synset์ ๋จ์ด + ํ์ฌ ํ๊ทธ(POS tag - NN: ๋ช
์ฌ, VB: ๋์ฌ, JJ: ํ์ฉ์ฌ, RB: ๋ถ์ฌ) + ์ซ์( ๋ช ๋ฒ์งธ ์๋ฏธ์ธ์ง)๋ก ํํํจ
- ex)
- _score_NN_1: ๋ช ์ฌ "score"์ ์ฒซ ๋ฒ์งธ ์๋ฏธ๋ฅผ ๋ํ๋ด๋ synset. "mark"์ "grade"๋ผ๋ ๋จ์ด๋ ํฌํจ ⇒ ์ ์
- _score_NN_2: ๋ช ์ฌ "score"์ ๋ ๋ฒ์งธ ์๋ฏธ ⇒ ์ ๋ณด
- ex)
- triplets $(lhs, rel, rhs)$์ ์ฌ์ฉํด์ WordNet์ relations instances๋ฅผ ๋ํ๋
- $lhs$: relation์ ์ผ์ชฝ(left-hand side)
- $rel$: relation์ type
- $rhs$: relation์ ์ค๋ฅธ์ชฝ(right-hand side)
- ex)
- (_score_NN_1, _hypernym, _evaluation_NN_1)
- (_score NN_2, _has_part, _musical_notation_NN_1)
- hypernym: ์์์ด
- ๋ฑ๋ง๋ค ์ค์์ ๋ฑ๋ง์ด ๋ค๋ฅธ ๋ฑ๋ง์ ํฌํจํ๋ ๊ฒฝ์ฐ
- <-> ํ์์ด: ์์์ด์ ํฌํจ๋๋ ๋ฑ๋ง
- ex) ์์์ด: ์ ๊ธฐ, ํ์์ด: ํผ์๋ ธ
- has_part: ์ ์ฒด์์ ๋ถ๋ถ์ผ๋ก
- ์ต์ข MR์ ๊ฒฝ์ฐ, $REL$ ๊ณผ $A_i$ arguments๋ฅผ WordNet synsets์ ํํ๋ก ํ์
- → $REL$์ ์๋ฌด ๋์ฌ๋ ๋ค ๋ ์ ์๊ณ , 18๊ฐ์ WordNet relations ์ค ํ๋๋ก ์ ํ๋์ง ์์
2.2 Inference Procedure (์ถ๋ก ์ ์ฐจ)
- step 0) input
- step 1) ์ ์ฒ๋ฆฌ (lemmatization, POS, chunking, SRL)
- step 2) ๊ฐ lemma(ํ์ ์ด)๊ฐ ํด๋นํ๋ WordNet synset์ ํ ๋น๋จ
- step 3) ์์ ํ MR(meaning representation) ์ ์
ํ ์คํธ ์ ์ฒ๋ฆฌ ๊ณผ์ (lemmatization, POS, chunking, SRL)
- lemmatization: ํ์ ์ด ์ถ์ถ
- ๊ธฐ๋ณธ ์ฌ์ ํ ๋จ์ด ํํ๋ก ๋ณํ
- ๋ณต์ -> ๋จ์, ๋์ฌ -> ํ๋์ฌ
- POS tagging: ํ์ฌ ํ๊น
- chunking = shallow parsing
- ์ฌ๋ฌ ๊ฐ์ ํ์ฌ๋ก ๊ตฌ(pharase)๋ฅผ ๋ง๋๋ ๊ฒ
- ๋ฌธ์ฅ์ ๊ฐ ํ์ฌ๋ก ๊ตฌ๋ถํ๊ณ , chunking์ ์ํด ๊ตฌ๋ก ๊ตฌ๋ถํ๋ฉด ๋ฌธ์ฅ์ ์๋ฏธ๋ฅผ ํ์ ํ๊ธฐ ์ฉ์ดํด์ง
- SRL: ์๋ฏธ์ญ ๊ฒฐ์ (Semantic Role Labeling)
- ๋ ผ๋ฌธ์์์ semantic parsing์ ๋ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋จ → step 1)๊ณผ step2)
Step (1): MR structure inference
- ํ ์คํธ๋ฅผ ์ ์ฒ๋ฆฌํ๊ณ , MR์ ๊ตฌ์กฐ๋ฅผ ์ถ๋ก ํ๋ ๋จ๊ณ
- ์ด ๋จ๊ณ์์๋ ์ด๋ฏธ ์กด์ฌํ๋ ํ์ค ๋ฐฉ์ ์ฌ์ฉ
- SENNA software๋ฅผ ์ฌ์ฉํด์ POS tagging, chunking, lemmatization, semantic role labeling(SRL) ์ํ
- ๋
ผ๋ฌธ์์๋ ํ์ ์ด ์ถ์ถ๋(lemmatized) ๋จ์ด์ POS tag์ ์ฐ๊ฒฐ์ ‘lemma’๋ผ๊ณ ํํํจ
- lemma: ํ์ ์ด
- lemma์ synset์ ๊ตฌ๋ณํ๋ ์ ์ ์ ๋ฏธ์ฌ๊ฐ ์๋ ๊ฒ์ ์ฃผ์ → lemma๊ฐ ์๋ฏธ์ ๋ชจํธํ ์ ์์
- SRL๋ ๊ฐ proposition์ ๋ํ ๋์ฌ์ ๊ด๋ จ๋ ๊ฐ๊ฐ์ grammatical argument์ semantic role label์ ํ ๋นํ๋ ๊ฒ
- → MR์ ๊ตฌ์กฐ๋ฅผ ์ถ๋ก ํ๋ ๋ฐ ์ฌ์ฉ๋๊ธฐ ๋๋ฌธ์ ์ค์
- ๋ ผ๋ฌธ์์๋ (subject_์ฃผ์ด, verb_๋์ฌ, direct object_์ง์ ๋ชฉ์ ์ด)์ ํ ํ๋ฆฟ๊ณผ ์ผ์นํ๋ ๋ฌธ์ฅ๋ค๋ง ๊ณ ๋ คํจ
- ์ด 3๊ฐ์ง ์์๋ค์ ํ์ ์ด ์ถ์ถ๋ ๋จ์ด๋ค์ ํํ(→ multi-word phrase)๊ณผ ๊ด๋ จ๋จ
- SRL์ ๋ฌธ์ฅ์ ($lhs$ = subject, $rel$ = verb, $rhs$ = object)์ ํ ํ๋ฆฟ์ผ๋ก ๊ตฌ์กฐํํ๋ ๋ฐ ์ฌ์ฉ๋จ
- ์์ ํ ์คํธ์์ ์์๊ฐ ๋ฐ๋์ ์ฃผ์ด/๋์ฌ/์ง์ ๋ชฉ์ ์ด์ผ ํ์๋ ์์ → ex) ์๋ํ ๋ฌธ์ฅ
- semantic parse(๋๋ MR)์ ์๋ฃํ๊ธฐ ์ํด์๋ lemma๊ฐ ๋ฐ๋์ synset์ผ๋ก ๋ณํ๋์ด์ผ ํจ -> step (2)์ disambiguation
Step (2): Detection of MR entities
- ๋ ๋ฒ์งธ ๋จ๊ณ์ ๋ชฉํ๋ ๋ฌธ์ฅ์ ํํ๋ ๊ฐ๊ฐ์ semantic entity๋ฅผ ์๋ณํ๋ ๊ฒ
- ๊ฐ ์์๊ฐ lemma์ ํํ๊ณผ ๊ด๋ จ๋ relation triplet $(lhs^{lem}, rel^{lem}, rhs^{lem})$์ด ์ฃผ์ด์ง๋ฉด lemma๊ฐ synset๋ก ๋์ฒด๋ corresponding triplet $(lhs^{syn}, rel^{syn}, rhs^{syn})$์ด ์์ฑ๋จ
- lemma์ ๋ฐ๋ผ ๊ฐ๋จํ๊ฑฐ๋
- _television_program_NN ๋๋ _world_war_ii_NN๊ณผ ๊ฐ์ ์ผ๋ถ lemma๋ ๋จ์ผ synset์ ํด๋น
- ๋งค์ฐ ์ด๋ ค์ธ ์ ์์
- _run_VB๋ 33๊ฐ์ ๋ค๋ฅธ synset์, _run_NN์ 10๊ฐ์ synset์ ๋งคํ๋ ์ ์์
- ๊ทธ๋์ ๋ ผ๋ฌธ์์ ์ ์ํ semantic parsing framework์์๋ MR์ด $rel^{syn} (lhs^{syn}, rhs^{syn})$ ํ์์ผ๋ก ์ฌ๊ตฌ์ฑ๋ ์ ์๋ synsets์ triplets์ธ $(lhs^{syn}, rel^{syn}, rhs^{syn})$ ์ ํด๋นํจ
- ๋ชจ๋ธ์ด relation triplets๋ฅผ ์ค์ฌ์ผ๋ก ๊ตฌ์ฑ๋์ด ์๊ธฐ ๋๋ฌธ์ MR๊ณผ WordNet relations๋ ๋์ผํ scheme์ผ๋ก ๋ณด๋ด์ง
- ex) WordNet relation ( _score_NN_2 , _has_part, _musical_notation_NN_1) ๋ WordNet relation type _has_part ๊ฐ ๋์ฌ์ ์ญํ ์ ํ๋ MR๊ณผ ๋์ผํ ํจํด์ fitํจ
Semantic Matching Energy
- ์ด ๋ ผ๋ฌธ์ main contribution
- -> lemma์ WordNet entity๋ค์ ๋์ผํ ๋ฒกํฐ ๊ณต๊ฐ์ ์๋ฒ ๋ํ๋ ๋ฐ ์ฌ์ฉํ energy function
- semantic matching energy function์ lemma๊ฐ ์ฃผ์ด์ง ์ ์ ํ synset์ ์์ธกํ๋ ๋ฐ ์ฌ์ฉ๋จ
3.1 Framework
key concepts
- 1) symbolic entities (synsets, relation types, lemmas)๋ผ๊ณ ๋ถ๋ฆฌ๋ ๊ฒ๋ค์ ๋ชจ๋ neural language model์ ์ด์ ์์
์ ๋ฐ๋ผ "์๋ฒ ๋ฉ ๊ณต๊ฐ"์ด๋ผ๊ณ ํ๋ ๊ณต๋์ d-์ฐจ์ ๋ฒกํฐ ๊ณต๊ฐ๊ณผ ๊ด๋ จ๋จ
- ์ด ๋ฒกํฐ๋ค์ ๋ชจ๋ธ์ parameter๋ค์ด๋ฉฐ semantic parsing ์์ ์์ ์ ์ํ๋๋๋ก ๊ณต๋์ผ๋ก ํ์ต๋จ
- 2) ํน์ triplet $(lhs, rel, rhs)$๊ณผ ๊ด๋ จ๋ semantic matching energy value๋ ๋ชจ๋ symbol์ ๊ทธ๋ค์ ์๋ฒ ๋ฉ์ ๋งคํํ๋ ๊ฒ์ผ๋ก ์์ํ๋ ๋งค๊ฐ ๋ณ์ํ๋ ํจ์ $ε$์ ์ํด ๊ณ์ฐ๋จ
- $ε$๋ variable-size arguments๋ ์ฒ๋ฆฌํ ์ ์์ด์ผ ํจ
- 3) energy function $ε$๋ ๊ฐ๋ฅํ ๋ค๋ฅธ symbols์ configurations ๋ณด๋ค training ์์ ์ ๋ํด ๋ ๋ฎ๊ฒ ์ต์ ํ๋จ
- ๋ฐ๋ผ์ lemma์ ๋ํ ๊ฐ์ฅ ๊ทธ๋ด๋ฏํ ์๋ฏธ๋ฅผ ์ ํํ๊ธฐ ์ํด์ semantic matching energy function์ด entity์ ๊ทธ๋ด๋ฏํ ์กฐํฉ๊ณผ ๊ทธ๋ด๋ฏํ์ง ์์ ์กฐํฉ์ ๊ตฌ๋ณํ ์ ์์
3.2 Parametrization
- 1) ํํ $(lhs, rel, rhs)$์ triplet์ ๋จผ์ ๊ฐ๊ฐ์ ์๋ฒ ๋ฉ์ธ $E_{lhs}$, $E_{rel}$, $E_{rhs}$์ ๋งคํ๋จ
- ํ๋ ์ด์์ symbol์ ํฌํจํ๋ ํํ์ ๋ํด ์ง๊ณ ํจ์๋ฅผ ์ฌ์ฉํด์
- 2) $E_{lhs}$์ $E_{rel}$๋ $g_{left}(.)$๋ฅผ ์ฌ์ฉํด์ ๊ฒฐํฉ๋์ด output์ผ๋ก $E_{lhs(rel)}$๋ฅผ ์ถ๋ ฅ
- $E_{rhs(rel)} = g_{right}(E_{rhs}, E_{rel})$
- 3) $ε((lhs, rel, rhs))$ ์๋์ง๋ $E_{lhs(rel)}$์ $E_{rhs(rel)}$๋ฅผ $h(.)$ ํจ์์ ํฉ์ณ์ ์ป์ด์ง
- semantic matching energy function์ ๋ณ๋ ฌ ๊ตฌ์กฐ(parallel structure)๋ฅผ ๊ฐ์ง
- ๋จผ์ , $(lhs, rel)$๊ณผ $(rel, rhs)$ ์์ด ๋ฐ๋ก๋ฐ๋ก ๊ฒฐํฉ
- ๊ทธ๋ฐ ๋ค์, ์ด๋ฌํ semantic combinations๊ฐ ๋งค์น๋จ
3.3 Training Objective
- $C$: ๋ชจ๋ entity๋ค(relation types, lemmas, synsets)์ ํฌํจํ dictionary
- $C^∗$: ์์๋ค์ด $C$์์ ์ทจํด์ง ํํ(๋๋ ์ํ์ค)์ ์งํฉ
3.4 Disambiguation of Lemma Triplets
- disambiguation: ๋ช ํํ
- semantic matching energy function์ Step (2): Detection of MR entities๋ฅผ ์ํํ๊ธฐ ์ํด ์์ ํ ์คํธ์ ์ฌ์ฉ๋จ
- → ์ฆ word-sense disambiguation ๋จ๊ณ๋ฅผ ์ํํ๊ธฐ ์ํด ์ฌ์ฉ๋๋ ๊ฒ
- lemma์ triplet $((lhs_1^{lem}, lhs_2^{lem}, . . .),(rel_1^{lem}, . . .),(rhs_1^{lem}, . . .))$์ ํ ๋ฒ์ ํ๋์ lemma์ฉ greedy ๋ฐฉ์์ผ๋ก synsets์ ๋ ์ด๋ธ ๋จ
- greedy ์๊ณ ๋ฆฌ์ฆ
- ํ์ฌ ์ํฉ์์ ๊ฐ์ฅ ์ข์ ๊ฒ(์ต์ ์ ์ ํ)์ ๊ณ ๋ฅด๋ ์๊ณ ๋ฆฌ์ฆ
- https://velog.io/@contea95/%ED%83%90%EC%9A%95%EB%B2%95%EA%B7%B8%EB%A6%AC%EB%94%94-%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98
- greedy ์๊ณ ๋ฆฌ์ฆ
- ์๋ฅผ ๋ค์ด, $lhs_2^{lem}$๋ฅผ ๋ผ๋ฒจ๋ง ํ๋ ค๋ฉด triplet์ ๋๋จธ์ง ๋ชจ๋ ์์๋ฅผ lemma๋ค๋ก ๊ณ ์ ํ๊ณ , ๊ฐ์ฅ ๋ฎ์ ์๋์ง๋ก ์ด์ด์ง๋ synset์ ์ ํํจ
- $C(syn|lem)$: $lhs_2^{lem}$์ด ๋งคํ๋ ์ ์๋ ํ์ฉ๋ synset์ ์งํฉ
- ์ด๊ฑธ ๋ชจ๋ lemma๋ค์ ๋ํด ๋ฐ๋ณต
- ๋ ผ๋ฌธ์์๋ ํญ์ lemma๋ฅผ context๋ก ์ฌ์ฉํจ (์ด๋ฏธ ํ ๋น๋ synset๋ ์ ๋ ์ฌ์ฉํ์ง ์์)
- ์ด ๋ฐฉ์์ ๋ฌธ์ฅ์ ๊ฐ ์์น์ ๋ํด์ lemma์ ์๋ฏธ๋ค์ ๊ฐ์์ ๋์ผํ ์ ์ ์์ ์๋์ง๋ง ๊ณ์ฐํ๋ฉด ๋๋ฏ๋ก ํจ์จ์ ์ธ ํ๋ก์ธ์ค์
- ํ์ง๋ง ์ด ๋ฐฉ์์ ์ด ์ค์ํ ๋จ๊ณ๋ฅผ ์ํํ๊ธฐ ์ํด์ ๊ณต๋์ผ๋ก ํจ๊ป ์ฌ์ฉ๋๊ธฐ ๋๋ฌธ์ synset๊ณผ lemma์ ๋ํ good representations( = ์ข์ ์๋ฒ ๋ฉ ๋ฒกํฐ $E_i$)๊ฐ ์๊ตฌ๋จ
- ๊ทธ๋์ multi-tasking training์ด synset๊ณผ lemma(๊ทธ๋ฆฌ๊ณ $g$ functions๋ฅผ ์ํ ์ข์ parameters)์ ๋ํด ๊ณต๋์ผ๋ก ์ข์ ์๋ฒ ๋ฉ์ ํ์ตํ๋ ค๊ณ ์๋ํจ
Multi-Task Training
4.1 Multiple Data Resources
๊ฐ๋ฅํ ํ ๋ง์ ์์(common-sense knowledge)์ ๋ชจ๋ธ์ ๋ถ์ฌํ๊ธฐ ์ํด์ ์ฌ๋ฌ ๋ค๋ฅธ ์ข ๋ฅ๋ค๋ก ์ด๋ค์ง ๋ฐ์ดํฐ ์์ค๋ค์ ๊ฒฐํฉํด์ ์ฌ์ฉํจ
- 1) WordNet v3.0 (WN)
- ๋ฉ์ธ ๋ฆฌ์์ค
- WordNet์ synset ๊ฐ์ relation๋ง ๊ฐ์ง๊ณ ์๋๋ฐ disambiguation process๋ฅผ ์ํด์๋ synset๊ณผ lemma์ ๋ํ ์๋ฒ ๋ฉ์ด ํ์ํจ
- ๊ทธ๋์ lemma ์๋ฒ ๋ฉ ๋ํ ํ์ต์ํค๊ธฐ ์ํด ๋ ๊ฐ์ง ๋ค๋ฅธ ๋ฒ์ ์ ๋ฐ์ดํฐ ์
์ ๋ง๋ฆ
- “Ambiguated” WN
- ๊ฐ triplet์ synset entities๊ฐ ํด๋น๋๋ lemma ์ค ํ๋๋ก ๋์ฒด๋จ
- ๊ทธ๋์ lemma๋ฅผ ์ ์์ด(synonym)๋ก ๋์ฒดํ๋ ๊ฒ๊ณผ ์ ์ฌํ ๋ง์ ์์ ๋ค๋ก ๋ชจ๋ธ์ ํ๋ จํจ
- “Bridge” WN
- ๋ชจ๋ธ์ synset๊ณผ lemma ์๋ฒ ๋ฉ ๊ฐ์ ์ฐ๊ฒฐ์ ๋ํด ํ์ต์ํค๋๋ก ์ค๊ณ๋จ
- relation ํํ์์ $lhs$ ๋๋ $rhs$ synset์ ํด๋น๋๋ lemma๋ก ๋์ฒด๋จ (๋ค๋ฅธ argument๋ synset์ผ๋ก ์ ์ง๋จ)
- “Ambiguated” WN
- 221,017 triplets
- → val์ : 5,000 triplets / test์ : 5,000 triplets
- 2) ConceptNet v2.1 (CN)
- ์์(common-sense knowledge) ๊ธฐ๋ฐ
- lemma ๋๋ lemma ๊ทธ๋ฃน๋ค์ด ํ๋ถํ semantic relations(์๋ฏธ ๊ด๊ณ)์ ์ฐ๊ฒฐ๋์ด ์์
- synset์ด ์๋ lemma๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๊ธฐ ๋๋ฌธ์ ์๋ก ๋ค๋ฅธ ๋จ์ด ์๋ฏธ์ ์ฐจ์ด๋ฅผ ๊ตฌ๋ถํ์ง ์์
- WN ์ฌ์ ์ lemma๋ฅผ ํฌํจํ๋ triplet๋ง ์ฌ์ฉํจ
- 11,332 training triplets
- 3) Wikipedia (Wk)
- ๋จ์ํ ๋น์ง๋ ๋ฐฉ์์ผ๋ก ๋ชจ๋ธ์ ์ง์(knowledge)์ ์ ๊ณตํ๊ธฐ ์ํ ์์ ํ ์คํธ๋ก ์ฌ์ฉ
- 5๋ง ๊ฐ์ ๊ธฐ์ฌ๋ก 3๋ฐฑ๋ง ๊ฐ ์ด์์ ์์ ์์ฑ
- 4) EXtended WordNet (XWN)
- WordNet glosses(→ definitions)๋ก๋ถํฐ ๊ตฌ์ถ๋๊ณ , ๊ตฌ๋ฌธ ๋ถ์(syntactically parsed)๋์๊ณ , WN synset์ ์๋ฏธ์ ์ผ๋ก ์ฐ๊ฒฐ๋ content word๋ค๋ก ๊ตฌ์ฑ
- 776,105 training triplets
- val์ : 10,000 triplets
- 5) Unambiguous Wikipedia (Wku)
- lemma ์ค ํ๋๊ฐ ๋ช ํํ๊ฒ synset์ ํด๋นํ๊ณ , ์ด synset์ด ๋ค๋ฅธ ambiguous(๋ชจํธํ) lemma์ ๋งคํ๋๋ฉด unambiguous(๋ชจํธํ์ง ์์) lemma๋ฅผ ambiguous lemma๋ก ๋์ฒดํด์ ์๋ก์ด triplet์ ์์ฑํจ
- -> ์ด ๋ฐฉ์์ผ๋ก ์์ ๋ Wikipedia ๋ง๋ญ์น์์ ์ถ์ถํ triplet์ผ๋ก train์ ์ ์ถ๊ฐ์ ์ผ๋ก ๋ง๋ฆ
- ์ ๋ฐฉ์์ ์ฌ์ฉํ๋ฉด ๋ชจํธํ context์์ true synset์ ์ ์ ์์
- 981,841 supervision triplets
4.2 Training Algorithmenergy function
- $ε$์ parameter๋ฅผ ํ์ต์ํค๊ธฐ ์ํด์ ๋ชจ๋ ํ๋ จ ๋ฐ์ดํฐ ๋ฆฌ์์ค๋ฅผ ๋ฐ๋ณตํ๊ณ , ํ๋ฅ ์ ๊ฒฝ์ฌํ๊ฐ๋ฒ(stochastic gradient descent)์ ์ฌ์ฉํ์
- ํ๋ฅ ์ ๊ฒฝ์ฌํ๊ฐ๋ฒ(stochastic gradient descent, SGD)
- ์กฐ๊ธ๋ง ํ์ด๋ณด๊ณ (Mini batch) ๋น ๋ฅด๊ฒ ๊ฐ๋ณด์
- ํ๋ฅ ์ ๊ฒฝ์ฌํ๊ฐ๋ฒ(stochastic gradient descent, SGD)
๋ค์ ๋จ๊ณ์ ๋ฐ๋ผ ํ์ต์ ๋ฐ๋ณต์ํด
- 1. ์์ ์์ ์์ค ์ค ํ๋์์ ๋ฌด์์๋ก positive training triplet $x_i$๋ฅผ ์ ํ (synset, lemma ๋๋ ๋ ๋ค๋ก ๊ตฌ์ฑ๋ triplet)
- 2. ์ ์ฝ ์กฐ๊ฑด(constraint) (1), (2), (3) ์ค ๋ฌด์์๋ก ์ ํ
- 3. $lhs_{xi}$, $rel_{xi}$ ๋๋ $rhs_{xi}$๋ฅผ ๊ฐ๊ฐ ๋์ฒดํ๊ธฐ ์ํด ๋ชจ๋ entity $C$ ์ ์์ entity๋ฅผ ์ํ๋งํด์ negative triplet $\tilde{x}$๋ฅผ ๋ง๋ฆ
- 4. $ε(x_i) > ε(\tilde{x}) − 1$ ์ด๋ฉด ๊ธฐ์ค(criterion) (4)๋ฅผ ์ต์ํํ๊ธฐ ์ํด์ ํ๋ฅ ์ ๊ฒฝ์ฌํ๊ฐ๋ฒ(stochastic gradient descent, SGD) ๋จ๊ณ๋ฅผ ์ํ
- 5. ๊ฐ๊ฐ์ ์๋ฒ ๋ฉ ๋ฒกํฐ๊ฐ ์ ๊ทํ๋๋ค๋ ์ ์ฝ ์กฐ๊ฑด(constraint)์ ์ ์ฉ. $||E_i|| = 1$, $∀i$
- ๊ฒฝ์ฌํ๊ฐ ๋จ๊ณ์์๋ $λ$์ ํ์ต๋ฅ ์ด ์๊ตฌ๋จ
- ์์ ์๊ณ ๋ฆฌ์ฆ์ XWN์ Wku ๋ฐ์ดํฐ๋ฅผ ์ ์ธํ ๋ชจ๋ ๋ฐ์ดํฐ์ ์ ์ฉํจ
- entity์ ๋ชจ๋ representation์ ํฌํจํ๋ ํ๋ ฌ $E$๋ ๋ณต์กํ multi-task learning ์ ์ฐจ๋ฅผ ํตํด ํ์ต๋จ
- -> ๋ชจ๋ relation๊ณผ ๋ชจ๋ ๋ฐ์ดํฐ ์์ค์ ๋ํด ๋จ์ผ ์๋ฒ ๋ฉ ํ๋ ฌ์ด ์ฌ์ฉ๋๊ธฐ ๋๋ฌธ
- ๊ทธ ๊ฒฐ๊ณผ, entity์ ์๋ฒ ๋ฉ์๋ entity๊ฐ $lhs$, $rhs$ ๋๋ $rel$ (๋์ฌ์ ๊ฒฝ์ฐ)๋ก ํฌํจ๋์ด ์๋ ๋ชจ๋ relation๊ณผ ๋ฐ์ดํฐ ์์ค์์ ์ค๋ ์ธ์๋ถํด๋(factorized) ์ ๋ณด๊ฐ ํฌํจ๋จ
- ๋ชจ๋ธ์ ๊ฐ entity์ ๋ํด ๋ค๋ฅธ entity๋ค๊ณผ ๋ค์ํ ๋ฐฉ์์ผ๋ก ์ํธ ์์ฉํ๋ ๋ฐฉ๋ฒ์ ํ์ตํ๋๋ก ๊ฐ์๋จ
Experiments
6.1 Benchmarks
- benchmark
- ์ฌ๋ฌ ์คํ ๋๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋น๊ตํ ์ ์๋ ํ์ค
- https://ifdean.tistory.com/3
- multi-task joint training๊ณผ ๋ค์ํ ๋ฐ์ดํฐ ์์ค๋ก ์ํ๋ ๋ชจ๋ธ๋ค์ ์ฑ๋ฅ์ ํ๊ฐํ๊ธฐ ์ํด ๋ ๊ฐ์ง ๋ฒค์น๋งํฌ task์์ ๋ฐ์ดํฐ ์์ค์ ์ฌ๋ฌ ์กฐํฉ๋ค๋ก ํ์ต๋ ๋ชจ๋ธ๋ค์ ํ๊ฐํจ
- WordNet knowledge encoding
- WSD(Word Sense Disambiguation)
- WN: WordNet์ผ๋ก๋ง ํ์ต๋ ๋ชจ๋ธ → “Ambiguated” WordNet๊ณผ “Bridge” WordNet
- WN+CN+Wk: WordNet, ConceptNet, Wikipedia ๋ฐ์ดํฐ๋ก ํ์ต๋ ๋ชจ๋ธ
- All: ๋ชจ๋ ๋ฐ์ดํฐ ์์ค๋ก ํ์ต๋ ๋ชจ๋ธ
- MFS: Most Frequent Sense ์ฌ์ฉ, WordNet frequency(๋น๋)๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํจ
- All+MFS: ์ฑ๋ฅ์ด ๊ฐ์ฅ ์ข๊ฒ ๋์จ ๋ชจ๋ธ
- SE (Bordeset al., 2011) : Structured Embeddings
- SE ๋ชจ๋ธ์ ๋ํ ์ค๋ช ์ฐธ๊ณ -> https://velog.io/@raqoon886/StructuredEmbeddings
1) Knowledge Acquisition
- ์ฃผ์ด์ง ์ง์(knowledge → training relations)์์ ์๋ก์ด relation์ ์ผ๋ฐํ(generalize)ํ ์ ์๋ ๋ฅ๋ ฅ์ ๋ค์ ์ ์ฐจ๋ก ์ธก์ ๋จ
- ๊ฐ๊ฐ์ test WordNet triplet์ ๋ํด ์ผ์ชฝ ๋๋ ์ค๋ฅธ์ชฝ entity๊ฐ ์ ๊ฑฐ๋๊ณ , ๊ฐ๊ฐ ์ฐจ๋ก์ฐจ๋ก ์ฌ์ (dictionary)์ 41,024๊ฐ์ synset์ผ๋ก ๋์ฒด๋จ
- ์ด triplet๋ค์ ์๋์ง๋ ๋ชจ๋ธ์ ์ํด ๊ณ์ฐ๋๊ณ , ์ค๋ฆ์ฐจ์์ผ๋ก ์ ๋ ฌ๋๋ฉฐ ์ฌ๋ฐ๋ฅธ synset์ ์์(rank)๊ฐ ์ ์ฅ๋จ
- ๊ทธ๋ฐ ๋ค์ ํ๊ท ์์ธก ์์(→ ํด๋น ์์๋ค์ ํ๊ท ), WordNet ์์์ precision@10( = p@10 → 1๊ณผ 10 ๋ด์ ์๋ ์์์ ๋น์จ์ 10์ผ๋ก ๋๋ ๊ฐ), WordNet p@10์ ์ธก์
- P@10 = Precision at 10
- precision: ์ ๋ฐ๋
- -> ๋ชจ๋ธ์ด True๋ผ๊ณ ๋ถ๋ฅํ ๊ฒ ์ค ์ค์ True์ธ ๊ฒ์ ๋น์จ
- Precision at K
- -> Top K๊ฐ์ ๊ฒฐ๊ณผ๋ก Precision(์ ๋ฐ๋)๋ฅผ ๊ณ์ฐ
- generalize: ์ผ๋ฐํ
- ํ์ต๋ ๋ชจ๋ธ์ด ๋ค๋ฅธ ์๋ก์ด ๋ฐ์ดํฐ์ ๊ดํด์๋ ์ ์๋ํ๋๋ก ํ๋ ๊ฒ
- https://glanceyes.tistory.com/entry/Deep-Learning-%EC%B5%9C%EC%A0%81%ED%99%94Optimization
- WordNet์ผ๋ก๋ง ํ์ต๋ ๋ชจ๋ธ(WN)์ ์ฑ๋ฅ์ SE๋ณด๋ค ์ด์ง ๋ฎ์
- SE (Bordes et al. (2011))๋ ์์ธก์ ๊ฐ์ ํ๊ธฐ ์ํด์ structured embeddings ์์ KDE(Kernel Density Estimator)๋ฅผ ์์
- Kernel Density Estimation(KDE)
- ์ปค๋ ํจ์(kernel function)๋ฅผ ์ด์ฉํ ๋ฐ๋ ์ถ์ ๋ฐฉ๋ฒ
- https://seongkyun.github.io/study/2019/02/03/KDE/
- Kernel Density Estimation(KDE)
- KDE๊ฐ ์๋ SE (no KDE) (Bordes et al., 2011)์ ๋น๊ตํ์ ๋๋ WN์ ์ฑ๋ฅ์ด ๋ ๋์
- ๋ค๋ฅธ ๋ฐ์ดํฐ์ multi-taskingํ WN+CN+Wk ๋ชจ๋ธ๊ณผ All ๋ชจ๋ธ์ WordNet๋ง ํ์ต์ํจ WN ๋ชจ๋ธ๋ณด๋ค ์ฑ๋ฅ์ด ์กฐ๊ธ ๋จ์ด์ง์ง๋ง ๊ทธ๋๋ WordNet knowledge๋ฅผ ์ ์ธ์ฝ๋ฉํจ
- ์์ ํ ์คํธ๋ก multi-taskingํ์ ๋, relation type์ ๊ฐ์๋ 18๊ฐ์์ ์์ฒ ๊ฐ๋ก ๋์ด๋จ
- ๋ชจ๋ธ์ ๋๋ฌด ๋ง์ relation์ผ๋ก ์ธํด์ ๋ ๋ณต์กํ ์ ์ฌ์ฑ(similarity)์ ํ์ตํจ
- → text relation์ ์ถ๊ฐํ๋ฉด WordNet์์ ์ง์(knowledge)์ ์ถ์ถํ๋ ๋ฌธ์ ๊ฐ ๋ ์ด๋ ค์์ง
- ์ด๋ฌํ ์ ํ ํจ๊ณผ๋ ์ ์ด๋ฏธ์ง์ ๋์์๋ ์์๊ฐ 41,024๊ฐ ์ด์์ entity์ ๋ํ ๊ฒ์ด๋ผ๋ ์ ์ ์ผ๋์ ๋๊ณ ๋ณด๋ฉด ์ฑ๋ฅ์ด ์ฌ์ ํ ๋งค์ฐ ์ฐ์ํ ํธ์ด๋๋ผ๋ multi-tasking process์ ์ ํ ์ฌํญ(limitation)์ด๋ผ๊ณ ํ ์ ์์
- ๊ฒ๋ค๊ฐ ์ด๋ WSD์ semantic parsing์ ์ค์ํ ์ฌ๋ฌ training ์์ค๋ค์ ๊ฒฐํฉํ๋ ๊ธฐ๋ฅ์ ์ ๊ณตํจ
2) Word Sense Disambiguation(WSD)
- WSD์ ๋ํ ์ฑ๋ฅ์ ๋ ๊ฐ์ง test์
์์ ํ๊ฐ๋จ
- XWN test์
- SensEval-3์ English All-words WSD task์ ์ผ๋ถ
- cf) SensEval-3
- SensEval-3 ๋ฐ์ดํฐ์ ๋ํด์๋ ์์์ ์ค๋ช ๋ Inference Procedure(์ถ๋ก ์ ์ฐจ)๋ฅผ ์ฌ์ฉํด ์๋ณธ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๊ณ , ๋ชจ๋ lemma๊ฐ WordNet์์ ์ ์ํ ์ดํ์ ์ํ๋ triplet(์ฃผ์ด, ๋์ฌ, ์ง์ ๋ชฉ์ ์ด)๋ง ์ ์ง
- F1 score๋ก ์ธก์
- WN ๋ชจ๋ธ๊ณผ WN+CN+Wk ๋ชจ๋ธ์ ์ฐจ์ด์ ์ direct supervision ์์ด๋ ๋ชจ๋ธ์ด ํ ์คํธ์์ ์๋ฏธ ์๋ ์ ๋ณด๋ฅผ ์ถ์ถํด ์ผ๋ถ ๋จ์ด๋ฅผ disambiguate ํ ์ ์๋ ๊ฒ (WN+CN+Wk ๋ชจ๋ธ์ด Random ๋ชจ๋ธ๊ณผ WN ๋ชจ๋ธ๋ณด๋ค ์ฑ๋ฅ์ด ํจ์ฌ ๋์)
- All+MFS ๋ชจ๋ธ์ด ์๋ํ๋ ๋ชจ๋ ๋ฐฉ๋ฒ๋ค ์ค์์ ์ ์ผ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑ
6.2 Representations
1) Entity Embeddings
- -> All ๋ชจ๋ธ์ ์ํด ์ ์๋ ์๋ฒ ๋ฉ ๊ณต๊ฐ์์ ๋ช๋ช entity์ ๋ํ ๊ฐ์ฅ ๊ฐ๊น์ด ์ด์๋ค
- ์์ํ๋ ๋๋ก, ์ด์๋ค์ lemma์ synset์ ํผํฉ์ผ๋ก ๊ตฌ์ฑ๋จ
- lemma์ ํด๋นํ๋ ์ด์์ ๋ค๋ฅธ generic(ํฌ๊ด์ ์ธ) lemma๋ค๋ก ๊ตฌ์ฑ๋๋ ๋ฐ๋ฉด, ๋ ๊ฐ์ ๋ค๋ฅธ synsets์ ๋ํ ์ด์์ ์ฃผ๋ก ๋ถ๋ช ํ ๋ค๋ฅธ ์๋ฏธ๋ฅผ ๊ฐ์ง synsets๋ก ๊ตฌ์ฑ๋จ
- ๋ ๋ฒ์งธ ํ์ common lemmas (์ฒซ ๋ฒ์งธ ์ด)์ ๊ฒฝ์ฐ ์ด์ ๋ํ generic(ํฌ๊ด์ ์ธ) lemma์ด์ง๋ง, precise ones (๋ ๋ฒ์งธ ์ด)๋ ์๋ฆฌํ ์๋ฏธ๋ฅผ ์ ์ํ๋ synset์ ๊ฐ๊น์
- _different_JJ_1์ ๋ํ ์ด์ ๋ฆฌ์คํธ(์ธ ๋ฒ์งธ ์ด)๋ ํ์ต๋ ์๋ฒ ๋ฉ์ด antonymy(๋ฐ์์ฑ → ๋ฐ์์ด)์ ์ธ์ฝ๋ฉํ์ง ์์์ ๋ํ๋
2) WordNet Enrichment
- WordNet๊ณผ ConceptNet์ ์ ํ๋ ๊ฐ์์ relation type์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ (→ 20๊ฐ ๋ฏธ๋ง, ex. _has_part, _hypernym) ๋๋ถ๋ถ์ ๋์ฌ๋ฅผ relation์ผ๋ก ๊ฐ์ฃผํ์ง ์์
- multi-task training๊ณผ MR, WordNet/ConceptNet์ relation์ ๋ํ ํตํฉ๋ representation ๋๋ถ์ ๋ชจ๋ธ์ด ์ ์ฌ์ ์ผ๋ก WordNet์ ์กด์ฌํ์ง ์๋ ๊ทธ๋ฌํ relation๋ก ์ผ๋ฐํ๊ฐ ๊ฐ๋ฅํจ
- -> ๋ knowledge bases(WordNet๊ณผ ConceptNet)์ ์กด์ฌํ์ง ์๋ relation type์ ๋ํ ์์ธก๋ synset ๋ฆฌ์คํธ
- TextRunner (Yates et al., 2007) : ๋ ผ๋ฌธ์์ ์ฌ์ฉํ 50,000๊ฐ์ Wikipedia ๊ธฐ์ฌ์ ๋น๊ตํ๊ธฐ ์ํด 1์ต ๊ฐ์ ์นํ์ด์ง์์ ์ ๋ณด๋ฅผ ์ถ์ถํ ์ ๋ณด ์ถ์ถ ๋๊ตฌ
- ๋ ผ๋ฌธ์ All ๋ชจ๋ธ๊ณผ TextRunner์ ๊ฒฐ๊ณผ ๋ชจ๋ ์์์ ๋ฐ์ํ๋ ๊ฒ์ฒ๋ผ ๋ณด์
- ํ์ง๋ง ๋ ผ๋ฌธ์ All ๋ชจ๋ธ๊ณผ ๋ฌ๋ฆฌ TextRunner๋ lemma์ ๋ค๋ฅธ ์๋ฏธ๋ฅผ disambiguateํ์ง ์์ผ๋ฏ๋ก ๊ทธ ์ง์์ ๊ธฐ์กด ๋ฆฌ์์ค์ ์ฐ๊ฒฐํด์ ํ๋ถํ๊ฒ(enrich) ๋ง๋ค์ง ๋ชปํจ
Conclusion
- ์ด ๋ ผ๋ฌธ์ ์์ ํ ์คํธ๋ฅผ ๋ช ํํ(disambiguated) MR์ ๋งคํํ๋ semantic parsing์ ์ํ ๋๊ท๋ชจ ์์คํ ์ ์ ์ํจ
- key contributions
- ๋ชจํธํ lemma์ ๋ชจํธํ์ง ์์ entities(synsets) ์ฌ์ด์ ๊ด๊ณ๋ค(relation)์ triplet์ ํ๊ฐํ๋ energy-based model
- ์๋์ ์ผ๋ก ์ ํ๋ supervision์ผ๋ก ์์ ํ ์คํธ์์ ๋ช ํํ(disambiguated) MRs๋ฅผ ๊ตฌ์ถํ๋ ๋ฐฉ๋ฒ์ ํจ๊ณผ์ ์ผ๋ก ํ์ตํ ์ ์๋๋ก ์ฌ๋ฌ ๋ฆฌ์์ค๋ฅผ ํตํด ๋ชจ๋ธ์ ํ์ต์ multi-taskingํ ๊ฒ
- ์ต์ข ์์คํ ์ ์ฌ๋ฌ ๋ฆฌ์์ค์ ๋ํ ์ง์์ ์ผ๋ฐํํ๊ณ ์ด๋ฅผ ์์ ํ ์คํธ์ ์ฐ๊ฒฐํ๋ ๊ฒ์ ํตํด์ energy function ์์์ ๋ฌธ์ฅ์ ๊น์ ์๋ฏธ๋ฅผ ์ ์ฌ์ ์ผ๋ก ํฌ์ฐฉํ ์ ์์
์ฐธ๊ณ ์๋ฃ
https://kilian.evang.name/sp/lectures/intro.pdf
Meaning Representation and SRLโ: assuming there is some meaning
What is meaning Representation
towardsdatascience.com
https://excelsior-cjh.tistory.com/64
Chap01-2 : WordNet, Part-Of-Speech(POS)
1. Looking up Synsets for a word in WordNet WordNet(์๋๋ท)์ ์์ด์ ์๋ฏธ ์ดํ๋ชฉ๋ก์ด๋ค. WordNet์ ์์ด ๋จ์ด๋ฅผ 'synset'์ด๋ผ๋ ์ ์์ด ์ง๋จ(๋์์ด ์งํฉ)์ผ๋ก ๋ถ๋ฅํ์ฌ ๊ฐ๋ตํ๊ณ ์ผ๋ฐ์ ์ธ ์ ์๋ฅผ ์ ๊ณตํ๊ณ ,..
excelsior-cjh.tistory.com
https://velog.io/@riverdeer/Multi-task-Learning
Multi-task Learning
Multi-task Learning์ ๋ํ ์ฌ๋ฌ ์๋ฃ๋ฅผ ๋ชจ์๋์ ํฌ์คํ ์ ๋๋ค.
velog.io
https://en.wikipedia.org/wiki/Knowledge_acquisition
Knowledge acquisition - Wikipedia
Process used to define the rules and ontologies required for a knowledge-based system Knowledge acquisition is the process used to define the rules and ontologies required for a knowledge-based system. The phrase was first used in conjunction with expert s
en.wikipedia.org
https://bab2min.tistory.com/576
๋จ์ด ์๋ฏธ ์ค์์ฑ ํด์(Word Sense Disambiguation) ๊ธฐ์ ๋ค
์ธ์ด์๋ ๋ค๋ฅธ ๋จ์ด์ด์ง๋ง ํํ๊ฐ ๊ฐ์ ๋์ฒ ์ด์์ด(๋๋ ์๋ฆฌ๊ฐ ๊ฐ์ง๋ง ๋ค๋ฅธ ๋จ์ด์ธ ๋์์ด์์ด)๋ ๋ง์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ ๊ฐ์ ๋จ์ด๋ผ ํ ์ง๋ผ๋ ๋งฅ๋ฝ์ ๋ฐ๋ผ ์ฐ์ด๋ ์๋ฏธ๊ฐ ๋ค๋ฆ ๋๋ค. ๋ฐ๋ผ์ ํด๋น
bab2min.tistory.com
https://post.naver.com/viewer/postView.naver?volumeNo=31743752&memberNo=52249799
[ICLR 2021] 2ํธ: ICLR 2021 ์ Generative model ํธ๋ ๋
[BY LG AI์ฐ๊ตฌ์] ๋ฉํ๋ฒ์ค๋ฅผ ์ด์ฉํ ์จ๋ผ์ธ ํํ์ด๋ฒ ICLR 2021์ ์ฝ๋ก๋๋ก ์ธํด ์๋ ๊ณผ ๊ฐ์ด virtual ...
m.post.naver.com
Exploiting links in WordNet hierarchy for word sense disambiguation of nouns | Semantic Scholar
Sense's definitions of the specific word, "Synset" definitions, the "Hypernymy" relation, and definitions ofThe context features (words in the same sentence) are retrieved from the WordNet database and used as an input of the Disambiguation algorithm. Word
www.semanticscholar.org
https://medium.com/sciforce/text-preprocessing-for-nlp-and-machine-learning-tasks-3e077aa4946e
Text Preprocessing for NLP and Machine Learning Tasks
We go into detail of text preprocessing for NLP. We talk about such steps as segmentation, cleaning, normalization, annotation and analysis.
medium.com
https://byteiota.com/pos-tagging/
Part Of Speech Tagging – POS Tagging in NLP | byteiota
Part of Speech Tagging deals with automatic assignment of POS tag to the words in a given sentence. POS tagging is achieved using NLP techniques.
byteiota.com
https://jynee.github.io/NLP%EA%B8%B0%EC%B4%88_3/
(NLP ๊ธฐ์ด) ๋ฌธ์ ์ ๋ณด ์ถ์ถ
NLP ์ ๊ทํํ์ ์ฒญํน ์นญํน ๋ฌธ์ ์ ๋ณด ์ถ์ถ ์ ํด์ง ํจํด์ ์ฌ์ฉํด์ ํจํด์ ์ผ์นํ๋ ๋ฐ์ดํฐ ๊ฒ์์ ์ง์ํ๋ ํํ์ ์ ๊ทํํ์์ ์ฐ์ด๋ ํน์๋ฌธ์ : ์๋ฌด ๋ฌธ์๋ ์ฌ๋ฌ ๊ฐ : } { ์์ ๋ด์ฉ ์ ์ธ =
jynee.github.io
https://paperswithcode.com/task/semantic-role-labeling
Papers with Code - Semantic Role Labeling
Semantic role labeling aims to model the predicate-argument structure of a sentence and is often described as answering "Who did what to whom". BIO notation is typically used for semantic role labeling. Example: | Housing | starts | are | expected | to | q
paperswithcode.com
ํ์๋ฒ(๊ทธ๋ฆฌ๋) ์๊ณ ๋ฆฌ์ฆ
ํ์๋ฒ(์ดํ '๊ทธ๋ฆฌ๋') ์๊ณ ๋ฆฌ์ฆ์ด๋ ํ์ฌ ์ํฉ์์ ๊ฐ์ฅ ์ข์ ๊ฒ(์ต์ ์ ์ ํ)์ ๊ณ ๋ฅด๋ ์๊ณ ๋ฆฌ์ฆ์ ๋งํฉ๋๋ค. ๊ทธ๋ฆฌ๋ ์๊ณ ๋ฆฌ์ฆ์ ๋์ ํ๋ก๊ทธ๋๋ฐ์ ๊ฐ๋จํ ๋ฌธ์ ํด๊ฒฐ์ ์ฌ์ฉํ๋ฉด ์ง๋์น๊ฒ ๋ง
velog.io
https://seamless.tistory.com/38
๋ฅ๋ฌ๋(Deep learning) ์ดํด๋ณด๊ธฐ 2ํ
์ง๋ ํฌ์คํธ์ Deep learning ์ดํด๋ณด๊ธฐ 1ํ์ ํตํด ๋ฅ๋ฌ๋์ ๊ฐ์์ ๋ด๋ด ๋คํธ์ํฌ, ๊ทธ๋ฆฌ๊ณ Underfitting์ ๋ฌธ์ ์ ๊ณผ ํด๊ฒฐ๋ฐฉ๋ฒ์ ๊ดํด ์์๋ณด์์ต๋๋ค. ๊ทธ๋ผ ์ค๋์ ์ด์ด์ Deep learning์์ ํ์ต์ด ๋๋ฆฐ
seamless.tistory.com
NLP ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์ - ์์ด์ ํ๊ตญ์ด
์์ฐ์ด์ฒ๋ฆฌ ํ์คํฌ์ ํ์ฉ๋๋ ์ฃผ์ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์ ์ ์๊ฐํฉ๋๋ค. ์ฌ๋ฌ ์ธ์ด๊ถ์์ ๋ฐ์ดํฐ๊ฐ ๊ตฌ์ถ๋๊ณ ์๋๋ฐ, ๊ทธ ์ค์์๋ ์์ด์ ํ๊ตญ์ด๋ฅผ ๋์์ผ๋ก ์์๋ด ๋๋ค. ##์ฐธ๊ณ ์๋๋ ๊ตฌ๋ฌธ๋ถ์
ifdean.tistory.com
https://velog.io/@raqoon886/StructuredEmbeddings
SE ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ - Learning Structured Embeddings of Knowledge Bases
ํด๋น ๋ ผ๋ฌธ์ Knowledge Base์ Structured Embedding ๋ฐฉ๋ฒ์ ๊ดํ ๊ธ์ด๋ค.
velog.io
https://glanceyes.tistory.com/entry/Deep-Learning-%EC%B5%9C%EC%A0%81%ED%99%94Optimization
๋ฅ ๋ฌ๋์์์ ์ผ๋ฐํ(Generalization)์ ์ต์ ํ(Optimization)
2022๋ 2์ 7์ผ(์)๋ถํฐ 11์ผ(๊ธ)๊น์ง ๋ค์ด๋ฒ ๋ถ์คํธ์บ ํ(boostcamp) AI Tech ๊ฐ์๋ฅผ ๋ค์ผ๋ฉด์ ๊ฐ์ธ์ ์ผ๋ก ์ค์ํ๋ค๊ณ ์๊ฐ๋๊ฑฐ๋ ์ง๊ณ ๋์ด๊ฐ์ผ ํ ํต์ฌ ๋ด์ฉ๋ค๋ง ๊ฐ๋จํ๊ฒ ๋ฉ๋ชจํ ๋ด์ฉ์ ๋๋ค. ํ๋ฆฌ๊ฑฐ
glanceyes.tistory.com
https://ddiri01.tistory.com/321
precision at K, MAP, recall at K
ranking system ๋๋ recommander ์์คํ ์์ ์ข์ ์ถ์ฒ(๋ญํฌ)๋ฅผ ํ๋์ง ํ๊ฐํ๋ ๋ฐฉ๋ฒ์ผ๋ก precision at K, recall at K ์ ์ดํด๋ณด์. Top K๊ฐ์ ๊ฒฐ๊ณผ๋ก Precision(์ ๋ฐ๋)๋ฅผ ๊ณ์ฐ -> Precision at K ์ถ์ฒ ๋ ๊ฒฐ..
ddiri01.tistory.com
https://seongkyun.github.io/study/2019/02/03/KDE/
Kernel Density Estimation (์ปค๋ ๋ฐ๋ ์ถ์ ) · Seongkyun Han's blog
Kernel Density Estimation (์ปค๋ ๋ฐ๋ ์ถ์ ) 03 Feb 2019 | kernel density estimation KDE ์ปค๋ ๋ฐ๋ ์ถ์ Kernel Density Estimation (์ปค๋ ๋ฐ๋ ์ถ์ ) CNN์ ์ด์ฉํ ์คํ์ ํ๋๋ฐ ์ง๊ด์ ์ผ๋ก๋ ๊ฒฐ๊ณผ๊ฐ ์ข์์ก์ง๋ง ์ ์ข์
seongkyun.github.io
https://wdprogrammer.tistory.com/35
[NLP] ์์ฐ์ด ์ฒ๋ฆฌ๋ฅผ ์ํ ํ์ ๊ฐ๋ ์ ๋ฆฌ: Language model, Representation
2018-01-20-nlp-1 Language Model(์ธ์ด ๋ชจ๋ธ) [์ ์] ๋จ์ด ์ํ์ค์ ๋ํ ํ๋ฅ ๋ถํฌ๋ก, ์ํ์ค1 ๋ด ๋จ์ด ํ ํฐ๋ค์ ๋ํ ํ๋ฅ ์ ํ ๋นํ๋ ๋ชจ๋ธ์ด๋ค. m๊ฐ์ ๋จ์ด๊ฐ ์ฃผ์ด์ง ๋, m๊ฐ์ ๋จ์ด ์ํ์ค๊ฐ ๋ํ๋ ํ
wdprogrammer.tistory.com
'๐ ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ > NLP' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Word2Vec] Distributed Representations of Words and Phrases and their Compositionality (0) | 2022.08.11 |
---|
๋น์ ์ด ์ข์ํ ๋งํ ์ฝํ ์ธ
์์คํ ๊ณต๊ฐ ๊ฐ์ฌํฉ๋๋ค :)