[MRC] Passage Retrieval - Sparse Embedding

Open domain Question Answering : 대규모의 문서 중에서 질문에 대한 답 찾기

- Passage Retrieval과 MRC를 이어서

Passage Retrieval

질문에 맞는 문서를 찾는 것

Query 와 Passage 를 임베딩한 뒤 유사도로 랭킹을 매기고, 유사도가 가장 높은 passage 선택

Passage Embedding Space : Passage Embedding 의 벡터 공간

벡터화된 Passage 를 이용하여 Passage 간 유사도 등을 알고리즘으로 계산할 수 있음

1. Sparse Embedding

벡터의 길이 = 전체 vocab의 사이즈

Term overlap을 정확하게 잡아내야 할 때 유용 ( 검색할 때)

의미가 비슷하지만 다른 단어인 경우 비교 불가

BoW(Bag of Words) 구성 -> n-gram

- unigram (1-gram) : It was the best of times -> It, was, the, best, of, times

- bigram (2-gram) : It was the best of times ->It was, was the, the best, best of, of times

Term Value 계산

- Term이 document에 등장하는지 (binary)

- Term이 몇 번 등장하는지 (term frequency) ex) TF-IDF

TF-IDF (Term Frequency- Inverse Document Frequency)

: TF (t,d) * IDF(t)

TF ( Term Frequency) : 단어의 등장 빈도

- Raw count, raw count / num words , binary, log normalization

IDF ( Inverse Document Frequency) : 단어가 제공하는 정보의 양

IDF(t) = log(총 document 수 / Term t가 등장한 document 수)

- It, was, the, of : 자주 등장하지만 제공하는 정보량이 적음

- best, times : 좀 더 많은 정보 제공

TF-IDF 이용하여 유사도 구하기

1. 질의 토큰화

2. 기존 단어 사전에 없는 토큰 제외

3. 질의를 하나의 문서로 생각하고 이에 대한 TF-IDF 계산

4. 질의 TF-IDF 값과 각 문서별 TF-IDF 값을 곱하여 유사도 점수 계산

5. 가장 높은 점수를 가지는 문서 선택

BM25

TF-IDF 개념을 바탕으로 문서의 길이까지 고려하여 점수를 매김

평균적인 문서 길이보다 더 작은 문서에 단어가 매칭된 경우 그 문서에 가중치 부여

[MRC] Passage Retrieval - Dense Embedding (0)	2021.10.30
[MRC] Generation- based MRC (0)	2021.10.30
[MRC] Extraction Based MRC (0)	2021.10.20
[MRC] Machine Reading Comprehension (0)	2021.10.19
[Week 10] PStage 과정 정리 (0)	2021.10.06

newnu blog