본문 바로가기
Boostcamp AI Tech/[week 6-14] LEVEL2

[MRC] Passage Retrieval - Sparse Embedding

by newnu 2021. 10. 30.
반응형

Open domain Question Answering : 대규모의 문서 중에서 질문에 대한 답 찾기

 - Passage Retrieval과 MRC를 이어서 

 

Passage Retrieval

질문에 맞는 문서를 찾는 것

Query 와 Passage 를 임베딩한 뒤 유사도로 랭킹을 매기고, 유사도가 가장 높은 passage 선택

 

Passage Embedding Space : Passage Embedding 의 벡터 공간

벡터화된 Passage 를 이용하여 Passage 간 유사도 등을 알고리즘으로 계산할 수 있음

 

1. Sparse Embedding

벡터의 길이 = 전체 vocab의 사이즈

Term overlap을 정확하게 잡아내야 할 때 유용 ( 검색할 때)

의미가 비슷하지만 다른 단어인 경우 비교 불가

 

BoW(Bag of Words) 구성 -> n-gram

 - unigram (1-gram) : It was the best of times -> It, was, the, best, of, times

 - bigram (2-gram) : It was the best of times ->It was, was the, the best, best of, of times

 

Term Value 계산

 - Term이 document에 등장하는지 (binary)

 - Term이 몇 번 등장하는지 (term frequency)  ex) TF-IDF 

 

TF-IDF (Term Frequency- Inverse Document Frequency)

 : TF (t,d) * IDF(t)

TF ( Term Frequency) : 단어의 등장 빈도

 - Raw count, raw count / num words , binary, log normalization

 

IDF ( Inverse Document Frequency) : 단어가 제공하는 정보의 양

 IDF(t) = log(총 document 수 / Term t가 등장한 document 수)

 

 - It, was, the, of : 자주 등장하지만 제공하는 정보량이 적음

 - best, times : 좀 더 많은 정보 제공

 

TF-IDF 이용하여 유사도 구하기

1. 질의 토큰화

2. 기존 단어 사전에 없는 토큰 제외

3. 질의를 하나의 문서로 생각하고 이에 대한 TF-IDF 계산

4. 질의 TF-IDF 값과 각 문서별 TF-IDF 값을 곱하여 유사도 점수 계산

5. 가장 높은 점수를 가지는 문서 선택

 

BM25

TF-IDF 개념을 바탕으로 문서의 길이까지 고려하여 점수를 매김

평균적인 문서 길이보다 더 작은 문서에 단어가 매칭된 경우 그 문서에 가중치 부여

 

 

 

 

 

 

 

반응형