Open domain Question Answering : 대규모의 문서 중에서 질문에 대한 답 찾기
- Passage Retrieval과 MRC를 이어서
Passage Retrieval
질문에 맞는 문서를 찾는 것
Query 와 Passage 를 임베딩한 뒤 유사도로 랭킹을 매기고, 유사도가 가장 높은 passage 선택
Passage Embedding Space : Passage Embedding 의 벡터 공간
벡터화된 Passage 를 이용하여 Passage 간 유사도 등을 알고리즘으로 계산할 수 있음
1. Sparse Embedding
벡터의 길이 = 전체 vocab의 사이즈
Term overlap을 정확하게 잡아내야 할 때 유용 ( 검색할 때)
의미가 비슷하지만 다른 단어인 경우 비교 불가
BoW(Bag of Words) 구성 -> n-gram
- unigram (1-gram) : It was the best of times -> It, was, the, best, of, times
- bigram (2-gram) : It was the best of times ->It was, was the, the best, best of, of times
Term Value 계산
- Term이 document에 등장하는지 (binary)
- Term이 몇 번 등장하는지 (term frequency) ex) TF-IDF
TF-IDF (Term Frequency- Inverse Document Frequency)
: TF (t,d) * IDF(t)
TF ( Term Frequency) : 단어의 등장 빈도
- Raw count, raw count / num words , binary, log normalization
IDF ( Inverse Document Frequency) : 단어가 제공하는 정보의 양
IDF(t) = log(총 document 수 / Term t가 등장한 document 수)
- It, was, the, of : 자주 등장하지만 제공하는 정보량이 적음
- best, times : 좀 더 많은 정보 제공
TF-IDF 이용하여 유사도 구하기
1. 질의 토큰화
2. 기존 단어 사전에 없는 토큰 제외
3. 질의를 하나의 문서로 생각하고 이에 대한 TF-IDF 계산
4. 질의 TF-IDF 값과 각 문서별 TF-IDF 값을 곱하여 유사도 점수 계산
5. 가장 높은 점수를 가지는 문서 선택
BM25
TF-IDF 개념을 바탕으로 문서의 길이까지 고려하여 점수를 매김
평균적인 문서 길이보다 더 작은 문서에 단어가 매칭된 경우 그 문서에 가중치 부여
'Boostcamp AI Tech > [week 6-14] LEVEL2' 카테고리의 다른 글
[MRC] Passage Retrieval - Dense Embedding (0) | 2021.10.30 |
---|---|
[MRC] Generation- based MRC (0) | 2021.10.30 |
[MRC] Extraction Based MRC (0) | 2021.10.20 |
[MRC] Machine Reading Comprehension (0) | 2021.10.19 |
[Week 10] PStage 과정 정리 (0) | 2021.10.06 |