본문 바로가기
Boostcamp AI Tech/[week 6-14] LEVEL2

[MRC] Machine Reading Comprehension

by newnu 2021. 10. 19.
반응형

1. Introduction to Maching Reading Comprehension

MRC( Machine Learning Comprehension) 기계 독해

주어진 지문 이해, 주어진 질의의 답변 추론

 

1. Extractive Answer Datasets

항상 지문 내에 segment. or span 으로 정답 존재

2. Descriptive / Narrative Answer Datasets

free form 질의를 보고 정답 생성

3. Multiple Choice Datasets

answer candidate 중 하나가 질의에 대한 정답

 

Challenges in MRC

1. paraphrasing

2. coreference Resolution

그 것, 그 사람 등 지칭하는 단어

3. Unanswerable question

답이 없는데 답이 있는 것처럼 답을 내는 경우

4. Multi hop reasoning

여러 document에 퍼져있는 내용을 합해서 정답

 

MRC 평가방법

1. Exact Match / F1 Score

Extractive Answer Dataset, Multiple choice dataset 에서 쓰임

Descriptive Answer Dataset 에서는 쓰기 힘들다

 

2. ROUGE-L Score/ BLEU

For Descriptive Answer Dataset 

n-gram 이용

 

Rouge-L Score : 예측한 값과 ground-truth 사이의 overlap recall (Longest common subsequence 기반)

BLEU (Bilingual Evaluation Understudy) : 예측한 값과 ground-truth 사이의 precision

 

Unicode and Tokenization

Unicode : 전 세계의 모든 문자를 일관되게 표현하고 다룰 수 있도록 만들어진 문자셋

문자마다 숫자 하나에 매핑

 

인코딩 : 문자를 컴퓨터에서 처리할 수 있도록 이진수로 바꾸는 것

UTF-8 (Unicode Transformation Format) : 가장 많이 쓰이는 인코딩 방식

  문자타입에 따라 다른 길이의 바이트 할당

 

Tokenization

텍스트를 토큰 단위로 나누는 것

단어, 형태소, subword 등 여러 토큰 기준 사용

 

Subword Tokenizing 

자주 쓰이는 글자 조합은 한 단위로 취급하고, 자주 쓰이지 않는 조합은 subword로 쪼갠다

 

BPE(Byte Pair Encoding) : 데이터 압축용으로 제안된 알고리즘. 토크나이징용으로 사용되고 있다.

 

 

 

 

 

반응형

'Boostcamp AI Tech > [week 6-14] LEVEL2' 카테고리의 다른 글

[MRC] Generation- based MRC  (0) 2021.10.30
[MRC] Extraction Based MRC  (0) 2021.10.20
[Week 10] PStage 과정 정리  (0) 2021.10.06
[Week 10] SentencePieceTokenizer  (0) 2021.10.05
[Week 9] F1 Score , Stratified K Fold  (0) 2021.10.01