1. Introduction to Maching Reading Comprehension
MRC( Machine Learning Comprehension) 기계 독해
주어진 지문 이해, 주어진 질의의 답변 추론
1. Extractive Answer Datasets
항상 지문 내에 segment. or span 으로 정답 존재
2. Descriptive / Narrative Answer Datasets
free form 질의를 보고 정답 생성
3. Multiple Choice Datasets
answer candidate 중 하나가 질의에 대한 정답
Challenges in MRC
1. paraphrasing
2. coreference Resolution
그 것, 그 사람 등 지칭하는 단어
3. Unanswerable question
답이 없는데 답이 있는 것처럼 답을 내는 경우
4. Multi hop reasoning
여러 document에 퍼져있는 내용을 합해서 정답
MRC 평가방법
1. Exact Match / F1 Score
Extractive Answer Dataset, Multiple choice dataset 에서 쓰임
Descriptive Answer Dataset 에서는 쓰기 힘들다
2. ROUGE-L Score/ BLEU
For Descriptive Answer Dataset
n-gram 이용
Rouge-L Score : 예측한 값과 ground-truth 사이의 overlap recall (Longest common subsequence 기반)
BLEU (Bilingual Evaluation Understudy) : 예측한 값과 ground-truth 사이의 precision
Unicode and Tokenization
Unicode : 전 세계의 모든 문자를 일관되게 표현하고 다룰 수 있도록 만들어진 문자셋
문자마다 숫자 하나에 매핑
인코딩 : 문자를 컴퓨터에서 처리할 수 있도록 이진수로 바꾸는 것
UTF-8 (Unicode Transformation Format) : 가장 많이 쓰이는 인코딩 방식
문자타입에 따라 다른 길이의 바이트 할당
Tokenization
텍스트를 토큰 단위로 나누는 것
단어, 형태소, subword 등 여러 토큰 기준 사용
Subword Tokenizing
자주 쓰이는 글자 조합은 한 단위로 취급하고, 자주 쓰이지 않는 조합은 subword로 쪼갠다
BPE(Byte Pair Encoding) : 데이터 압축용으로 제안된 알고리즘. 토크나이징용으로 사용되고 있다.
'Boostcamp AI Tech > [week 6-14] LEVEL2' 카테고리의 다른 글
[MRC] Generation- based MRC (0) | 2021.10.30 |
---|---|
[MRC] Extraction Based MRC (0) | 2021.10.20 |
[Week 10] PStage 과정 정리 (0) | 2021.10.06 |
[Week 10] SentencePieceTokenizer (0) | 2021.10.05 |
[Week 9] F1 Score , Stratified K Fold (0) | 2021.10.01 |