[MRC] Machine Reading Comprehension

1. Introduction to Maching Reading Comprehension

MRC( Machine Learning Comprehension) 기계 독해

주어진 지문 이해, 주어진 질의의 답변 추론

1. Extractive Answer Datasets

항상 지문 내에 segment. or span 으로 정답 존재

2. Descriptive / Narrative Answer Datasets

free form 질의를 보고 정답 생성

3. Multiple Choice Datasets

answer candidate 중 하나가 질의에 대한 정답

Challenges in MRC

1. paraphrasing

2. coreference Resolution

그 것, 그 사람 등 지칭하는 단어

3. Unanswerable question

답이 없는데 답이 있는 것처럼 답을 내는 경우

4. Multi hop reasoning

여러 document에 퍼져있는 내용을 합해서 정답

MRC 평가방법

1. Exact Match / F1 Score

Extractive Answer Dataset, Multiple choice dataset 에서 쓰임

Descriptive Answer Dataset 에서는 쓰기 힘들다

2. ROUGE-L Score/ BLEU

For Descriptive Answer Dataset

n-gram 이용

Rouge-L Score : 예측한 값과 ground-truth 사이의 overlap recall (Longest common subsequence 기반)

BLEU (Bilingual Evaluation Understudy) : 예측한 값과 ground-truth 사이의 precision

Unicode and Tokenization

Unicode : 전 세계의 모든 문자를 일관되게 표현하고 다룰 수 있도록 만들어진 문자셋

문자마다 숫자 하나에 매핑

인코딩 : 문자를 컴퓨터에서 처리할 수 있도록 이진수로 바꾸는 것

UTF-8 (Unicode Transformation Format) : 가장 많이 쓰이는 인코딩 방식

문자타입에 따라 다른 길이의 바이트 할당

Tokenization

텍스트를 토큰 단위로 나누는 것

단어, 형태소, subword 등 여러 토큰 기준 사용

Subword Tokenizing

자주 쓰이는 글자 조합은 한 단위로 취급하고, 자주 쓰이지 않는 조합은 subword로 쪼갠다

BPE(Byte Pair Encoding) : 데이터 압축용으로 제안된 알고리즘. 토크나이징용으로 사용되고 있다.

저작자표시

'Boostcamp AI Tech > [week 6-14] LEVEL2' 카테고리의 다른 글

[MRC] Generation- based MRC (0)	2021.10.30
[MRC] Extraction Based MRC (0)	2021.10.20
[Week 10] PStage 과정 정리 (0)	2021.10.06
[Week 10] SentencePieceTokenizer (0)	2021.10.05
[Week 9] F1 Score , Stratified K Fold (0)	2021.10.01

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

newnu blog

[MRC] Machine Reading Comprehension

1. Introduction to Maching Reading Comprehension

MRC( Machine Learning Comprehension) 기계 독해

'Boostcamp AI Tech > [week 6-14] LEVEL2' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

[MRC] Machine Reading Comprehension

1. Introduction to Maching Reading Comprehension

MRC( Machine Learning Comprehension) 기계 독해

'Boostcamp AI Tech > [week 6-14] LEVEL2' 카테고리의 다른 글

관련글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역