Boostcamp AI Tech/[week 6-14] LEVEL211 [MRC] Passage Retrieval - Dense Embedding Limitation of Sparse Embedding - 차원의 수가 매우 크다 ( compressed format으로 극복 가능) - 유사성을 고려하지 못한다. Dense Embedding - 더 작은 차원의 고밀도 벡터 - 각 차원이 특정 term에 대응되지 않음 - 대부분의 요소가 non-zero 값 - 단어의 유사성 또는 맥락을 파악해야 하는 경우 성능이 뛰어남 - 학습을 통해 임베딩을 만들며 추가적인 학습 또한 가능 1. Dense Embedding 을 생성한 인코더 훈련 2. 질문과 문서를 비교하여 관련 문서 추출 Training Dense Encoder - BERT와 같은 Pretrained language Model(PLM) 이 자주 사용 - 다양한 neural network 구조 가능 .. 2021. 10. 30. [MRC] Passage Retrieval - Sparse Embedding Open domain Question Answering : 대규모의 문서 중에서 질문에 대한 답 찾기 - Passage Retrieval과 MRC를 이어서 Passage Retrieval 질문에 맞는 문서를 찾는 것 Query 와 Passage 를 임베딩한 뒤 유사도로 랭킹을 매기고, 유사도가 가장 높은 passage 선택 Passage Embedding Space : Passage Embedding 의 벡터 공간 벡터화된 Passage 를 이용하여 Passage 간 유사도 등을 알고리즘으로 계산할 수 있음 1. Sparse Embedding 벡터의 길이 = 전체 vocab의 사이즈 Term overlap을 정확하게 잡아내야 할 때 유용 ( 검색할 때) 의미가 비슷하지만 다른 단어인 경우 비교 불가 Bo.. 2021. 10. 30. [MRC] Generation- based MRC Generation based MRC 주어진 지문의 질의를 보고 답변을 생성 ( 답변이 지문에 있을수도, 없을수도 있음) 전체 시퀀스의 각 위치마다 모델이 아는 모든 단어들 중 하나의 단어를 맞추는 classification 문제 평가방법 EM, F1 Score Generation based MRC, Extraction based MRC 비교 1. MRC 모델 구조 seq-to-seq PLM 구조 (generation) / PLM + Classifier 구조 (extraction) 2. Loss 계산을 위한 답의 형태, Prediction의 형태 Free-form text (generation) / 지문 내 답의 위치 (extraction) Step 1 Preprocessing tokenization (.. 2021. 10. 30. [MRC] Extraction Based MRC 1. Extraction Based MRC 질문의 답변이 항상 주어진 지문 내에 span 으로 존재 답의 시작과 끝 위치 파악 - token classification 문제로 치환 Exact Match (EM) Score 또는 F1 Score 로 평가 step1 preprocess - tokenization - special tokens : cls, sep - attention mask : 입력 시퀀스 중에서 attention을 연산할 때 무시할 토큰을 표시 ( padding 토큰) - token type IDs : 입력이 2개 이상의 시퀀스일 때 (질문, 지문) 각각 id 부여하여 구분 step2 fine-tuning fine tuning BERT 실제 답의 start/end 위치와 cross entr.. 2021. 10. 20. [MRC] Machine Reading Comprehension 1. Introduction to Maching Reading Comprehension MRC( Machine Learning Comprehension) 기계 독해 주어진 지문 이해, 주어진 질의의 답변 추론 1. Extractive Answer Datasets 항상 지문 내에 segment. or span 으로 정답 존재 2. Descriptive / Narrative Answer Datasets free form 질의를 보고 정답 생성 3. Multiple Choice Datasets answer candidate 중 하나가 질의에 대한 정답 Challenges in MRC 1. paraphrasing 2. coreference Resolution 그 것, 그 사람 등 지칭하는 단어 3. Unansw.. 2021. 10. 19. [Week 10] PStage 과정 정리 1. Baseline code micro_f1_score, aurpc 2. 기존 Baseline code 에서 배치사이즈 16 -> 64 , eval_step 500-> 100 submission_64.csv 3. Stratified K-Fold submission_cv_fin.csv micro_f1_score, aurpc 4. Typed Entity Marker 추가 ( 스페셜 토큰) 이순신 entity 각각 ',', ':' 로 split 해서 순서대로 넣으려고 했지만 word에 ' 49만 5,000명 ' 처럼 쉼표 포함하고 있는 단어가 있어서 오류 -> 뒤에서부터 인덱스 가져오기 micro_f1_score, auprc submission_entity1.csv stratified k-fold (n_sp.. 2021. 10. 6. 이전 1 2 다음 반응형