Boostcamp AI Tech32 [NLP 데이터 제작] 2. 자연어처리 데이터 기초 인공지능 개발을 위한 데이터 말뭉치류 - 실제 텍스트 기반의 데이터 대화문, 기사, ... 사전/데이터베이스류 - 텍스트 분석시 참조로 사용되는 자원 워드넷 시소러스 - 단어 간의 관계 온톨로지, 지식 그래프 - 어휘들의 의미 분석 인공지능 기술의 발전 규칙기반 -> 통계 기반 -> 기계 학습 기반 과제와 데이터는 그대로 과제를 하나하나 해결하는 것이 아니라 언어모델을 평가를 위한 종합적 벤치마크 GLUE -> Super GLUE -> KILT -> GEM 벤치마크의 구성 과제 - 평가 데이터, 검증 데이터, 훈련 데이터 평가지표 - 베이스라인 데이터 관련 용어 정리 텍스트 text - 주석, 번역, 서문 및 부록 따위에 대한 본문이나 원문 말뭉치 corpus, plural corpora - 어떤 기준으.. 2021. 11. 10. [NLP 데이터 제작] 1. 데이터제작의 A to Z 1. 인공지능 서비스 개밸을 위한 데이터 제작 과정 이해 2. 자연어 처리 과제별 데이터의 특성 탐구 3. 실제 데이터 구축 과정 체험 인공지능 서비스 개발 과정 서비스 기획(문제 정의) -> 데이터 준비 수집, 정제 -> 모델 학습 -> 모델 검증 -> 분석-> 모델 평가 -> 배포 전체 프로젝트에서 데이터 관련 작업에 소요되는 시간 비율 : 80% - 데이터 식별, 수집, 정제, 라벨링, 증강 데이터 구축 과정 원시 데이터 선정 및 확보 - 저작권, 테스크 적합성 구축 및 가공 프로세스 확립 - 구축 및 검수 절차, 작업자 선정 구축 및 가공 지침 작성 - 플랫폼 소통 및 작업자 교육 데이터 구축 및 가공 - 파일럿, 작업자 관리 데이터 검수 - 품질 평가 기준 데이터 규격, 내용 AI 데이터 설계의.. 2021. 11. 8. [MRC] Passage Retrieval - Dense Embedding Limitation of Sparse Embedding - 차원의 수가 매우 크다 ( compressed format으로 극복 가능) - 유사성을 고려하지 못한다. Dense Embedding - 더 작은 차원의 고밀도 벡터 - 각 차원이 특정 term에 대응되지 않음 - 대부분의 요소가 non-zero 값 - 단어의 유사성 또는 맥락을 파악해야 하는 경우 성능이 뛰어남 - 학습을 통해 임베딩을 만들며 추가적인 학습 또한 가능 1. Dense Embedding 을 생성한 인코더 훈련 2. 질문과 문서를 비교하여 관련 문서 추출 Training Dense Encoder - BERT와 같은 Pretrained language Model(PLM) 이 자주 사용 - 다양한 neural network 구조 가능 .. 2021. 10. 30. [MRC] Passage Retrieval - Sparse Embedding Open domain Question Answering : 대규모의 문서 중에서 질문에 대한 답 찾기 - Passage Retrieval과 MRC를 이어서 Passage Retrieval 질문에 맞는 문서를 찾는 것 Query 와 Passage 를 임베딩한 뒤 유사도로 랭킹을 매기고, 유사도가 가장 높은 passage 선택 Passage Embedding Space : Passage Embedding 의 벡터 공간 벡터화된 Passage 를 이용하여 Passage 간 유사도 등을 알고리즘으로 계산할 수 있음 1. Sparse Embedding 벡터의 길이 = 전체 vocab의 사이즈 Term overlap을 정확하게 잡아내야 할 때 유용 ( 검색할 때) 의미가 비슷하지만 다른 단어인 경우 비교 불가 Bo.. 2021. 10. 30. [MRC] Generation- based MRC Generation based MRC 주어진 지문의 질의를 보고 답변을 생성 ( 답변이 지문에 있을수도, 없을수도 있음) 전체 시퀀스의 각 위치마다 모델이 아는 모든 단어들 중 하나의 단어를 맞추는 classification 문제 평가방법 EM, F1 Score Generation based MRC, Extraction based MRC 비교 1. MRC 모델 구조 seq-to-seq PLM 구조 (generation) / PLM + Classifier 구조 (extraction) 2. Loss 계산을 위한 답의 형태, Prediction의 형태 Free-form text (generation) / 지문 내 답의 위치 (extraction) Step 1 Preprocessing tokenization (.. 2021. 10. 30. [MRC] Extraction Based MRC 1. Extraction Based MRC 질문의 답변이 항상 주어진 지문 내에 span 으로 존재 답의 시작과 끝 위치 파악 - token classification 문제로 치환 Exact Match (EM) Score 또는 F1 Score 로 평가 step1 preprocess - tokenization - special tokens : cls, sep - attention mask : 입력 시퀀스 중에서 attention을 연산할 때 무시할 토큰을 표시 ( padding 토큰) - token type IDs : 입력이 2개 이상의 시퀀스일 때 (질문, 지문) 각각 id 부여하여 구분 step2 fine-tuning fine tuning BERT 실제 답의 start/end 위치와 cross entr.. 2021. 10. 20. 이전 1 2 3 4 ··· 6 다음 반응형