본문 바로가기

Boostcamp AI Tech/[week 15-21] LEVEL32

[NLP 데이터 제작] 2. 자연어처리 데이터 기초 인공지능 개발을 위한 데이터 말뭉치류 - 실제 텍스트 기반의 데이터 대화문, 기사, ... 사전/데이터베이스류 - 텍스트 분석시 참조로 사용되는 자원 워드넷 시소러스 - 단어 간의 관계 온톨로지, 지식 그래프 - 어휘들의 의미 분석 인공지능 기술의 발전 규칙기반 -> 통계 기반 -> 기계 학습 기반 과제와 데이터는 그대로 과제를 하나하나 해결하는 것이 아니라 언어모델을 평가를 위한 종합적 벤치마크 GLUE -> Super GLUE -> KILT -> GEM 벤치마크의 구성 과제 - 평가 데이터, 검증 데이터, 훈련 데이터 평가지표 - 베이스라인 데이터 관련 용어 정리 텍스트 text - 주석, 번역, 서문 및 부록 따위에 대한 본문이나 원문 말뭉치 corpus, plural corpora - 어떤 기준으.. 2021. 11. 10.
[NLP 데이터 제작] 1. 데이터제작의 A to Z 1. 인공지능 서비스 개밸을 위한 데이터 제작 과정 이해 2. 자연어 처리 과제별 데이터의 특성 탐구 3. 실제 데이터 구축 과정 체험 인공지능 서비스 개발 과정 서비스 기획(문제 정의) -> 데이터 준비 수집, 정제 -> 모델 학습 -> 모델 검증 -> 분석-> 모델 평가 -> 배포 전체 프로젝트에서 데이터 관련 작업에 소요되는 시간 비율 : 80% - 데이터 식별, 수집, 정제, 라벨링, 증강 데이터 구축 과정 원시 데이터 선정 및 확보 - 저작권, 테스크 적합성 구축 및 가공 프로세스 확립 - 구축 및 검수 절차, 작업자 선정 구축 및 가공 지침 작성 - 플랫폼 소통 및 작업자 교육 데이터 구축 및 가공 - 파일럿, 작업자 관리 데이터 검수 - 품질 평가 기준 데이터 규격, 내용 AI 데이터 설계의.. 2021. 11. 8.
반응형