1. 인공지능 서비스 개밸을 위한 데이터 제작 과정 이해
2. 자연어 처리 과제별 데이터의 특성 탐구
3. 실제 데이터 구축 과정 체험
인공지능 서비스 개발 과정
서비스 기획(문제 정의) -> 데이터 준비 수집, 정제 -> 모델 학습 -> 모델 검증
-> 분석-> 모델 평가 -> 배포
전체 프로젝트에서 데이터 관련 작업에 소요되는 시간 비율 : 80%
- 데이터 식별, 수집, 정제, 라벨링, 증강
데이터 구축 과정
원시 데이터 선정 및 확보 - 저작권, 테스크 적합성
구축 및 가공 프로세스 확립 - 구축 및 검수 절차, 작업자 선정
구축 및 가공 지침 작성 - 플랫폼 소통 및 작업자 교육
데이터 구축 및 가공 - 파일럿, 작업자 관리
데이터 검수 - 품질 평가 기준 데이터 규격, 내용
AI 데이터 설계의 구성 요소
1. 데이터 설계
- 데이터의 유형 : 소리, 텍스트, 이미지, 영상 + 멀티모달(두가지 이상 혼합)
- 데이터 Input/output 형식
- 데이터별 규모와 구분 방식 : 확보 가능한 데이터 규모, 주석 작업 시간 필요
- **데이터 주석 유형 : 자연어처리 - 클래스 라벨, 단어 라벨, 텍스트 라벨, 단어 라벨링 및 두 단어 사이의 관계
2. 데이터 수집-가공 설계 (외부적 작업)
- 원천 데이터 수집 방식 : 전산화, 스크래핑, 작업자 작성, 모델 생성 : 적합한 데이터란 무엇인지 기준 세우기
- 작업자 선정 : 전문가(전문 지식), 크라우드 소싱(단순, 직관)
- 구축 및 검수 설계 : 파일럿(100~2000개 데이터, 10% 정도), 본 구축( 난이도, 규모)
- 파일럿 : 설계 시 발견하지 못한 이슈 발굴 및 해결, 가이드라인 보완 및 개정, 작업자 선정
- 본 구축 : 작업 일정 관리, 작업자 관리, 중간 검수를 통한 데이터 품질 관리 ( 여러 차례로 나누어 진행)
- 데이터 검수 및 분석
- 전문가 평가 및 분석 : 샘플링 검사, 가이드라인 적합도 분석
- 자동 평가 및 분석 : 데이터 형식, 레이블별 분포, 일괄 수정 사항 반영
자연어처리 데이터
- 자연어 : 일상적으로 사용하고 있는 언어 그 자체
- 인공어 : 여러사람의 목적이나 의도에 따라 만든 언어 또는 컴퓨터 언어
- ex) 에스페란토어, 파이썬 ,,...
자연어 처리 : 사람의 언어를 컴퓨터가 알아듣도록 처리하는 인터페이스 역할
자연어 처리의 최종 목표 : 컴퓨터가 사람의 언어를 이해하고 여러 과제 수행
데이터 분류 방식
원천 데이터 장르(도메인): 문어 (뉴스, 도서 등), 구어(대화 등), 웹( 메신저 대화, 게시판 등)
과제의 유형 :
- 자연어 이해(형태 분석, 구문 분석, 문장 유사도 평가 등)
- 자연어 생성( 기계 번역, 추상 요약 등)
- 혼합(챗봇 등)
'Boostcamp AI Tech > [week 15-21] LEVEL3' 카테고리의 다른 글
[NLP 데이터 제작] 2. 자연어처리 데이터 기초 (0) | 2021.11.10 |
---|