본문 바로가기
Boostcamp AI Tech/[week 15-21] LEVEL3

[NLP 데이터 제작] 1. 데이터제작의 A to Z

by newnu 2021. 11. 8.
반응형

1. 인공지능 서비스 개밸을 위한 데이터 제작 과정 이해

2. 자연어 처리 과제별 데이터의 특성 탐구

3. 실제 데이터 구축 과정 체험

 

인공지능 서비스 개발 과정

서비스 기획(문제 정의) -> 데이터 준비 수집, 정제 -> 모델 학습 -> 모델 검증

-> 분석-> 모델 평가 -> 배포

 

전체 프로젝트에서 데이터 관련 작업에 소요되는 시간 비율 : 80%

 - 데이터 식별, 수집, 정제, 라벨링, 증강

 

데이터 구축 과정

원시 데이터 선정 및 확보 - 저작권, 테스크 적합성

구축 및 가공 프로세스 확립 - 구축 및 검수 절차, 작업자 선정

구축 및 가공 지침 작성 - 플랫폼 소통 및 작업자 교육

데이터 구축 및 가공 - 파일럿, 작업자 관리

데이터 검수 - 품질 평가 기준 데이터 규격, 내용

 

AI 데이터 설계의 구성 요소

1. 데이터 설계

- 데이터의 유형 : 소리, 텍스트, 이미지, 영상 + 멀티모달(두가지 이상 혼합)

- 데이터  Input/output 형식

- 데이터별 규모와 구분 방식 : 확보 가능한 데이터 규모, 주석 작업 시간 필요

- **데이터 주석 유형 : 자연어처리 - 클래스 라벨, 단어 라벨, 텍스트 라벨, 단어 라벨링 및 두 단어 사이의 관계

 

2. 데이터 수집-가공 설계 (외부적 작업)

- 원천 데이터 수집 방식 :  전산화, 스크래핑, 작업자 작성, 모델 생성 : 적합한 데이터란 무엇인지 기준 세우기

- 작업자 선정 : 전문가(전문 지식), 크라우드 소싱(단순, 직관)

- 구축 및 검수 설계 : 파일럿(100~2000개 데이터, 10% 정도), 본 구축( 난이도, 규모)

    - 파일럿 : 설계 시 발견하지 못한 이슈 발굴 및 해결, 가이드라인 보완 및 개정, 작업자 선정

    - 본 구축 : 작업 일정 관리, 작업자 관리, 중간 검수를 통한 데이터 품질 관리 ( 여러 차례로 나누어 진행)

- 데이터 검수 및 분석

    - 전문가 평가 및 분석 : 샘플링 검사, 가이드라인 적합도 분석

    - 자동 평가 및 분석 : 데이터 형식, 레이블별 분포, 일괄 수정 사항 반영

 

자연어처리 데이터

- 자연어 : 일상적으로 사용하고 있는 언어 그 자체

- 인공어 : 여러사람의 목적이나 의도에 따라 만든 언어 또는 컴퓨터 언어

   - ex) 에스페란토어, 파이썬 ,,...

 

자연어 처리 : 사람의 언어를 컴퓨터가 알아듣도록 처리하는 인터페이스 역할

자연어 처리의 최종 목표 : 컴퓨터가 사람의 언어를 이해하고 여러 과제 수행

 

데이터 분류 방식 

원천 데이터 장르(도메인): 문어 (뉴스, 도서 등), 구어(대화 등), 웹( 메신저 대화, 게시판 등)

과제의 유형 :

 - 자연어 이해(형태 분석, 구문 분석, 문장 유사도 평가 등)

 - 자연어 생성( 기계 번역, 추상 요약 등)

 - 혼합(챗봇 등)

 

 

 

반응형