인공지능 개발을 위한 데이터
말뭉치류 - 실제 텍스트 기반의 데이터
- 대화문, 기사, ...
사전/데이터베이스류 - 텍스트 분석시 참조로 사용되는 자원
워드넷 시소러스 - 단어 간의 관계
온톨로지, 지식 그래프 - 어휘들의 의미 분석
인공지능 기술의 발전
규칙기반 -> 통계 기반 -> 기계 학습 기반
과제와 데이터는 그대로
과제를 하나하나 해결하는 것이 아니라 언어모델을 평가를 위한 종합적 벤치마크
GLUE -> Super GLUE -> KILT -> GEM
벤치마크의 구성
과제 - 평가 데이터, 검증 데이터, 훈련 데이터
평가지표 - 베이스라인
데이터 관련 용어 정리
텍스트 text - 주석, 번역, 서문 및 부록 따위에 대한 본문이나 원문
말뭉치 corpus, plural corpora - 어떤 기준으로든 한 덩어리로 볼 수 있는 말의 뭉치
텍스트 아카이브 vs 말뭉치
말뭉치는 어떤 주제로 기준으로 뭉쳐놓은 덩어리
데이터 data - 컴퓨터가 처리할 수 있는 문자, 숫자, 소리, 그림 따위의 형태로 된 정보
주석 tag, label, annotation
형태소 분석기 vs 형태소 주석기
형태소 분석기 nng,np,vv ->주석
감성 분석 positive, negative -> 주석
형태소에 주석을 다는 행위-> 언어를 분석하는 것이라 생각 형태소 분석기
영어 POS(Part of speech) tagger
segmentation
tagging
텍스트 데이터의 기본 단위
영어 말뭉치의 계량 단위 : 단어/ 문장 또는 발화
한국어 : 어절/ 문장 또는 발화
한국어의 단어 : 9품사(명사, 수사, 대명사, 동사, 형용사, 관형사, 부사, 조사, 감탄사)
조사는 체언(명사, 수사, 대명사)과 붙어서 사용 -> 뛰어쓰기 단위가 단어의 단위가 아님
품사 분류의 기준 : 의미, 기능, 형식
타입 & 토큰
토큰화> 표제어 추출/ 품사 주석 POS tagging
토큰 : 언어를 다루는 가장 작은 기본 단위, 단어, 형태소, 서브워드
타입 : 토큰의 대표 형태
ex)
이 사람은 내가 알던 사람이 아니다
토큰 : 이 사람 은 내 가 알 더 ㄴ 사람 이 아니 다
표제어 추출 : 이, 사람, 나, 알다, 아니다
품사 주석 : 이/MM 사람/NNG +은/JX 나/NP+가/JKS 알/VV + 더/EP + ㄴ/ETM 사람/NNG +이/JKS 아니/VA +다/EF
토큰 수 : 12개, 타입 수 : 10개
N-gram
연속된 N개의 단위
입력된 단위는 글자, 형태소, 단어, 어절 등으로 사용자가 지정
글자수 bi-gram
형태소 bi-gram
어절 bi-gram
표상 representation
대표로 삼을 만큼 상징적인 것
자연어처리 분야에서 표현으로 번역하기도 하나,
HTML(Hypertest Markup Language)
웹페이지가 어떻게 구조화되어 있는지
XML(EXtensible Markup Language)
사람과 기계가 동시에 읽기 편한 구조
다른 특수한 목적을 갖는 마크업 언어를 만드는데 사용하도록 권장하는 다목적 마크업 언어
JSON(Javascript Object Notation), JSONL(Javascript Object Notation Lines)
CSV(comma-separated values)
몇가지 필드를 쉼표로 구분한 텍스트 데이터 및 텍스트 파일
TSV(tab-separated values)
몇가지 필드를 탭으로 구분한 텍스트 데이터 및 텍스트 파일
'Boostcamp AI Tech > [week 15-21] LEVEL3' 카테고리의 다른 글
[NLP 데이터 제작] 1. 데이터제작의 A to Z (0) | 2021.11.08 |
---|