반응형
SentencePieceBPETokenizer()
공백을 기준으로 단어를 분절 가능
띄어쓰기 자리에 '▁'
ex)
"이순신은 조선 중기의 무신이다"
['▁이', '순', '신은', '▁조선', '▁중', '기의', '▁무', '신', '이다.']
from tokenizers import SentencePieceBPETokenizer
from tokenizers.normalizers import BertNormalizer
tokenizer = SentencePieceBPETokenizer()
tokenizer._tokenizer.normalizer = BertNormalizer(clean_text=True,
handle_chinese_chars=False,
lowercase=False)
tokenizer.train(
path,
vocab_size=10000,
special_tokens=["<s>","<pad>", "</s>","<unk>",],
)
반응형
'Boostcamp AI Tech > [week 6-14] LEVEL2' 카테고리의 다른 글
[MRC] Machine Reading Comprehension (0) | 2021.10.19 |
---|---|
[Week 10] PStage 과정 정리 (0) | 2021.10.06 |
[Week 9] F1 Score , Stratified K Fold (0) | 2021.10.01 |
[week 7 - day 1,2] Transformer (0) | 2021.09.14 |
[Week 6 - Day 3 ] seq2seq (0) | 2021.09.09 |