Boostcamp AI Tech/[week 6-14] LEVEL2
[Week 10] SentencePieceTokenizer
newnu
2021. 10. 5. 15:02
반응형
SentencePieceBPETokenizer()
공백을 기준으로 단어를 분절 가능
띄어쓰기 자리에 '▁'
ex)
"이순신은 조선 중기의 무신이다"
['▁이', '순', '신은', '▁조선', '▁중', '기의', '▁무', '신', '이다.']
from tokenizers import SentencePieceBPETokenizer
from tokenizers.normalizers import BertNormalizer
tokenizer = SentencePieceBPETokenizer()
tokenizer._tokenizer.normalizer = BertNormalizer(clean_text=True,
handle_chinese_chars=False,
lowercase=False)
tokenizer.train(
path,
vocab_size=10000,
special_tokens=["<s>","<pad>", "</s>","<unk>",],
)
반응형