[Week 10] SentencePieceTokenizer
SentencePieceBPETokenizer() 공백을 기준으로 단어를 분절 가능 띄어쓰기 자리에 '▁' ex) "이순신은 조선 중기의 무신이다" ['▁이', '순', '신은', '▁조선', '▁중', '기의', '▁무', '신', '이다.'] from tokenizers import SentencePieceBPETokenizer from tokenizers.normalizers import BertNormalizer tokenizer = SentencePieceBPETokenizer() tokenizer._tokenizer.normalizer = BertNormalizer(clean_text=True, handle_chinese_chars=False, lowercase=False) tokenizer...
2021. 10. 5.