[Week 10] SentencePieceTokenizer

Boostcamp AI Tech/[week 6-14] LEVEL2

[Week 10] SentencePieceTokenizer

newnu 2021. 10. 5. 15:02

SentencePieceBPETokenizer()

공백을 기준으로 단어를 분절 가능

띄어쓰기 자리에 '▁'

ex)

"이순신은 조선 중기의 무신이다"

['▁이', '순', '신은', '▁조선', '▁중', '기의', '▁무', '신', '이다.']

from tokenizers import SentencePieceBPETokenizer
from tokenizers.normalizers import BertNormalizer

tokenizer = SentencePieceBPETokenizer()

tokenizer._tokenizer.normalizer = BertNormalizer(clean_text=True,
handle_chinese_chars=False,
lowercase=False)

tokenizer.train(
    path,
    vocab_size=10000,
    special_tokens=["<s>","<pad>", "</s>","<unk>",],
)

저작자표시 (새창열림)