본문 바로가기
Boostcamp AI Tech/[week 6-14] LEVEL2

[Week 10] SentencePieceTokenizer

by newnu 2021. 10. 5.
반응형

SentencePieceBPETokenizer()

공백을 기준으로 단어를 분절 가능

띄어쓰기 자리에  '

 

ex)

"이순신은 조선 중기의 무신이다"

['▁이', '순', '신은', '▁조선', '▁중', '기의', '▁무', '신', '이다.']

 

from tokenizers import SentencePieceBPETokenizer
from tokenizers.normalizers import BertNormalizer

tokenizer = SentencePieceBPETokenizer()

tokenizer._tokenizer.normalizer = BertNormalizer(clean_text=True,
handle_chinese_chars=False,
lowercase=False)

tokenizer.train(
    path,
    vocab_size=10000,
    special_tokens=["<s>","<pad>", "</s>","<unk>",],
)

 

 

반응형

'Boostcamp AI Tech > [week 6-14] LEVEL2' 카테고리의 다른 글

[MRC] Machine Reading Comprehension  (0) 2021.10.19
[Week 10] PStage 과정 정리  (0) 2021.10.06
[Week 9] F1 Score , Stratified K Fold  (0) 2021.10.01
[week 7 - day 1,2] Transformer  (0) 2021.09.14
[Week 6 - Day 3 ] seq2seq  (0) 2021.09.09