[Week 10] SentencePieceTokenizer

SentencePieceBPETokenizer()

공백을 기준으로 단어를 분절 가능

띄어쓰기 자리에 '▁'

ex)

"이순신은 조선 중기의 무신이다"

['▁이', '순', '신은', '▁조선', '▁중', '기의', '▁무', '신', '이다.']

from tokenizers import SentencePieceBPETokenizer
from tokenizers.normalizers import BertNormalizer

tokenizer = SentencePieceBPETokenizer()

tokenizer._tokenizer.normalizer = BertNormalizer(clean_text=True,
handle_chinese_chars=False,
lowercase=False)

tokenizer.train(
    path,
    vocab_size=10000,
    special_tokens=["<s>","<pad>", "</s>","<unk>",],
)

저작자표시 (새창열림)

'Boostcamp AI Tech > [week 6-14] LEVEL2' 카테고리의 다른 글

[MRC] Machine Reading Comprehension (0)	2021.10.19
[Week 10] PStage 과정 정리 (0)	2021.10.06
[Week 9] F1 Score , Stratified K Fold (0)	2021.10.01
[week 7 - day 1,2] Transformer (0)	2021.09.14
[Week 6 - Day 3 ] seq2seq (0)	2021.09.09

newnu blog

[Week 10] SentencePieceTokenizer

'Boostcamp AI Tech > [week 6-14] LEVEL2' 카테고리의 다른 글

티스토리툴바

[Week 10] SentencePieceTokenizer

'Boostcamp AI Tech > [week 6-14] LEVEL2' 카테고리의 다른 글

관련글

티스토리툴바