Huggingface
-
Tokenizer에 종류머신러닝 및 딥러닝 2022. 3. 1. 21:03
단어 단위로 Tokenize 글자단위로 Tokenize 하위 단위로 Tokenize 단어 단위로 Tokenize 장점 : 가장 간단하다(space 단위로 tokenize 를 하면 되니까) 단점 비슷한 단어끼리 의미를 공유하는 단어의 의미가 없어지게 된다. 단어가 굉장히 많기 때문에 거의 무한개의 토큰수가 생성된다. 토큰수를 한정하면 vocab에 해당 단어가 없을 경우 OOV가 되기 때문에 실제로 굉장히 뜻이 다른 단어지만 같은 Representaion으로 표현된다. 글자 단위로 Tokenize 장점 : 가장 적은 vocab 사이즈로 모든 표현이 가능하다. 단점 : 각각의 토큰의 의미를 거의 가지지 않는다. 모델의 입력으로 들어가게 될 때 굉장히 긴 sequence로 들어가기 제약이 많다. subword ..