tokenizer
-
Tokenizer에 종류머신러닝 및 딥러닝 2022. 3. 1. 21:03
단어 단위로 Tokenize 글자단위로 Tokenize 하위 단위로 Tokenize 단어 단위로 Tokenize 장점 : 가장 간단하다(space 단위로 tokenize 를 하면 되니까) 단점 비슷한 단어끼리 의미를 공유하는 단어의 의미가 없어지게 된다. 단어가 굉장히 많기 때문에 거의 무한개의 토큰수가 생성된다. 토큰수를 한정하면 vocab에 해당 단어가 없을 경우 OOV가 되기 때문에 실제로 굉장히 뜻이 다른 단어지만 같은 Representaion으로 표현된다. 글자 단위로 Tokenize 장점 : 가장 적은 vocab 사이즈로 모든 표현이 가능하다. 단점 : 각각의 토큰의 의미를 거의 가지지 않는다. 모델의 입력으로 들어가게 될 때 굉장히 긴 sequence로 들어가기 제약이 많다. subword ..
-
서브워드 토크나이저머신러닝 및 딥러닝 2021. 1. 23. 21:55
기계에 아무리 많은 단어들을 학습시킨다고 하여도 신조어와 단어사이즈의 한계등으로 인하여 Out-Of-Vocabularay가 발생한다. 이를 해결하기 위해서 서브워드 분리작업이라는 것이 만들어 졌다. 서브워드 분리 작업은 하나의 단어는 더 작은 단위의 의미있는 여러 서브워드들의 조합으로 구성된 경우가 많기 때문에, 하나의 단어를 여러 서브워드로 분리해서 단어를 인코딩 및 임베딩 하겠다는 의도를 가진 작업이다. 이를 통해 OOV, 희귀 단어, 신조어 문제를 완화 시킬 수 있다. 이런 서브워드 토크나이저에는 대표적으로 Sentencepiece 알고리즘과 BPE를 활용한 WordPiece가 있다. BPE(Byte Pair Encoding) BPE는 1994년에 제안된 데이터 압축 알고리즘으로 연속적으로 가장 많..