목록byte pair encoding (1)
꿈 많은 사람의 이야기
Python 자연어처리 서브워드(subword) sentencepiece와 huggingface tokenzier 사용법 정리
포스팅 개요 이번 포스팅은 자연어 처리에서 최근 많이 사용하는 subword 분절 방식인 sentencepiece와 huggingface sentencepiece 사용 방법을 정리합니다. 최근에 자연어처리쪽 모델을 다룰 일이 있어서 형태소 분석기를 사용할 까 하다가 sentnecepiece를 사용해 봤는데 너무 좋은 경험이 되어서 이를 정리하고자 합니다. 제가 참고한 자료는 아래와 같습니다. github.com/google/sentencepiece google/sentencepiece Unsupervised text tokenizer for Neural Network-based text generation. - google/sentencepiece github.com github.com/huggingfa..
deep learning(딥러닝)
2020. 9. 20. 16:53