이전 포스팅에서 형태소 분석기 중 하나인 은전한닢(mecab)을 설치를 해보았습니다.
https://lsjsj92.tistory.com/491
하지만 형태소 분석기를 하다보면 형태소 분석이 되지 않는 단어들이 있습니다.
이런 단어들은 형태소 분석기의 큰 단점이라고 볼 수 있죠
하지만 은전한닢 mecab에서는 사용자 단어 사전(user word dictionary)을 구축해서 형태소 분석이 되지 않는 단어들을 인식할 수 있도록 도와줍니다.
이번 포스팅에서는 mecab에서 형태소 인식이 되지 않는 단어들을 인식할 수 있도록
사용자 단어 사전(user word dictionary)을 만드는 방법에 대해서 간단히 소개하려고 합니다.
먼저 예시를 하나 들어보죠
이거는 제 개인 mecab입니다.
여기서 "호텔델루나 드라마에서는 아이유가 장만월 역할로 여진구가 구찬성 역할로 나옵니다." 라는 단어를 형태소 분석 하려고 합니다.
하지만 위 결과처럼 호텔델루나 단어는 인식하지 못합니다. 아이유, 여진구와 단어는 인식했지만 드라마속 가명인 장만월, 구찬성은 인식하지 못했죠
형태소 분석기에서 흔히 볼 수 있는 단어 인식의 부재입니다.
이것을 이제 사용자 단어 사전을 만들어봅니다.
mecab-ko-dic 디렉토리에서 vi user_word_dictionary.csv를 합니다. 파일명은 아무렇게나 해도 상관없습니다.
저는 user_dic_test.csv로 했습니다.
이제 이 파일에서 아래와 같이 단어를 추가합니다.
단어/0/0/0/품사태그/의미분류/종성유무/읽기/타입/ 등등으로 나뉘어집니다
본인은 귀찮아서 어차피 개인용으로 사용하는 거니까 저런식으로 둡니다!
그리고 tools 디렉토리 안에 있는 add-userdic.sh 을 실행시킵니다.
별 이상이 없으면 done! 메세지와 함께 프로세스가 끝이 납니다.
이제 다시
호텔델루나 드라마에서는 아이유가 장만월 역할로 여진구가 구찬성 역할로 나옵니다.
문구를 입력해보면!
형태소 분석기 명사로 인식이 되는 것을 볼 수 있습니다.
'python' 카테고리의 다른 글
파이썬3(python3) 설치하고 환경(env) 관리하기 - 아나콘다3(anaconda3)를 활용한 설치 (6) | 2019.10.06 |
---|---|
python 주피터 노트북(jupyter notebook) 색상 및 테마 변경하기 (7) | 2019.10.02 |
linux(centos 7)에서 chrome driver로 headless 웹 크롤러(web crawler) 개발하기 (4) | 2019.07.29 |
python dict to dataframe 방법과 에러(ValueError: DataFrame constructor not properly called!) 해결 (4) | 2019.07.26 |
형태소 분석기 MeCab! 은전한닢을 설치하고 파이썬과 연동하기! (18) | 2019.06.26 |