세로형
Recent Posts
Recent Comments
Link
11-26 00:01
«   2024/11   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
Archives
Today
Total
관리 메뉴

꿈 많은 사람의 이야기

은전한닢(mecab) 형태소 분석기 사용자 단어 사전 추가하기(user word dictionary) 본문

python

은전한닢(mecab) 형태소 분석기 사용자 단어 사전 추가하기(user word dictionary)

이수진의 블로그 2019. 9. 8. 20:39
반응형
728x170

이전 포스팅에서 형태소 분석기 중 하나인 은전한닢(mecab)을 설치를 해보았습니다.

https://lsjsj92.tistory.com/491

 

형태소 분석기 MeCab! 은전한닢을 설치하고 파이썬과 연동하기!

요즘 자연어처리 (NLP)가 정말 핫합니다 텍스트 데이터를 활용하면 다양한 가치를 찾을 수 있고 재미있는 분석이 가능하기 때문이죠 그러나 우리나라 텍스트 데이터 분석은 형태소 분석기가 많이 필요합니다 영어..

lsjsj92.tistory.com

 

하지만 형태소 분석기를 하다보면 형태소 분석이 되지 않는 단어들이 있습니다.

이런 단어들은 형태소 분석기의 큰 단점이라고 볼 수 있죠

하지만 은전한닢 mecab에서는 사용자 단어 사전(user word dictionary)을 구축해서 형태소 분석이 되지 않는 단어들을 인식할 수 있도록 도와줍니다.

이번 포스팅에서는 mecab에서 형태소 인식이 되지 않는 단어들을 인식할 수 있도록

사용자 단어 사전(user word dictionary)을 만드는 방법에 대해서 간단히 소개하려고 합니다.

 

먼저 예시를 하나 들어보죠

이거는 제 개인 mecab입니다.

여기서 "호텔델루나 드라마에서는 아이유가 장만월 역할로 여진구가 구찬성 역할로 나옵니다." 라는 단어를 형태소 분석 하려고 합니다.

 

하지만 위 결과처럼 호텔델루나 단어는 인식하지 못합니다. 아이유, 여진구와 단어는 인식했지만 드라마속 가명인 장만월, 구찬성은 인식하지 못했죠

형태소 분석기에서 흔히 볼 수 있는 단어 인식의 부재입니다.

이것을 이제 사용자 단어 사전을 만들어봅니다.

 

 

mecab-ko-dic 디렉토리에서 vi user_word_dictionary.csv를 합니다. 파일명은 아무렇게나 해도 상관없습니다.

저는 user_dic_test.csv로 했습니다.

이제 이 파일에서 아래와 같이 단어를 추가합니다.

 

 

단어/0/0/0/품사태그/의미분류/종성유무/읽기/타입/ 등등으로 나뉘어집니다

본인은 귀찮아서 어차피 개인용으로 사용하는 거니까 저런식으로 둡니다!

 

 

그리고 tools 디렉토리 안에 있는 add-userdic.sh 을 실행시킵니다.

 

 

별 이상이 없으면 done! 메세지와 함께 프로세스가 끝이 납니다.

이제 다시 

호텔델루나 드라마에서는 아이유가 장만월 역할로 여진구가 구찬성 역할로 나옵니다.

문구를 입력해보면!

형태소 분석기 명사로 인식이 되는 것을 볼 수 있습니다.

 

반응형
그리드형
Comments