목록형태소분석기 (4)
꿈 많은 사람의 이야기
포스팅 개요 본 포스팅은 파이썬(Python)을 활용한 텍스트 분석에서 사용할 수 있는 다양한 형태소 분석기(tokenizer)를 사용해 한국어 단어를 원형으로 복구, 복원해주는 원형 복원기(혹은 분석기)를 소개하려고 합니다. 기존에 어떤 훌륭하신 분께서 만들어주신 원형 복원 분석기를 사용하는데요. 이 원형 복원 분석기가 너무 오래되서 현재 파이썬 환경에선 잘 동작하지 않습니다. 따라서 본 포스팅에서는 해당 한국어 원형 복원 형태소 분석기를 활용할 수 있도록 설치하고 설정하는 과정을 소개하려고 합니다. 참고로 본 실습에 필요한 기본적인 파이썬 라이브러리는 아래와 같은 리스트가 설치되어 있어야 합니다. (Python 3.7 이상 기준입니다.) konlpy mecab hanja ( 기존에 만들어주신 한국어 ..
포스팅 개요 집에서는 윈도우를 활용해서 사용하지만 회사에서는 mac을 사용합니다. 그러다보니 windows 환경에서 python 설치하는 여러 이슈와 mac에서 나오는 여러 이슈가 좀 다른데요. 이번 포스팅은 mac os 환경에서 python konlpy를 설치하는 방법과 에러가 나올 때 대처할 수 있는 방법에 대해 소개합니다. 본문 mac 환경에서 개발 환경을 구축하는 것은 매우매우 쉽습니다. 개발자분들이 윈도우를 자주 사용안하시는 이유가 있으니까요 ㅎㅎ (저도 GPU만 아니었으면..) 때문에 mac에서 python 환경을 다루는 것도 쉽습니다. mac os에서 konlpy를 설치하려면 단순히 아래 명령어만 입력하면 됩니다. pip install konlpy 하지만 이게 mac에서 오류가 발생할 수 있..
이전 포스팅에서 형태소 분석기 중 하나인 은전한닢(mecab)을 설치를 해보았습니다. https://lsjsj92.tistory.com/491 형태소 분석기 MeCab! 은전한닢을 설치하고 파이썬과 연동하기! 요즘 자연어처리 (NLP)가 정말 핫합니다 텍스트 데이터를 활용하면 다양한 가치를 찾을 수 있고 재미있는 분석이 가능하기 때문이죠 그러나 우리나라 텍스트 데이터 분석은 형태소 분석기가 많이 필요합니다 영어.. lsjsj92.tistory.com 하지만 형태소 분석기를 하다보면 형태소 분석이 되지 않는 단어들이 있습니다. 이런 단어들은 형태소 분석기의 큰 단점이라고 볼 수 있죠 하지만 은전한닢 mecab에서는 사용자 단어 사전(user word dictionary)을 구축해서 형태소 분석이 되지 않는..
요즘 자연어처리 (NLP)가 정말 핫합니다 텍스트 데이터를 활용하면 다양한 가치를 찾을 수 있고 재미있는 분석이 가능하기 때문이죠 그러나 우리나라 텍스트 데이터 분석은 형태소 분석기가 많이 필요합니다 영어 같은 경우에는 띄어쓰기로만 해도 커버가 가능하지만 한글은 그게 쉽지 않기 때문이죠 왜냐하면 사람들이 띄어쓰기도 잘 하지 않을 뿐더러 맞춤법, 은어 등이 많기 때문입니다. 그래서 형태소 분석기를 많이 사용하죠 예전에 형태소 분석기 중 하나인 konlpy를 설치한 것을 포스팅했습니다.(https://lsjsj92.tistory.com/442) 또한, 카카오 형태소 분석기(khaiii) 카이라고 불리우는 것도 포스팅 했었습니다.(https://lsjsj92.tistory.com/408) 사실 저는 MeCab..