목록형태소 (11)
꿈 많은 사람의 이야기
포스팅 목적 이번 포스팅은 Python 형태소 분석기 중 하나인 Mecab(은전한닢)에서 나오는 에러를 해결하는 방법에 대해 정리합니다. 해당 에러는 Mecab에서 사용자 사전(user dictionary)를 추가할 때 ./tools/add-userdic.sh을 실행 했을 때 나는 오류입니다. 포스팅 본문 Python으로 텍스트 데이터 특히, 자연어 처리를 할 때 형태소 분석기를 많이 사용합니다. 그리고 다양한 형태소 분석기 중 인기 있는 형태소 분석기 Mecab(은전한닢 이라고도 불리웁니다.)이 있습니다. Mecab은 속도도 빠르고, 다른 konlpy 형태소 분석기보다 정확하여 많이 사용합니다. 또한, 사용자 단어(user dictionary)를 쉽게 추가할 수 있기 때문에 매우 유용합니다. Mecab..
포스팅 개요 집에서는 윈도우를 활용해서 사용하지만 회사에서는 mac을 사용합니다. 그러다보니 windows 환경에서 python 설치하는 여러 이슈와 mac에서 나오는 여러 이슈가 좀 다른데요. 이번 포스팅은 mac os 환경에서 python konlpy를 설치하는 방법과 에러가 나올 때 대처할 수 있는 방법에 대해 소개합니다. 본문 mac 환경에서 개발 환경을 구축하는 것은 매우매우 쉽습니다. 개발자분들이 윈도우를 자주 사용안하시는 이유가 있으니까요 ㅎㅎ (저도 GPU만 아니었으면..) 때문에 mac에서 python 환경을 다루는 것도 쉽습니다. mac os에서 konlpy를 설치하려면 단순히 아래 명령어만 입력하면 됩니다. pip install konlpy 하지만 이게 mac에서 오류가 발생할 수 있..
이전 포스팅에서 형태소 분석기 중 하나인 은전한닢(mecab)을 설치를 해보았습니다. https://lsjsj92.tistory.com/491 형태소 분석기 MeCab! 은전한닢을 설치하고 파이썬과 연동하기! 요즘 자연어처리 (NLP)가 정말 핫합니다 텍스트 데이터를 활용하면 다양한 가치를 찾을 수 있고 재미있는 분석이 가능하기 때문이죠 그러나 우리나라 텍스트 데이터 분석은 형태소 분석기가 많이 필요합니다 영어.. lsjsj92.tistory.com 하지만 형태소 분석기를 하다보면 형태소 분석이 되지 않는 단어들이 있습니다. 이런 단어들은 형태소 분석기의 큰 단점이라고 볼 수 있죠 하지만 은전한닢 mecab에서는 사용자 단어 사전(user word dictionary)을 구축해서 형태소 분석이 되지 않는..
요즘 자연어처리 (NLP)가 정말 핫합니다 텍스트 데이터를 활용하면 다양한 가치를 찾을 수 있고 재미있는 분석이 가능하기 때문이죠 그러나 우리나라 텍스트 데이터 분석은 형태소 분석기가 많이 필요합니다 영어 같은 경우에는 띄어쓰기로만 해도 커버가 가능하지만 한글은 그게 쉽지 않기 때문이죠 왜냐하면 사람들이 띄어쓰기도 잘 하지 않을 뿐더러 맞춤법, 은어 등이 많기 때문입니다. 그래서 형태소 분석기를 많이 사용하죠 예전에 형태소 분석기 중 하나인 konlpy를 설치한 것을 포스팅했습니다.(https://lsjsj92.tistory.com/442) 또한, 카카오 형태소 분석기(khaiii) 카이라고 불리우는 것도 포스팅 했었습니다.(https://lsjsj92.tistory.com/408) 사실 저는 MeCab..
얼마전 제 블로그에 keras를 활용해서 자연어처리(NLP) 개인 프로젝트 진행한 것을 올렸습니다. https://lsjsj92.tistory.com/476 파이썬 딥러닝 기반 욕설 탐지 시스템 개발(개인 프로젝트)해보기! 이번 포스팅은 파이썬 케라스와 장고(python keras, python django)를 활용한 딥러닝 기반 욕설 탐지 시스템을 개인적으로 만들어본 후기입니다. 데이터 특성 상 욕설이 포함되어 있을 수 있습니다! 만약 읽게 되.. lsjsj92.tistory.com 해당 글입니다. 아직까지 초안 단계일 뿐이고 부족함이 많은 개발 단계입니다. 더 많은 데이터를 쌓아야하며, 여러가지 연구해야할 것들이 많습니다 지금은 비록 딥러닝으로 욕설을 탐지하지만 나아가 더 많은 것들을 탐지할 수 있는..
파이썬으로 딥러닝을 해봅시다!이번 포스팅은 파이썬(python)의 케라스(keras) 딥러닝 라이브러리를 이용해서자연어 처리(NLP)를 해봅니다. 데이터는 네이버 영화 평점 데이터를 활용합니다.사실 이 딥러닝을 한지는 꽤 되었습니다.모두의 연구소에서 진행한 모두콘(moducon)때에 자연어 처리 대회가 있었는데요그때 참여했던 소스입니다. 당시는 3등을 했습니다(정확도가 별로 높지는 않지만..)1, 2등 분들의 코드나, 아이디어를 얻고 싶어서 모두연에 요청도 했는데 ㅠ끝내는 받지 못했네요 ㅠㅠ아무튼 저는 아래와 같은 방식으로 자연어 처리 딥러닝을 진행했습니다. 먼저 형태소 분석기가 인식하지 못할 단어를 모아서 구축했습니다.자연어 처리에서 형태소 분석기는 자주 사용하는데요저는 은전한닢(mecab)을 자주 사..
해당 글은 (lsjsj92.tistory.com/612) 윈도우에서 파이썬 konlpy 형태소 분석기 및 Mecab(은전한닢) 설치하기 - Python install konlpy on windows 포스팅 개요 이번 포스팅은 윈도우에서 파이썬 형태소 분석기인 konlpy와 은전한닢(Mecab)을 설치하는 방법을 정리하는 포스팅입니다. 사실, 해당 내용은 2년전에 블로그에 올리긴 했습니다. (lsjsj92 lsjsj92.tistory.com 에서 내용을 추가하여 업데이트 하였습니다! 자연어 처리를 하다보면 자연스레 형태소 분석기를 많이 사용합니다. 저는 본래 mecab(은전한닢) 형태소 분석기를 많이 사용하는데요 사용자 사전도 구축할 수 있고 꽤나 정확도가 좋기 떄문입니다. 하지만 은전한닢은 윈도우에서 사..
벌써 이것을 진행한지는 꽤 되었지만 이 블로그에는 올리지 않아서 다시 올립니다~원본 게시글은https://post.naver.com/viewer/postView.nhn?volumeNo=16628864&memberNo=34022432 여기에 올려져 있습니다~파이썬으로 텍스트 데이터를 분석하는 작업인데 소셜 네트워크 서비스(SNS) 데이터를 활용합니다 타겟 데이터는 비트코인, 이더리움 등의 암호화폐(가상화폐)로 유명한 오픈 커뮤니티인 코인판(coinpan)을 활용합니다코인판에서 나온 메디블록(mediblock) 게시글을 분석해서 메디블록과 관련된 텍스트 데이터를 분석해보려고 합니다!참고로 이 분석은 벌써 시간이 반년정도 되었습니다.지금과는 이슈가 다를 것입니다.약올림이라는 어플이 나왔을 때 했던 프로젝트고본..
안녕하세요! 요즘 날씨가 갑자기 추워졌네요. 건강 조심하세요 지난 주에 카카오 형태소 분석기(khaiii)설치 및 은전한닢(mecab)과 비교를 했었습니다.https://lsjsj92.tistory.com/408궁금하신 분들은 해당 글 보시면 되겠습니다. 이 글을 올리고 나서 몇몇 분들이 이런 말씀을 해주셨습니다.'실제 데이터셋 성능 비교'와 '실행 시간 비교'를 해달라고 요청이 조금 있었습니다.(아무래도 NLP, 자연어 처리에서는 성능이 중요하니까요)그래서 이번 포스팅은 실제 데이터셋 성능 비교를 할 것입니다.LSTM 모델을 기반으로 문서 카테고리 분류를 해볼 것입니다. 또한, 형태소 분석기를 돌리면서 성능 시간도 측정해봅니다.(시간상 mecab과 비교뿐이 못했습니다.) 데이터셋은 몇개 못했습니다. 저..
그저께 금요일. 정신없던 오전 일정을 마치고 잠시 점심시간까지 쉴 겸 텐서플로우 코리아 페이스북을 들어갔다근데 갑자기 눈에 확 보이는 소식! IT쪽에서는 농담반 진담반으로 갓카오라고 불리우는 카카오에서 딥러닝 기반 형태소 분석기가 나왔다고 한 소식이었다!헐 이게 뭐지 싶었다.기존에는 보통 konlpy나 nltk를 많이 사용했는데(본인은 mecab, 은전한닢을 자주 사용) 딥러닝 기반 형태소 분석기라니!그래서 좀 시간이 비는 일요일에 해봐야겠다~ 라고 생각하고 있었다.블로그에 올려야하나 말아야 하나 고민도 했는데 마침 케라스 코리아에서 이 주제에서 얘기 하다보니까 공유해달라는 말씀이 있으셔서 이렇게 블로그에 적어본다. (참고로 저는 초보자입니다.. 자연어처리와 딥러닝은 독학으로 시간 날 때 공부하고 있구요..