목록한글 (4)
꿈 많은 사람의 이야기
얼마전부터 계속 황당한 일을 겪고 있습니다 바로 크롬 브라우저에서 한글을 입력을 하면 마지막 글자에 밑줄이 쳐지는 것입니다. 뭐 여기까지는 그래도 괜찮은데 문제는 엔터를 눌러서 문단을 바꾼다거나, 문장을 종료해서 다른 글을 또 쓰려고 하면 해당 밑줄이 그어져 있는 커서에 글자가 갑자기 삽입이 된다는 것입니다. 마치 한글이나 워드에서 insert 눌렀을 때 처럼, 삽입이 됩니다... 이렇게 저 위에 처럼 커서가 남겨지게 됩니다. 밑줄처럼요 네이버가 문제가 아닙니다. 구글에서도 똑같아요 그냥 chrome 브라우저를 사용하면 다 저렇게 됩니다 이게 무슨 문제일까??? 이게 내 컴퓨터 문제인가?? 알고보니 크롬 오류라고 합니다. 버그라고 하네요 저 뿐만 아니라 많은 사람들이 겪고 있었나봅니다 저렇게 공감도 많네..
요즘 자연어처리 (NLP)가 정말 핫합니다 텍스트 데이터를 활용하면 다양한 가치를 찾을 수 있고 재미있는 분석이 가능하기 때문이죠 그러나 우리나라 텍스트 데이터 분석은 형태소 분석기가 많이 필요합니다 영어 같은 경우에는 띄어쓰기로만 해도 커버가 가능하지만 한글은 그게 쉽지 않기 때문이죠 왜냐하면 사람들이 띄어쓰기도 잘 하지 않을 뿐더러 맞춤법, 은어 등이 많기 때문입니다. 그래서 형태소 분석기를 많이 사용하죠 예전에 형태소 분석기 중 하나인 konlpy를 설치한 것을 포스팅했습니다.(https://lsjsj92.tistory.com/442) 또한, 카카오 형태소 분석기(khaiii) 카이라고 불리우는 것도 포스팅 했었습니다.(https://lsjsj92.tistory.com/408) 사실 저는 MeCab..
안녕하세요! 요즘 날씨가 갑자기 추워졌네요. 건강 조심하세요 지난 주에 카카오 형태소 분석기(khaiii)설치 및 은전한닢(mecab)과 비교를 했었습니다.https://lsjsj92.tistory.com/408궁금하신 분들은 해당 글 보시면 되겠습니다. 이 글을 올리고 나서 몇몇 분들이 이런 말씀을 해주셨습니다.'실제 데이터셋 성능 비교'와 '실행 시간 비교'를 해달라고 요청이 조금 있었습니다.(아무래도 NLP, 자연어 처리에서는 성능이 중요하니까요)그래서 이번 포스팅은 실제 데이터셋 성능 비교를 할 것입니다.LSTM 모델을 기반으로 문서 카테고리 분류를 해볼 것입니다. 또한, 형태소 분석기를 돌리면서 성능 시간도 측정해봅니다.(시간상 mecab과 비교뿐이 못했습니다.) 데이터셋은 몇개 못했습니다. 저..
그저께 금요일. 정신없던 오전 일정을 마치고 잠시 점심시간까지 쉴 겸 텐서플로우 코리아 페이스북을 들어갔다근데 갑자기 눈에 확 보이는 소식! IT쪽에서는 농담반 진담반으로 갓카오라고 불리우는 카카오에서 딥러닝 기반 형태소 분석기가 나왔다고 한 소식이었다!헐 이게 뭐지 싶었다.기존에는 보통 konlpy나 nltk를 많이 사용했는데(본인은 mecab, 은전한닢을 자주 사용) 딥러닝 기반 형태소 분석기라니!그래서 좀 시간이 비는 일요일에 해봐야겠다~ 라고 생각하고 있었다.블로그에 올려야하나 말아야 하나 고민도 했는데 마침 케라스 코리아에서 이 주제에서 얘기 하다보니까 공유해달라는 말씀이 있으셔서 이렇게 블로그에 적어본다. (참고로 저는 초보자입니다.. 자연어처리와 딥러닝은 독학으로 시간 날 때 공부하고 있구요..