목록NLP (33)
꿈 많은 사람의 이야기
자연어 처리를 공부하면서 읽는 책(https://wikibook.co.kr/nlp/) 내용중에 유사도에 대해서 나온 내용이 있어 해당 내용과 더불어 각종 자료를 찾아 정리합니다. 유사도는 문장이 유사한지 측정해야 할 때 사용합니다. 텍스트 유사도에서 사용되는 것입니다. 자주 쓰이는 유사도 자카드 유사도 유클리디언 유사도 맨하탄 유사도 코사인 유사도 가 있습니다. 유클리디언은 유클리디안 거리(Euclidean Distance)을 이용하고 맨하탄 유사도는 맨하탄 거리(Manhattan Distance)를 이용하는 등의 특징이 있죠 하나씩 정리를 해봅니다 1. 자카드 유사도 자카드 유사도(자카드 지수)는 두 문장을 각각 단어의 집합으로 마든 뒤 두 집합을 통해 유사도를 측정하는 방식 중 하나입니다. 측정하는 ..
안녕하세요! 요즘 날씨가 갑자기 추워졌네요. 건강 조심하세요 지난 주에 카카오 형태소 분석기(khaiii)설치 및 은전한닢(mecab)과 비교를 했었습니다.https://lsjsj92.tistory.com/408궁금하신 분들은 해당 글 보시면 되겠습니다. 이 글을 올리고 나서 몇몇 분들이 이런 말씀을 해주셨습니다.'실제 데이터셋 성능 비교'와 '실행 시간 비교'를 해달라고 요청이 조금 있었습니다.(아무래도 NLP, 자연어 처리에서는 성능이 중요하니까요)그래서 이번 포스팅은 실제 데이터셋 성능 비교를 할 것입니다.LSTM 모델을 기반으로 문서 카테고리 분류를 해볼 것입니다. 또한, 형태소 분석기를 돌리면서 성능 시간도 측정해봅니다.(시간상 mecab과 비교뿐이 못했습니다.) 데이터셋은 몇개 못했습니다. 저..
그저께 금요일. 정신없던 오전 일정을 마치고 잠시 점심시간까지 쉴 겸 텐서플로우 코리아 페이스북을 들어갔다근데 갑자기 눈에 확 보이는 소식! IT쪽에서는 농담반 진담반으로 갓카오라고 불리우는 카카오에서 딥러닝 기반 형태소 분석기가 나왔다고 한 소식이었다!헐 이게 뭐지 싶었다.기존에는 보통 konlpy나 nltk를 많이 사용했는데(본인은 mecab, 은전한닢을 자주 사용) 딥러닝 기반 형태소 분석기라니!그래서 좀 시간이 비는 일요일에 해봐야겠다~ 라고 생각하고 있었다.블로그에 올려야하나 말아야 하나 고민도 했는데 마침 케라스 코리아에서 이 주제에서 얘기 하다보니까 공유해달라는 말씀이 있으셔서 이렇게 블로그에 적어본다. (참고로 저는 초보자입니다.. 자연어처리와 딥러닝은 독학으로 시간 날 때 공부하고 있구요..