목록코사인 유사도 (2)
꿈 많은 사람의 이야기
포스팅 개요 이번 포스팅은 파이썬(Python)에서 효율적인 벡터 유사도(vector similarity)를 구해주는 Faiss에 대해서 간단한 사용법을 정리합니다. 보통 벡터 유사도는 코사인 유사도(cosine similarity) 등이 구현된 라이브러리를 사용하는데요. 그 중 Faiss는 매우 빠르고 효율적입니다. 이러한 Faiss를 활용해서 vector similarity를 구하는 방법과 ID와 Vecotr를 Mapping하는 방법도 정리해보고자 합니다. 제가 참고한 자료는 아래와 같습니다. github.com/facebookresearch/faiss github.com/facebookresearch/faiss/wiki/Getting-started 포스팅 본문 Faiss는 facebook에서 만든 ..
자연어 처리를 공부하면서 읽는 책(https://wikibook.co.kr/nlp/) 내용중에 유사도에 대해서 나온 내용이 있어 해당 내용과 더불어 각종 자료를 찾아 정리합니다. 유사도는 문장이 유사한지 측정해야 할 때 사용합니다. 텍스트 유사도에서 사용되는 것입니다. 자주 쓰이는 유사도 자카드 유사도 유클리디언 유사도 맨하탄 유사도 코사인 유사도 가 있습니다. 유클리디언은 유클리디안 거리(Euclidean Distance)을 이용하고 맨하탄 유사도는 맨하탄 거리(Manhattan Distance)를 이용하는 등의 특징이 있죠 하나씩 정리를 해봅니다 1. 자카드 유사도 자카드 유사도(자카드 지수)는 두 문장을 각각 단어의 집합으로 마든 뒤 두 집합을 통해 유사도를 측정하는 방식 중 하나입니다. 측정하는 ..