목록유사도 (2)
꿈 많은 사람의 이야기

포스팅 개요 이번 포스팅은 파이썬(Python)에서 효율적인 벡터 유사도(vector similarity)를 구해주는 Faiss에 대해서 간단한 사용법을 정리합니다. 보통 벡터 유사도는 코사인 유사도(cosine similarity) 등이 구현된 라이브러리를 사용하는데요. 그 중 Faiss는 매우 빠르고 효율적입니다. 이러한 Faiss를 활용해서 vector similarity를 구하는 방법과 ID와 Vecotr를 Mapping하는 방법도 정리해보고자 합니다. 제가 참고한 자료는 아래와 같습니다. github.com/facebookresearch/faiss github.com/facebookresearch/faiss/wiki/Getting-started 포스팅 본문 Faiss는 facebook에서 만든 ..
자연어 처리를 공부하면서 읽는 책 내용중에 유사도에 대해서 나온 내용이 있어 정리합니다. 유사도는 문장이 유사한지 측정해야 할 때 사용합니다.텍스트 유사도에서 사용되는 것입니다. 자주 쓰이는 유사도는자카드 유사도유클리디언 유사도맨하탄 유사도코사인 유사도가 있습니다. 유클리디언은 유클리디안 거리(Euclidean Distance)을 이용하고맨하탄 유사도는 맨하탄 거리(Manhattan Distance)를 이용하는 등의 특징이 있죠하나씩 정리를 해봅니다 1. 자카드 유사도자카드 유사도(자카드 지수)는 두 문장을 각각 단어의 집합으로 마든 뒤 두 집합을 통해 유사도를 측정하는 방식 중 하나입니다. 측정하는 방법은 두 집합의 교집합을 두 집합의 합집합으로 나눠줍니다. 자카드 유사도(자카드 지수)의 공식은 위와 ..