목록분류 전체보기 (527)
꿈 많은 사람의 이야기

포스팅 개요 지난 포스팅에서 오픈 소스 비즈니스 인텔리젼스 툴(Open source business intellgence tool)인 메타베이스(Metabase)에 대한 대락적인 소개를 했습니다. 또한, 데이터베이스(MySQL, MariaDB, Athena, Oracle) 연동하는 방법에 대해서도 작성했었습니다. 사실, Metabase의 가장 큰 강점은 Dashboard를 만들어서 데이터를 확인할 수 있다는 것입니다. 따라서 본 포스팅에서는 Metabase에서 Collection을 생성하고 대시보드(Dashboard)를 만드는 방법에 대해서 작성하려고 합니다. 지난 포스팅은 아래 링크와 같습니다. lsjsj92.tistory.com/609 Metabase 설치 방법 - MySQL(MariaDB) 연동 및..

포스팅 개요 Metabase(메타베이스)는 오픈 소스 비즈니스 인텔리젼스 툴(open source business intelligence tool)입니다. Database를 연동하고 그 연결된 DB에서 데이터를 시각화 할 수 있는 툴입니다. 기본적으로 SQL로 동작할 수 있고 간단하게 클릭 식으로도 볼 수 있는 매우 유용한 시각화 툴입니다. 그래서 이번 포스팅에서는 이 Metabase를 어떻게 설치할 수 있는지, 그 과정에서 무슨 에러가 발생할 수 있고 어떻게 대처할 수 있는지를 작성합니다. 또한, 기본적으로 Metabase는 AWS Athena 연동 및 Oracle 연동은 되지 않는데요. 이를 연동할 수 있는 방법도 작성하려고 합니다. 참고한 자료는 아래와 같습니다. www.metabase.com/do..

포스팅 개요 이번 포스팅은 추천 시스템 평가(Evaluation Metrics for recommender system)에 대해서 지극히 '개인적인' 생각을 정리한 포스팅입니다. '추천 시스템 평가는 어떻게 하면 좋을까?' 이 부분을 추천 시스템 프로젝트를 하면서 그리고 추천 시스템 스터디를 진행하면서 정말 많이 생각했었습니다. 그래서 제가 리딩을 했던 추천 시스템 스터디 마지막 날에 이 주제를 가지고 제가 발표를 했었고 그 내용을 이번 포스팅에 정리해보고자 합니다. 참고한 자료는 아래와 같습니다. towardsdatascience.com/an-exhaustive-list-of-methods-to-evaluate-recommender-systems-a70c05e121de medium.com/@cfpine..

2020년을 마치며 어느덧 2020년이 끝났다. 전반적으로 굉장히 많은 일이 있었고 그 중심에는 코로나 바이러스가 있었던 한 해였다. 하지만, 개인적으로는 코로나에 영향을 크게 안 받은 것 같고 안 좋은 것보단 득을 많이 봤던 한 해였던 것 같다. 2020년은 AI팀원으로 마무리를 지었고, 12월 28일 다니고 있던 회사를 퇴사했다. 그래서 이번 회고 제목에 AI팀 이라는 키워드를 넣었고 메인 프로젝트가 추천 시스템 프로젝트이었기에 추천 시스템 프로젝트로 마무리하는 2020년이라고 지었다. (작년 회고를 보니까 Data Science로 마무리하는 ~ 이었는데 1년이 지난 지금은 AI팀으로 바뀌었다) 나의 2020년을 요약하면 아래와 같이 될 것 같다. (기술적인 면을 위주로 적었다. 개인적으로 일어난 일..

포스팅 개요 이번 포스팅은 파이썬(Python)의 케라스(Keras)를 이용한 간단한 추천 시스템을 구현하는 포스팅입니다. 최근에 제가 진행한 추천 시스템 스터디에서 공유한 코드인데 블로그에 올릴까 말까 하다가 그래도 공유하면 좋겠다 라고 생각해서 올리게 되었습니다. 이번 포스팅에 나온 추천 모델은 추천 시스템 모델 중에서도 kaggle에서 제공되고 있는 book 데이터을 활용해서 구현해봅니다. 고급스러운 기법을 활용하는 것이 아닌, 간단한 행렬 Dot 연산과 fully connected layer를 이용해서 기본적인 추천 모델을 구현하고 소개하고자 합니다. 해당 글에서 소개된 모든 코드는 아래 제 github의 8번에 올려두었습니다. github.com/lsjsj92/recommender_system_..

포스팅 개요 이번 포스팅은 파이썬(Python)에서 효율적인 벡터 유사도(vector similarity)를 구해주는 Faiss에 대해서 간단한 사용법을 정리합니다. 보통 벡터 유사도는 코사인 유사도(cosine similarity) 등이 구현된 라이브러리를 사용하는데요. 그 중 Faiss는 매우 빠르고 효율적입니다. 이러한 Faiss를 활용해서 vector similarity를 구하는 방법과 ID와 Vecotr를 Mapping하는 방법도 정리해보고자 합니다. 제가 참고한 자료는 아래와 같습니다. github.com/facebookresearch/faiss github.com/facebookresearch/faiss/wiki/Getting-started 포스팅 본문 Faiss는 facebook에서 만든 ..

포스팅 개요 이번 포스팅은 최근 회사에서 프로젝트를 진행하며 겪은 파이썬(Python)에서 메모리 효율, 데이터 처리 속도 향상 등의 기본적인 처리 방법을 정리하는 포스팅입니다. 파이썬(Python)을 활용해서 데이터 분석이나 머신러닝 모델 작업을 진행할 때 csv와 같은 데이터를 pandas dataframe으로 불러오는데 이때 데이터 처리 하는 방법에 따라 효율적으로 용량을 줄이고, 속도도 향상시킬 수 있습니다. 이에 대한 간단한 방법을 정리하고자 합니다. 본 포스팅을 작성하면서 참고한 참고자료는 아래와 같습니다. stackoverflow.com/questions/9619199/best-way-to-preserve-numpy-arrays-on-disk www.w3resource.com/numpy/da..

포스팅 개요 이번 포스팅은 글또 5기를 참여하며 어떤 마음으로, 어떤 계획을 가지고 글을 작성할 것인지에 대한 다짐글이자 저의 고민글입니다. 개인적으로 글또는 4기에도 참여했었고 이번 5기에도 연속으로 참여하고 있는데요. 4기때는 저의 부족한 점이 무엇이었고 5기때는 어떻게 활동하고 싶은지 이번 포스팅을 통해 다짐해보고자 합니다. :) 글또 및 제가 4기때 참여했던 다짐글 및 마무리 글은 아래와 같습니다. 글또 : www.facebook.com/groups/geultto/ 글또 4기 때 다짐글 : lsjsj92.tistory.com/576 글또 4기 마무리 회고 글 : lsjsj92.tistory.com/595 포스팅 본문 4기에 대한 아쉬움 개인적으로 글또 4기에는 아쉬움이 많았던 기수였습니다. 제 개..

포스팅 개요 최근 머신러닝(Machine Learning)과 딥러닝(Deep Learning) 시장에 자동화 열풍이 점점 더 세게 불어오고 있습니다. AutoML은 주어진 Dataset에 맞게 Machine Learning 알고리즘을 돌려서 가장 적합한 머신러닝 모델을 찾아주는 등 점점 더 Auto와 관련된 키워드가 Data Science, AI 시장에 불러오고 있습니다. 이번 포스팅은 그 자동화 시스템 중 Exploratory Data Analysis (EDA)를 자동화해주는 라이브러리를 소개해주는 포스팅입니다. 원래 Dataset에 대해서 다양한 분석을 진행합니다. EDA는 그 중 한 방법이며 시간을 어느정도 투자해야 하는 과정입니다. 이 자동화 라이브러리는 그것을 간단하게 제공해줍니다. 그 라이브러..

포스팅 개요 이번 포스팅은 추천 시스템 논문 중 sequential base 기반 추천 시스템에 관하여 정리하는 포스팅입니다. 다양한 sequential base recommender system 논문이 있는데 이번 포스팅은 그 중 self-attentive sequential recommendation 이라는 논문을 정리합니다. 논문 제목 그대로 sequential based recommendation(recommender system) 추천과 관련한 추천 시스템입니다. 본 포스팅은 풀잎스쿨 12기 퍼실을 진행하며, 발표했던 자료를 기반으로(PPT를 기반으로) 구성되어서 사진 중간중간에 PPT 요소가 있음을 미리 알립니다. 또한, 해당 논문은 nlp 논문 attention is all you need에..