목록Python (135)
꿈 많은 사람의 이야기
포스팅 개요 본 포스팅은 파이썬(Python)을 활용한 텍스트 분석에서 사용할 수 있는 다양한 형태소 분석기(tokenizer)를 사용해 한국어 단어를 원형으로 복구, 복원해주는 원형 복원기(혹은 분석기)를 소개하려고 합니다. 기존에 어떤 훌륭하신 분께서 만들어주신 원형 복원 분석기를 사용하는데요. 이 원형 복원 분석기가 너무 오래되서 현재 파이썬 환경에선 잘 동작하지 않습니다. 따라서 본 포스팅에서는 해당 한국어 원형 복원 형태소 분석기를 활용할 수 있도록 설치하고 설정하는 과정을 소개하려고 합니다. 참고로 본 실습에 필요한 기본적인 파이썬 라이브러리는 아래와 같은 리스트가 설치되어 있어야 합니다. (Python 3.7 이상 기준입니다.) konlpy mecab hanja ( 기존에 만들어주신 한국어 ..
포스팅 개요 이번 포스팅은 파이썬(Python)의 케라스(Keras)를 이용한 간단한 추천 시스템을 구현하는 포스팅입니다. 최근에 제가 진행한 추천 시스템 스터디에서 공유한 코드인데 블로그에 올릴까 말까 하다가 그래도 공유하면 좋겠다 라고 생각해서 올리게 되었습니다. 이번 포스팅에 나온 추천 모델은 추천 시스템 모델 중에서도 kaggle에서 제공되고 있는 book 데이터을 활용해서 구현해봅니다. 고급스러운 기법을 활용하는 것이 아닌, 간단한 행렬 Dot 연산과 fully connected layer를 이용해서 기본적인 추천 모델을 구현하고 소개하고자 합니다. 해당 글에서 소개된 모든 코드는 아래 제 github의 8번에 올려두었습니다. github.com/lsjsj92/recommender_system_..
포스팅 개요 이번 포스팅은 파이썬(Python)에서 효율적인 벡터 유사도(vector similarity)를 구해주는 Faiss에 대해서 간단한 사용법을 정리합니다. 보통 벡터 유사도는 코사인 유사도(cosine similarity) 등이 구현된 라이브러리를 사용하는데요. 그 중 Faiss는 매우 빠르고 효율적입니다. 이러한 Faiss를 활용해서 vector similarity를 구하는 방법과 ID와 Vecotr를 Mapping하는 방법도 정리해보고자 합니다. 제가 참고한 자료는 아래와 같습니다. github.com/facebookresearch/faiss github.com/facebookresearch/faiss/wiki/Getting-started 포스팅 본문 Faiss는 facebook에서 만든 ..
포스팅 개요 이번 포스팅은 최근 회사에서 프로젝트를 진행하며 겪은 파이썬(Python)에서 메모리 효율, 데이터 처리 속도 향상 등의 기본적인 처리 방법을 정리하는 포스팅입니다. 파이썬(Python)을 활용해서 데이터 분석이나 머신러닝 모델 작업을 진행할 때 csv와 같은 데이터를 pandas dataframe으로 불러오는데 이때 데이터 처리 하는 방법에 따라 효율적으로 용량을 줄이고, 속도도 향상시킬 수 있습니다. 이에 대한 간단한 방법을 정리하고자 합니다. 본 포스팅을 작성하면서 참고한 참고자료는 아래와 같습니다. stackoverflow.com/questions/9619199/best-way-to-preserve-numpy-arrays-on-disk www.w3resource.com/numpy/da..
포스팅 개요 최근 머신러닝(Machine Learning)과 딥러닝(Deep Learning) 시장에 자동화 열풍이 점점 더 세게 불어오고 있습니다. AutoML은 주어진 Dataset에 맞게 Machine Learning 알고리즘을 돌려서 가장 적합한 머신러닝 모델을 찾아주는 등 점점 더 Auto와 관련된 키워드가 Data Science, AI 시장에 불러오고 있습니다. 이번 포스팅은 그 자동화 시스템 중 Exploratory Data Analysis (EDA)를 자동화해주는 라이브러리를 소개해주는 포스팅입니다. 원래 Dataset에 대해서 다양한 분석을 진행합니다. EDA는 그 중 한 방법이며 시간을 어느정도 투자해야 하는 과정입니다. 이 자동화 라이브러리는 그것을 간단하게 제공해줍니다. 그 라이브러..
포스팅 개요 이번 포스팅은 Tensorflow 2.x 버전을 사용하면서 발견한 에러와 그 해결 방법에 대해서 정리합니다. 저의 환경은 아래와 같습니다. python 3.7 tensorflow 2.3 포스팅 본문 포스팅 개요에서도 말씀드렸듯이 이번 포스팅은 Python의 tensorflow 2.x 버전에서 겪을 수 있는 에러에 대해 정리합니다. 제가 구성한 tensorflow 버전은 2.3이고 에러는 NotImplementedError: Layer has arguments in `__init__` and therefore must override `get_config`. 라는 에러입니다. 위 에러가 나오게 된 배경 저는 아래와 같은 상황에서 위 에러를 경험할 수 있었습니다. Open되어 있는 Tensorf..
포스팅 개요 이번 포스팅은 Python으로 구현하는 추천 시스템(Recommender System with Python) 시리즈 중 하나입니다. 그 중 이번 포스팅은 Google Play store에도 적용된 방법인 Wide & Deep Learning for Recommender System 논문을 기준으로 진행합니다. 따라서 본 포스팅에서는 Wide & Deep Learning for RecSys 논문을 간략하게 정리하고 참고한 코드를 보면서 어떻게 추천이 진행되는지 정리하고자 합니다. 해당 추천 시스템 Python 구현 코드는 아래 제 github에 올려두었습니다. (해당 코드는 논문과 100% 일치하지 않음을 말씀드립니다.) https://github.com/lsjsj92/recommender_s..
포스팅 개요 슬랙(slack)은 요즘 정말 많이 사용하는 메신저 중 하나입니다. 메신저라고 하기도 좀 그렇고 뭔가 협업 툴? 같은 느낌이 많이 드는 서비스입니다. 이 슬랙의 장점은 API가 쉽게 제공된다는 것인데요. 이 API를 이용해서 Slack을 다채롭게 이용할 수 있습니다. 오늘 포스팅은 파이썬(Python)과 Slack을 연동해서 API로 call을 보낼 수 있는 기본적인 방법을 정리하고자 합니다. 해당 포스팅을 작성하며 참고한 자료는 아래와 같습니다. https://api.slack.com/messaging/webhooks https://github.com/slackapi/python-slackclient 포스팅 본문 개요에서 말씀드렸다시피 이번 포스팅은 메신저 Slack과 Python을 연동하..
포스팅 개요 이번 포스팅은 Python의 패키지를 관리해주는 pip install에 대해서 정리합니다. 그 중 github(혹은 gitlab 등)를 이용해서 pip install을 하는 방법에 대해서 정리를 해보려고합니다. 이렇게 git을 이용해서 pip install을 할 수 있는 환경을 만들어주면 본인만의 라이브러리를 구축하고 편하게 사용할 수 있기 때문에 여러 방면으로 유용합니다. 그래서 이거를 나중에도 사용할 수 있도록 아주 간단한 예시로! 미리 정리해두려고 합니다. 포스팅 본문 Python의 pip는 파이썬으로 패키지를 관리해주는 시스템인데요. 보통은 사람들이 만들어 놓은 패키지를 pip install을 이용해서 패키지를 설치합니다. 예를 들어서 아래와 같죠 pip install tensorfl..
포스팅 개요 이번 포스팅은 파이썬(Python)에서 용량이 큰 csv 파일을 읽고 처리할 수 있는 방법을 정리합니다. 파이썬을 활용해서 데이터 분석 혹은 모델링 등을 하다보면 대용량의 csv 파일을 많이 다루게 되는데요. 이때 메모리 부족으로 인해(memory error) 메모리 에러가 나오는게 일상입니다. 이러한 large size csv file을 python에서 다룰 수 있는 방법이 간단하게 있는데요. 그 방법을 정리하고자 합니다. 최근에 메모리 효율 및 속도를 빠르게 다루는 방법도 정리해두었습니다. lsjsj92.tistory.com/604 Python(파이썬)에서 데이터 메모리 효율, 처리 속도 향상 시키는 기본 방법 정리(feat. pandas, numpy) 포스팅 개요 이번 포스팅은 최근 회..