목록분류 전체보기 (578)
꿈 많은 사람의 이야기
포스팅 개요 슬랙(slack)은 요즘 정말 많이 사용하는 메신저 중 하나입니다. 메신저라고 하기도 좀 그렇고 뭔가 협업 툴? 같은 느낌이 많이 드는 서비스입니다. 이 슬랙의 장점은 API가 쉽게 제공된다는 것인데요. 이 API를 이용해서 Slack을 다채롭게 이용할 수 있습니다. 오늘 포스팅은 파이썬(Python)과 Slack을 연동해서 API로 call을 보낼 수 있는 기본적인 방법을 정리하고자 합니다. 해당 포스팅을 작성하며 참고한 자료는 아래와 같습니다. https://api.slack.com/messaging/webhooks https://github.com/slackapi/python-slackclient 포스팅 본문 개요에서 말씀드렸다시피 이번 포스팅은 메신저 Slack과 Python을 연동하..
포스팅 개요 이번 포스팅은 kubeflow pipeline을 cron job(batch job)으로 반복 실행시키는 방법에 대해서 작성합니다. kubeflow cron job은 내부적으로 recurring job으로 보이고 이를 설정했을 때 scheduled workflows로 설정되는데요. 이를 설정하면 특정 시간, 혹은 특정 기간 마다 kubeflow pipeline을 반복적으로 실행합니다. 이번 포스팅은 이와 같은 방법에 대해 정리합니다. kubeflow 설치와 기본적인 설명은 지난 포스팅에서 작성했던 내용을 기반으로 설명합니다. 지난 포스팅은 아래 링크이므로 글을 읽다가 잘 모르시겠으면 참고해주세요. https://lsjsj92.tistory.com/580 kubeflow 설치하기 - Machin..
포스팅 개요 이번 포스팅은 Python의 패키지를 관리해주는 pip install에 대해서 정리합니다. 그 중 github(혹은 gitlab 등)를 이용해서 pip install을 하는 방법에 대해서 정리를 해보려고합니다. 이렇게 git을 이용해서 pip install을 할 수 있는 환경을 만들어주면 본인만의 라이브러리를 구축하고 편하게 사용할 수 있기 때문에 여러 방면으로 유용합니다. 그래서 이거를 나중에도 사용할 수 있도록 아주 간단한 예시로! 미리 정리해두려고 합니다. 포스팅 본문 Python의 pip는 파이썬으로 패키지를 관리해주는 시스템인데요. 보통은 사람들이 만들어 놓은 패키지를 pip install을 이용해서 패키지를 설치합니다. 예를 들어서 아래와 같죠 pip install tensorfl..
포스팅 개요 이번 포스팅은 파이썬(Python)에서 용량이 큰 csv 파일을 읽고 처리할 수 있는 방법을 정리합니다. 파이썬을 활용해서 데이터 분석 혹은 모델링 등을 하다보면 대용량의 csv 파일을 많이 다루게 되는데요. 이때 메모리 부족으로 인해(memory error) 메모리 에러가 나오는게 일상입니다. 이러한 large size csv file을 python에서 다룰 수 있는 방법이 간단하게 있는데요. 그 방법을 정리하고자 합니다. 최근에 메모리 효율 및 속도를 빠르게 다루는 방법도 정리해두었습니다. lsjsj92.tistory.com/604 Python(파이썬)에서 데이터 메모리 효율, 처리 속도 향상 시키는 기본 방법 정리(feat. pandas, numpy) 포스팅 개요 이번 포스팅은 최근 회..
포스팅 개요 이번 포스팅은 session based 추천 시스템(Recommender system)에 관해서 간단한 리뷰와 삽질 후기입니다. 최근 회사에서 sequential data에 대해서 recommender system을 진행하게 되었었는데요. 그때 여러 방면으로 조사하던 중 Session based recommendation 방법을 알게 되었습니다. 그리고 대표 논문 중 하나인 Session based recommendation with rnn 논문을 알게 되었고 이 논문에서 받은 아이디어를 기반으로 1주일 동안 개인적으로 시도해 보았던 것(결론은 삽질 ㅠ)들을 글로 정리해보고자 합니다. 논문과 해당 논문의 코드는 아래 URL에 있습니다. 논문 : https://arxiv.org/abs/1511..
포스팅 개요 이번 포스팅은 kubeflow 예제(kubeflow example)를 주제로 다룹니다. 지난 포스팅에 이어서 이번에는 kubeflow에서 실행시킨 machine learning 혹은 deep learning 모델에서 나온 metrics를 ( evaluation 값) 출력하는 방법에 대해서 알아봅니다. 또한, kubeflow에서 Condition이라는 것을 통해 어떤 조건을 체크하고 조건에 따라 분기가 일어나는 방법에 대해서 알아보려고 합니다. 저의 kubeflow 관련 지난 포스팅은 아래 링크와 같습니다. 참고 하실 분들은 참고하시면 되겠습니다. kubeflow install 방법 : https://lsjsj92.tistory.com/580 kubeflow example with iris :..
포스팅 개요 이번 포스팅은 파이썬(Python) 라이브러리 소개를 하는 글입니다. 파이썬에서 프로그래밍을 하다보면 터미널 화면에 로그를 찍거나, 텍스트를 출력하거나 하는 등의 작업을 빈번하게 수행합니다. 그러나, 일반적인 텍스트는 가독성이 좋지 않다는 단점이 있습니다. 이번 포스팅에서 소개해드릴 Python의 Rich library는 이러한 터미널 환경에서 텍스트 출력을 이쁘게(rich 하게) 꾸밀 수 있는 라이브러리 입니다. 굉장히 흥미롭고 재밌는 라이브러리이기에 소개하고자 합니다. 이번 포스팅은 아래 Rich 라이브러리 github에서 제공해주는 튜토리얼을 기반으로 진행해 보았습니다. https://github.com/willmcgugan/rich willmcgugan/rich Rich is a Py..
포스팅 개요 이번 포스팅은 네트워크 분석(network analysis)에서 커뮤니티 탐지(community detection)에 대해서 정리하는 글입니다. 또한, community detection의 알고리즘 중 louvain 알고리즘에 대해서도 간략하게 소개하려고 합니다. 본 포스팅에서 참조한 글과 파이썬(Python)으로 실습한 자료의 데이터 셋은 아래와 같습니다. https://www.kaggle.com/stackoverflow/stack-overflow-tag-network https://danbi-ncsoft.github.io/works/2018/11/12/network_analysis-1.html https://arxiv.org/abs/0803.0476 https://github.com/ta..
포스팅 개요 이번 포스팅은 지난 글(kubeflow pipeline iris data)에 이어 kubeflow 예제(kubeflow example)에 대해서 작성합니다. 지난 글은 kubeflow 설치하는 방법과 kubeflow를 간단하게 사용할 수 있는 방법에 대해서 알아보았는데요. 이번 포스팅은 kubeflow 예제를 타이타닉(titanic data)데이터와 함께 예제를 작성합니다. 특히, AWS 서비스들과 연동하여 머신러닝 파이프라인(machine learning pipeline)을 구축해 보려고 합니다. 지난 포스팅은 아래 링크이므로 혹시 kubeflow가 설치되어 있지 않거나, 간단한 kubeflow 예제를 보고 싶으신 분들은 참조하시길 바랍니다. kubeflow 설치 : https://lsjs..
포스팅 목적 이번 포스팅은 Python 형태소 분석기 중 하나인 Mecab(은전한닢)에서 나오는 에러를 해결하는 방법에 대해 정리합니다. 해당 에러는 Mecab에서 사용자 사전(user dictionary)를 추가할 때 ./tools/add-userdic.sh을 실행 했을 때 나는 오류입니다. 포스팅 본문 Python으로 텍스트 데이터 특히, 자연어 처리를 할 때 형태소 분석기를 많이 사용합니다. 그리고 다양한 형태소 분석기 중 인기 있는 형태소 분석기 Mecab(은전한닢 이라고도 불리웁니다.)이 있습니다. Mecab은 속도도 빠르고, 다른 konlpy 형태소 분석기보다 정확하여 많이 사용합니다. 또한, 사용자 단어(user dictionary)를 쉽게 추가할 수 있기 때문에 매우 유용합니다. Mecab..