목록python (85)
꿈 많은 사람의 이야기
포스팅 목적 이번 포스팅은 Python 형태소 분석기 중 하나인 Mecab(은전한닢)에서 나오는 에러를 해결하는 방법에 대해 정리합니다. 해당 에러는 Mecab에서 사용자 사전(user dictionary)를 추가할 때 ./tools/add-userdic.sh을 실행 했을 때 나는 오류입니다. 포스팅 본문 Python으로 텍스트 데이터 특히, 자연어 처리를 할 때 형태소 분석기를 많이 사용합니다. 그리고 다양한 형태소 분석기 중 인기 있는 형태소 분석기 Mecab(은전한닢 이라고도 불리웁니다.)이 있습니다. Mecab은 속도도 빠르고, 다른 konlpy 형태소 분석기보다 정확하여 많이 사용합니다. 또한, 사용자 단어(user dictionary)를 쉽게 추가할 수 있기 때문에 매우 유용합니다. Mecab..
포스팅 개요 이번 포스팅은 test code coverage에 대해서 알아봅니다. 그냥 코드 커버리지(code coverage)라고도 불리우는 방법입니다. 그리고 파이썬(Python)에서 test code coverage를 하는 방법에 대해서도 함께 알아봅니다. test code 작성은 이전 포스팅(https://lsjsj92.tistory.com/572)내용을 기반으로 진행됩니다. 포스팅 본문 코드 커버리지(code coverage)란 무엇일까요? code coverage는 소프트웨어 프로그램에서 테스트 케이스가 얼마나 충족되었나? 정도로 생각할 수 있습니다. 즉, 코드에서 테스트가 얼마나 충족이 되었나? 입니다. 흔히, test code를 작성하게 되면 coverage도 같이 측정하게 되는데요. 이때..
포스팅 개요 이번 포스팅은 Python에서 Test Case를 작성하고 나아가 TDD(Test Driven Development)에 활용할 수 있는 unittest를 학습해봅니다. 본 글은 아래 참조 리스트를 참고하였습니다. https://docs.python.org/ko/3/library/unittest.html 포스팅 본문 요즘, 개발 관련 스터디나 모임을 가게 되면 많이 듣는 단어가 TDD입니다. TDD란 무엇일까요? TDD란? TDD는 Test Driven Development의 약자로 테스트 주도 개발이라는 뜻을 가지고 있습니다. TDD는 소프트웨어를 개발하는 방법론 중 하나입니다. 개발자들이 작성하는 코드가, 혹은 우리가 코드를 리팩토링(refactoring)을 하게 될 때 제대로 동작하는지 ..
포스팅 개요 집에서는 윈도우를 활용해서 사용하지만 회사에서는 mac을 사용합니다. 그러다보니 windows 환경에서 python 설치하는 여러 이슈와 mac에서 나오는 여러 이슈가 좀 다른데요. 이번 포스팅은 mac os 환경에서 python konlpy를 설치하는 방법과 에러가 나올 때 대처할 수 있는 방법에 대해 소개합니다. 본문 mac 환경에서 개발 환경을 구축하는 것은 매우매우 쉽습니다. 개발자분들이 윈도우를 자주 사용안하시는 이유가 있으니까요 ㅎㅎ (저도 GPU만 아니었으면..) 때문에 mac에서 python 환경을 다루는 것도 쉽습니다. mac os에서 konlpy를 설치하려면 단순히 아래 명령어만 입력하면 됩니다. pip install konlpy 하지만 이게 mac에서 오류가 발생할 수 있..
저는 현재 머신러닝, 데이터 분석 관련 스터디를 진행하고 있습니다. 스터디를 진행하면서 계속 발생했던 이슈가 jupyter-notebook 실습 환경 이슈였는데요. 어떻게 하면 뒤에 앉으신 분들까지 주피터노트북이 잘 보일까 고민하다가 주피터 노트북을 ppt로 만들 수 있는 방법에 대해 알게 되어 글을 작성합니다. (사실.. 스터디 환경에선 크게 도움이 되지는 않았지만 아직 제가 사용법에 미숙해서 그런 것 같습니다.) 바로 Python에서 제공해주는 RISE라는 패키지를 사용하면 됩니다. 이거를 설치하면 jupyter-notebook에서 ppt와 같이 운영할 수 있습니다. 먼저 아나콘다에서 rise와 관련된 패키지를 설치해주어야 합니다. conda install -c conda-forge rise를 통해 ..
이번 포스팅은 아나콘다3를 활용해서 파이썬3.6(python3.6)을 설치해보도록 하겠습니다. 요즘 프로그래밍 언어 중 파이썬이 당연 핫합니다. 주로 data science 분야에서 매우 핫하다보니 그런데요 그러다보니 머신러닝, 딥러닝 기술로 인한 파이썬 수요가 굉장히 많습니다. 그래서 이번 포스팅은 최근 아나콘다 버전을 기준으로 파이썬 3.6 버전을 설치해보려고 합니다. 최근 anaconda3를 설치하면 python3.7 기준으로 받아집니다. 하지만, 아직 3.7이 여기저기서 버전 충돌이 일어난다고 들려오고 있어서 3.6으로 설치해보는 방법으로 소개해볼까합니다. 그럼 시작합니다 아나콘다(Anaconda)란? 아나콘다는(뱀 이름 아닙니다..) 파이썬에서 수학, 과학 분야에서 사용되는 여러 패키지들을 한 ..
아마 개발자 분들은 하루종일 컴퓨터 앞에 앉아 있어서 IDE 툴들의 색상을 어둡게 하시는 분들이 많을겁니다. 하얀색 화면은 눈이 너무 아프거든요 (저만 그런가요..) 특히 파이썬은 IDE 툴로 pycharm(파이참)을 많이 사용하는데 파이참은 설치할 때 theme를 어둡데 설정할 수 있어서 어두운 배경색을 가지고 개발을 할 수 있습니다. 그러나 파이썬 특성상 jupyter notebook 즉, 주피터 노트북으로도 개발을 많이 사용하는데요. 이게 기본이 하얀색입니다. 아래 사진처럼요 하양하양하죠 이게 이쁘긴하지만 화면을 오래보고 있으면 눈이 아픕니다. 안에 들어가서도 마찬가지구요 그래서 이 주피터 노트북의 색상, 테마를 변경하는 방법에 대해 포스팅할까합니다. jupyter의 테마를 바꾸는 것은 정말 간단합..
이전 포스팅에서 형태소 분석기 중 하나인 은전한닢(mecab)을 설치를 해보았습니다. https://lsjsj92.tistory.com/491 형태소 분석기 MeCab! 은전한닢을 설치하고 파이썬과 연동하기! 요즘 자연어처리 (NLP)가 정말 핫합니다 텍스트 데이터를 활용하면 다양한 가치를 찾을 수 있고 재미있는 분석이 가능하기 때문이죠 그러나 우리나라 텍스트 데이터 분석은 형태소 분석기가 많이 필요합니다 영어.. lsjsj92.tistory.com 하지만 형태소 분석기를 하다보면 형태소 분석이 되지 않는 단어들이 있습니다. 이런 단어들은 형태소 분석기의 큰 단점이라고 볼 수 있죠 하지만 은전한닢 mecab에서는 사용자 단어 사전(user word dictionary)을 구축해서 형태소 분석이 되지 않는..
가끔 웹 크롤러를 개발하다 보면 이런 상황이 있습니다. 윈도우에서 web crawler를 개발하면 당연히 화면이 있죠? 여기서 화면이라는 것은 window가 있다는 것입니다. 즉, 크롬 브라우저를 띄울 수 있고 그걸 볼 수 있습니다. 이러한 환경은 ubuntu나 centos에서도 마찬가지입니다. 하지만, 모든 환경이 다 이렇지 않습니다. linux 계열의 서버를 사용할 때 이런 window 개념이 없을 수도 있습니다. 말 그대로 kernel 상태만 주어지고 display가 없는 상태이죠 그럼 이 display가 없는 상태에서 python seleinum으로 웹 크롤러를 어떻게 개발할까요? selenium은 web browser를 화면에 띄우고 거기서 html 데이터를 가지고 옵니다. 근데 이 displa..
파이썬 개발을 하다 보면 pandas dataframe을 자주 사용합니다. 정말 너무 편리하기 때문입니다. mysql, mariadb와 같은 RDBMS에서 데이터를 가지고 올 때도 dataframe을 많이 사용하고 csv 파일 등을 읽을 때도 많이 사용하죠 특히 뭐 기타 언어들도 많이 사용하는 key, value 자료구조형인 파이썬에선 dict 구조도 많이 사용합니다 그리고 이 dict 구조를 dataframe으로도 많이 변환하죠 그래서 이번 포스팅은 그 방법에 대해서 알아보고 ValueError: DataFrame constructor not properly called! 에러에 대해서도 알아봅니다. 예를 들어 위와 같은 데이터가 있다고 해보죠 위와 같은 데이터 구조는 dict의 그냥 전형적인 구조입니..