목록python (85)
꿈 많은 사람의 이야기
요즘 자연어처리 (NLP)가 정말 핫합니다 텍스트 데이터를 활용하면 다양한 가치를 찾을 수 있고 재미있는 분석이 가능하기 때문이죠 그러나 우리나라 텍스트 데이터 분석은 형태소 분석기가 많이 필요합니다 영어 같은 경우에는 띄어쓰기로만 해도 커버가 가능하지만 한글은 그게 쉽지 않기 때문이죠 왜냐하면 사람들이 띄어쓰기도 잘 하지 않을 뿐더러 맞춤법, 은어 등이 많기 때문입니다. 그래서 형태소 분석기를 많이 사용하죠 예전에 형태소 분석기 중 하나인 konlpy를 설치한 것을 포스팅했습니다.(https://lsjsj92.tistory.com/442) 또한, 카카오 형태소 분석기(khaiii) 카이라고 불리우는 것도 포스팅 했었습니다.(https://lsjsj92.tistory.com/408) 사실 저는 MeCab..
매번 centos 환경에 python3.x을 설치할 때 구글링을 해서 봤는데 이번 기회에 확 정리를 해버립니다 이 환경은 centos7 환경이구요. python3.x 버전을 설치합니다. 파이썬 설치해보기 갑시다 먼저 repository를 추가해야합니다. yum install -y https://centos7.iuscommunity.org/ius-release.rpm 를 입력합니다. 그러면 뭔가 쭉쭉 실행됩니다~ 위 사진처럼요~ 그리고 이제 필요한 라이브러리를 설치합니다 저는 python3.6을 주로 사용합니다. 그래서 파이썬 3.6 버전을 기준으로 설치합니다. yum -y install python36u python36u-libs python36u-devel python36u-pip 를 입력하면 됩니다...
텐서플로 책을 보다가 햇갈려서 정리하는 부분이다바로 concat인데이해를 했다가도 햇갈리고 그런다특히 axis 부분..axis = 0이냐axis = 1이냐axis = -1이냐3차원이면 axis = 2까지..tf.concat을 정리하면서 다시 정리한다 https://www.tensorflow.org/api_docs/python/tf/concat참고 tensorflow를 import하고 t1, t2가 저렇게 있다고 가정하자 모양은 (2, 3)이 된다즉, 바깥쪽에 2개가 있고 안쪽에 3개씩 있는 2차원 매트릭스이다. 이제 이것을 concat할 것이다 tf.concat([t1, t2], axis = 0)을 하게 되면 결과는 아래와 같이[[1,2,3], [4,5,6], [7,8,9], [10,11,12]로 나온다..
자연어 처리를 공부하면서 읽는 책(https://wikibook.co.kr/nlp/) 내용중에 유사도에 대해서 나온 내용이 있어 해당 내용과 더불어 각종 자료를 찾아 정리합니다. 유사도는 문장이 유사한지 측정해야 할 때 사용합니다. 텍스트 유사도에서 사용되는 것입니다. 자주 쓰이는 유사도 자카드 유사도 유클리디언 유사도 맨하탄 유사도 코사인 유사도 가 있습니다. 유클리디언은 유클리디안 거리(Euclidean Distance)을 이용하고 맨하탄 유사도는 맨하탄 거리(Manhattan Distance)를 이용하는 등의 특징이 있죠 하나씩 정리를 해봅니다 1. 자카드 유사도 자카드 유사도(자카드 지수)는 두 문장을 각각 단어의 집합으로 마든 뒤 두 집합을 통해 유사도를 측정하는 방식 중 하나입니다. 측정하는 ..
해당 글은 (lsjsj92.tistory.com/612) 윈도우에서 파이썬 konlpy 형태소 분석기 및 Mecab(은전한닢) 설치하기 - Python install konlpy on windows 포스팅 개요 이번 포스팅은 윈도우에서 파이썬 형태소 분석기인 konlpy와 은전한닢(Mecab)을 설치하는 방법을 정리하는 포스팅입니다. 사실, 해당 내용은 2년전에 블로그에 올리긴 했습니다. (lsjsj92 lsjsj92.tistory.com 에서 내용을 추가하여 업데이트 하였습니다! 자연어 처리를 하다보면 자연스레 형태소 분석기를 많이 사용합니다. 저는 본래 mecab(은전한닢) 형태소 분석기를 많이 사용하는데요 사용자 사전도 구축할 수 있고 꽤나 정확도가 좋기 떄문입니다. 하지만 은전한닢은 윈도우에서 사..
벌써 이것을 진행한지는 꽤 되었지만 이 블로그에는 올리지 않아서 다시 올립니다~원본 게시글은https://post.naver.com/viewer/postView.nhn?volumeNo=16628864&memberNo=34022432 여기에 올려져 있습니다~파이썬으로 텍스트 데이터를 분석하는 작업인데 소셜 네트워크 서비스(SNS) 데이터를 활용합니다 타겟 데이터는 비트코인, 이더리움 등의 암호화폐(가상화폐)로 유명한 오픈 커뮤니티인 코인판(coinpan)을 활용합니다코인판에서 나온 메디블록(mediblock) 게시글을 분석해서 메디블록과 관련된 텍스트 데이터를 분석해보려고 합니다!참고로 이 분석은 벌써 시간이 반년정도 되었습니다.지금과는 이슈가 다를 것입니다.약올림이라는 어플이 나왔을 때 했던 프로젝트고본..
안녕하세요. 이번 포스팅은 파이썬 업무 자동화 편입니다. 지난 포스팅에서 파이썬으로 pdf를 엑셀로 만드는 자동화에 대해서 포스팅을 했었는데요이번 포스팅은 엑셀 데이터를 자동으로 데이터 흐름도(data flow chart)로 만들어주는 것을 해보려고 합니다.데이터 흐름도가 무엇인지, 어떻게 활용될 수 있는지 등 차근히 알아보죠 단순히 구글에 데이터 흐름도라고 검색하시면 이렇게 그림이 나오는 것을 볼 수 있습니다.음 이렇게 보니까 이번에 진행하는 것은 데이터 흐름도와 100% 일치한다고는 볼 수 없네요하지만 100% 일치하도록 만들 수도 있습니다 살짝 dot format에 가깝습니다.dot은 graph description language라고 불리는데요텍스트 데이터를 흐름도 처럼 그려주는 것입니다.단순히 ..
회사에서 프로젝트를 하면서현재 html div 영역에 그러져 있는 이미지나, 그래프를 이미지(image)로 다운로드 가능하도록 해달라는 요구가 있었다그래서 '이게 되나?' 이러면서 찾아봤었는데처음에는 node js로 div image download 기능만 보이다가 더 찾아보니까html2canvas라는 js 라이브러리가 있었다 만약 이런 사진이 있다면 이렇게 이미지를 올리고이미지로 다운로드를 클릭을 하면 파일이 다운로드가 된다.파일명은 바꿀 수 있다 이렇게 png 파일로 다운로드가 된 것을 볼 수 있다.사용법은 의외로 정말 간단했다(물론 별의 별 오류를 다 겪었지만..) 버튼 하나 만들고 버튼 클릭 시 printdiv 함수를 호출하는데 $('#div_id')를 넘겨주면 된다.자바스크립트로 하실꺼면 doc..
최근에 캐글을 하면서 가장 많이 헷갈렸던 부분이바로 StratifiedKFold와 pandas에서 axis=0, 1의 대한 개념이었다. 아무것도 모르는 상태도 아니었고 개념적으로는 알고 있었는데막상 코드를 필사하면서 보니까 정말 헷갈렸었다그래서 정리를 간단하게 해보려고 한다. 먼저 간단하게 데이터셋을 만들어본다.pd.DataFrame을 통해서 만든다 자, 처음으로는 StratifiedKFold를 해본다.from sklearn.model_selection import StratifiedKFold를 통해 라이브러리를 가져온다.사용법은 정말 간단하다. StratifiedKFold를 선언하고 splits 개수와 shuffle 여부, random_state 등을 설정해준다.그리고 저 상태에서 바로 .split(x..
올만에 올리는 파이썬 데이터 분석글입니다.이번 파이썬 데이터 분석글은 주유소 데이터를 분석하는 것 입니다!요즘 기름값이 많이 싸졌죠?기름값이 저렴해진 이후로 서울 각 구 마다 어디가 저렴한지를 분석해봤습니다.그리고 셀프 주유일 떄와 아닐 때와 가격 차이도 봐보겠습니다~ 저는 데이터를 opinet에서 가져왔습니다.이 사이트는 저렴한 주유소를 잘 소개한 사이트입니다.그렇기 때문에 모든 주유소 데이터는 존재하지 않습니다.가령 많이 비싸거나 등등 데이터는 없더라구요하지만 사람들은 저렴한 기름값(휘발유나 경유 등)을 원하니까요 ㅎㅎ 이런 사이트인데요저렇게 서울시 예를 들어 강남구, 서초구, 노원구, 도봉구 등을 선택하면주유소를 추천해주면서 휘발유와 경유의 값을 보여줍니다.그리고 무엇보다! 엑셀로 받을 수 있습니다..