목록2019/02 (9)
꿈 많은 사람의 이야기
자연어 처리를 공부하면서 읽는 책(https://wikibook.co.kr/nlp/) 내용중에 유사도에 대해서 나온 내용이 있어 해당 내용과 더불어 각종 자료를 찾아 정리합니다. 유사도는 문장이 유사한지 측정해야 할 때 사용합니다. 텍스트 유사도에서 사용되는 것입니다. 자주 쓰이는 유사도 자카드 유사도 유클리디언 유사도 맨하탄 유사도 코사인 유사도 가 있습니다. 유클리디언은 유클리디안 거리(Euclidean Distance)을 이용하고 맨하탄 유사도는 맨하탄 거리(Manhattan Distance)를 이용하는 등의 특징이 있죠 하나씩 정리를 해봅니다 1. 자카드 유사도 자카드 유사도(자카드 지수)는 두 문장을 각각 단어의 집합으로 마든 뒤 두 집합을 통해 유사도를 측정하는 방식 중 하나입니다. 측정하는 ..
해당 글은 (lsjsj92.tistory.com/612) 윈도우에서 파이썬 konlpy 형태소 분석기 및 Mecab(은전한닢) 설치하기 - Python install konlpy on windows 포스팅 개요 이번 포스팅은 윈도우에서 파이썬 형태소 분석기인 konlpy와 은전한닢(Mecab)을 설치하는 방법을 정리하는 포스팅입니다. 사실, 해당 내용은 2년전에 블로그에 올리긴 했습니다. (lsjsj92 lsjsj92.tistory.com 에서 내용을 추가하여 업데이트 하였습니다! 자연어 처리를 하다보면 자연스레 형태소 분석기를 많이 사용합니다. 저는 본래 mecab(은전한닢) 형태소 분석기를 많이 사용하는데요 사용자 사전도 구축할 수 있고 꽤나 정확도가 좋기 떄문입니다. 하지만 은전한닢은 윈도우에서 사..
벌써 이것을 진행한지는 꽤 되었지만 이 블로그에는 올리지 않아서 다시 올립니다~원본 게시글은https://post.naver.com/viewer/postView.nhn?volumeNo=16628864&memberNo=34022432 여기에 올려져 있습니다~파이썬으로 텍스트 데이터를 분석하는 작업인데 소셜 네트워크 서비스(SNS) 데이터를 활용합니다 타겟 데이터는 비트코인, 이더리움 등의 암호화폐(가상화폐)로 유명한 오픈 커뮤니티인 코인판(coinpan)을 활용합니다코인판에서 나온 메디블록(mediblock) 게시글을 분석해서 메디블록과 관련된 텍스트 데이터를 분석해보려고 합니다!참고로 이 분석은 벌써 시간이 반년정도 되었습니다.지금과는 이슈가 다를 것입니다.약올림이라는 어플이 나왔을 때 했던 프로젝트고본..
안녕하세요. 이번 포스팅은 파이썬 업무 자동화 편입니다. 지난 포스팅에서 파이썬으로 pdf를 엑셀로 만드는 자동화에 대해서 포스팅을 했었는데요이번 포스팅은 엑셀 데이터를 자동으로 데이터 흐름도(data flow chart)로 만들어주는 것을 해보려고 합니다.데이터 흐름도가 무엇인지, 어떻게 활용될 수 있는지 등 차근히 알아보죠 단순히 구글에 데이터 흐름도라고 검색하시면 이렇게 그림이 나오는 것을 볼 수 있습니다.음 이렇게 보니까 이번에 진행하는 것은 데이터 흐름도와 100% 일치한다고는 볼 수 없네요하지만 100% 일치하도록 만들 수도 있습니다 살짝 dot format에 가깝습니다.dot은 graph description language라고 불리는데요텍스트 데이터를 흐름도 처럼 그려주는 것입니다.단순히 ..
요즘 db tool을 dbeaver로 사용을 많이 하고 있습니다.근데 환경이 바뀌면서 제 개인 pc에 설치를 했는데The server time zone value '´ëÇѹα¹ Ç¥ÁؽÃ' is unrecognized or represents more than one time zone. You must configure either the server or JDBC driver (via the serverTimezone configuration property) to use a more specifc time zone value if you want to utilize time zone support. 무슨 이런 에러가 나오면서 mysql과 연동이 안되더라구요그래서 이 해결 방법을 찾아보았습니다. ..
벌써 꽤 되었지만 지난 포스팅에서 도커(docker)에다가 centos7을 구축하고그 위에 하둡, 스파크, 제플린을 설치해서 배포까지 했습니다.과정은 아래 링크를 따라가시면 됩니당https://lsjsj92.tistory.com/418이거는 도커에 하둡(hadoop) 설치https://lsjsj92.tistory.com/422도커에 하둡(hadoop) 설치 후 아파치 스파크(apache spark) 설치https://lsjsj92.tistory.com/425아파치 제플린(apache zeppelin) 설치순서대로 따라가시면 1편부터 보실 수 있습니다. 이번 포스팅은현재 아파치 제플린까지 설치되어 있는 상태인데요여기에 이제 apache hive를 설치해보려고 합니다.하이브는 기존의 맵리듀스(mapreduc..
이번 캐글 필사 편은 지난 필사 편(https://lsjsj92.tistory.com/435)에 이은 home credit의 두 번째 필사입니다. 이번에는 다른 커널을 진행해봅니다.지난 커널에서는 EDA를 위주로 봤는데요이번에는 실제 모델을 만들고 제출을 해봅니다.그리고 application_train.csv의 기본 파일 외에 bureau라는 data를 가지고 고객이 이 회사에서 대출하기 전에 다른 금융 기관에서 대출했던 내역을 참고해서 모델을 만들어 봅니다. 필사한 커널은 사진 위에 나와있습니다.마찬가지로 기본적인 numpy, pandas, matplotlib, seaborn을 import합니다.그리고 application_train, test.csv를 가져오지 않고 bureau.csv를 가져옵니다.이..
어느덧 설이 끝나고 한 주가 지났네요몸도 안좋았고 좀 정신이 없습니다 이번 포스팅은 apahce flume(아파치 플럼)과 apache kafka에 대해서 알아봅니다.빅데이터와 관련된 공부를 하게 되면 당연히 apache open source project에 대해서 많이 공부하게 되는데요대표적인게 하둡이죠.저장 하기 전에 수집 단계에서 많이 사용되는 소프트웨어가 플럼과 카프카입니다.먼저 플럼을 알아보고 그 다음 카프카(kafka)에 대해서 알아봅니다.이번 포스팅은 지난 게시글(하둡과 주키퍼, 얀 설치) 이후의 글입니다.https://lsjsj92.tistory.com/432https://lsjsj92.tistory.com/433을 참고하시면 되겠습니다.그리고 이 내용은 실무로 배우는 빅데이터 기술 책의 ..
안녕하세요! 이 글을 쓰는 현재 설 연휴가 시작되었네요모두들 새해 복 많이 받으세요!올 한해 건강하시고 하는 일 다 잘 되시길 바랍니다! 어느덧 새벽 5시 캐글 필사 5주차입니다.벌써 5주차네요이제 3번째 주제로 넘어갔습니다.처음은 타이타닉, 두 번째는 porto 데이터였습니다.이제는 home credit 대회를 기준으로 진행해보려고 합니다.근데 여기까지 하면서 느낀점이 있다면 캐글 필사를 하면서 진짜 하나를 제대로 해야겠다는 느낌이 드네요계속 주제는 넘어가지만 porto 데이터와 타이타닉 데이터는 계속 중간중간 복습을 하고 있습니다.안그러면 계속 까먹네요 ㅠ 아무튼 시작하겠습니다. 이 데이터 셋의 배경은 위 설명과 같습니다.신용기록이 없는 사람들에게도 대출이 가능하도록 이 사람이 상환 능력이 되는가? ..