목록data (9)
꿈 많은 사람의 이야기
최근 다시 한 번 알고리즘, 자료구조를 공부하고 싶었다 솔직히 알고리즘까지는 아니더라도 자료구조라도 공부를 하고 싶었다 그래서 파이썬으로 코드를 작성하며 공부를 해보려고 한다 이번 편은 파이썬으로 해보는 자료구조 연결 리스트(linked list)이다 연결리스트는 어찌보면 배열과 비슷하지만 구조적으로 다르다 배열은 같은 성질끼리(요즘엔 언어에 따라서 다른 성질도 묶어도 되지만) 연속적으로 되어 있는 상태이다 연결 리스트(linked list)는 구조상으로 봤을 때 계속 링크를 따라서 이어지는 구조이다 이런식으로 말이다 하나의 노드에 데이터와 다음 노드를 가리키는 next point가 있다 이런 식으로 쭉 이어나가고 중간에 삽입, 삭제도 가능하도록 코드를 구성해보겠다 파이썬으로! python data st..
이전에 캐글(kaggle) nlp인 toxic 데이터를 가지고 필사를 했습니다https://lsjsj92.tistory.com/448 이번에도 마찬가지로 toxic 데이터를 가지고 캐글 커널을 필사합니다.기존에 했던 것과 같습니다. 하지만 어텐션 메커니즘이 추가된 코드이고 glove 데이터를 이용해서 모델 weight를 제공해줍니다.특히 glove 데이터를 추가해서 word embedding을 하는 방법은 정말 많이 사용해서 이번 기회에 정리하고자 합니다. 언제나 그렇듯이 필요한 라이브러리르 불러옵니다keras를 사용했고 모델과 전처리에 필요한 Tokenizer 및 LSTM, Embedding, Dropout 등을 가지고 옵니다그리고 이번 모델에서는 Attention을 class로 만들어서 사용하기 때문..
이번 커널 필사편은 자연어 처리 부분입니다.당분간은 자연어 처리 위주로 글을 올릴 예정입니다캐글에 있는 자연어 처리 데이터 중 쉬운 편에 속하는 스팸(sparm or ham) 데이터를 가지고 해당 글이 스팸인지 아닌지를 딥러닝으로 처리해보겠습니다.https://www.kaggle.com/uciml/sms-spam-collection-dataset캐글 데이터는 여기서 구할 수 있습니다! 먼저 필요한 라이브러리를 불러옵니다파이썬의 판다스(pandas), numpy와 그래프를 그릴 matplotlib, seaborn을 불러옵니다.그리고 머신러닝 라이브러리 scikit learn(사이킷런)과 딥러닝 라이브러리인 keras(케라스)를 불러옵니다 데이터는 v1, v2 컬럼으로 각각 라벨, 문장으로 되어있습니다.하지..
안녕하세요.새벽 5시 캐글 필사하기 3주차입니다.사실 캐글 필사는 계속 하고 있는데 블로그에 올리기가 너무 힘드네요요즘 바빠서 퇴근 시간이 늦다 보니(집오면 10시 ㅠ) 블로그에 올릴 시간이 없네요 ㅠ 3주차 주제는 porto 데이터 셋으로 진행합니다. 안전하게 운전을 하는 운전자를 예측하는 데이터입니다.데이터는 https://www.kaggle.com/c/porto-seguro-safe-driver-prediction 에 있습니다. 이번 주제도 1, 2주차에 걸쳐서 진행합니다. 1주차는 먼저 머신러닝 탐구생활이라는 책의 EDA 과정을 볼 것이고, 좀 이해하기 힘든 커널을 1개 필사했습니다.(아직도 이해가 안갑니다…) 시작해봅니다! 머신러닝 탐구생활 책을 기준으로 진행합니다. 역시 데이터부터 살펴보기 위..
최근 캐글을 자주하고 있습니다.(새벽 5시 시리즈를 올려야하는데.. 블로그 글 쓸 시간이 만만치 않아서 못올리고 있습니다 ㅠ)근데 캐글을 하면서 알 수 없는 에러를 자주 겪었습니다.그것에 대해서 몇 개 정리해보려고 합니다. 먼저 아래와 같은 사진 이슈입니다. timeout waiting for IOPub output 이라는 warning이 나옵니다.음 그렇게 치명적인 오류는 아닌 것 같은데요. 저는 이게 나오면서 커널이 멈추는 현상이 나왔습니다(kernel stopping)알고보니 이게 모델을 훈련 하는 등의 과정에서 output이 나오는데요.예를 들어 verbose값이 1이거나 이런 상황에서요. 이런 출력이 좀 무리?가 되는 것이 있나봅니다.verbose = 0으로 하면 별 문제없이 해결됩니다. 그리고..
올만에 올리는 파이썬 데이터 분석글입니다.이번 파이썬 데이터 분석글은 주유소 데이터를 분석하는 것 입니다!요즘 기름값이 많이 싸졌죠?기름값이 저렴해진 이후로 서울 각 구 마다 어디가 저렴한지를 분석해봤습니다.그리고 셀프 주유일 떄와 아닐 때와 가격 차이도 봐보겠습니다~ 저는 데이터를 opinet에서 가져왔습니다.이 사이트는 저렴한 주유소를 잘 소개한 사이트입니다.그렇기 때문에 모든 주유소 데이터는 존재하지 않습니다.가령 많이 비싸거나 등등 데이터는 없더라구요하지만 사람들은 저렴한 기름값(휘발유나 경유 등)을 원하니까요 ㅎㅎ 이런 사이트인데요저렇게 서울시 예를 들어 강남구, 서초구, 노원구, 도봉구 등을 선택하면주유소를 추천해주면서 휘발유와 경유의 값을 보여줍니다.그리고 무엇보다! 엑셀로 받을 수 있습니다..
파이썬은 아무래도 데이터 분석에 강화되어 있다보니까 지도와 관련된 api도 있다.그 중 많이 사용하는 것 중 하나가 구글맵이다.이번 포스팅은 파이썬에서 구글맵을 사용하는 방법을 알아보고자 한다. 지금 구글맵은 기존 구글맵스 API가 아닌 구글맵스플랫폼 단일 브랜드로 통합되었다. 관련 기사이다.https://cloud.google.com/maps-platform/에 들어가서 해야한다. 먼저 그 전에 프로젝트를 생성하자. https://cloud.google.com/maps-platform/?apis=maps여기서 프로젝트를 생성하고 처음 링크에서 진행한다. pick a product에서 원하는 상품을 선택하고project를 선택한다.본인은 soojinPython이라는 이름으로 프로젝트를 만들어두었다. 그리..
이번 포스팅은 파이썬을 이용해서 공공데이터를 분석합니다. 매년 마다 우리나라에 입국하는 입국자 데이터가 있는데요!뭐 여행으로, 의료목적으로 등등 다양하게 들어옵니다. 그래서 어떤 나라에서, 얼마만큼 사람들이 들어왔는지 분석해봅니다 파이썬(python)을 사용했구요.numpy, pandas, matplot, seaborn 라이브러리를 이용합니다.그리고 간단한 머신러닝 데이터로 로지스틱 회귀(logistic regression)을 사용합니다.이건 사이킷런(scikit learn)을 사용하구요. 자 그럼 시작해볼까요 데이터는 이렇게 되어 있습니다.안에 엑셀 파일을 가지고 데이터를 분석해야 하는데요.먼저 pandas를 이용해 데이터를 불러옵니다. 근데 이 컬럼이 별로 좋지 않아요.분석하기가 쉽지 않습니다.저는 ..
최근 캐글(kaggle)에 입문한 뉴비입니다.여러가지 시행착오를 겪으면서 캐글을 하고 있는데요좋은 데이터 셋과 오픈된 커널은 캐글의 정말 큰 강점입니다. 하지만 좀 여러모로 사용하기도 어려운 부분이 있습니다.어렵다기보다는 뭐가 뭔지 햇갈리는거죠 그 중 하나가 커널 삭제였습니다. 이제 캐글에서 커널을 삭제하는 방법을 소개합니다 먼저 본인 kaggle에 들어가서 my profile에 들어갑니다 그러면 위와 같이 kernels탭이 있는데요여기에 들어가면 본인이 추가한 커널(kernel)이 있습니다. 저 같은 경우는 잘못 생성된 커널이 좀 많았습니다.처음하는 것이라서.. 막 추가하다보니 ㅎㅎ그래서 필요한 커널 외에 전부 지우려고 합니다. 지우려는 커널에 들어가면요 이렇게 옵션이 뜹니다.(이 화면이 안나올 수도 ..