목록데이터 사이언스 (13)
꿈 많은 사람의 이야기
최근 캐글을 자주하고 있습니다.(새벽 5시 시리즈를 올려야하는데.. 블로그 글 쓸 시간이 만만치 않아서 못올리고 있습니다 ㅠ)근데 캐글을 하면서 알 수 없는 에러를 자주 겪었습니다.그것에 대해서 몇 개 정리해보려고 합니다. 먼저 아래와 같은 사진 이슈입니다. timeout waiting for IOPub output 이라는 warning이 나옵니다.음 그렇게 치명적인 오류는 아닌 것 같은데요. 저는 이게 나오면서 커널이 멈추는 현상이 나왔습니다(kernel stopping)알고보니 이게 모델을 훈련 하는 등의 과정에서 output이 나오는데요.예를 들어 verbose값이 1이거나 이런 상황에서요. 이런 출력이 좀 무리?가 되는 것이 있나봅니다.verbose = 0으로 하면 별 문제없이 해결됩니다. 그리고..
파이썬을 사용하다보면 특히 pandas를 많이 이용한다.데이터 처리에 매우 유용하기 때문이다 근데 이 pandas로는 주로 read_csv나 read_excel을 통해서 엑셀 및 csv 데이터를 많이 읽어드렸다.왜냐하면 보통 머신러닝 딥러닝 예제는 csv 파일에 있기 때문. 그러다가 문득 만약 db에 데이터가 있으면 어쩌지? 라는 생각을 했다.그리고 역시가 그 방법은 있었다. 준비는 간단하다. python3 기준으로 진행한다.그리고 db는 mysql로 잡는다! pip install pymysqlpip install sqlalchemy 로 먼저 관련 패키지를 설치한다. 그리고 이처럼 하면 된다.각 밑줄을 그어놓은 것은 환경에 따라 바뀌게 된다.root 부분은 유저1234는 비밀번호dbname은 데이터베이스..
이번 포스팅은 파이썬을 이용해서 공공데이터를 분석합니다. 매년 마다 우리나라에 입국하는 입국자 데이터가 있는데요!뭐 여행으로, 의료목적으로 등등 다양하게 들어옵니다. 그래서 어떤 나라에서, 얼마만큼 사람들이 들어왔는지 분석해봅니다 파이썬(python)을 사용했구요.numpy, pandas, matplot, seaborn 라이브러리를 이용합니다.그리고 간단한 머신러닝 데이터로 로지스틱 회귀(logistic regression)을 사용합니다.이건 사이킷런(scikit learn)을 사용하구요. 자 그럼 시작해볼까요 데이터는 이렇게 되어 있습니다.안에 엑셀 파일을 가지고 데이터를 분석해야 하는데요.먼저 pandas를 이용해 데이터를 불러옵니다. 근데 이 컬럼이 별로 좋지 않아요.분석하기가 쉽지 않습니다.저는 ..