목록정확도 (2)
꿈 많은 사람의 이야기
안녕하세요! 이 글을 쓰는 현재 설 연휴가 시작되었네요모두들 새해 복 많이 받으세요!올 한해 건강하시고 하는 일 다 잘 되시길 바랍니다! 어느덧 새벽 5시 캐글 필사 5주차입니다.벌써 5주차네요이제 3번째 주제로 넘어갔습니다.처음은 타이타닉, 두 번째는 porto 데이터였습니다.이제는 home credit 대회를 기준으로 진행해보려고 합니다.근데 여기까지 하면서 느낀점이 있다면 캐글 필사를 하면서 진짜 하나를 제대로 해야겠다는 느낌이 드네요계속 주제는 넘어가지만 porto 데이터와 타이타닉 데이터는 계속 중간중간 복습을 하고 있습니다.안그러면 계속 까먹네요 ㅠ 아무튼 시작하겠습니다. 이 데이터 셋의 배경은 위 설명과 같습니다.신용기록이 없는 사람들에게도 대출이 가능하도록 이 사람이 상환 능력이 되는가? ..
머신러닝과 딥러닝을 혼자서 독학하면서 여러가지 상황에 맞닥드리게 되고 있다. 어찌저찌 해결을 해나가고 있지만, 어제 같은 경우는 도저히 혼자서 해결이 안되었다. val_loss가 나아지지 않았고, val_acc 즉 정확도가 높아지지 않은 문제가 있었다. 과적합(오버피팅, overfitting) 문제도 아니었다. 케라스에서는 오버피팅을 방지할 수 있다. Dropout이나 callbacks 라이브러리의 modelcheckpoint, earlystopping을 통해서 overfitting을 방지하기 때문이다. 근데 참 웃긴게 아래와 같은 상황이었다. 나는 데이터 셋을 2개로 나누어서 진행했다. 데이터가 너무 커서 경량화를 하나 추가했다. 예를 들어, 기존 데이터가 1G 짜리라면 경량화는 200MB짜리이다. 데..