목록공부 (172)
꿈 많은 사람의 이야기
파이썬에서 문자를 아스키 코드로, 아스키 코드를 문자로 변경하는 것은 매우 간단합니다 ord(문자) : 아스키 코드를 반환해준다 chr(숫자) : 숫자에 맞는 아스키 코드를 반환한다 위처럼 진행하면 아래와 같이 나오게 됩니다 정말 간단합니다. 아래는 아스키 코드표입니다 참고하세요~
프로그래밍을 하다 보면 자연어 처리에 관심이 가게 됩니다 자연어 처리는 인공지능(AI) 분야에서도 중요하게 생각되는 문제입니다 왜냐하면 사람이 말하는 자연어를 처리하고 인식할 줄 알아야 하기 때문입니다 예를 들어 i love you를 봤을 때 무엇이 주어이고, love라는 동사는 감정이 긍정인지, 부정인지 등을 인지해야하죠 이런 자연어 처리를 도와주는 라이브러리가 있습니다 파이썬 기준으로 NLTK라는 것이 있죠 보통 영어 단어를 인식하려고 많이 사용합니다. (한글은 KoNLPy 라는 것을 많이 사용하죠) 이 NLTK라는 것을 설치해보고 테스트 해보겠습니다 자 먼저 파이썬이 설치된 경로로 이동합니다 보통 c드라이브에 appdata->local->programs에 설치가 되어 있을거에요 본인 PC에서 잘 찾..
안녕하세요~ 이번 포스팅은 여성분들이 관심이 많은 립스틱에 대한 조사입니다~ 저는 뭐 남자라서 립스틱 종류 이런건 알지 못하지만요 ㅎㅎ 그냥 간단하게 어떤 브랜드가 인기가 많은지 파악해보려고 합니다~ (취업이나 해야하는데 이런거 분석하면서 잘 놀고 있습니다 ㅠㅠ) 300순위를 분석을 했어요~ 300순위 안에 어떤 브랜드가 많이 들어가 있는지 보려고 합니다 참고 사이트는 찾고 또 찾다가 파우더룸이라는 사이트를 알게 되었습니다 저는 뭐 처음 들어보는데요 많은 여성분들이 이용하고 있는 사이트라고 하네요? https://www.powderroom.co.kr/ 해당 주소를 가지고 있는 사이트입니다. 저는 여기서 립스릭 랭킹을 통해 분석해볼게요~ 저기 립스릭 랭킹이 있네요! 맥이 1순위이고 마몽드, 입생로랑 등등 ..
자바나 C 언어 등 여타 다른 언어와 마찬가지로 파이썬에도 랜덤 패키지가 존재합니다 랜덤을 언제쓸까요? 숫자를 랜덤으로 뽑는다거나 등 이럴때 사용합니다 그래서 게임이나 이런용으로 많이 쓰이기도 하죠! 사용법은 간단합니다 import random 해서 사용하면 됩니다 그리고 random()을 하면 0.0이상 1.0미만 실수를 출력합니다. 여기서 random() + 1 처럼 하게 되면 1.0 이상 2.0미만 실수를 출력하게 되죠 그럼 정수를 랜덤으로 추출하려면 어떻게 하나요? randint 함수를 사용하면 됩니다. randint(시작, 끝숫자)를 하면됩니다 그러면 시작~끝숫자 까지 정수가 출력되죠 randrange라는 함수도 있어요 이 함수는 범위 값에 배수 값도 있습니다. randrange(0, 10, 3..
안녕하세요~ 이번 포스팅은 구글플레이와 아이폰 앱스토어 게임 순위를 알아보려고 합니다~ 뭐 그냥 일반적으로 사이트 같은 곳에 들어가서 확인할 수도 있지만 저는 프로그래밍 기법으로 접근하려고 합니다~ 파이썬 셀레니움을 이용할거에요 셀레니움은 웹 드라이버를 이용해서 크롤링 등의 업무를 자동화처리 할 수 있습니다 저는 게볼루션이라는 사이트를 통해서 파악했어요 게임순위를 보여주더라고요 ㅎㅎ 게볼루션 사이트를 들어가면 각 게임 순위가 나와있는데요 먼저 애플 앱스토어 게임 순위를 알아보죠 무료 인기 부분만 가져올게요~ 스누피 틀린그림 찾기부터 Getting Over it 등 다양한 게임이 있네요 그리고 모두의마블, 마이 오아시스, 대항해길 등의 게임이 있습니다 이 순위를 파악해보죠 간단하게 웹 크롤링 소스를 구성합..
파이썬에서 웹 크롤링을 하다보면 자동화 처리를 하고 싶을때가 있습니다 예를 들어 유튜브처럼 마우스 스크롤을 내려야 동영상 목록이 더 나오고 하는 등의 작업에서요 이럴때 크롤링을 하려면 화면 내리고 하는 작업을 할 때가 있습니다 이런걸 자동으로 할 수 없을까? 이것을 지원해주는 것이 셀레니움입니다 셀레니움은 웹 드라이버를 이용해서 접근하는데요 코드를 구성해서 실행하면 해당 웹 드라이버를 통해 웹 페이지에 접속해서 작업을 진행합니다 간단하게 설치하는 법을 알아볼까 합니다 그리고 테스트도 진행해볼게요 먼저 cmd창에서 파이썬이 설치된 경로로 이동합니다 cd 이동경로 로 이동하시면 됩니다 그리고 pip가 설치된 Scripts 폴더로 이동하세요 이후 pip install selenium을 이용해서 설치합니다 이렇..
요즘 취업하려고 공부를 하고 있는데요 점점 취업의 목적이 아닌 그냥 제가 하고 싶은 데이터 크롤링해서 분석하는 재미에 빠졌네요 ㅋㅋ 물론 이쪽으로 취업을 하면 좋겠지만요 ㅠㅠ 뭐 아무튼 어제 심심해서 벅스 10월 인기 차트를 긁어와서 데이터 분석을 해봤습니다. 이 데이터 분석은 10월 벅스 인기차트 top 100안에 가수 이름(또는 그룹 이름)이 몇 번 나왔는지 분석하는 것입니다! top 100에 해당되는 앨범 혹은 곡이 많이 있으면 그만큼 가수 이름이 많이 나왔겠죠? 10월 한 달 동안의 데이터를 파이썬으로 크롤링해 R로 데이터 분석을 진행해봤습니다 크롤링을 하기에 앞서 벅스 사이트에 구조를 살펴보겠습니다 chartdate로 차트 날짜를 보여줍니다 그리고 artist 클래스 안에 텍스트 값이 있네요! ..
ggplot2은 R에서 많이 사용되는 그래프 패키지이다 다양한 그래프들이 존재하며 사용하기 쉽게 되어 있습니다 그리고 색상 추가 등의 기능도 있어서 알아보기 쉽게 사용할 수 있습니다 ggplot이 없으시면 install.packages("ggplot2")를 통해 설치하시면 됩니다 ggplot2에서 데이터를 그리는데 순서가 있습니다 1. 먼저 배경을 그립니다 2. 그래프를 그립니다 3. 설정을 추가합니다(색, 축 범위 등) 순서대로 진행해보죠 먼저 library로 ggplot을 가지고 옵니다. 그리고 그래프를 그려보죠 위 처럼하면 그래프가 그려집니다 ggplot2에 있는 mpg 데이터로 진행했습니다 data를 mpg로 설정, x축은 배기량, y축은 고속도로 연비 값으로 두었습니다 x축, y축을 통해 그래프..
R에서 데이터를 처리하다보면 데이터가 없는 값이 있을 수도 있습니다. 이 없는 데이터를 처리해야하는데요 아래와 같은 상황입니다. 두 데이터 프레임을 bind_rows 함수를 이용해 합쳐줍니다. 그러면 아래와 같이 됩니다. NA 값이 들어가있죠 만약 데이터를 처리하는데 이러한 데이터가 있으면 정말 난처합니다. 이때 is.na 함수를 통해서 빠진 데이터가 있는지 알 수 있습니다. is.na를 사용하면 TRUE, FALSE가 나오는데, 데이터가 없으면 TRUE 값이 나옵니다 위 사진처럼 말이죠! 그럼 이제 NA 값 즉 결측치가 있는 데이터를 출력해보죠 결측치가 없는 데이터와 있는 데이터를 전부 출력해보겠습니다. filter를 이용해서 is.na 함수를 사용합니다 id를 기준으로 결측치가 있는 데이터를 먼저 출..
유명한 통계 프로그램은 R 뿐만 아니라 SAS, SPSS 등도 있습니다 오히려 과거에는 SAS, SPSS를 더 많이 사용했죠 R에선 SAS, SPSS 등에서 사용하는 데이터를 불러올 수 있습니다. foreign 패키지를 이용하면 됩니다 install.packages를 이용해서 foreign 패키지를 설치합니다 그리고 library를 통해 패키지를 부착합니다 SPSS 기준으로 설명해드리면 아래와 같이 사용가능해요 read.spss(file = "파일명", to.data.frame = T)를 합니다. to.data.frame은 spss 데이터를 R 데이터 프레림 형태로 변환하는 옵션입니다 위 처럼 사용하면 데이터 프레임 형식으로 들어가게 됩니다