목록분류 전체보기 (578)
꿈 많은 사람의 이야기
머신러닝 앙상블에는 배깅(bagging), 보팅(voting), 부스팅(boosting)이 있습니다. 그 중 앙상블 bagging에 속한 랜덤 포레스트를 이번 포스팅에서 소개할까합니다. 이 random forest는 빠른 속도와 높은 예측 성능을 보이는 알고리즘입니다. 본문에 나와있는 코드는 아래 github에서 확인할 수 있습니다 github.com/lsjsj92/machine_learning_basic lsjsj92/machine_learning_basic Repo for everyone who wants a machine learning basic - lsjsj92/machine_learning_basic github.com 랜덤 포레스트(random forest)란? 랜덤 포레스트(random f..
저는 현재 머신러닝, 데이터 분석 관련 스터디를 진행하고 있습니다. 스터디를 진행하면서 계속 발생했던 이슈가 jupyter-notebook 실습 환경 이슈였는데요. 어떻게 하면 뒤에 앉으신 분들까지 주피터노트북이 잘 보일까 고민하다가 주피터 노트북을 ppt로 만들 수 있는 방법에 대해 알게 되어 글을 작성합니다. (사실.. 스터디 환경에선 크게 도움이 되지는 않았지만 아직 제가 사용법에 미숙해서 그런 것 같습니다.) 바로 Python에서 제공해주는 RISE라는 패키지를 사용하면 됩니다. 이거를 설치하면 jupyter-notebook에서 ppt와 같이 운영할 수 있습니다. 먼저 아나콘다에서 rise와 관련된 패키지를 설치해주어야 합니다. conda install -c conda-forge rise를 통해 ..
최근 머신러닝, 딥러닝 등의 데이터를 활용한 기술적 요구, 서비스적 요구가 증가하고 있습니다. 단순히 기존에 웹 서비스, 앱 서비스를 제공해주는 것을 넘어서 사용자 데이터를 수집하는 방법, 저장하는 방법, 처리하는 방법에 대해서도 꾸준히 이야기가 나오고 있죠. 저는 최근에 저 중에서도 '머신러닝 프로젝트는 어떻게 관리되고, 어떻게 운용이 될까?'에 대해 정말 많이 궁금했었습니다. 이러한 프로젝트는 비교적 최근에 발생하고 있어서 어떤 것이 체계적인지 알 수 있는 방법이 많이 없었습니다. 예를 들어 웹 개발 같은 경우에는 Man Month 등을 계산해서 비용 계산하고, WBS나 간트 차트 등을 이용한 일정 관리 이후에 기획이 나오고 기획에 따른 개발 진행 등등 이런 프로세스가 있는 것으로 경험을 했는데(저의..
이번 포스팅은 아나콘다3를 활용해서 파이썬3.6(python3.6)을 설치해보도록 하겠습니다. 요즘 프로그래밍 언어 중 파이썬이 당연 핫합니다. 주로 data science 분야에서 매우 핫하다보니 그런데요 그러다보니 머신러닝, 딥러닝 기술로 인한 파이썬 수요가 굉장히 많습니다. 그래서 이번 포스팅은 최근 아나콘다 버전을 기준으로 파이썬 3.6 버전을 설치해보려고 합니다. 최근 anaconda3를 설치하면 python3.7 기준으로 받아집니다. 하지만, 아직 3.7이 여기저기서 버전 충돌이 일어난다고 들려오고 있어서 3.6으로 설치해보는 방법으로 소개해볼까합니다. 그럼 시작합니다 아나콘다(Anaconda)란? 아나콘다는(뱀 이름 아닙니다..) 파이썬에서 수학, 과학 분야에서 사용되는 여러 패키지들을 한 ..
아마 개발자 분들은 하루종일 컴퓨터 앞에 앉아 있어서 IDE 툴들의 색상을 어둡게 하시는 분들이 많을겁니다. 하얀색 화면은 눈이 너무 아프거든요 (저만 그런가요..) 특히 파이썬은 IDE 툴로 pycharm(파이참)을 많이 사용하는데 파이참은 설치할 때 theme를 어둡데 설정할 수 있어서 어두운 배경색을 가지고 개발을 할 수 있습니다. 그러나 파이썬 특성상 jupyter notebook 즉, 주피터 노트북으로도 개발을 많이 사용하는데요. 이게 기본이 하얀색입니다. 아래 사진처럼요 하양하양하죠 이게 이쁘긴하지만 화면을 오래보고 있으면 눈이 아픕니다. 안에 들어가서도 마찬가지구요 그래서 이 주피터 노트북의 색상, 테마를 변경하는 방법에 대해 포스팅할까합니다. jupyter의 테마를 바꾸는 것은 정말 간단합..
얼마전 도커를 이용하다가 아래와 같은 에러를 발견했습니다. In the default daemon configuration on Windows, the docker client must be run elevated to connect. This error may also indicate that the docker daemon is not running. Error response from daemon: Get https://registry-1.docker.io/v2/: net/http: request canceled while waiting for connection (Client.Timeout exceeded while awaiting headers) 라는 에러였습니다. 이 에러는 도커 이미지를 다운..
깃허브를 운영하면서 add를 통해 파일을 등록하고 commit으로 로컬에 저장을 하는데 이때 파일명을 변경하거나 삭제를 하면 다르게 처리를 해줘야합니다. 물론 깃허브와 연동된 디렉토리에서 git add . 를 하게 되면 전부 반영이 되서 상관은 없지만 특정 파일, 특정 디렉토리 등만 반영하고 싶으면 이야기가 조금 달라집니다. 어떤 의미냐면 아래와 같은 상황이 발생됩니다. 만약 제가 로컬에서 011. regression.ipynb 이라는 파일을 011. regression - basic, linear regression.ipynb로 변경을 하면 이미 로컬에는 011. regression.ipynb라는 파일은 없겠죠? 대신 011. regression - basic, linear regression.ipyn..
이전 포스팅에서 형태소 분석기 중 하나인 은전한닢(mecab)을 설치를 해보았습니다. https://lsjsj92.tistory.com/491 형태소 분석기 MeCab! 은전한닢을 설치하고 파이썬과 연동하기! 요즘 자연어처리 (NLP)가 정말 핫합니다 텍스트 데이터를 활용하면 다양한 가치를 찾을 수 있고 재미있는 분석이 가능하기 때문이죠 그러나 우리나라 텍스트 데이터 분석은 형태소 분석기가 많이 필요합니다 영어.. lsjsj92.tistory.com 하지만 형태소 분석기를 하다보면 형태소 분석이 되지 않는 단어들이 있습니다. 이런 단어들은 형태소 분석기의 큰 단점이라고 볼 수 있죠 하지만 은전한닢 mecab에서는 사용자 단어 사전(user word dictionary)을 구축해서 형태소 분석이 되지 않는..
이번 포스팅은 기술적 포스팅이 아니라 컨퍼런스에 갔다온 후기를 작성합니다. 본인은 현재 에듀테크(edutech)에 종사하고 있습니다. 교육에 IT 기술을 접목시킨 분야인데요. 해당 분야에서 data science 팀에서 활동하고 있습니다. 그러다보니 자연스럽게 edutech에 대해서 관심을 많이 가지고 있고 조사를 계속 하고 있습니다. 그리고 마침 이번에 삼성역에 있는 코엑스에서 e-learning korea 2019 edutech fair가 열리는 것을 알게 되었습니다. edutech에 대한 기술동향과 어떤 이슈가 있는지 알아보기 위해서 해당 컨퍼런스에 참석해서 갔다왔습니다. 후기 시작합니다! 코엑스 C2몰에서 진행되고 있었습니다. 간판으로 크게 e-learning korea 2019 edutech f..
지난 포스팅까지 django rest api framework를 활용해서 rest api를 연동하고, update, delete, list view를 진행했었습니다. 이번 포스팅이 django rest api 시리즈 마지막편 4편입니다. 마지막은 이제 CRUD에서 하지 않았던 Create 부분을 하겠습니다. 역시 먼저 serializers.py를 설정해줘야겠죠! serializers.ModelSerializer를 상속해줘서 create serializer를 만들어줍니다. 이제 views.py로 넘어갑니다. views.py에서는 당연히 방금 만든 serializer를 import 해야겠죠? 그리고 rest_framework.generic에 있는 CreateAPIView를 import해줍니다. 이게 바로 c..