목록AI (10)
꿈 많은 사람의 이야기
포스팅 개요 이번 포스팅은 자연어처리(NLP) 논문 중 A Robustly Optimized BERT Pretraining Approach라는 논문을 리뷰하는 포스팅입니다. 해당 자연어처리 논문은 흔히 RoBERTa라고 많이 언급되는 논문인데요. 앞서 GPT-1, GPT-2, BERT 논문 리뷰에 이어서 자연어처리 논문 시리즈 네 번째 포스팅입니다. 추가로 해당 포스팅의 내용은 제가 진행하는 사내 자연어 처리 스터디에서 발표한 자료를 블로그로 정리한 자료임을 알려드립니다. 자연어 처리 논문 리뷰는 아래와 같은 순서로 할 예정이며 이번 포스팅은 그 네 번째 RoBERTa 논문입니다. (순서는 바뀔 수 있습니다.) GPT-1 (https://lsjsj92.tistory.com/617) BERT (https:..
포스팅 개요 본 포스팅은 How and Where is artificial intelligence in the public sector going? - A literature review and research agenda 이라는 논문을 리뷰하는 포스팅입니다. 해당 논문은 대학원 과정을 진행하면서 접했던 논문입니다. 이 논문은 공공부문의 영역에서 AI 서비스가 어떻게 적용되고 있고 어떤 트랜드로 흘러가는지 분석한 논문입니다. 제 블로그에서 주로 다루는 AI 기술(AI tech)에 대한 알고리즘이나 트랜드에 대한 논문과 조금 다른 성격의 논문인데 개인적으로는 수업들으면서 재밌게 읽었던 논문이어서 간단하게 리뷰를 남겨보려고 합니다. 본 논문은 아래 링크와 같습니다. www.sciencedirect.com/s..
2020년을 마치며 어느덧 2020년이 끝났다. 전반적으로 굉장히 많은 일이 있었고 그 중심에는 코로나 바이러스가 있었던 한 해였다. 하지만, 개인적으로는 코로나에 영향을 크게 안 받은 것 같고 안 좋은 것보단 득을 많이 봤던 한 해였던 것 같다. 2020년은 AI팀원으로 마무리를 지었고, 12월 28일 다니고 있던 회사를 퇴사했다. 그래서 이번 회고 제목에 AI팀 이라는 키워드를 넣었고 메인 프로젝트가 추천 시스템 프로젝트이었기에 추천 시스템 프로젝트로 마무리하는 2020년이라고 지었다. (작년 회고를 보니까 Data Science로 마무리하는 ~ 이었는데 1년이 지난 지금은 AI팀으로 바뀌었다) 나의 2020년을 요약하면 아래와 같이 될 것 같다. (기술적인 면을 위주로 적었다. 개인적으로 일어난 일..
포스팅 개요 최근 머신러닝(Machine Learning)과 딥러닝(Deep Learning) 시장에 자동화 열풍이 점점 더 세게 불어오고 있습니다. AutoML은 주어진 Dataset에 맞게 Machine Learning 알고리즘을 돌려서 가장 적합한 머신러닝 모델을 찾아주는 등 점점 더 Auto와 관련된 키워드가 Data Science, AI 시장에 불러오고 있습니다. 이번 포스팅은 그 자동화 시스템 중 Exploratory Data Analysis (EDA)를 자동화해주는 라이브러리를 소개해주는 포스팅입니다. 원래 Dataset에 대해서 다양한 분석을 진행합니다. EDA는 그 중 한 방법이며 시간을 어느정도 투자해야 하는 과정입니다. 이 자동화 라이브러리는 그것을 간단하게 제공해줍니다. 그 라이브러..
이번 포스팅은 기술적 포스팅이 아니라 컨퍼런스에 갔다온 후기를 작성합니다. 본인은 현재 에듀테크(edutech)에 종사하고 있습니다. 교육에 IT 기술을 접목시킨 분야인데요. 해당 분야에서 data science 팀에서 활동하고 있습니다. 그러다보니 자연스럽게 edutech에 대해서 관심을 많이 가지고 있고 조사를 계속 하고 있습니다. 그리고 마침 이번에 삼성역에 있는 코엑스에서 e-learning korea 2019 edutech fair가 열리는 것을 알게 되었습니다. edutech에 대한 기술동향과 어떤 이슈가 있는지 알아보기 위해서 해당 컨퍼런스에 참석해서 갔다왔습니다. 후기 시작합니다! 코엑스 C2몰에서 진행되고 있었습니다. 간판으로 크게 e-learning korea 2019 edutech f..
파이썬으로 딥러닝을 해봅시다!이번 포스팅은 파이썬(python)의 케라스(keras) 딥러닝 라이브러리를 이용해서자연어 처리(NLP)를 해봅니다. 데이터는 네이버 영화 평점 데이터를 활용합니다.사실 이 딥러닝을 한지는 꽤 되었습니다.모두의 연구소에서 진행한 모두콘(moducon)때에 자연어 처리 대회가 있었는데요그때 참여했던 소스입니다. 당시는 3등을 했습니다(정확도가 별로 높지는 않지만..)1, 2등 분들의 코드나, 아이디어를 얻고 싶어서 모두연에 요청도 했는데 ㅠ끝내는 받지 못했네요 ㅠㅠ아무튼 저는 아래와 같은 방식으로 자연어 처리 딥러닝을 진행했습니다. 먼저 형태소 분석기가 인식하지 못할 단어를 모아서 구축했습니다.자연어 처리에서 형태소 분석기는 자주 사용하는데요저는 은전한닢(mecab)을 자주 사..
안녕하세요. 으.. 날씨가 많이 춥네요. 건강 조심하세요. 이것도 정리가 조금 늦었네요카카오 형태소 분석기 설치랑, 예전에 했던 LSTM 프로젝트 등을 정리하느라고 조금 늦어졌습니다.이번 포스팅은 딥러닝 영상처리 강의 스탠포드 대학교 cs231n 2017강의 10번째 강의 RNN입니다.RNN(Recurrent Nerual Networks)는 CNN과 함께 정말 많이 사용하는 네트워크입니다. 시계열 데이터(timestamp) 등에서 많이 사용되고 그 예로는 문자열 데이터, 주식(코인) 데이터, 비디오 데이터 등 정말 다양한 데이터가 RNN과 함께 사용될 수 있습니다. 아 그리고 이번 강의는 좀 정리가 힘드네요. 이 강사가 말이 너무 빠르고 그냥 훅훅 지나가서..에흌ㅋㅋㅋㅋㅋ 힘듭니다. 아무튼 시작해볼까요 ..
안녕하세요. 날씨가 많이 춥네요.오늘은 딥러닝 영상 기반 강의인 스탠포드(stanford) 대학교 cs231n 2017년 강의 9번쨰 강의 정리입니다. 지난 시간에 7강까지 하고 8강은 넘어갔었는데요. 8강은 여러 딥러닝 software들을 소개해줍니다. 혹 궁금하신 분들이 있으시면 봐보세요! 이번 9강은 여태 나왔었던 훌륭한 CNN 모델들을 소개해줍니다. AlexNet(알렉스넷), googLeNet(구글넷), VGG Net, ResNet(레즈넷) 등을 소개하는 강의입니다. 이런 모델들은 imagenet과 localization 대회에서 우수한 성적을 거둔 모델입니다. LeNet은 가장 초창기 CNN 모델이죠.그리고 연구가 좀 더 되서 2012년이 되었습니다.그 전에는 사람이 수작업을 하거나 그랬었는데요..
안녕하세요. 날씨가 많이 춥네요. 겨울이에요 완전 ㅠㅠ몸 건강 조심하세요! 이번에는 이미지 영상 인식 처리 딥러닝 강의 cs231n 6장입니다.가면 갈수록 어려워지네요 ㅠㅠ 회사일도 바빠서 이걸 따로 시간 빼내면서 정리하는 것도 일이네요. 하지만 딥러닝과 머신러닝 인공지능쪽이 핫한 요즘 지체할 수 없죠! 조금씩이라도 힘내서 공부해봅니다. 6장 정리 들어가봅니다 앞에는 과제니까 넘어가구요 우리는 앞서 이런 모양의 computational graph를 배웠습니다. 말 그대로 f = Wx + regularization 인거를 배웠죠. F = Wx 는 기본적인 식입니다. 그리고 뉴럴 네트워크에서는 이제 hidden layer가 쌓이게 되죠. 그래서 f = wx의 기본적인 식에서 층이 생기게 됩니다. F = w2..
요즘 머신러닝과 딥러닝을 공부하고 있습니다 블로그에 다 정리해서 올리고 싶은데 처음부터.. 너무 복잡하고 올리는데 시간적 소모가 커서 감히 엄두가 안나네요 ㅠㅠ그래서 중간중간 만든 결과를 올려보려고 합니다저는 주로 케라스(keras)와 사이킷런(scikit learn)으로 공부하고 있습니다사이킷런이야 파이썬에서 머신러닝으로 유명한 라이브러리죠. 케라스는 딥러닝에서 많이 쓰는데요 (물론 머신러닝도 가능합니다.)텐서플로우(tensorflow)보단 사용법도 쉽고 접근성이 좋아서 케라스를 선택해서 공부하고 있습니다.(물론 keras 내부는 tensorflow가 동작됩니다.) 아무튼 저는 그 동안 공부한 것으로 비만도 측정을 해봤습니다!1. 데이터 수집2. 훈련3. 모델 생성4. 모델을 이용한 예측 크게 4가지 ..