Link
08-06 17:32
«   2020/08   »
            1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31          
Archives
Today
2,108
Total
902,671
관리 메뉴

꿈 많은 사람의 이야기

머신러닝 앙상블 부스팅이란? - ensemble boosting 본문

machine learning(머신러닝)

머신러닝 앙상블 부스팅이란? - ensemble boosting

이수진의 블로그 이수진의 블로그 2019. 11. 15. 20:16

머신러닝에서는 앙상블(ensemble)을 정말 많이 사용합니다.

그 효과가 매우매우 강력하기 때문인데요.

이 앙상블에는 배깅(bagging), 부스팅(boosting) 등의 종류가 나뉘어져 있습니다.

지난 포스팅 때는 ensemble bagging에 대해서 설명했었고 random forest에 대해서도 설명했습니다.

https://lsjsj92.tistory.com/542

 

머신러닝 bagging 앙상블 랜덤 포레스트(random forest)란?

머신러닝 앙상블에는 배깅(bagging), 보팅(voting), 부스팅(boosting)이 있습니다. 그 중 앙상블 bagging에 속한 랜덤 포레스트를 이번 포스팅에서 소개할까합니다. 이 random forest는 빠른 속도와 높은 예측 성..

lsjsj92.tistory.com

이번 포스팅은 ensemble 중의 boosting에 대해서 알아봅니다. 

 

머신러닝 앙상블 부스팅이란? - ensemble boosting

먼저 앙상블 부스팅에 대해서 알아야겠죠?

배깅 같은 경우는 여러 개의 단일 모델을 만들고 booststrap 과정으로 데이터를 랜덤으로 추출한 뒤 모델을 훈련시켰습니다. 그리고 그 모델에 대해서 최종적으로 voting 과정을 통해 데이터를 예측했습니다.

하지만 부스팅은 조금 이야기가 다릅니다.

앙상블 부스팅은 앞에서 예측한 분류기가 틀린 부분에 있어 가중치를 부여합니다.

가중치를 부여해서 틀린 부분을 더 잘 맞출 수 있도록 하는 것입니다.

부스팅(boosting)은 bagging과 유사하기 초기 샘플 데이터를 뽑아내고 다수의 분류기를 생성한다는 것에서 상당히 비슷합니다. 하지만, 훈련 과정에서 앞 모델이 틀렸던 부분을 가중치를 부여하며 진행한다는 것이 다르죠

 

이러한 부스팅은 약검출기(week classifier)들을 여러 개 모아 강검출기(strong classifier)를 생성하는 방법입니다.

즉, 다음 단계의 week classifier는 이전 단계의 weak classifier의 영향을 받게 되고 이전의 양상을 본 뒤 잘 맞출 수 있는 방향으로 다음 단계를 진행하며 weight 등을 업데이트 합니다.

그래서 최종적으로 strong classifier를 생성하게 되는 것이죠

 

앙상블 배깅(bagging)과 부스팅(boosting)의 비교

일반적인 bagging은 일반적인 모델을 만드는데 집중되어 있다면, boosting은 맞추기 어려운 문제를 맞추려고 노력을 합니다.

출처 : https://swalloow.github.io/bagging-boosting

그리고 위 그림은 배깅과 부스팅의 차이점을 명확하게 보여주고 있습니다.

다음 포스팅에서 기본적인 부스팅 방법인 Adaboost와 Gradient Boosting에 대해서 작성합니다. 

2 Comments
  • 프로필사진 ㅁㄴㅇㅇ 2020.06.27 20:10 분류기1 에서 틀린 부분을 강화한 (= 더 정확한) 분류기2를 만들었는데, 왜 최종과정에서는 분류기 1, 2 를 같이 사용하나요?
    분류기2가 분류기1보다 언제나 성능이 좋으면 분류기 1을 최종과정에서 추가하는건 그냥 노이즈 아닌가요?
  • 프로필사진 이수진의 블로그 이수진의 블로그 2020.06.28 20:36 신고 안녕하세요~
    음 저도 처음에는 그렇게 생각했었는데요.
    나중에 좀 더 생각을 해보니까, 더 좋은 분류기라고 할 지라도 모든 dataset과 상황에 따라 100% 라고 할 수 없다는 것이었습니다.
    그래서 하나의 분류기보다 여러 개의 분류기를 같이 사용해서 일종의 '집단 지성' + '똑똑한 친구' 의 성능을 얻는다고 생각했었습니다!
댓글쓰기 폼