꿈 많은 사람의 이야기

세로형

Notice

[contact] 컨택 정보 공지

Recent Posts

Recent Comments

Link

04-16 00:07

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

꿈 많은 사람의 이야기

cs231n 2017 4강 정리 backpropagation and neural networks 본문

deep learning(딥러닝)

cs231n 2017 4강 정리 backpropagation and neural networks

이수진의 블로그 2018. 11. 6. 09:50

728x170

이번 포스팅은 스탠포드 대학 cs231n 4강 정리 포스팅입니다.

이번 강의에서는 backpropagation(오차역전파)과 neural network에 대해서 배웁니다.

그럼 바로 시작하겠습니다.

맨 처음 부분은 여기 강의 과제에 대한 이야기라서 넘어가도록 하겠습니다.

우리는 지난 시간에 score function에 대해서 배웠습니다.

그리고 SVM의 loss인 hinge loss에 대해서 배웠습니다.

또 다른 loss인 softmax loss를 배웠습니다. 이건 cross entropy loss라고도 불리우죠.

그리고 규제(regularization)에 대해서도 배웠습니다.

이후 optimization에 대해서도 배웠습니다. 이 과정에서 경사하강법을 배웠지요.

그냥 일반적으로 계산하는 방법은 numerical 방법입니다. 근데 이건 속도가 느리고 정확하지 않다는 단점이 있죠. 그래서 우리는 해석적 방법인 analytic 방법을 많이 사용하고 보통 gradient check를 할 때 numerical gradient를 사용한다고 배웠습니다.

앞에서 배웠던 것을 그림으로 표현하면 이와 같이 됩니다. Wx가 곱해져서 들어오고 그 score 값을 function에다가 넣고 거기에 + 규제를 해서 loss가 나오게 되는 것이죠.

그리고 여기 AlexNet, Neural Turing Machine이 있는데 이런 그림과 같은 층을 계속 이어서 이렇게 네트워크를 쌓을 것입니다.

지난 시간에 배웠던 gradient를 이제 자세히 볼 것입니다. 어떻게 gradient를 이용하여 가중치를 업데이트 시키는지 자세히 배울 것인데요. 여기서 backpropagation을 배울 것입니다.

먼저 간단하게 이렇게 예시가 있다고 가정합니다. (x+y)z식으로 표현되어 있고 x=-2이고 y = 5, z=-4라고 보죠.

그걸 이제 더하고, 곱하면 이렇게 초록색 값이 나오게 될 것입니다.

근데 우리는 이제 이걸 알아야 합니다. X가 f에 미치는 영향, y가 f에 미치는 영향 그리고 z가 f에 미치는 영향을 알아야 합니다.

이걸 미분 식으로 표현하면 df/dx, df/dy, df/dz 로 표현합니다.

그럼 얘를 어떻게 구할까요? 이거를 바로 미분으로 구하게 됩니다.

먼저 미분을 구할 때 필요한 식을 몇 개 써보죠. q=x+y의 식에서 dq/dx는 1, dq/dy = 1입니다.

이건 편미분이죠? 그리고 f=qz에서 df/dq는 z이고 df/dz는 q입니다.

여기서의 특징을 알아두시면 좋습니다.

덧셈 연산에서 미분은 1이고, 곱셈 연산에서는 서로의 값을 가지게 된다는 것입니다. 이게 무슨말이냐면 qz에서 미분을 하면 z에 대해서 미분을 하면 q가 나오고, q에 대해서 미분을 하면 z가 나오는 것입니다.

자 이제 계산을 해보죠. 앞에서 forward식으로 구했습니다. 이제 각 값이 최종 f에 영향을 미치는 정도를 파악하기 위해서 gradient를 계산합니다. F가 f에 영향을 미치는 것은 당연히 1이겠죠.

이제 z가 f에 영향을 미치는 정도를 봐봅니다. 이건 앞에서 식으로 구해놨죠? 바로 q값입니다. 즉 3이 되겠죠.

3이 나옵니다.

Q가 f에 영향을 미치는 것도 마찬가지입니다. 앞에서 구했듯이 z가 될 것이고 z값인 -4가 될 것입니다.

이렇게 말이죠!

자 이제 문제는 y가 f에 미치는 영향 및 x가 f에 미치는 영향 값을 구해야합니다

여기서 바로 direct로 구할 수 없죠? 그래서 chain rule이 적용됩니다. Chain rule은 미분에서 사용되는 방법입니다. 만약 x가 f에 대해서 영향을 미치는 값을 알고 싶으면 x -> q -> f 이므로

X가 q에 미치는 영향 * q가 f에 미치는 영향을 구하면 됩니다. 근데 q가 f에 미치는 영향은 이미 알고있죠? 간단한 미분식으로 아까 구했습니다. 그리고 x + y의 미분은 1이라고 이미 구했죠? 그래서 이걸 local gradient라고 부릅니다. 이 local gradient는 forward passing을 하면서 그냥 구해버릴 수 있기 때문에 미리 값을 가지고 있습니다.

이제 Y가 q에 미치는 영향만 알면되죠? 근데 그 값을 이미 알고 있습니다. 바로 1이네요. 그래서 1 * q의 값(-4)를 곱하니 -4가 됩니다. x도 마찬가지구요.

x도 마찬가지로 이렇게 구할 수 있습니다.

그래서 qz나 x+y 같은 미리 구할 수 있는 미분 값을 local gradient라고 합니다. 이 local값과 앞에서 넘어온 gradient를 global gradient라고 하는데 이 값을 곱해서 gradient를 계산합니다.

이 그림처럼요!

이 그림들은 제가 앞에서 했던 과정을 그림으로 설명해준 것입니다.

훨씬 이해하기 쉽죠?

그럼 여기서 끝이냐? 이 예에선 여기가 끝이니깐 끝나지만 실제로는 앞에서 더 많은 node들이 있을 겁니다. 그래서 여기서 구한 gradient를 다시 뒤로 보내고(global gradient값) 그리고 뒤에 있는 local gradient와 이 받은 global gradient를 곱해서 다시 구하고..를 반복합니다.

이렇게 적절한 gradeint를 찾아갑니다.

여기 조금 더 심화된 내용이 있습니다. 시그모이드를 구해보는 것이죠.

시그모이드도 미리 계산하기 편하도록 local gradient의 식을 써봅니다. 이렇게 4개가 되겠죠!

자 먼저 맨 처음 gradient는 당연히 1입니다. 그리고 다음을 구해보죠.

1.37쪽 기준에서는 global gradient는 1입니다. 그리고 1/x이니까 local gradient는 -1/x^2가 됩니다.

즉 -1/1.37^2와 1을 곱하면 되는 것이므로 gradient는 -0.53이 나오게 됩니다.

다음을 구해보죠.

0.37기준에서는 global gradient가 -0.53이 됩니다. 근데 여기서 local gradient는 1이므로 1 * -0.53을 하면 -0.53이 됩니다.

이런식으로 쭉 구해주시면 됩니다.

Exp를 하는 부분에서 보면 global gradient는 -0.53입니다.

Local gradient는 e^x값 즉 e^-1이 되므로 -0.20이 나오게 됩니다.

그리고 그 다음은 0.2가 나오게 되구요. 이제 덧셈 연산을 거치면 다시 0.2가 나오게 되고 그림들 처럼 쭉쭉 구해주시면 됩니다.

뒤에서 나오는 과정들은 앞에서 했던 과정과 똑같습니다.

구해주시면 계산값이 나오실겁니다.

이런식으로 간편하게 구할 수 있으실 겁니다.

근데 여기서 다른 장점을 하나 살펴볼 수 있습니다.

시그모이드에 대한 값인데요. 이 파란색 네모 쳐진 부분이 바로 시그모이드죠? 여기를 sigmoid gate라고 할 수 있습니다. 앞에서는 여기를 하나하나 구했지만 굳이 그럴 필요가 없다는 것을 여기서 보여줍니다.

이 미분의 과정을 거치면 시그모이드 식은 맨 아래처럼 나오게 되는데요. 얘를 일반화 하게 되면 (1-sigmoid) * sigmoid 로 표현할 수 있습니다.

즉, sigmoid 게이트가 들어가기전 gradient는 시그모이드 값인 0.73을 기준으로 (1-0.73)(0.73)으로 구할 수 있는 것이죠!

즉 굳이 복잡하게 구하지 않고도 바로 구할 수 있는 것입니다.

자 근데 여기서 또 gradient의 특성을 알 수 있습니다. 바로 add, mul 등의 gate에 대한 특징입니다. Add는 local gradient가 1입니다. 그래서 global gradient * local gradient를 하면 local이 1이기 때문에 global gradient가 그대로 나오게 됩니다. 즉, add gate는 gradient를 그대로 전해주는 역할을 하게 됩니다. 그래서 distributor라고 불립니다

그리고 max 게이트가 있습니다. Max gate는 큰 값에게 gradient를 그래도 전하고 작은 값은 0으로 그냥 만들어서 보내는 것입니다.

이렇게 말이죠

그리고 아까 mul 즉 곱하기도 있었죠? 곱하기는 앞서 소개한대로 서로의 값을 교환합니다.

qz라고 하면 q는 z값을 가지게 되고 z는 q의 값을 가지게 되죠. 즉 얘는 스위칭되었습니다. 그래서 mul gate는 switcher라고도 불립니다.

근데 만약 앞에서온 gradient가 1개가 아니라 여러 개면 어떻게 될까요? 이 그림처럼 말이죠.(51페이지) 그러면 그냥 복수의 gradient를 더해줍니다.

근데 우리는 이게 하나의 값이 아니라 다변수일 확률이 높습니다. 보통 딥러닝이 그렇죠? 그럴떈 자코비안 행렬 방식으로 되게 됩니다. 자코비안 행렬은 다변수 함수일때의 미분값입니다. 이걸 행렬로 표현한 것이죠.

그래서 input이 이제 d 차원의 벡터가 들어가게 됩니다. 그리고 output도 d차원의 output이 되죠.

그럼 jacobian matrix의 크기는 어떻게 될까요? Input도 4096이고 output도 4096이니까 4096 x 4096이 될 것입니다.

그쵸?

근데 여기에 minibatch를 추가하게 되면 예를 들어 100개씩이면 100을 곱해야겠죠. 그래서 409600 x 409600이 됩니다.

이는 매우 거대하죠! 근데 실제로는 이 거대한 자코비안 행렬을 계산하지 않습니다. 여기서 어떤 구조가 보이나면 이거는 요소별로 보기 때문에 입력의 각 요소 즉 첫번째 차원은 오직 출력의 해당 요소에만 영향을 주기 때문입니다. 그렇기 때문에 자코비안 행렬은 대각행렬이 됩니다! 그래서 실제로 이 전체 jacobian 행렬을 작성하고 공식화할 필요가 없다는 것입니다. 우리는 출력에 대한 x의 영향과 이 값을 사용한다~ 라고 알면 됩니다. 그리고 계산되어 나온 gradient를 채워 넣는 것이구요. 그냥 그렇구나~ 하고 넘어가면 되겠습니다. 저도 잘 모르겠네요 이 부분은

이제 앞에서 본 graph보다 더 구체적인 것을 보겠습니다.

이 예시를 보면요 규제값을 넣어가지고 x에 의해 곱해진 W의 L2처럼 만듭니다.

이 경우 x를 n-차원이라고 하고 w는 n*n이라고 합시다

그리고 그림을 그리면 이런 모양이 나오겠죠?

그리고 앞에서 한 것처럼 q=wx이고, w와 x가 각 값이 저렇게 된다고 봅시다.

이제 행렬곱을 하면 아래 식처럼 되고 우리는 L2 정규화를 했으니 제곱을 하게 됩니다.

계산을 해봅니다. 위에 0.22가 나오게 된 거는 어찌 해서 나올까요?

0.1*0.2 + 0.5*0.4를 해서 나오게 됩니다. 0.26은 -0.3과 0.8기준이죠.

그리고 0.22와 0.26이 행렬곱에 의해서 나오게 됩니다. 이 값들을 이제 각각 제곱을 합니다.

0.22를 제곱하면 0.048, 0.26을 제곱하면 0.067이 나옵니다. 이 둘을 더하면 0.116이 나오게 되죠!

그리고 이제 gradient를 구해보죠. 맨 처음은 역시나 1입니다.

그리고 qi가 df에 미치는 영향은 2qi 이므로( qi^2 미분값) 우리는 2q값을 취하면 됩니다.

그래서 local gradient가 2q고 global이 1이므로 0.44, 0.52값이 나오게 됩니다.

그리고 다음을 구해야하죠? 조금 식이 복잡한데요. 하나씩 봐보죠

dWi,j일 때 dqk를 구해야합니다. 즉 w가 q에 미치는 영향을 구하는 것이죠. 그리고 1=k=ixj가 있는데요. 이거는 k가 I 일때 1이라는 것입니다. 그리고 아닌 것은 0으로 두는데요. 왜 이렇게 두냐면 행렬에서 값을 계산할 때 각 행의 계산 시에 다른 행은 관여하면 안되기 때문입니다! 참고로 i는 행, j는 열입니다.

그래서 이 식에 대해서 미분값을 구하게 되면 앞 페이지 처럼 나오게 됩니다. 뭔가 수식이 많다고 에이 뭐야 이게 하지 마시고 하나하나 따라가시면 이해가 되실겁니다. 시그마k 옆에 df/dqk는 k일 때 q가 f에 미치는 영향 * w가 q에 미치는 영향입니다. 즉 우리가 앞서 보았던 chain rule입니다. 그 chain rule이 다차원을 만나면서 조금 복잡해진 것이지 원리는 같습니다.

그래서 결국은 2qixj가 됩니다.

0.088이 왜 나왔을까요? 바로 앞에서 온 gradient인 0.44 * 0.2을 했기에 0.088이 나옵니다. 왜냐하면 이제 2x2 행렬이 나와야합니다. 그래서 x를 전치시킵니다(T). 그래서 2x1 행렬이었던 x가 1x2로 되고 앞에서 온 행렬은 2x1 이므로 2x1 행렬 곱하기 1x2 행렬이니까 2x2 행렬이 나오게 됩니다. 그렇게 다른것도 곱해줘서 구해주면 됩니다. 마찬가지로 다른것도 이렇게 구하면 되겠습니다!

위 식은 우리가 유도한 식을 벡터화된 형식으로 작성한 것입니다.

여기서 빨간색으로 중요한 것을 강조했는데요 중요한 것은 변수에 대해 gradient를 항상 체크하는 것입니다. 이것들은 항상 변수와 같은 shape를 가지고 있습니다. 무슨말이냐 하면 gradient가 무엇인지 계산을 했으면 이 결과가 변수의 shape와 동일한가?를 체크해야 합니다. 이거를 체크하지 않고 그냥 하면 에러를 뿜을 수 있습니다. 변수와 같은 shape를 꼭! 가지고 있어야 합니다.

아래 값에 대한 gradient를 마저 구합니다. Dqk/dxi인데요.

가 q에 미치는 영향입니다. 이건 Wk,i겠죠?. 이걸 더 자세한 식으로 계산하면 시그모이드 k df/dqk * dqk/dxi가 됩니다. 앞에서 했던 것과 마찬가지죠? Chain rule을 적용한 것입니다.

마찬가지로 이번에는 w가 전치가 됩니다. W가 전치가 되면 첫번쨰 행은 [0.1, -0.3]이 되고 2번째 행은 [0.5, 0,8]이 됩니다. 그래서 0.1*0.44 + -0.3*0.52를 하게 되면 -0.112가 나오게 됩니다. 0.636도 마찬가지로 구하면 됩니다~

이렇게 해서 값을 구하게 됩니다. 하나하나 차근히 따라가시면 됩니다~

그래서 이 식은 저걸 코드화로 했을 때 이렇게 된다는 것입니다. 곱셈에 대한 클래스는 forward시에는 그냥 곱하지만 backward시에는 어떻게 되죠? x일때는 y의 값, y일때는 x의 값을 구합니다. 여기선 스칼라이니까 ‘전치’가 적용되지 않고 그냥 구하면 됩니다. 벡터면 당연히 ‘전치’가 들어가게 됩니다. 파이썬 numpy에선 .T 연산자로 간단하게 전치가 가능합니다.

그리고 caffe에 있는 layer를 설명해주고 sigmoid가 어떻게 되어 있는지 설명해주는 것입니다. 간단히 넘어가겠습니다. 그냥 그렇구나~ 생각하시면 됩니다.

그리고 이 페이지는 svm에 대한 과제입니다. 요약을 하자면 이렇게 되구요 이제 뉴럴 네트워크에 대해서 알아보죠!

우리는 과거에 이렇게 단순한 linear한 score를 알아봤습니다. F=Wx이죠

근데 이제는 W2max(0, W1x)와 같이 됩니다. Relu에서 이렇게 사용하죠

처음에 3072개의 x가 들어오면 w1와 곱해져서 중간인 h(hideen)노드에 들어가고 이 hideen node를 통해 나와서 다시 10개의 출력값(CIFAR-10)을 나오게 됩니다.

즉 중간에 히든 레이어가 하나 더 생기게 되었죠. 이는 과거에 그냥 하나의 분류기로 판단했던 것과 다릅니다. 이 그림은 우리가 과거에 봤던 하나의 분류기로 했던 것입니다. 말 머리가 2개로 보이는 등 잘 분류가 되지 않았죠. 근데 이제는 얘기가 다릅니다. 히든 노드가 100개면 우리는 서로 다른 100개의 분류기를 가지고 있는 것입니다.

만약 3-layeraus 이렇게 될 것이구요.

그래서 이걸 numpy로 짜보면 이런식으로 나오게 될 것입니다. 소스에 대한 설명은 천천히 보시면 아실겁니다. Exp는 e^승 연산이고 dot은 행렬곱이니까 하나하나 보시면 될 것 같아요~

그리고 여기서 과제가 하나 더 나옵니다. 2-layer net을 구축해 보는 것이죠~ 저는 과제는 하지 않으므로 패스를…..

이제 뉴런을 봐보죠. 뉴런은 사실 신경망입니다. 우리 뇌속의 뉴런이죠. 그래서 하나의 input이 들어오면 axon을 거쳐서 다른 뉴런으로 들어가게 됩니다. 이렇게 서로 영향을 미치는 것이죠.

그래서 이 그림은 아래처럼 우리가 여태 배웠던 것과 비슷합니다. Input이 있으면 그것에 따른 w를 곱해서 그걸 어떤 활성화 함수를 통해 거쳐서 output 으로 나가는. 비슷하게 생겼습니다.

활성화 함수는 우리가 전에 배웠던 시그모이드(sigmoid)함수 같은 것이 되겠죠

그리고 소스로 보면 대략 저렇게 나온다고 합니다.

하지만 여기서 주의해야할 것이 있습니다. 실제로 생물학 뉴런은 많이 다르고 우리가 만드는 이 뉴런 네트워크가 실제와는 많이 다르다는 것입니다. 그래서 우리가 지금 딥러닝에서 만드는 모델을 실제 신경망과 같다고 판단하면 안된다 뭐 이런식의 내용입니다.

그리고 우리는 여태 activation functions를 sigmoid를 계속 보아왔는데요. 실제로는 이렇게 다양한 활성화 함수가 있습니다. 하이퍼볼릭 탄젠트인 tanh, ReLU, Leaky ReLU, ELU등이 있습니다.

보통은 ReLU를 많이 사용하죠~ 그리고 우리가 앞에서 봤던 이 2-layer나 3-layer는 서로 fully하게 connected되어 있습니다. 그래서 fully connected라고 하죠. 줄임말로 fc라고도 많이 불립니다.

이렇게 4장을 마쳤습니다. 이제 다음 5장에선 CNN에 대해서 배우겠습니다.

감사합니다.

그리드형

저작자표시

'deep learning(딥러닝)' 카테고리의 다른 글

cs231n 2017 강의 6강 training neural networks part1 정리 (0)	2018.11.23
cs231n 2017 5강 convolutional neural networkds(컨볼루션 네트워크)정리 (4)	2018.11.11
cs231n 2017 3강 정리 loss functions and optimization (6)	2018.10.31
파이썬 케라스(keras) 딥러닝 CNN으로 강아지 종류(품종)을 예측해봅시다! (123)	2018.10.01
keras, tensorflow gpu 에러(failed to create cublas handle: CUBLAS_STATUS_ALLOC_FAILED, could not create cudnn handle: CUDNN_STATUS_ALLOC_FAILED) (8)	2018.07.22