빅데이터 서비스 교육/딥러닝

활성화함수, 최적화 함수

Manly 2022. 7. 19. 12:48
반응형

오차 역전파를 통해 y=wx+b에서 w와 b의 값을 개선해 나가는데

 -> 이게 경사하강법

 

H(x)예측값

y 실제값

-> 이를 빼서 제곱후

더하고 나눈것

평균제곱오차(mse)

 

예측값H(x)안에

활성함수h(x)가 들어있는

합성함수형태

 

 

 

 

f(g(x))의 미분 -> f ' (g(x)) x g'(x)      따라서 활성함수의 기울기가 지속적으로 곱해지는데

 sigmoid의 최대값이 0.3이라 곱해지는 기울기값이 결국 0으로 수렴하게 되고

앞쪽의 뉴런들이 0값을 받고 오차가 없다고 판단하게 된다.

 

이러한 이유로 중간층에 sigmoid함수를 쓰지 않는다.

하이퍼볼릭 탄젠트는 시그모이드 보다는 좋지만 -> 중간층이 많으면 결국 기울기 소실 문제가 발생한다

 

렐루 : 0보다 작은값일때는 -> 0   이 뜻은 음수의 값이 들어오면 옆의 뉴런에게 값을 전달 하지 않는다는 의미

         0보다 클때는 그 값 그대로

 

                  렐루의 변형 된 형태들이 연구중이다.

 

최적화 함수

 

Momentum

Nag

 

경사하강법 GD

확률적경사하강법 SGD               현재는 Adam (앞의 장점들을 모은)을 주로 쓴다

하지만 데이터에 따라 다르고 미래에 어떻게 바뀔지 모른다.

반응형