[AI] 딥러닝의 학습방법 | Deep Learning | 역전파 | BackPropagation

728x90

(선형 결합) X와 W의 곱을 통해 선형모델 표현 가능

전체 데이터 행렬 X (n × d)

데이터를 다른 벡터 공간으로 보내줄 가중치 행렬 W (d × p)

y절편에 해당하는 벡터들을 모든 데이터행에 대해서 복제한 행렬 b (n × p)

→ 이로인한 새로운 결과 O (n × p)

→ d개의 변수로 p개의 선형 모델을 만듦!

→ 원래 데이터가 모여있는 d 차원에서 출력 벡터와 같은 p 차원으로 바뀌게 됨

→ d 차원에서 p 차원으로 보내주는 가중치 행렬 W(d×p)를 곱해주었기 때문

* 선형모델과 활성함수(activation function)을 합성한 함수

* 소프트맥스 함수: 모델의 출력을 확률로 해석할 수 있게 변환해주는 연산 \

* 소프트맥스 함수를 사용하는 이유는 벡터를 확률벡터로 변환하여 학습 시 사용할 수 있도록 해주기 때문

* 하지만 추론을 할 때는 one-hot 벡터로 최대값을 가진 주소만 1로 출력하는 연산 사용 → softmax 사용 필요 없음

* 가중치 행렬의 수에 따라서 신경망의 층이 정해짐

* 그리고 신경망이 여러 층이 합성되어있을 때 다층 퍼셉트론(MLP, Multi-Layer Perceptron)이라고 부름

* 층이 깊을수록 목적함수를 근사하는데 필요한 뉴런(노드)의 숫자가 훨씬 빨리 줄어들어 효율적 학습이 가능함!

(단, 층이 깊어지면 깊어질수록 학습 및 최적화는 어려워질 수 있음 -- 이 문제 해결을 위해 Residual Block 사용)

본 포스트는 부트코스 내 네이버 부스트캠프 AI Tech 5기 강의를 토대로 작성되었습니다

728x90

생각하는 개발자