사실 대학원 때 적극적으로 읽었어야했는데 내 게으름으로 또 다시 취업 준비로 돌아가서 새로운 마음으로 읽게된 거 같다. 이 포스트는 면접 대비 겸 읽게 된 책을 내 방식 위주로 정리한 포스트다. 따라서 두서가 없을 확률이 굉장히 높아서 급한 사람용을 위한 치트시트.. 정도라고 보면 되겠다.
개인적으로 재밌게 읽었으며, 학부생들이 읽을만한 책으로 강력 추천하고 싶다.

1. 퍼셉트론

하나의 뉴런으로 입력 신호 ➡ 출력 신호 구조를 지님
입력 신호( $x$ )에서 출력 신호( $y$ ) 사이 가중치가 곱해짐 $y=x*w$

특히 XOR 게이트(베타적 논리합, 즉, 자기외에는 모두 거부)는 선형함수로 표현이 불가능한 비선형함수의 형태이다.
이를 해결하기 위해서 multi-layer perceptron이 개념이 나타났다.

XOR 게이트는 단일 퍼셉트론이 아닌, NAND, OR ➡ AND로 이어지는 다중층으로 이루어져있다.

2. 신경망

퍼셉트론이 하나의 단위라면 신경망은 퍼셉트론(뉴런, 노드)들로 연결된 하나의 집합체라고 볼 수 있다. 구조는 보통 입력층 ➡ 은닉층 출력충으로 이루어져있다.

퍼셉트론은

가중치(weight)
편향(bias): 뉴런이 얼마나 쉽게 활성화되는 지 제어

이러한 입력값 * 가중치 + 편향으로 얻은 출력값을 활성화 함수로 통과하게 된다. 결국에는 신경망 학습은 가중치와 편향이 어떻게 변화하고 학습하는지가 포인트!

활성화 함수

활성화 함수는 입력 신호를 활성화하는 데 의의가 있다.

임계값으로 나뉘어지는 계단 함수 for 퍼셉트론
선형 함수인 sigmoid 함수: $\frac{1}{1 + exp(-x)}$ for 신경망
출력층에서 확률을 나타내는 softmax: $\frac{exp(x)}{\sum_{exp(x)}}$

⚠ $exp(x) = e^x$ 는 단조 증가 함수로 overflow의 위험이 있다. 따라서 실질적인 코딩에서는 delta를 더해서 계산한다.

def softmax(a):
    c = np.max(a) # for numerical stability
    exp_a = np.exp(a - c)
    sum_exp_a = np.sum(exp_a)
    y = exp_a / sum_exp_a
    return y

배치

입력 데이터의 묶음. 배치 크기만큼 이동하면서 데이터를 훈련한다.

3. 신경망 학습

신경망 학습은 데이터 주도 학습이다.

데이터 주도 학습

기계 학습: 데이터에서 패턴(feature)을 찾고 답을 찾는과정, 이 때 사람의 개입을 최소화하는 방향으로 넘어가면 딥러닝(end-to-end ML)으로 이어짐

데이터는 크게 두 가지로 나뉘어서 훈련한다.

train data
test data: for 범용능력 평가. 지나치게 최적화, 즉 오버피팅을 지양하기 위함.

손실 함수

하나의 지표 기준으로 최적의 가중치 매개변수를 탐색

하나의 지표 = 얼마나 정답에서 멀리 떨어져 있는가? ➡ 정확도를 높이는 것이 목표

손실 함수는 미분(=기울기)을 이용해서 갱신을 한다. 이 때 손실함수는 가중치 매개 변수에 대한 손실함수 이다.

오차제곱합: $\frac{1}{2} \sum_{i=1}(y_i - \hat{y}_i)^2$ ➡ $-\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$ , n as batch size, i as classification num
cross entropy error: $-\sum_{i=1}^{n} y_i \log(\hat{y}_i)$ : 실젯값의 확률분포와 예측값의 확률분포 차이를 계산함

class SimpleNet:
    def __init__(self):
        self.W = np.random.randn(2, 3)

    def predict(self, x):
        return np.dot(x, self.W)

    def loss(self, x, t):
        y = self.predict(x)
        return cross_entropy_error(softmax(y), t)

def f(W):
    return net.loss(x, t)

dW = numerical_gradient(f, net.W)

🤔 왜 지표가 정확도가 아닌 손실 함수일까? 그냥 답에 가까우면 100 이런식으로 설정하면 안될까?

정확도로 지표를 삼게 되면 대부분의 장소에서 0이 되어버림. 즉 미세한 차이에는 반응이 없으며, 설령 있더라도 불연속적인 값(=기울기가 0)으로 바뀌어서 학습으로 이어지지 않음.

기울기

신경망 학습에서의 기울기가 향하는 방향 = 가중치 매개변수에 대한 손실 함수의 출력값을 줄이는 방향

Stochastic Gradient Descent: 극솟값을 찾음 ⚠ local optima as saddle point ➡ $\theta_t - \alpha \nabla_{\theta} J(\theta)$ , alpha as learning rate, J as gradient

학습 알고리즘

미니 배치로 데이터 갯수를 일부를 근사치로 학습한다.(🤔전체 데이터에 대한 손실함수 계산은 방대하므로)
기울기 산출: 가중치에 대한 매개변수의 손실 함수 크기가 작게 방향을 제시
매개변수 갱신

4. 오차역전파법(backpropagation)

순전파(forward propagation): 손실함수 구하는 과정까지 forward propagation, affine transform(행렬의 곱과 편향의 합)을 따른다.

연쇄법칙(chain rule): 국소적 계산(계산 그래프 상 node 하나의 계산) 및 미분은 연쇄법칙을 따름

연쇄법칙은 합성함수를 구성하는 함수 미분의 곱으로 표현 될 수 있다. 이로써 미분값을 효율적으로 구할 수 있음.

5. 학습 관련 기술들

목표: 전파의 '고른' 확산을 위함

매개변수 갱신

최적화된 매개변수를 찾는 것 ➡ optimizer

SGD: 문제에 따라 비효율적이다. 비등방성(방향에 따라 기울기가 달라짐)에서 비효율적
모멘텀: 물리량을 이용 ➡ 경로 탐색에 있어서 지그재그를 덜 그리고 효율적. $v_{t+1} = \beta v_t - \alpha \nabla_{\theta} J(\theta)$ $\theta_{t+1} = \theta_t + v_{t+1}$
AdaGrad: learning rate decay ➡ 각 매개변수에 맞게 학습률 조정, 미개변수의 움직임이 많을 수록(grad^2), 학습룰을 낮춤 $G_t = G_{t-1} + \nabla_{\theta} J(\theta) \odot \nabla_{\theta} J(\theta)$ $\theta_{t+1} = \theta_t - \frac{\alpha}{\sqrt{G_t + \epsilon}} \odot \nabla_{\theta} J(\theta)$
Adam = momentum + Adagrad: 편향도 보정이 되는 이점을 가지고 있음.

가중치 초깃값 설정

weight decay: 학습과정에서 가중치에 대한 정규화 효과를 주어 큰 가중치에 대해서 패널티를 부과함으로써 오버피팅을 방지한다.

🤔 가중치를 보통 0으로 설정 혹은 동일한 값으로 설정하면?

모든 뉴런이 같은 업데이트를 받아 학습이 제대로 이루어지지 않는 문제가 발생, 때문에 보통은 초깃값은 random하게 적절한 분포에 따라 부여한다.

은닉층 활성화값 분포를 확인하면 기울기 소실 문제로 0, 1로 출력값들이 치우쳐 있는 것을 확인할 수 있음. 가중치에 대한 표준편차가 낮을 수록 표현력이 제한이 되어 다양하게 확산이 못되는 문제를 지님.

xavier 초깃값: 이전 노드가 n개일 때 $\frac{1}{\sqrt{n}}$ 인 표준편차 분포 사용 sigmoid함수와 같이 활성화함수가 선형인 것을 전제로 함.
He 초깃값: 이전 노드가 n개일 때 $\frac{\sqrt{2}}{\sqrt{n}}$ 인 표준편차 분포 사용, ReLU

배치 정규화

확산을 강제하는 역할.

학습 속도 개선
초깃값 의존 ⬇
오버피팅 ⬇, dropout 필요성 ⬇

미니배치 단위로 출력값 정규화
계층마다 정규화된 데이터에 고유한 확대와 이동 변환을 수행: $y = \gamma\hat{x} + \beta$

바른 학습을 위해

오버피팅은 과적합으로 가중치 매개변수가 지나치게 많거나 훈련 데이터의 부족을 들 수 있다.

가중치 감소(weight decay): L2 norm을 따른다
Dropout: 뉴런을 임의로 삭제하면서 학습, 시험 때는 삭제 안한 비율을 곱한다.

적절한 하이퍼파라미터 찾기

하이퍼파라미터에 대한 성능 평가는 validation data로 검증한다. 시험 데이터는 사용하지 않는다(오버피팅 발생)

해당 책에서 제시하는 파라미터는 아래와 같음.

learning rate $\alpha$
weight decay $\gamma$

다시 정리하면

train data: 가중치 매개변수 학습
test data: 범용능력 평가
validation data: 하이퍼파라미터 성능 평가

하이퍼파라미터 최적화 과정은 아래 과정을 반복하면서 줄여나간다.

범위를 대략적으로 log scale로 설정함
하이퍼파라미터를 무작위로 추출
검증 데이터로 평가

6. Convolutional Neural Network

이전 신경망의 구조를 Fully Connected(이하 FC)라고 정의할 수 있다.

CNN은 여기서 다른 점은 두 가지 계층이 추가된다.

Convolution layer
Pooling layer

Convolution layer

기존 계층들은 데이터의 형상을 무시된다는 단점을 지니고 있었음. 반면 CNN은 유지함.

feature map: convolution layer에서의 데이터
커널 = 필터 = 가중치
fused multiply-add: 단일 곱셈 누산
padding: 입력 데이터 주변을 0으로 채움
stride: 필터 젹용 위치의 간격
합성 곱 연산의 해석: 채널을 포함한 3차원 블록과 한개 채널의 출력 데이터라면, n개의 3차원 블록은 n개의 출력 데이터를 만들어 낸다.
배치 처리: (Channel, Weight, Height) * N

Pooling layer

영역을 하나의 원소 하나로 집약한다.

average pooling
max pooling

학습해야할 매개변수가 없다는 것이 특징(필터가 없음). 채널마다 독립적 연산을 하므로 채널 수의 변화가 없다. 또한 입력 변화에 영향이 없는, 강건한 계층이다.

해당 CNN을 feature map들은 im2col과 같이 데이터를 전개해서 데이터를 효율적으로 정의한다. 때에 따라 모양을 적절하게 성형하면 된다.

Terminology

one-hot-encoding: 해당되는 class가 1이고 나머지는 0으로 표현
end-to-end: 사람 개입없이 처음부터 끝까지
hyperparameter: 사람이 직접 설정하는 변수(사람의 개입)