import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline


N = 2 #미니배치 크기
H = 3 # 은닉상태 벡터의 차원수
T = 20 # 시계열 데이터의 길이

dh = np.ones((N, H))
np.random.seed(3)
Wh = np.random.randn(H, H)

norm_list =[]
for t in range(T):
    dh = np.matmul(dh, Wh.T)
    norm = np.sqrt(np.sum(dh**2))/N
    norm_list.append(norm)

plt.plot(norm_list)
plt.title('Exploding Gradient')
plt.show()


N = 2 #미니배치 크기
H = 3 # 은닉상태 벡터의 차원수
T = 20 # 시계열 데이터의 길이

dh = np.ones((N, H))
np.random.seed(3)
Wh = np.random.randn(H, H)*0.5

norm_list =[]
for t in range(T):
    dh = np.matmul(dh, Wh.T)
    norm = np.sqrt(np.sum(dh**2))/N
    norm_list.append(norm)

plt.plot(norm_list)
plt.title('Vanishing Gradient')
plt.show()


def clip_grads(grads, max_norm):
    total_norm = 0
    for grad in grads:
        total_norm += np.sum(grad**2)
    total_norm = np.sqrt(total_norm)
    rate = max_norm /(total_norm +1e-6)
    if rate < 1:
        for grad in grads:
            grad *= rate


dW1 = np.random.rand(3,3) * 10
dW2 = np.random.rand(3,3) * 10
grads = [dW1, dW2]
max_norm = 5.0
print('before:', dW1.flatten())
clip_grads(grads, max_norm)
print('after:', dW1.flatten())

before: [9.75995422 6.72383676 9.02834109 8.45750871 3.77994041 0.92217009
 6.53410903 5.57840762 3.61564763]
after: [2.00518189 1.38141178 1.85487202 1.73759455 0.77658848 0.18945978
 1.34243223 1.14608344 0.74283454]


from IPython.display import Image
Image(filename='LSTM3-focus-o.png')


Image(filename='LSTM3-focus-f.png')


Image(filename='LSTM3-focus-i.png')


class LSTM:
    def __init__(self, Wx, Wh, b):
        self.params = [Wx, Wh, b]
        self.grads = [np.zeros_like(Wx), np.zeros_like(Wh), np.zeros_like(b)]
        self.cache = None
        
    def forward(self, x, h_prev, c_prev):
        Wx, Wh, b = self.params
        N, H = h_prev.shape
        
        A = np.dot(x, Wx) + np.dot(h_prev, Wh) + b
        
        #slice
        f = A[:, :H]
        g = A[:, H: 2*H]
        i = A[:, 2*H: 3*H]
        o = A[:, 3*H:]
        
        f = sigmoid(f)
        g = np.tanh(g)
        i = sigmoid(i)
        o = sigmoid(o)
        
        c_next = f * c_prev + g * i
        h_next = o * np.tanh(c_next)
        
        self.cache = (x, h_prev, c_prev, i, f, g, o, c_next)
        return h_next, c_next
    
    def backward(self, dh_next, dc_next):
        Wx, Wh, b = self.params
        x, h_prev, c_prev, i, f, g, o, c_next = self.cache
        
        tanh_c_next = np.tanh(c_next) 
        ds = dc_next + (dh_next * o) * (1- tanh_c_next**2) # y= tanh(x) 미분은 (1-y^2)
        dc_prev = ds * f
        
        di = ds * g
        df = ds * c_prev
        do = dh_next * tanh_c_next
        dg = ds * i
        
        di *= i * (1-i)
        df *= f * (1-f)
        do *= o * (1-o)
        dg *= g * (1-g)
        
        dA = np.hstack((df, dg, di, do))
        
        dWh = np.dot(h_prev.T, dA)
        dWx = np.dot(x.T, dA)
        db = dA.sum(axis=0)
        
        dx = np.dot(dA, Wx.T)
        dh_prev = np.dot(dA, Wh.T)
        
        return dx, dh_prev, dc_prev


class TimeLSTM:
    def __init__(self, Wx, Wh, b, stateful=False):
        self.params = [Wx, Wh, b]
        self.grads = [np.zeros_like(Wx), np.zeros_like(Wh), np.zeros_like(b)]
        self.layers = None
        self.h, self.c = None, None
        self.dh = None
        self.stateful = stateful
        
    def forward(self, xs):
        Wx, Wh, b = self.params
        N, T, D = xs.shape
        H = Wh.shape[0]
        
        self.layers = []
        hs = np.empty((N, T, H), dtype='f')
        
        if not self.stateful or self.h is None:
            self.h = np.zeros((N, H), dtype='f')
        if not self.stateful or self.c is None:
            self.c = np.zeros((N, H), dtype ='f')
            
        for t in range(T):
            layers = LSTM(*self.params)
            self.h, self.c = layers.forward(xs[:, t, :], self.h, self.c)
            hs[:, t, :] = self.h
            
            self.layers.append(layer)
            
        return hs
    
    def backward(self, dhs):
        Wx, Wh, b = self.params
        N, T, H = dhs.shape
        D = Wx.shape[0]
        
        dxs = np.empty((N, T, D), dtype='f')
        dh, dc = 0, 0
        
        grads =[0, 0, 0]
        for t in reversed(range(T)):
            layers = self.layers[t]
            dx, dh dc = layers.backward(dhs[:, t, :]+dh, dc)
            dxs[:, t, :] = dx
            for i, grad in enumerate(layers.grads):
                grads[i] += grad
                
        for i, grad in enumerate(grads):
            self.grads[i][...] = grad
            self.dh = dh
            return dxs
        
    def set_state(self.h, c= None):
        self.h, self.c = h, c
        
    def reset_state(self):
        self.h, self.c = None, None

티스토리

[Deep Learning from Scratch 2] chapter 6.1. 게이트가 추가된 RNN

[Deep Learning from Scratch 2] chapter 6.1. 게이트가 추가된 RNN

RNN의 문제점¶

기울기 소실 또는 기울기 폭발¶

기울기 폭발 대책¶

기울기 소실과 LSTM¶

LSTM계층 조립¶

ouput gate¶

forget gate¶

새로운 기억셀¶

input gate¶

LSTM 구현¶

Time LSTM¶

RNN 추가개선¶

LSTM계층 다층화 : LSTM 계층을 깊게 쌓아 모델의 표현력을 좋게 한다.¶

정규화: 모델의 복잡도에 페널티를 주는 Normalization으로 과적합 억제¶

Dropout에 의한 과적합 억제¶

가중치 공유(weight tying)¶