class SGD:
    def __init__(self, lr=0.01):
        self.lr =lr
        
    def update(self, params, grads):# params['W1'],grad['W1'] 과 같은 변수를 정장하는 딕셔너리 변수
        for key in params.keys(): 
            params[key] -= self.lr * grad[key] #


class Momentum:
    def __init__(self, lr=0.01, momentum=0.9):
        self.lr = lr
        self.momentum = momentum
        self.v = None

    def update(self, params, grads):
        if self.v is None:
            self.v = {}
            for key, val in params.items():
                self.v[key] = np.zeros_like(val)

        for key in params.keys():
            self.v[key] = self.momentum * self.v[key] - self.lr * grads[key]
            params[key] += self.v[key]


class AdaGrad:
    def __init__(self, lr=0.01):
        self.lr = lr
        self.h = None
        
    def update(self, params, grads):
        if self.h is None:
            self.h = {}
            
            for key, val in params.items():
                self.h[key] = np.zeros_like(val)
                
        for key in params.keys():
            self.h[key] += grads[key]*grads[key]
            params[key] -= self.lr *grads[key]/np.sqrt(self.h[keys]+1e-7)
            # 마지막에 self.h[key]에 1e-7을 더하는 것은 self.h[key]에 0이 답겨 있어도 0으로 나누는 사태를 막는다.


class RMSProp:
    def __init__(self, lr=0.01, decay_rate =0.99):
        self.lr = lr
        self.decay_rate = decay_rate
        self.h = None
        
    def update(self, params, grads):
        if self.h is None:
            self.h = {}
            for key, val in params.items():
                self.h[key] = np.zeros_like(val)
                
        for key in params.keys():
            self.h[key] *= self.decay_rate
            self.h[keys] += (1- self.decay_rate)*grads[key]*grads[key]
            params[key] -=self.lr *grads[key]/(np.sqrt(self.h[key])+ 1e-7)


class Adam:
    def __init__(self, lr= 0.001, beta1 =0.9, beta2 = 0.999):
        self.lr = lr
        self.beta1 = beta1
        self.beta2 = beta2
        self.iter = 0
        self.m = None
        self.v = None
        
    def update(self, params, grads):
        if self.m is None:
            self.m, self.v = {}, {}
            for key, val in params.items():
                self.m[key] = np.zeros_like(val)
                self.v[key] = np.zeros_like(val)
                
        self.iter +=1
        lr_t = self.lr *np.sqrt(1.0 - self.beta2**self.iter)/(1.0-self.beta1**self.iter)
        
        for key in params.keys():
#             self.m[key] = self.beta1*self.m[key] +(1-self.beta1)* grads[key]
#             self.v[key] = self.beta2*self.v[key] +(1-self.beta2)* grads[key]
            self.m[key] += (1 - self.beta1)*(grads[key] - self.m[key])
            self.v[key] += (1- self.beta2)*(grads[key]**2 - self.v[key])
            params[key] -= lr_t*self.m[key] /(np.sqrt(self.v[key])+1e-7)


import numpy as np
import matplotlib.pyplot as plt


# 비교모형
def sigmoid(x):
    return 1/(1+np.exp(-x))

def Relu(x):
    return np.maximum(0, x)

def tanh(x):
    return np.tanh(x)


input_data = np.random.randn(1000, 100) #1000개의 데이터
node_num = 100 # 은닉층 노드 갯수
hidden_layer_size = 5 # 은닉층 갯수
x = input_data


class HiddenLayerCom:
    def __init__(self, x, model, hidden_layer_size, std = 1, node_num=100):
        activations = {}
        self.x = x
        self.model = model
        self.std = std
        self.hidden_layer_size = hidden_layer_size
        self.node_num = node_num
        
    def generate(self, x,model, hidden_layer_size, std, node_num):
        activations = {}
        for i in range(self.hidden_layer_size):
            if i!=0:
                x = activations[i-1]
                
            w = np.random.randn(self.node_num, self.node_num) * self.std
            
            z = np.dot(self.x, w)
            a = self.model(z)
            activations[i] = a
        return activations


sig = HiddenLayerCom(x, sigmoid, hidden_layer_size, 1, 100)
sig1 = sig.generate(x, sigmoid, hidden_layer_size, 1, 100)


for i, a in sig1.items():
    plt.subplot(1, len(sig1), i+1)
    plt.title(str(i+1) + "-layer")
    if i != 0: plt.yticks([], [])
    plt.hist(a.flatten(), 30, range=(0,1))
    plt.suptitle('Sigmoid Fuction using 1 standard deviation on Weight')
plt.show()


sig = HiddenLayerCom(x, sigmoid, hidden_layer_size, 0.01, 100)
sig2 = sig.generate(x, sigmoid, hidden_layer_size, 0.01, 100)


for i, a in sig2.items():
    plt.subplot(1, len(sig2), i+1)
    plt.title(str(i+1) + "-layer")
    if i != 0: plt.yticks([], [])
    plt.hist(a.flatten(), 30, range=(0,1))
    plt.suptitle('Sigmoid Fuction using 0.01 standard deviation on Weight')
plt.show()


relu = HiddenLayerCom(x, Relu, hidden_layer_size, 0.01, 100)
relu1 = relu.generate(x, Relu, hidden_layer_size, 0.01, 100)


for i, a in relu1.items():
    plt.subplot(1, len(relu1), i+1)
    plt.title(str(i+1) + "-layer")
    if i != 0: plt.yticks([], [])
    plt.hist(a.flatten(), 30, range=(0,1))
    plt.suptitle('Relu Fuction using 0.01 standard deviation on Weight')
plt.show()


tanh = HiddenLayerCom(x, tanh, hidden_layer_size, 0.01, 100)
tanh1 = tanh.generate(x, tanh, hidden_layer_size, 0.01, 100)


for i, a in tanh1.items():
    plt.subplot(1, len(tanh1), i+1)
    plt.title(str(i+1) + "-layer")
    if i != 0: plt.yticks([], [])
    plt.hist(a.flatten(), 30, range=(0,1))
    plt.suptitle('Tanh Fuction using 0.01 standard deviation on Weight')
plt.show()


node_num =100 # 앞층 노드 수
Xavierstd = np.sqrt(1/node_num)


sigmoid = HiddenLayerCom(x, sigmoid, hidden_layer_size, Xavierstd, node_num)
sigmoid_x = sigmoid.generate(x, sigmoid, hidden_layer_size, Xavierstd, node_num)
for i, a in sigmoid_x.items():
    plt.subplot(1, len(sigmoid_x), i+1)
    plt.title(str(i+1) + "-layer")
    if i != 0: plt.yticks([], [])
    plt.hist(a.flatten(), 30, range=(0,1))
    plt.suptitle('Sigmoid Fuction using Xavier on Weight initiation')
plt.show()


relu = HiddenLayerCom(x, Relu, hidden_layer_size, Xavierstd, node_num)
relu2 = relu.generate(x, Relu, hidden_layer_size, Xavierstd, node_num)
for i, a in relu2.items():
    plt.subplot(1, len(relu2), i+1)
    plt.title(str(i+1) + "-layer")
    if i != 0: plt.yticks([], [])
    plt.hist(a.flatten(), 30, range=(0,1))
    plt.suptitle('Relu Fuction using Xavier on Weight initiation')
plt.show()


node_num =100 # 앞층 노드 수
Hestd = np.sqrt(2/node_num)


reluh = HiddenLayerCom(x, Relu, hidden_layer_size, Hestd, node_num)
relu3 = reluh.generate(x, Relu, hidden_layer_size, Hestd, node_num)
for i, a in relu3.items():
    plt.subplot(1, len(relu3), i+1)
    plt.title(str(i+1) + "-layer")
    if i != 0: plt.yticks([], [])
    plt.hist(a.flatten(), 30, range=(0,1))
    plt.suptitle('Relu Fuction using Xavier on Weight initiation')
plt.show()

[Deep Learning from Scratch] chapter 6.학습관련기술들(최적화, 가중치 초기값, 배치정규화)

매개변수 갱신, 최적화(Optimization)¶

SGD(확률적 경사 하강법)¶

Momemtum(모멘텀)¶

AdaGrad(Adaptive Gradient)¶

RMSProp¶

Adam(Adaptive Moment Estimation)¶

가중치 초깃값¶

은닉층 활성화값 분포 비교¶

모형별 비교¶

Sigmoid with 1 std on Weight Initialization¶

Sigmoid with 0.01 std on Weight Initialization¶

Relu with 0.01std¶

tanh with 0.01std¶

Xavier and He초깃값¶

Sigmoid with Xavier weight initiation¶

Relu with Xavier weight initiation¶

Relu with He weight initiation¶

배치 정규화 ( Batch Normalization)¶

오버피팅( overfitting)¶

가중치 감소(Weight Decay)¶

드롭아웃(Dropout)¶

적절한 하이퍼파라미터 찾기¶