import numpy as np
import collections


W = np.arange(21).reshape(7,3)
print('=====W전체======')
print(W)
print('=====W[2]행=====')
print(W[2])

=====W전체======
[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]
 [12 13 14]
 [15 16 17]
 [18 19 20]]
=====W[2]행=====
[6 7 8]


idx = np.array([1, 0, 3, 0])
W[idx]

array([[ 3,  4,  5],
       [ 0,  1,  2],
       [ 9, 10, 11],
       [ 0,  1,  2]])


class Embedding:
    def __init__(self, W):
        self.params = [W]
        self.grads = [np.zeros_like(W)]
        self.idx = None
        
    def forward(self, idx):
        W, = self.params
        self.idx = idx
        out = W[idx]
        return out
    
    def backward(self, dout):
        dW, = self.grads
        dW[...] = 0 # dW의 형상을 유지한채 그 원소들을 0으로 덮어씀
        np.add.at(dW, self.idx, dout)
        return None


# # np.add.at 동일한 표현
# for i, word_id in enumerate(self.idx):
#     dW[word_id] += dout[i]


class EmbeddingDot:
    def __init__(self, W):
        self.embed = Embedding(W)
        self.params = self.embed.params # 매개변수 저장
        self.grads = self.embed.grads # grad저장
        self.cache = None # 순전파시 계산결과를 잠시 유지
        
    def forward(self, h, idx):
        target_W = self.embed.forward(idx)
        out = np.sum(target_W * h, axis=1)
        self.cache = (h, target_W)
        return out
    
    def backward(self, dout):
        h, target_W = self.cache
        dout = dout.reshape(dout.shape[0], 1)
        dtarget_W = dout * h 
        self.embed.backward(dtarget_W)
        dh = dout * target_W
        return dh


words = ['you', 'say', 'goodbye', 'I', 'hello', '.']
print(np.random.choice(words)) # 무작위로 하나만 샘플링
print(np.random.choice(words, size=5)) # 중복가능하며 5개를 샘플링
print(np.random.choice(words, size=5, replace=False)) #중복 불가능 하고 5개를 샘플링

hello
['I' 'say' '.' 'you' 'goodbye']
['goodbye' 'hello' '.' 'you' 'I']


p = [0.5, 0.1, 0.05, 0.2, 0.05, 0.1 ] #word에 대한 확률분포
np.random.choice(words, p=p) # 확률분포에 따라 샘플링

'I'


p = [0.7, 0.29, 0.01]
new_p = np.power(p, 0.75)
new_p/= np.sum(new_p)
new_p

array([0.64196878, 0.33150408, 0.02652714])


## Unigram: 하나의 연속된 단어
# 말뭉치에서 단어의 확률분포를 만들고 0.75를 제곱한 후 random sampling으로 부정적인 예를 샘플링
class UnigramSampler:
    def __init__(self, corpus, power, sample_size):
        self.sample_size = sample_size
        self.vocab_size = None
        self.word_p = None
        
        counts = collections.Counter()
        for word_id in corpus:
            counts[word_id] +=1
            
        vocab_size = len(counts)
        self.vocab_size = vocab_size
        
        self.word_p = np.zeros(vocab_size)
        for i in range(vocab_size):
            self.word_p[i] = counts[i]
        
        self.word_p = np.power(self.word_p, power)
        self.word_p /= np.sum(self.word_p)
        
    def get_negative_sample(self, target):
        batch_size = target.shape[0]
        
        # not GPU
        negative_sample = np.zeros((batch_size, self.sample_size), dtype = np.int32)
        
        for i in range(batch_size):
            p = self.word_p.copy()
            target_idx = target[i]
            p[target_idx] = 0
            p /= np.sum()
            negative_sample[i, :] =np.random,choice(self.vocab_size, size = self.sample_size,\
                                                   replace=False, p=p)
            
        return negative_sample


class NegativeSamplingLoss:
    def __init__(self, W, corpus, power=0.75, sample_size=5):
        self.sample_size = sample_size
        self.sampler = UnigramSampler(corpus, power, sample_size)
        # 긍정 & 부정적 예 다루는 계층 
        self.loss_layers = [SigmoidWithLoss() for _ in range(sample_size + 1)] 
        self.embed_dot_layers = [Embedding(W) for _ in range(sample_size + 1)]
        
        self.params , self.grads = [], []
        for layer in self.embed_dot_layers:
            self.params += layer.params
            self.grads += layer.grads
            
    def forward(self, h, target):
        batch_size = target.shape[0]  #긍정적인 예의 target
        negative_sample = self.sampler.get_negative_sample(target) #부정적인 예 샘플링하여 저장
        
        # 긍정적예 순전파 loss[0]
        score = self.embed_dot_layers[0].forward(h,target) 
        correct_label = np.ones(batch_size, dtype=np.int32) 
        loss = self.loss_layers[0].forward(score, correct_label) # sigmoid with loss
        
        # 부정적예 순전파
        negative_label = np.zeros(batch_size, dtype = np.int32)
        for i in range(self.sample_size):
            negative_target = negative_sample[:, i]
            score = self.embed_dot_layers[1+i].forward(h, negative_target)
            loss += self.loss_layers[1 + i].forward(score, negative_label)
            
        return loss
    
    def backward(self, dout=1):
        dh = 0
        for l0, l1 in zip(self.loss_layers, self.embed_dot_layers):
            dscore = l0.backward(dout)
            dh += l1.backward(dscore)
            
        return dh


d, n = 8,7
x = np.random.randn(n,d)
y = np.sum(x , axis=0, keepdims=True)
print(x)
print(y)

[[ 0.24453787 -0.44849193  2.37522443  0.81504681 -1.88463415  0.85739727
   2.05532778 -0.55448243]
 [ 1.56730253 -0.40965908  0.92791671 -0.47426427  0.95591712 -0.38568626
   1.77193157 -0.78366005]
 [ 0.71945694 -1.0606031   1.25095535 -0.11832978 -0.13193915 -1.62376702
   0.85949455  0.72669345]
 [ 0.41205819 -0.73944381  0.51007843 -1.22023915  0.6461321   2.09379106
  -0.45638718  1.16144043]
 [-0.28008634  0.13319037 -0.59215464  0.09939126 -1.41104754 -2.65212158
  -1.57646526  0.32816065]
 [ 0.20450405  1.20728376  0.10172982  0.3677373   1.02890643  1.02949509
   0.47006649 -0.15169109]
 [ 0.18547259  0.11150395  1.46767237 -0.64790412 -0.91240906 -0.21748425
   0.23730154  0.82145199]]
[[ 3.05324583 -1.20621984  6.04142247 -1.17856196 -1.70907424 -0.8983757
   3.3612695   1.54791295]]


dy = np.random.randn(1, d)
dx = np.repeat(dy, n, axis=0)
print(dy)
print(dx)

[[-2.17736513 -0.27087786  0.40784092 -0.52614058 -2.29841372 -0.10212383
   0.22914595  1.12607409]]
[[-2.17736513 -0.27087786  0.40784092 -0.52614058 -2.29841372 -0.10212383
   0.22914595  1.12607409]
 [-2.17736513 -0.27087786  0.40784092 -0.52614058 -2.29841372 -0.10212383
   0.22914595  1.12607409]
 [-2.17736513 -0.27087786  0.40784092 -0.52614058 -2.29841372 -0.10212383
   0.22914595  1.12607409]
 [-2.17736513 -0.27087786  0.40784092 -0.52614058 -2.29841372 -0.10212383
   0.22914595  1.12607409]
 [-2.17736513 -0.27087786  0.40784092 -0.52614058 -2.29841372 -0.10212383
   0.22914595  1.12607409]
 [-2.17736513 -0.27087786  0.40784092 -0.52614058 -2.29841372 -0.10212383
   0.22914595  1.12607409]
 [-2.17736513 -0.27087786  0.40784092 -0.52614058 -2.29841372 -0.10212383
   0.22914595  1.12607409]]

[Deep Learning from Scratch 2] chapter 6.1. 게이트가 추가된 RNN (0)	2023.04.26
[Deep Learning from Scratch 2] chapter 5. 순환신경망(RNN) (0)	2023.04.26
[Deep Learning from Scratch 2] chapter 3. word2vec (0)	2023.04.26
[Deep Learning from Scratch 2] chapter 2. 자연어와 단어의 분산 표현 (0)	2023.04.26
[Deep Learning from Scratch] chapter 8-4. 딥러닝 NIC, DCGAN (0)	2023.04.25

Sunny Finance & Tech Blog

[Deep Learning from Scratch 2] chapter 4. word2vec 속도개선

Embedding계층¶

Embedding 계층 구현¶

네거티브 샘플링¶

다중분류에서 이진분류로 구현¶

네거티브 샘플링¶

네거티브 샘플¶

네거티브 샘플링¶

Sum Node forward and backward 이해¶

'Data Science > Deep Learning' 카테고리의 다른 글

+ Recent posts

티스토리툴바