lucidrains · vasiliyeskin · Aug 5, 2021 · Aug 5, 2021 · Aug 23, 2021
diff --git a/README.md b/README.md
@@ -94,7 +94,7 @@ enc_dec = PerformerEncDec(
     dec_num_tokens = 20000,
     dec_depth = 6,
     dec_heads = 8,
-    dec_max_seq_len = TGT_SEQ_LEN,
+    dec_max_seq_len = TGT_SEQ_LEN
 )
 
 src = torch.randint(0, 20000, (1, SRC_SEQ_LEN))
@@ -124,7 +124,7 @@ from performer_pytorch import SelfAttention
 attn = SelfAttention(
     dim = 512,
     heads = 8,
-    causal = False,
+    causal = False
 ).cuda()
 
 x = torch.randn(1, 1024, 512).cuda()

diff --git a/performer_pytorch/autoregressive_wrapper.py b/performer_pytorch/autoregressive_wrapper.py
@@ -26,9 +26,8 @@ def top_k(logits, thres = 0.9):
     return probs
 
 class AutoregressiveWrapper(nn.Module):
-    def __init__(self, net, ignore_index = 0, pad_value = 0):
+    def __init__(self, net, ignore_index = 0):
         super().__init__()
-        self.pad_value = pad_value
         self.ignore_index = ignore_index
 
         self.net = net

diff --git a/performer_pytorch/performer_enc_dec.py b/performer_pytorch/performer_enc_dec.py
@@ -42,7 +42,6 @@ def __init__(
         self,
         dim,
         ignore_index = 0,
-        pad_value = 0,
         tie_token_embeds = False,
         no_projection = False,
         **kwargs
@@ -65,7 +64,7 @@ def __init__(
             enc.token_emb = dec.token_emb
 
         self.enc = enc
-        self.dec = AutoregressiveWrapper(dec, ignore_index = ignore_index, pad_value = pad_value)
+        self.dec = AutoregressiveWrapper(dec, ignore_index = ignore_index)
 
     @torch.no_grad()
     def generate(self, seq_in, seq_out_start, seq_len, **kwargs):