diff --git a/.travis.yml b/.travis.yml
index 6c95c83..62a309c 100644
--- a/.travis.yml
+++ b/.travis.yml
@@ -10,8 +10,6 @@ python:
 install:
   - pip install -U pip
   - pip -q install -r requirements.txt
-  - pip -q install "http://download.pytorch.org/whl/cu75/torch-0.2.0.post1-cp27-cp27mu-manylinux1_x86_64.whl; python_version == '2.7'"
-  - pip -q install "http://download.pytorch.org/whl/cu75/torch-0.2.0.post1-cp36-cp36m-manylinux1_x86_64.whl; python_version == '3.6'"
 
   # dev dependencies
   - pip install flake8
@@ -32,4 +30,4 @@ script:
   # Unit test
   - nosetests --with-coverage --cover-erase --cover-package=seq2seq
   # Integration test
-  - "if [[ $TRAVIS_BRANCH =~ (master|develop) ]]; then python setup.py install && scripts/integration_test.sh; fi"
\ No newline at end of file
+  - "if [[ $TRAVIS_BRANCH =~ (master|develop) ]]; then python setup.py install && scripts/integration_test.sh; fi"
diff --git a/docs/public/_modules/index.html b/docs/public/_modules/index.html
index c5eae05..34c956b 100644
--- a/docs/public/_modules/index.html
+++ b/docs/public/_modules/index.html
@@ -8,7 +8,7 @@
   
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Overview: module code &mdash; pytorch-seq2seq 0.1.5 documentation</title>
+  <title>Overview: module code &mdash; pytorch-seq2seq 0.1.6 documentation</title>
   
 
   
@@ -35,7 +35,7 @@
         <link rel="index" title="Index"
               href="../genindex.html"/>
         <link rel="search" title="Search" href="../search.html"/>
-    <link rel="top" title="pytorch-seq2seq 0.1.5 documentation" href="../index.html"/> 
+    <link rel="top" title="pytorch-seq2seq 0.1.6 documentation" href="../index.html"/> 
 
   
   <script src="../_static/js/modernizr.min.js"></script>
@@ -64,7 +64,7 @@
             
             
               <div class="version">
-                0.1.5
+                0.1.6
               </div>
             
           
@@ -164,8 +164,6 @@
             
   <h1>All modules for which code is available</h1>
 <ul><li><a href="seq2seq/dataset/fields.html">seq2seq.dataset.fields</a></li>
-<li><a href="seq2seq/dataset/utils.html">seq2seq.dataset.utils</a></li>
-<li><a href="seq2seq/dataset/vocabulary.html">seq2seq.dataset.vocabulary</a></li>
 <li><a href="seq2seq/evaluator/evaluator.html">seq2seq.evaluator.evaluator</a></li>
 <li><a href="seq2seq/evaluator/predictor.html">seq2seq.evaluator.predictor</a></li>
 <li><a href="seq2seq/loss/loss.html">seq2seq.loss.loss</a></li>
@@ -178,7 +176,6 @@ <h1>All modules for which code is available</h1>
 <li><a href="seq2seq/optim/optim.html">seq2seq.optim.optim</a></li>
 <li><a href="seq2seq/trainer/supervised_trainer.html">seq2seq.trainer.supervised_trainer</a></li>
 <li><a href="seq2seq/util/checkpoint.html">seq2seq.util.checkpoint</a></li>
-<li><a href="seq2seq/util/custom_time.html">seq2seq.util.custom_time</a></li>
 </ul>
 
            </div>
@@ -215,7 +212,7 @@ <h1>All modules for which code is available</h1>
     <script type="text/javascript">
         var DOCUMENTATION_OPTIONS = {
             URL_ROOT:'../',
-            VERSION:'0.1.5',
+            VERSION:'0.1.6',
             COLLAPSE_INDEX:false,
             FILE_SUFFIX:'.html',
             HAS_SOURCE:  true,
diff --git a/docs/public/_modules/seq2seq/dataset/dataset.html b/docs/public/_modules/seq2seq/dataset/dataset.html
deleted file mode 100644
index d055e1d..0000000
--- a/docs/public/_modules/seq2seq/dataset/dataset.html
+++ /dev/null
@@ -1,420 +0,0 @@
-
-
-<!DOCTYPE html>
-<!--[if IE 8]><html class="no-js lt-ie9" lang="en" > <![endif]-->
-<!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
-<head>
-  <meta charset="utf-8">
-  
-  <meta name="viewport" content="width=device-width, initial-scale=1.0">
-  
-  <title>seq2seq.dataset.dataset &mdash; pytorch-seq2seq 0.1.2 documentation</title>
-  
-
-  
-  
-  
-  
-
-  
-
-  
-  
-    
-
-  
-
-  
-  
-    <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
-  
-
-  
-
-  
-        <link rel="index" title="Index"
-              href="../../../genindex.html"/>
-        <link rel="search" title="Search" href="../../../search.html"/>
-    <link rel="top" title="pytorch-seq2seq 0.1.2 documentation" href="../../../index.html"/>
-        <link rel="up" title="Module code" href="../../index.html"/> 
-
-  
-  <script src="../../../_static/js/modernizr.min.js"></script>
-
-</head>
-
-<body class="wy-body-for-nav" role="document">
-
-   
-  <div class="wy-grid-for-nav">
-
-    
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search">
-          
-
-          
-            <a href="../../../index.html" class="icon icon-home"> pytorch-seq2seq
-          
-
-          
-          </a>
-
-          
-            
-            
-              <div class="version">
-                0.1.2
-              </div>
-            
-          
-
-          
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-
-          
-        </div>
-
-        <div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="main navigation">
-          
-            
-            
-              
-            
-            
-              <p class="caption"><span class="caption-text">Notes</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../notes/intro.html">Introduction</a></li>
-</ul>
-<p class="caption"><span class="caption-text">Package Reference</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../dataset.html">Dataset</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../util.html">Util</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../evaluator.html">Evaluator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../loss.html">Loss</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../optim.html">Optim</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../trainer.html">Trainer</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../models.html">Models</a></li>
-</ul>
-
-            
-          
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap">
-
-      
-      <nav class="wy-nav-top" role="navigation" aria-label="top navigation">
-        
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../index.html">pytorch-seq2seq</a>
-        
-      </nav>
-
-
-      
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-<div role="navigation" aria-label="breadcrumbs navigation">
-
-  <ul class="wy-breadcrumbs">
-    
-      <li><a href="../../../index.html">Docs</a> &raquo;</li>
-        
-          <li><a href="../../index.html">Module code</a> &raquo;</li>
-        
-      <li>seq2seq.dataset.dataset</li>
-    
-    
-      <li class="wy-breadcrumbs-aside">
-        
-            
-        
-      </li>
-    
-  </ul>
-
-  
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-            
-  <h1>Source code for seq2seq.dataset.dataset</h1><div class="highlight"><pre>
-<span></span><span class="kn">import</span> <span class="nn">random</span>
-<span class="kn">from</span> <span class="nn">seq2seq.dataset</span> <span class="k">import</span> <span class="n">Vocabulary</span><span class="p">,</span> <span class="n">utils</span>
-
-<div class="viewcode-block" id="Dataset"><a class="viewcode-back" href="../../../dataset.html#seq2seq.dataset.dataset.Dataset">[docs]</a><span class="k">class</span> <span class="nc">Dataset</span><span class="p">(</span><span class="nb">object</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    A class that encapsulates a dataset.</span>
-
-<span class="sd">    Warning:</span>
-<span class="sd">        Do not use this constructor directly, use one of the class methods to initialize.</span>
-
-<span class="sd">    Note:</span>
-<span class="sd">        Source or target sequences that are longer than the respective</span>
-<span class="sd">        max length will be filtered.</span>
-
-<span class="sd">    Args:</span>
-<span class="sd">        src_max_len (int): maximum source sequence length</span>
-<span class="sd">        tgt_max_len (int): maximum target sequence length</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">src_max_len</span><span class="p">,</span> <span class="n">tgt_max_len</span><span class="p">):</span>
-        <span class="c1"># Prepare data</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">src_max_len</span> <span class="o">=</span> <span class="n">src_max_len</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">tgt_max_len</span> <span class="o">=</span> <span class="n">tgt_max_len</span>
-
-        <span class="c1"># Declare vocabulary objects</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">input_vocab</span> <span class="o">=</span> <span class="kc">None</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">output_vocab</span> <span class="o">=</span> <span class="kc">None</span>
-
-        <span class="bp">self</span><span class="o">.</span><span class="n">data</span> <span class="o">=</span> <span class="kc">None</span>
-
-
-<div class="viewcode-block" id="Dataset.from_file"><a class="viewcode-back" href="../../../dataset.html#seq2seq.dataset.dataset.Dataset.from_file">[docs]</a>    <span class="nd">@classmethod</span>
-    <span class="k">def</span> <span class="nf">from_file</span><span class="p">(</span><span class="bp">cls</span><span class="p">,</span> <span class="n">path</span><span class="p">,</span> <span class="n">src_max_len</span><span class="p">,</span> <span class="n">tgt_max_len</span><span class="p">,</span> <span class="n">src_vocab</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">tgt_vocab</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">src_max_vocab</span><span class="o">=</span><span class="mi">50000</span><span class="p">,</span>
-                 <span class="n">tgt_max_vocab</span><span class="o">=</span><span class="mi">50000</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialize a dataset from the file at given path. The file</span>
-<span class="sd">        must contains a list of TAB-separated pairs of sequences.</span>
-
-<span class="sd">        Note:</span>
-<span class="sd">            Source or target sequences that are longer than the respective</span>
-<span class="sd">            max length will be filtered.</span>
-<span class="sd">            As specified by maximum vocabulary size, source and target</span>
-<span class="sd">            vocabularies will be sorted in descending token frequency and cutoff.</span>
-<span class="sd">            Tokens that are in the dataset but not retained in the vocabulary</span>
-<span class="sd">            will be dropped in the sequences.</span>
-
-<span class="sd">        Args:</span>
-<span class="sd">            path (str): path to the dataset file</span>
-<span class="sd">            src_max_len (int): maximum source sequence length</span>
-<span class="sd">            tgt_max_len (int): maximum target sequence length</span>
-<span class="sd">            src_vocab (Vocabulary): pre-populated Vocabulary object or a path of a file containing words for the source language,</span>
-<span class="sd">            default `None`. If a pre-populated Vocabulary object, `src_max_vocab` wouldn&#39;t be used.</span>
-<span class="sd">            tgt_vocab (Vocabulary): pre-populated Vocabulary object or a path of a file containing words for the target language,</span>
-<span class="sd">            default `None`. If a pre-populated Vocabulary object, `tgt_max_vocab` wouldn&#39;t be used.</span>
-<span class="sd">            src_max_vocab (int): maximum source vocabulary size</span>
-<span class="sd">            tgt_max_vocab (int): maximum target vocabulary size</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="n">obj</span> <span class="o">=</span> <span class="bp">cls</span><span class="p">(</span><span class="n">src_max_len</span><span class="p">,</span> <span class="n">tgt_max_len</span><span class="p">)</span>
-        <span class="n">pairs</span> <span class="o">=</span> <span class="n">utils</span><span class="o">.</span><span class="n">prepare_data</span><span class="p">(</span><span class="n">path</span><span class="p">,</span> <span class="n">src_max_len</span><span class="p">,</span> <span class="n">tgt_max_len</span><span class="p">)</span>
-        <span class="k">return</span> <span class="bp">cls</span><span class="o">.</span><span class="n">_encode</span><span class="p">(</span><span class="n">obj</span><span class="p">,</span> <span class="n">pairs</span><span class="p">,</span> <span class="n">src_vocab</span><span class="p">,</span> <span class="n">tgt_vocab</span><span class="p">,</span> <span class="n">src_max_vocab</span><span class="p">,</span> <span class="n">tgt_max_vocab</span><span class="p">)</span></div>
-
-<div class="viewcode-block" id="Dataset.from_list"><a class="viewcode-back" href="../../../dataset.html#seq2seq.dataset.dataset.Dataset.from_list">[docs]</a>    <span class="nd">@classmethod</span>
-    <span class="k">def</span> <span class="nf">from_list</span><span class="p">(</span><span class="bp">cls</span><span class="p">,</span> <span class="n">src_data</span><span class="p">,</span> <span class="n">tgt_data</span><span class="p">,</span> <span class="n">src_max_len</span><span class="p">,</span> <span class="n">tgt_max_len</span><span class="p">,</span> <span class="n">src_vocab</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">tgt_vocab</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">src_max_vocab</span><span class="o">=</span><span class="mi">50000</span><span class="p">,</span>
-                  <span class="n">tgt_max_vocab</span><span class="o">=</span><span class="mi">50000</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialize a dataset from the source and target lists of sequences.</span>
-
-<span class="sd">        Note:</span>
-<span class="sd">            Source or target sequences that are longer than the respective</span>
-<span class="sd">            max length will be filtered.</span>
-<span class="sd">            As specified by maximum vocabulary size, source and target</span>
-<span class="sd">            vocabularies will be sorted in descending token frequency and cutoff.</span>
-<span class="sd">            Tokens that are in the dataset but not retained in the vocabulary</span>
-<span class="sd">            will be dropped in the sequences.</span>
-
-<span class="sd">        Args:</span>
-<span class="sd">            src_data (list): list of source sequences</span>
-<span class="sd">            tgt_data (list): list of target sequences</span>
-<span class="sd">            src_max_len (int): maximum source sequence length</span>
-<span class="sd">            tgt_max_len (int): maximum target sequence length</span>
-<span class="sd">            src_vocab (Vocabulary): pre-populated Vocabulary object or a path of a file containing words for the source language,</span>
-<span class="sd">            default `None`. If a pre-populated Vocabulary object, `src_max_vocab` wouldn&#39;t be used.</span>
-<span class="sd">            tgt_vocab (Vocabulary): pre-populated Vocabulary object or a path of a file containing words for the target language,</span>
-<span class="sd">            default `None`. If a pre-populated Vocabulary object, `tgt_max_vocab` wouldn&#39;t be used.</span>
-<span class="sd">            src_max_vocab (int): maximum source vocabulary size</span>
-<span class="sd">            tgt_max_vocab (int): maximum target vocabulary size</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="n">obj</span> <span class="o">=</span> <span class="bp">cls</span><span class="p">(</span><span class="n">src_max_len</span><span class="p">,</span> <span class="n">tgt_max_len</span><span class="p">)</span>
-        <span class="n">pairs</span> <span class="o">=</span> <span class="n">utils</span><span class="o">.</span><span class="n">prepare_data_from_list</span><span class="p">(</span><span class="n">src_data</span><span class="p">,</span> <span class="n">tgt_data</span><span class="p">,</span> <span class="n">src_max_len</span><span class="p">,</span> <span class="n">tgt_max_len</span><span class="p">)</span>
-        <span class="k">return</span> <span class="bp">cls</span><span class="o">.</span><span class="n">_encode</span><span class="p">(</span><span class="n">obj</span><span class="p">,</span> <span class="n">pairs</span><span class="p">,</span> <span class="n">src_vocab</span><span class="p">,</span> <span class="n">tgt_vocab</span><span class="p">,</span> <span class="n">src_max_vocab</span><span class="p">,</span> <span class="n">tgt_max_vocab</span><span class="p">)</span></div>
-
-    <span class="k">def</span> <span class="nf">_encode</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">pairs</span><span class="p">,</span> <span class="n">src_vocab</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">tgt_vocab</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">src_max_vocab</span><span class="o">=</span><span class="mi">50000</span><span class="p">,</span> <span class="n">tgt_max_vocab</span><span class="o">=</span><span class="mi">50000</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Encodes the source and target lists of sequences using source and target vocabularies.</span>
-
-<span class="sd">        Note:</span>
-<span class="sd">            Source or target sequences that are longer than the respective</span>
-<span class="sd">            max length will be filtered.</span>
-<span class="sd">            As specified by maximum vocabulary size, source and target</span>
-<span class="sd">            vocabularies will be sorted in descending token frequency and cutoff.</span>
-<span class="sd">            Tokens that are in the dataset but not retained in the vocabulary</span>
-<span class="sd">            will be dropped in the sequences.</span>
-
-<span class="sd">        Args:</span>
-<span class="sd">            pairs (list): list of tuples (source sequences, target sequence)</span>
-<span class="sd">            src_vocab (Vocabulary): pre-populated Vocabulary object or a path of a file containing words for the source language,</span>
-<span class="sd">            default `None`. If a pre-populated Vocabulary object, `src_max_vocab` wouldn&#39;t be used.</span>
-<span class="sd">            tgt_vocab (Vocabulary): pre-populated Vocabulary object or a path of a file containing words for the target language,</span>
-<span class="sd">            default `None`. If a pre-populated Vocabulary object, `tgt_max_vocab` wouldn&#39;t be used.</span>
-<span class="sd">            src_max_vocab (int): maximum source vocabulary size</span>
-<span class="sd">            tgt_max_vocab (int): maximum target vocabulary size</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="c1"># Read in vocabularies</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">input_vocab</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_init_vocab</span><span class="p">(</span><span class="nb">zip</span><span class="p">(</span><span class="o">*</span><span class="n">pairs</span><span class="p">)[</span><span class="mi">0</span><span class="p">],</span> <span class="n">src_max_vocab</span><span class="p">,</span> <span class="n">src_vocab</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">output_vocab</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_init_vocab</span><span class="p">(</span><span class="nb">zip</span><span class="p">(</span><span class="o">*</span><span class="n">pairs</span><span class="p">)[</span><span class="mi">1</span><span class="p">],</span> <span class="n">tgt_max_vocab</span><span class="p">,</span> <span class="n">tgt_vocab</span><span class="p">)</span>
-
-        <span class="c1"># Translate input sequences to token ids</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">data</span> <span class="o">=</span> <span class="p">[]</span>
-        <span class="k">for</span> <span class="n">pair</span> <span class="ow">in</span> <span class="n">pairs</span><span class="p">:</span>
-            <span class="n">src</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">input_vocab</span><span class="o">.</span><span class="n">indices_from_sequence</span><span class="p">(</span><span class="n">pair</span><span class="p">[</span><span class="mi">0</span><span class="p">])</span>
-            <span class="n">dst</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">output_vocab</span><span class="o">.</span><span class="n">indices_from_sequence</span><span class="p">(</span><span class="n">pair</span><span class="p">[</span><span class="mi">1</span><span class="p">])</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">append</span><span class="p">((</span><span class="n">src</span><span class="p">,</span> <span class="n">dst</span><span class="p">))</span>
-        <span class="k">return</span> <span class="bp">self</span>
-
-    <span class="k">def</span> <span class="nf">_init_vocab</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sequences</span><span class="p">,</span> <span class="n">max_num_vocab</span><span class="p">,</span> <span class="n">vocab</span><span class="p">):</span>
-        <span class="n">resp_vocab</span> <span class="o">=</span> <span class="n">Vocabulary</span><span class="p">(</span><span class="n">max_num_vocab</span><span class="p">)</span>
-        <span class="k">if</span> <span class="n">vocab</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="k">for</span> <span class="n">sequence</span> <span class="ow">in</span> <span class="n">sequences</span><span class="p">:</span>
-                <span class="n">resp_vocab</span><span class="o">.</span><span class="n">add_sequence</span><span class="p">(</span><span class="n">sequence</span><span class="p">)</span>
-            <span class="n">resp_vocab</span><span class="o">.</span><span class="n">trim</span><span class="p">()</span>
-        <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">vocab</span><span class="p">,</span> <span class="n">Vocabulary</span><span class="p">):</span>
-            <span class="n">resp_vocab</span> <span class="o">=</span> <span class="n">vocab</span>
-        <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">vocab</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
-            <span class="k">for</span> <span class="n">tok</span> <span class="ow">in</span> <span class="n">utils</span><span class="o">.</span><span class="n">read_vocabulary</span><span class="p">(</span><span class="n">vocab</span><span class="p">,</span> <span class="n">max_num_vocab</span><span class="p">):</span>
-                <span class="n">resp_vocab</span><span class="o">.</span><span class="n">add_token</span><span class="p">(</span><span class="n">tok</span><span class="p">)</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="k">raise</span> <span class="ne">AttributeError</span><span class="p">(</span><span class="s1">&#39;</span><span class="si">{}</span><span class="s1"> is not a valid instance on a vocabulary. None, instance of Vocabulary class </span><span class="se">\</span>
-<span class="s1">                                 and str are only supported formats for the vocabulary&#39;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">vocab</span><span class="p">))</span>
-        <span class="k">return</span> <span class="n">resp_vocab</span>
-
-    <span class="k">def</span> <span class="nf">__len__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
-        <span class="k">return</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">data</span><span class="p">)</span>
-
-<div class="viewcode-block" id="Dataset.num_batches"><a class="viewcode-back" href="../../../dataset.html#seq2seq.dataset.dataset.Dataset.num_batches">[docs]</a>    <span class="k">def</span> <span class="nf">num_batches</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Get the number of batches given batch size.</span>
-
-<span class="sd">        Args:</span>
-<span class="sd">            batch_size(int): number of examples in a batch</span>
-
-<span class="sd">        Returns:</span>
-<span class="sd">            int: number of batches</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="k">return</span> <span class="nb">len</span><span class="p">(</span><span class="nb">range</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">data</span><span class="p">),</span> <span class="n">batch_size</span><span class="p">))</span></div>
-
-<div class="viewcode-block" id="Dataset.make_batches"><a class="viewcode-back" href="../../../dataset.html#seq2seq.dataset.dataset.Dataset.make_batches">[docs]</a>    <span class="k">def</span> <span class="nf">make_batches</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Create a generator that generates batches in batch_size over data.</span>
-
-<span class="sd">        Args:</span>
-<span class="sd">            batch_size (int): number of pairs in a mini-batch</span>
-
-<span class="sd">        Yields:</span>
-<span class="sd">            (list(str), list(str)): next pair of source and target variable in a batch</span>
-
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">data</span><span class="p">)</span> <span class="o">&lt;</span> <span class="n">batch_size</span><span class="p">:</span>
-            <span class="k">raise</span> <span class="ne">OverflowError</span><span class="p">(</span><span class="s2">&quot;batch size = </span><span class="si">{}</span><span class="s2"> cannot be larger than data size = </span><span class="si">{}</span><span class="s2">&quot;</span><span class="o">.</span>
-                                <span class="nb">format</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">data</span><span class="p">)))</span>
-        <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">data</span><span class="p">),</span> <span class="n">batch_size</span><span class="p">):</span>
-            <span class="n">cur_batch</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">data</span><span class="p">[</span><span class="n">i</span><span class="p">:</span><span class="n">i</span> <span class="o">+</span> <span class="n">batch_size</span><span class="p">]</span>
-            <span class="n">source_variables</span> <span class="o">=</span> <span class="p">[</span><span class="n">pair</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="k">for</span> <span class="n">pair</span> <span class="ow">in</span> <span class="n">cur_batch</span><span class="p">]</span>
-            <span class="n">target_variables</span> <span class="o">=</span> <span class="p">[</span><span class="n">pair</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="k">for</span> <span class="n">pair</span> <span class="ow">in</span> <span class="n">cur_batch</span><span class="p">]</span>
-
-            <span class="k">yield</span> <span class="p">(</span><span class="n">source_variables</span><span class="p">,</span> <span class="n">target_variables</span><span class="p">)</span></div>
-
-<div class="viewcode-block" id="Dataset.shuffle"><a class="viewcode-back" href="../../../dataset.html#seq2seq.dataset.dataset.Dataset.shuffle">[docs]</a>    <span class="k">def</span> <span class="nf">shuffle</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">seed</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Shuffle the data.</span>
-
-<span class="sd">        Args:</span>
-<span class="sd">            seed(int): provide a value for the random seed; default seed=None is truly random</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="k">if</span> <span class="n">seed</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="n">random</span><span class="o">.</span><span class="n">seed</span><span class="p">(</span><span class="n">seed</span><span class="p">)</span>
-        <span class="n">random</span><span class="o">.</span><span class="n">shuffle</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">data</span><span class="p">)</span></div></div>
-</pre></div>
-
-           </div>
-           <div class="articleComments">
-            
-           </div>
-          </div>
-          <footer>
-  
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>
-        &copy; Copyright 2017, pytorch-seq2seq Contritors.
-
-    </p>
-  </div>
-  Built with <a href="http://sphinx-doc.org/">Sphinx</a> using a <a href="https://github.com/snide/sphinx_rtd_theme">theme</a> provided by <a href="https://readthedocs.org">Read the Docs</a>. 
-
-</footer>
-
-        </div>
-      </div>
-
-    </section>
-
-  </div>
-  
-
-
-  
-
-    <script type="text/javascript">
-        var DOCUMENTATION_OPTIONS = {
-            URL_ROOT:'../../../',
-            VERSION:'0.1.2',
-            COLLAPSE_INDEX:false,
-            FILE_SUFFIX:'.html',
-            HAS_SOURCE:  true,
-            SOURCELINK_SUFFIX: '.txt'
-        };
-    </script>
-      <script type="text/javascript" src="../../../_static/jquery.js"></script>
-      <script type="text/javascript" src="../../../_static/underscore.js"></script>
-      <script type="text/javascript" src="../../../_static/doctools.js"></script>
-      <script type="text/javascript" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.1/MathJax.js?config=TeX-AMS-MML_HTMLorMML"></script>
-
-  
-
-  
-  
-    <script type="text/javascript" src="../../../_static/js/theme.js"></script>
-  
-
-  
-  
-  <script type="text/javascript">
-      jQuery(function () {
-          SphinxRtdTheme.StickyNav.enable();
-      });
-  </script>
-   
-
-</body>
-</html>
\ No newline at end of file
diff --git a/docs/public/_modules/seq2seq/dataset/utils.html b/docs/public/_modules/seq2seq/dataset/utils.html
deleted file mode 100644
index 04eb4ed..0000000
--- a/docs/public/_modules/seq2seq/dataset/utils.html
+++ /dev/null
@@ -1,358 +0,0 @@
-
-
-<!DOCTYPE html>
-<!--[if IE 8]><html class="no-js lt-ie9" lang="en" > <![endif]-->
-<!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
-<head>
-  <meta charset="utf-8">
-  
-  <meta name="viewport" content="width=device-width, initial-scale=1.0">
-  
-  <title>seq2seq.dataset.utils &mdash; pytorch-seq2seq 0.1.2 documentation</title>
-  
-
-  
-  
-  
-  
-
-  
-
-  
-  
-    
-
-  
-
-  
-  
-    <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
-  
-
-  
-
-  
-        <link rel="index" title="Index"
-              href="../../../genindex.html"/>
-        <link rel="search" title="Search" href="../../../search.html"/>
-    <link rel="top" title="pytorch-seq2seq 0.1.2 documentation" href="../../../index.html"/>
-        <link rel="up" title="Module code" href="../../index.html"/> 
-
-  
-  <script src="../../../_static/js/modernizr.min.js"></script>
-
-</head>
-
-<body class="wy-body-for-nav" role="document">
-
-   
-  <div class="wy-grid-for-nav">
-
-    
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search">
-          
-
-          
-            <a href="../../../index.html" class="icon icon-home"> pytorch-seq2seq
-          
-
-          
-          </a>
-
-          
-            
-            
-              <div class="version">
-                0.1.2
-              </div>
-            
-          
-
-          
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-
-          
-        </div>
-
-        <div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="main navigation">
-          
-            
-            
-              
-            
-            
-              <p class="caption"><span class="caption-text">Notes</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../notes/intro.html">Introduction</a></li>
-</ul>
-<p class="caption"><span class="caption-text">Package Reference</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../dataset.html">Dataset</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../util.html">Util</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../evaluator.html">Evaluator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../loss.html">Loss</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../optim.html">Optim</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../trainer.html">Trainer</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../models.html">Models</a></li>
-</ul>
-
-            
-          
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap">
-
-      
-      <nav class="wy-nav-top" role="navigation" aria-label="top navigation">
-        
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../index.html">pytorch-seq2seq</a>
-        
-      </nav>
-
-
-      
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-<div role="navigation" aria-label="breadcrumbs navigation">
-
-  <ul class="wy-breadcrumbs">
-    
-      <li><a href="../../../index.html">Docs</a> &raquo;</li>
-        
-          <li><a href="../../index.html">Module code</a> &raquo;</li>
-        
-      <li>seq2seq.dataset.utils</li>
-    
-    
-      <li class="wy-breadcrumbs-aside">
-        
-            
-        
-      </li>
-    
-  </ul>
-
-  
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-            
-  <h1>Source code for seq2seq.dataset.utils</h1><div class="highlight"><pre>
-<span></span><span class="kn">import</span> <span class="nn">logging</span>
-<span class="kn">from</span> <span class="nn">tqdm</span> <span class="k">import</span> <span class="n">tqdm</span>
-
-<span class="n">logger</span> <span class="o">=</span> <span class="n">logging</span><span class="o">.</span><span class="n">getLogger</span><span class="p">(</span><span class="vm">__name__</span><span class="p">)</span>
-
-<div class="viewcode-block" id="filter_pair"><a class="viewcode-back" href="../../../dataset.html#seq2seq.dataset.utils.filter_pair">[docs]</a><span class="k">def</span> <span class="nf">filter_pair</span><span class="p">(</span><span class="n">pair</span><span class="p">,</span> <span class="n">src_max_len</span><span class="p">,</span> <span class="n">tgt_max_len</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Returns true if a sentence pair meets the length requirements, false otherwise.</span>
-
-<span class="sd">    Args:</span>
-<span class="sd">        pair ((str, str)): (source, target) sentence pair</span>
-<span class="sd">        src_max_len (int): maximum length cutoff for sentences in the source language</span>
-<span class="sd">        tgt_max_len (int): maximum length cutoff for sentences in the target language</span>
-<span class="sd">    Returns:</span>
-<span class="sd">         bool: true if the pair is shorter than the length cutoffs, false otherwise</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="k">return</span> <span class="nb">len</span><span class="p">(</span><span class="n">pair</span><span class="p">[</span><span class="mi">0</span><span class="p">])</span> <span class="o">&lt;=</span> <span class="n">src_max_len</span> <span class="ow">and</span> <span class="nb">len</span><span class="p">(</span><span class="n">pair</span><span class="p">[</span><span class="mi">1</span><span class="p">])</span> <span class="o">&lt;=</span> <span class="n">tgt_max_len</span></div>
-
-
-<div class="viewcode-block" id="space_tokenize"><a class="viewcode-back" href="../../../dataset.html#seq2seq.dataset.utils.space_tokenize">[docs]</a><span class="k">def</span> <span class="nf">space_tokenize</span><span class="p">(</span><span class="n">text</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Tokenizes a piece of text by splitting it up based on single spaces (&quot; &quot;).</span>
-
-<span class="sd">    Args:</span>
-<span class="sd">     text (str): input text as a single string</span>
-
-<span class="sd">    Returns:</span>
-<span class="sd">         list(str): list of tokens obtained by splitting the text on single spaces</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="k">return</span> <span class="n">text</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s2">&quot; &quot;</span><span class="p">)</span></div>
-
-
-<div class="viewcode-block" id="prepare_data"><a class="viewcode-back" href="../../../dataset.html#seq2seq.dataset.utils.prepare_data">[docs]</a><span class="k">def</span> <span class="nf">prepare_data</span><span class="p">(</span><span class="n">path</span><span class="p">,</span> <span class="n">src_max_len</span><span class="p">,</span> <span class="n">tgt_max_len</span><span class="p">,</span> <span class="n">tokenize_func</span><span class="o">=</span><span class="n">space_tokenize</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Reads a tab-separated data file where each line contains a source sentence and a target sentence. Pairs containing</span>
-<span class="sd">    a sentence that exceeds the maximum length allowed for its language are not added.</span>
-
-<span class="sd">    Args:</span>
-<span class="sd">        path (str): path to the data file</span>
-<span class="sd">        src_max_len (int): maximum length cutoff for sentences in the source language</span>
-<span class="sd">        tgt_max_len (int): maximum length cutoff for sentences in the target language</span>
-<span class="sd">        tokenize_func (func): function for splitting words in a sentence (default is single-space-delimited)</span>
-
-<span class="sd">    Returns:</span>
-<span class="sd">        list((str, str)): list of (source, target) string pairs</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-
-    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s2">&quot;Reading Lines from </span><span class="si">{}</span><span class="s2">&quot;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">path</span><span class="p">))</span>
-    <span class="c1"># Read the file and split into lines</span>
-    <span class="n">pairs</span> <span class="o">=</span> <span class="p">[]</span>
-    <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">path</span><span class="p">)</span> <span class="k">as</span> <span class="n">fin</span><span class="p">:</span>
-        <span class="k">for</span> <span class="n">line</span> <span class="ow">in</span> <span class="n">tqdm</span><span class="p">(</span><span class="n">fin</span><span class="p">):</span>
-            <span class="k">try</span><span class="p">:</span>
-                <span class="n">src</span><span class="p">,</span> <span class="n">dst</span> <span class="o">=</span> <span class="n">line</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s2">&quot;</span><span class="se">\t</span><span class="s2">&quot;</span><span class="p">)</span>
-                <span class="n">pair</span> <span class="o">=</span> <span class="nb">map</span><span class="p">(</span><span class="n">tokenize_func</span><span class="p">,</span> <span class="p">[</span><span class="n">src</span><span class="p">,</span> <span class="n">dst</span><span class="p">])</span>
-                <span class="k">if</span> <span class="n">filter_pair</span><span class="p">(</span><span class="n">pair</span><span class="p">,</span> <span class="n">src_max_len</span><span class="p">,</span> <span class="n">tgt_max_len</span><span class="p">):</span>
-                    <span class="n">pairs</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">pair</span><span class="p">)</span>
-            <span class="k">except</span><span class="p">:</span>
-                <span class="n">logger</span><span class="o">.</span><span class="n">error</span><span class="p">(</span><span class="s2">&quot;Error when reading line: </span><span class="si">{0}</span><span class="s2">&quot;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">line</span><span class="p">))</span>
-                <span class="k">raise</span>
-
-    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s2">&quot;Number of pairs: </span><span class="si">%s</span><span class="s2">&quot;</span> <span class="o">%</span> <span class="nb">len</span><span class="p">(</span><span class="n">pairs</span><span class="p">))</span>
-    <span class="k">return</span> <span class="n">pairs</span></div>
-
-
-<div class="viewcode-block" id="prepare_data_from_list"><a class="viewcode-back" href="../../../dataset.html#seq2seq.dataset.utils.prepare_data_from_list">[docs]</a><span class="k">def</span> <span class="nf">prepare_data_from_list</span><span class="p">(</span><span class="n">src_list</span><span class="p">,</span> <span class="n">tgt_list</span><span class="p">,</span> <span class="n">src_max_len</span><span class="p">,</span> <span class="n">tgt_max_len</span><span class="p">,</span> <span class="n">tokenize_func</span><span class="o">=</span><span class="n">space_tokenize</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Reads a tab-separated data file where each line contains a source sentence and a target sentence. Pairs containing</span>
-<span class="sd">    a sentence that exceeds the maximum length allowed for its language are not added.</span>
-
-<span class="sd">    Args:</span>
-<span class="sd">        src_list (list): list of source sequences</span>
-<span class="sd">        tgt_list (list): list of target sequences</span>
-<span class="sd">        src_max_len (int): maximum length cutoff for sentences in the source language</span>
-<span class="sd">        tgt_max_len (int): maximum length cutoff for sentences in the target language</span>
-<span class="sd">        tokenize_func (func): function for splitting words in a sentence (default is single-space-delimited)</span>
-
-<span class="sd">    Returns:</span>
-<span class="sd">        list((str, str)): list of (source, target) string pairs</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="k">if</span> <span class="ow">not</span> <span class="nb">len</span><span class="p">(</span><span class="n">src_list</span><span class="p">)</span> <span class="o">==</span> <span class="nb">len</span><span class="p">(</span><span class="n">tgt_list</span><span class="p">):</span>
-        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s1">&#39;source sequence list and target sequence list has different number of entries.&#39;</span><span class="p">)</span>
-
-    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s2">&quot;Preparing pairs...&quot;</span><span class="p">)</span>
-
-    <span class="c1"># Read the file and split into lines</span>
-    <span class="n">pairs</span> <span class="o">=</span> <span class="p">[]</span>
-
-    <span class="k">for</span> <span class="n">index</span><span class="p">,</span> <span class="n">_</span> <span class="ow">in</span> <span class="n">tqdm</span><span class="p">(</span><span class="nb">enumerate</span><span class="p">(</span><span class="n">src_list</span><span class="p">)):</span>
-        <span class="n">pair</span> <span class="o">=</span> <span class="nb">map</span><span class="p">(</span><span class="n">tokenize_func</span><span class="p">,</span> <span class="p">[</span><span class="n">src_list</span><span class="p">[</span><span class="n">index</span><span class="p">],</span> <span class="n">tgt_list</span><span class="p">[</span><span class="n">index</span><span class="p">]])</span>
-        <span class="k">if</span> <span class="n">filter_pair</span><span class="p">(</span><span class="n">pair</span><span class="p">,</span> <span class="n">src_max_len</span><span class="p">,</span> <span class="n">tgt_max_len</span><span class="p">):</span>
-            <span class="n">pairs</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">pair</span><span class="p">)</span>
-
-    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s2">&quot;Number of pairs: </span><span class="si">%s</span><span class="s2">&quot;</span> <span class="o">%</span> <span class="nb">len</span><span class="p">(</span><span class="n">pairs</span><span class="p">))</span>
-    <span class="k">return</span> <span class="n">pairs</span></div>
-
-
-<div class="viewcode-block" id="read_vocabulary"><a class="viewcode-back" href="../../../dataset.html#seq2seq.dataset.utils.read_vocabulary">[docs]</a><span class="k">def</span> <span class="nf">read_vocabulary</span><span class="p">(</span><span class="n">path</span><span class="p">,</span> <span class="n">max_num_vocab</span><span class="o">=</span><span class="mi">50000</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Helper function to read a vocabulary file.</span>
-
-<span class="sd">    Args:</span>
-<span class="sd">        path (str): filepath to raw vocabulary file</span>
-<span class="sd">        max_num_vocab (int): maximum number of words to read from vocabulary file</span>
-
-<span class="sd">    Returns:</span>
-<span class="sd">        set: read words from vocabulary file</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s2">&quot;Reading vocabulary from </span><span class="si">{}</span><span class="s2">&quot;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">path</span><span class="p">))</span>
-    <span class="c1"># Read the file and create list of tokens in vocabulary</span>
-    <span class="n">vocab</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
-    <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">path</span><span class="p">)</span> <span class="k">as</span> <span class="n">fin</span><span class="p">:</span>
-        <span class="k">for</span> <span class="n">line</span> <span class="ow">in</span> <span class="n">fin</span><span class="p">:</span>
-            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">vocab</span><span class="p">)</span> <span class="o">&gt;=</span> <span class="n">max_num_vocab</span><span class="p">:</span>
-                <span class="k">break</span>
-            <span class="k">try</span><span class="p">:</span>
-                <span class="n">vocab</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">line</span><span class="o">.</span><span class="n">strip</span><span class="p">())</span>
-            <span class="k">except</span><span class="p">:</span>
-                <span class="n">logger</span><span class="o">.</span><span class="n">error</span><span class="p">(</span><span class="s2">&quot;Error when reading line: </span><span class="si">{0}</span><span class="s2">&quot;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">line</span><span class="p">))</span>
-                <span class="k">raise</span>
-
-    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s2">&quot;Size of Vocabulary: </span><span class="si">%s</span><span class="s2">&quot;</span> <span class="o">%</span> <span class="nb">len</span><span class="p">(</span><span class="n">vocab</span><span class="p">))</span>
-    <span class="k">return</span> <span class="n">vocab</span></div>
-
-</pre></div>
-
-           </div>
-           <div class="articleComments">
-            
-           </div>
-          </div>
-          <footer>
-  
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>
-        &copy; Copyright 2017, pytorch-seq2seq Contritors.
-
-    </p>
-  </div>
-  Built with <a href="http://sphinx-doc.org/">Sphinx</a> using a <a href="https://github.com/snide/sphinx_rtd_theme">theme</a> provided by <a href="https://readthedocs.org">Read the Docs</a>. 
-
-</footer>
-
-        </div>
-      </div>
-
-    </section>
-
-  </div>
-  
-
-
-  
-
-    <script type="text/javascript">
-        var DOCUMENTATION_OPTIONS = {
-            URL_ROOT:'../../../',
-            VERSION:'0.1.2',
-            COLLAPSE_INDEX:false,
-            FILE_SUFFIX:'.html',
-            HAS_SOURCE:  true,
-            SOURCELINK_SUFFIX: '.txt'
-        };
-    </script>
-      <script type="text/javascript" src="../../../_static/jquery.js"></script>
-      <script type="text/javascript" src="../../../_static/underscore.js"></script>
-      <script type="text/javascript" src="../../../_static/doctools.js"></script>
-      <script type="text/javascript" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.1/MathJax.js?config=TeX-AMS-MML_HTMLorMML"></script>
-
-  
-
-  
-  
-    <script type="text/javascript" src="../../../_static/js/theme.js"></script>
-  
-
-  
-  
-  <script type="text/javascript">
-      jQuery(function () {
-          SphinxRtdTheme.StickyNav.enable();
-      });
-  </script>
-   
-
-</body>
-</html>
\ No newline at end of file
diff --git a/docs/public/_modules/seq2seq/dataset/vocabulary.html b/docs/public/_modules/seq2seq/dataset/vocabulary.html
deleted file mode 100644
index 9b503ab..0000000
--- a/docs/public/_modules/seq2seq/dataset/vocabulary.html
+++ /dev/null
@@ -1,431 +0,0 @@
-
-
-<!DOCTYPE html>
-<!--[if IE 8]><html class="no-js lt-ie9" lang="en" > <![endif]-->
-<!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
-<head>
-  <meta charset="utf-8">
-  
-  <meta name="viewport" content="width=device-width, initial-scale=1.0">
-  
-  <title>seq2seq.dataset.vocabulary &mdash; pytorch-seq2seq 0.1.2 documentation</title>
-  
-
-  
-  
-  
-  
-
-  
-
-  
-  
-    
-
-  
-
-  
-  
-    <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
-  
-
-  
-
-  
-        <link rel="index" title="Index"
-              href="../../../genindex.html"/>
-        <link rel="search" title="Search" href="../../../search.html"/>
-    <link rel="top" title="pytorch-seq2seq 0.1.2 documentation" href="../../../index.html"/>
-        <link rel="up" title="Module code" href="../../index.html"/> 
-
-  
-  <script src="../../../_static/js/modernizr.min.js"></script>
-
-</head>
-
-<body class="wy-body-for-nav" role="document">
-
-   
-  <div class="wy-grid-for-nav">
-
-    
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search">
-          
-
-          
-            <a href="../../../index.html" class="icon icon-home"> pytorch-seq2seq
-          
-
-          
-          </a>
-
-          
-            
-            
-              <div class="version">
-                0.1.2
-              </div>
-            
-          
-
-          
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-
-          
-        </div>
-
-        <div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="main navigation">
-          
-            
-            
-              
-            
-            
-              <p class="caption"><span class="caption-text">Notes</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../notes/intro.html">Introduction</a></li>
-</ul>
-<p class="caption"><span class="caption-text">Package Reference</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../dataset.html">Dataset</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../util.html">Util</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../evaluator.html">Evaluator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../loss.html">Loss</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../optim.html">Optim</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../trainer.html">Trainer</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../models.html">Models</a></li>
-</ul>
-
-            
-          
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap">
-
-      
-      <nav class="wy-nav-top" role="navigation" aria-label="top navigation">
-        
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../index.html">pytorch-seq2seq</a>
-        
-      </nav>
-
-
-      
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-<div role="navigation" aria-label="breadcrumbs navigation">
-
-  <ul class="wy-breadcrumbs">
-    
-      <li><a href="../../../index.html">Docs</a> &raquo;</li>
-        
-          <li><a href="../../index.html">Module code</a> &raquo;</li>
-        
-      <li>seq2seq.dataset.vocabulary</li>
-    
-    
-      <li class="wy-breadcrumbs-aside">
-        
-            
-        
-      </li>
-    
-  </ul>
-
-  
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-            
-  <h1>Source code for seq2seq.dataset.vocabulary</h1><div class="highlight"><pre>
-<span></span><span class="kn">import</span> <span class="nn">cPickle</span> <span class="k">as</span> <span class="nn">pickle</span>
-
-
-<div class="viewcode-block" id="Vocabulary"><a class="viewcode-back" href="../../../dataset.html#seq2seq.dataset.vocabulary.Vocabulary">[docs]</a><span class="k">class</span> <span class="nc">Vocabulary</span><span class="p">(</span><span class="nb">object</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    A Vocabulary stores a set of words belonging to a particular language. Words in the source vocabulary are mapped</span>
-<span class="sd">    to unique integer IDs during encoding. Words in the target vocabulary are recovered from the model&#39;s output</span>
-<span class="sd">    during decoding.</span>
-
-<span class="sd">    In addition to the words in the actual language, a Vocabulary includes three reserved tokens (and IDs) for the</span>
-<span class="sd">    start-of-sentence and end-of-sentence markers, and for a special &#39;mask&#39; marker used to handle</span>
-<span class="sd">    rare/unknown words.</span>
-
-<span class="sd">    The Vocabulary is sorted in descending order based on frequency. If the number of words seen is greater than</span>
-<span class="sd">    the maximum size of the Vocabulary, the remaining least-frequent words are ignored.</span>
-
-<span class="sd">    Args:</span>
-<span class="sd">         size(int): maximum number of words allowed in this vocabulary</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">size</span><span class="p">):</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">MASK_token_name</span> <span class="o">=</span> <span class="s2">&quot;MASK&quot;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">SOS_token_name</span> <span class="o">=</span> <span class="s2">&quot;SOS&quot;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">EOS_token_name</span> <span class="o">=</span> <span class="s2">&quot;EOS&quot;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">MASK_token_id</span> <span class="o">=</span> <span class="mi">0</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">SOS_token_id</span> <span class="o">=</span> <span class="mi">1</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">EOS_token_id</span> <span class="o">=</span> <span class="mi">2</span>
-
-        <span class="bp">self</span><span class="o">.</span><span class="n">_reserved</span> <span class="o">=</span> <span class="nb">set</span><span class="p">([</span><span class="bp">self</span><span class="o">.</span><span class="n">MASK_token_name</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">SOS_token_name</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">EOS_token_name</span><span class="p">])</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">_reserved_token_id</span> <span class="o">=</span> <span class="p">[</span>
-                <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">MASK_token_name</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">MASK_token_id</span><span class="p">),</span>
-                <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">SOS_token_name</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">SOS_token_id</span><span class="p">),</span>
-                <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">EOS_token_name</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">EOS_token_id</span><span class="p">)</span>
-        <span class="p">]</span>
-
-        <span class="bp">self</span><span class="o">.</span><span class="n">_token2index</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">([(</span><span class="n">tok</span><span class="p">,</span> <span class="n">idx</span><span class="p">)</span> <span class="k">for</span> <span class="n">tok</span><span class="p">,</span> <span class="n">idx</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_reserved_token_id</span><span class="p">])</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">_index2token</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">([(</span><span class="n">idx</span><span class="p">,</span> <span class="n">tok</span><span class="p">)</span> <span class="k">for</span> <span class="n">tok</span><span class="p">,</span> <span class="n">idx</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_reserved_token_id</span><span class="p">])</span>
-
-        <span class="bp">self</span><span class="o">.</span><span class="n">_token2count</span> <span class="o">=</span> <span class="p">{}</span>
-
-        <span class="bp">self</span><span class="o">.</span><span class="n">_num_tokens</span> <span class="o">=</span> <span class="mi">0</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">_num_reserved</span> <span class="o">=</span> <span class="mi">3</span>
-
-        <span class="bp">self</span><span class="o">.</span><span class="n">sorted</span> <span class="o">=</span> <span class="kc">False</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">size</span> <span class="o">=</span> <span class="n">size</span>
-
-<div class="viewcode-block" id="Vocabulary.trim"><a class="viewcode-back" href="../../../dataset.html#seq2seq.dataset.vocabulary.Vocabulary.trim">[docs]</a>    <span class="k">def</span> <span class="nf">trim</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Sorts the vocabulary in descending order based on frequency</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="n">sorted_vocab_count</span> <span class="o">=</span> <span class="nb">sorted</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">_token2count</span><span class="o">.</span><span class="n">items</span><span class="p">(),</span> <span class="n">key</span><span class="o">=</span><span class="k">lambda</span> <span class="n">x</span><span class="p">:</span> <span class="n">x</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">reverse</span><span class="o">=</span><span class="kc">True</span><span class="p">)[:</span><span class="bp">self</span><span class="o">.</span><span class="n">size</span><span class="p">]</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">_token2index</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">([(</span><span class="n">w</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">_num_reserved</span> <span class="o">+</span> <span class="n">idx</span><span class="p">)</span> <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="p">(</span><span class="n">w</span><span class="p">,</span> <span class="n">_</span><span class="p">)</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">sorted_vocab_count</span><span class="p">)])</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">_index2token</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">([(</span><span class="n">idx</span><span class="p">,</span> <span class="n">w</span><span class="p">)</span> <span class="k">for</span> <span class="n">w</span><span class="p">,</span> <span class="n">idx</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_token2index</span><span class="o">.</span><span class="n">items</span><span class="p">()])</span>
-        <span class="k">for</span> <span class="n">tok</span><span class="p">,</span> <span class="n">idx</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_reserved_token_id</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">_token2index</span><span class="p">[</span><span class="n">tok</span><span class="p">]</span> <span class="o">=</span> <span class="n">idx</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">_index2token</span><span class="p">[</span><span class="n">idx</span><span class="p">]</span> <span class="o">=</span> <span class="n">tok</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">_num_tokens</span> <span class="o">&gt;</span> <span class="bp">self</span><span class="o">.</span><span class="n">size</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">_num_tokens</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">size</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">sorted</span> <span class="o">=</span> <span class="kc">True</span></div>
-
-<div class="viewcode-block" id="Vocabulary.check_sorted"><a class="viewcode-back" href="../../../dataset.html#seq2seq.dataset.vocabulary.Vocabulary.check_sorted">[docs]</a>    <span class="k">def</span> <span class="nf">check_sorted</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Sorts the vocabulary (if it is not already sorted).</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">sorted</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">trim</span><span class="p">()</span></div>
-
-<div class="viewcode-block" id="Vocabulary.get_index"><a class="viewcode-back" href="../../../dataset.html#seq2seq.dataset.vocabulary.Vocabulary.get_index">[docs]</a>    <span class="k">def</span> <span class="nf">get_index</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">token</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Returns:</span>
-<span class="sd">            int: ID of the given token.</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">check_sorted</span><span class="p">()</span>
-        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_token2index</span><span class="p">[</span><span class="n">token</span><span class="p">]</span></div>
-
-<div class="viewcode-block" id="Vocabulary.get_token"><a class="viewcode-back" href="../../../dataset.html#seq2seq.dataset.vocabulary.Vocabulary.get_token">[docs]</a>    <span class="k">def</span> <span class="nf">get_token</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">index</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Returns:</span>
-<span class="sd">            str: token with ID equal to the given index.</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">check_sorted</span><span class="p">()</span>
-        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_index2token</span><span class="p">[</span><span class="n">index</span><span class="p">]</span></div>
-
-<div class="viewcode-block" id="Vocabulary.get_vocab_size"><a class="viewcode-back" href="../../../dataset.html#seq2seq.dataset.vocabulary.Vocabulary.get_vocab_size">[docs]</a>    <span class="k">def</span> <span class="nf">get_vocab_size</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Returns:</span>
-<span class="sd">            int: maximum number of words in the vocabulary.</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">check_sorted</span><span class="p">()</span>
-        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_num_tokens</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">_num_reserved</span></div>
-
-<div class="viewcode-block" id="Vocabulary.add_token"><a class="viewcode-back" href="../../../dataset.html#seq2seq.dataset.vocabulary.Vocabulary.add_token">[docs]</a>    <span class="k">def</span> <span class="nf">add_token</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">token</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Adds an occurrence of a token to the vocabulary, incrementing its observed frequency if the word already exists.</span>
-
-<span class="sd">        Args:</span>
-<span class="sd">             token (int): word to add</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="k">if</span> <span class="n">token</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_reserved</span><span class="p">:</span>
-            <span class="k">return</span>
-        <span class="k">if</span> <span class="n">token</span> <span class="ow">not</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_token2count</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">_token2count</span><span class="p">[</span><span class="n">token</span><span class="p">]</span> <span class="o">=</span> <span class="mi">1</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">_num_tokens</span> <span class="o">+=</span> <span class="mi">1</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">_token2count</span><span class="p">[</span><span class="n">token</span><span class="p">]</span> <span class="o">+=</span> <span class="mi">1</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">sorted</span> <span class="o">=</span> <span class="kc">False</span></div>
-
-<div class="viewcode-block" id="Vocabulary.add_sequence"><a class="viewcode-back" href="../../../dataset.html#seq2seq.dataset.vocabulary.Vocabulary.add_sequence">[docs]</a>    <span class="k">def</span> <span class="nf">add_sequence</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sequence</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Adds a sequence of words to the vocabulary.</span>
-
-<span class="sd">        Args:</span>
-<span class="sd">             sequence(list(str)): list of words, e.g. representing a sentence.</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="k">for</span> <span class="n">tok</span> <span class="ow">in</span> <span class="n">sequence</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">add_token</span><span class="p">(</span><span class="n">tok</span><span class="p">)</span></div>
-
-<div class="viewcode-block" id="Vocabulary.indices_from_sequence"><a class="viewcode-back" href="../../../dataset.html#seq2seq.dataset.vocabulary.Vocabulary.indices_from_sequence">[docs]</a>    <span class="k">def</span> <span class="nf">indices_from_sequence</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sequence</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Maps a list of words to their token IDs, or else the &#39;mask&#39; token if the word is rare/unknown.</span>
-
-<span class="sd">        Args:</span>
-<span class="sd">            sequence (list(str)): list of words to map</span>
-<span class="sd">        Returns:</span>
-<span class="sd">            list(int): list of mapped IDs</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">check_sorted</span><span class="p">()</span>
-        <span class="k">return</span> <span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">_token2index</span><span class="p">[</span><span class="n">tok</span><span class="p">]</span>
-                <span class="k">if</span> <span class="n">tok</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_token2index</span>
-                <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">MASK_token_id</span>
-                <span class="k">for</span> <span class="n">tok</span> <span class="ow">in</span> <span class="n">sequence</span><span class="p">]</span></div>
-
-<div class="viewcode-block" id="Vocabulary.sequence_from_indices"><a class="viewcode-back" href="../../../dataset.html#seq2seq.dataset.vocabulary.Vocabulary.sequence_from_indices">[docs]</a>    <span class="k">def</span> <span class="nf">sequence_from_indices</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">indices</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Recover a sentence from a list of token IDs.</span>
-
-<span class="sd">        Args:</span>
-<span class="sd">            indices (list(int)): list of token IDs.</span>
-
-<span class="sd">        Returns:</span>
-<span class="sd">            list(str): recovered sentence, represented as a list of words</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="n">seq</span> <span class="o">=</span> <span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">_index2token</span><span class="p">[</span><span class="n">idx</span><span class="p">]</span> <span class="k">for</span> <span class="n">idx</span> <span class="ow">in</span> <span class="n">indices</span><span class="p">]</span>
-        <span class="k">return</span> <span class="n">seq</span></div>
-
-<div class="viewcode-block" id="Vocabulary.save"><a class="viewcode-back" href="../../../dataset.html#seq2seq.dataset.vocabulary.Vocabulary.save">[docs]</a>    <span class="k">def</span> <span class="nf">save</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">file_name</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Writes this Vocabulary to disk in a pickle file.</span>
-
-<span class="sd">        Args:</span>
-<span class="sd">             file_name (str): path to the target pickle file</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">check_sorted</span><span class="p">()</span>
-        <span class="n">vocab_size</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">get_vocab_size</span><span class="p">()</span>
-        <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">file_name</span><span class="p">,</span> <span class="s2">&quot;w&quot;</span><span class="p">)</span> <span class="k">as</span> <span class="n">f</span><span class="p">:</span>
-            <span class="k">for</span> <span class="n">index</span><span class="p">,</span> <span class="n">token</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_index2token</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
-                <span class="k">if</span> <span class="n">token</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_reserved</span><span class="p">:</span>
-                    <span class="k">continue</span>
-                <span class="k">if</span> <span class="n">index</span> <span class="o">&lt;</span> <span class="n">vocab_size</span> <span class="o">-</span><span class="mi">1</span><span class="p">:</span>
-                    <span class="n">f</span><span class="o">.</span><span class="n">write</span><span class="p">(</span><span class="n">token</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span><span class="p">)</span>
-                <span class="k">else</span><span class="p">:</span>
-                    <span class="n">f</span><span class="o">.</span><span class="n">write</span><span class="p">(</span><span class="n">token</span><span class="p">)</span></div>
-
-<div class="viewcode-block" id="Vocabulary.load"><a class="viewcode-back" href="../../../dataset.html#seq2seq.dataset.vocabulary.Vocabulary.load">[docs]</a>    <span class="nd">@classmethod</span>
-    <span class="k">def</span> <span class="nf">load</span><span class="p">(</span><span class="bp">cls</span><span class="p">,</span> <span class="n">file_name</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Loads a Vocabulary from a pickle file on disk.</span>
-
-<span class="sd">        Args:</span>
-<span class="sd">            file_name (str): path to the pickle file</span>
-
-<span class="sd">        Returns:</span>
-<span class="sd">            Vocabulary: loaded Vocabulary</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">file_name</span><span class="p">,</span> <span class="s2">&quot;r&quot;</span><span class="p">)</span> <span class="k">as</span> <span class="n">f</span><span class="p">:</span>
-            <span class="n">tokens</span> <span class="o">=</span> <span class="n">f</span><span class="o">.</span><span class="n">readlines</span><span class="p">()</span>
-        <span class="n">vocab</span> <span class="o">=</span> <span class="n">Vocabulary</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">tokens</span><span class="p">))</span>
-        <span class="k">for</span> <span class="n">token</span> <span class="ow">in</span> <span class="n">tokens</span><span class="p">:</span>
-            <span class="n">vocab</span><span class="o">.</span><span class="n">add_token</span><span class="p">(</span><span class="n">token</span><span class="o">.</span><span class="n">strip</span><span class="p">())</span>
-        <span class="k">return</span> <span class="n">vocab</span></div>
-
-    <span class="k">def</span> <span class="nf">__eq__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">other</span><span class="p">):</span>
-        <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">other</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="vm">__class__</span><span class="p">):</span>
-            <span class="k">return</span> <span class="kc">False</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">check_sorted</span><span class="p">()</span>
-        <span class="n">other</span><span class="o">.</span><span class="n">check_sorted</span><span class="p">()</span>
-
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">_token2count</span> <span class="o">==</span> <span class="n">other</span><span class="o">.</span><span class="n">_token2count</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">_token2index</span> <span class="o">==</span> <span class="n">other</span><span class="o">.</span><span class="n">_token2index</span> \
-           <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">_index2token</span> <span class="o">==</span> <span class="n">other</span><span class="o">.</span><span class="n">_index2token</span><span class="p">:</span>
-            <span class="k">return</span> <span class="kc">True</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="k">return</span> <span class="kc">False</span>
-
-    <span class="k">def</span> <span class="nf">__ne__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">other</span><span class="p">):</span>
-        <span class="k">return</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="fm">__eq__</span><span class="p">(</span><span class="n">other</span><span class="p">)</span>
-
-    <span class="k">def</span> <span class="nf">__hash__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
-        <span class="k">return</span> <span class="nb">hash</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">_token2index</span><span class="p">)</span></div>
-</pre></div>
-
-           </div>
-           <div class="articleComments">
-            
-           </div>
-          </div>
-          <footer>
-  
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>
-        &copy; Copyright 2017, pytorch-seq2seq Contritors.
-
-    </p>
-  </div>
-  Built with <a href="http://sphinx-doc.org/">Sphinx</a> using a <a href="https://github.com/snide/sphinx_rtd_theme">theme</a> provided by <a href="https://readthedocs.org">Read the Docs</a>. 
-
-</footer>
-
-        </div>
-      </div>
-
-    </section>
-
-  </div>
-  
-
-
-  
-
-    <script type="text/javascript">
-        var DOCUMENTATION_OPTIONS = {
-            URL_ROOT:'../../../',
-            VERSION:'0.1.2',
-            COLLAPSE_INDEX:false,
-            FILE_SUFFIX:'.html',
-            HAS_SOURCE:  true,
-            SOURCELINK_SUFFIX: '.txt'
-        };
-    </script>
-      <script type="text/javascript" src="../../../_static/jquery.js"></script>
-      <script type="text/javascript" src="../../../_static/underscore.js"></script>
-      <script type="text/javascript" src="../../../_static/doctools.js"></script>
-      <script type="text/javascript" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.1/MathJax.js?config=TeX-AMS-MML_HTMLorMML"></script>
-
-  
-
-  
-  
-    <script type="text/javascript" src="../../../_static/js/theme.js"></script>
-  
-
-  
-  
-  <script type="text/javascript">
-      jQuery(function () {
-          SphinxRtdTheme.StickyNav.enable();
-      });
-  </script>
-   
-
-</body>
-</html>
\ No newline at end of file
diff --git a/docs/public/_modules/seq2seq/evaluator/evaluator.html b/docs/public/_modules/seq2seq/evaluator/evaluator.html
deleted file mode 100644
index e00520a..0000000
--- a/docs/public/_modules/seq2seq/evaluator/evaluator.html
+++ /dev/null
@@ -1,285 +0,0 @@
-
-
-<!DOCTYPE html>
-<!--[if IE 8]><html class="no-js lt-ie9" lang="en" > <![endif]-->
-<!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
-<head>
-  <meta charset="utf-8">
-  
-  <meta name="viewport" content="width=device-width, initial-scale=1.0">
-  
-  <title>seq2seq.evaluator.evaluator &mdash; pytorch-seq2seq 0.1.2 documentation</title>
-  
-
-  
-  
-  
-  
-
-  
-
-  
-  
-    
-
-  
-
-  
-  
-    <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
-  
-
-  
-
-  
-        <link rel="index" title="Index"
-              href="../../../genindex.html"/>
-        <link rel="search" title="Search" href="../../../search.html"/>
-    <link rel="top" title="pytorch-seq2seq 0.1.2 documentation" href="../../../index.html"/>
-        <link rel="up" title="Module code" href="../../index.html"/> 
-
-  
-  <script src="../../../_static/js/modernizr.min.js"></script>
-
-</head>
-
-<body class="wy-body-for-nav" role="document">
-
-   
-  <div class="wy-grid-for-nav">
-
-    
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search">
-          
-
-          
-            <a href="../../../index.html" class="icon icon-home"> pytorch-seq2seq
-          
-
-          
-          </a>
-
-          
-            
-            
-              <div class="version">
-                0.1.2
-              </div>
-            
-          
-
-          
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-
-          
-        </div>
-
-        <div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="main navigation">
-          
-            
-            
-              
-            
-            
-              <p class="caption"><span class="caption-text">Notes</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../notes/intro.html">Introduction</a></li>
-</ul>
-<p class="caption"><span class="caption-text">Package Reference</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../dataset.html">Dataset</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../util.html">Util</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../evaluator.html">Evaluator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../loss.html">Loss</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../optim.html">Optim</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../trainer.html">Trainer</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../models.html">Models</a></li>
-</ul>
-
-            
-          
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap">
-
-      
-      <nav class="wy-nav-top" role="navigation" aria-label="top navigation">
-        
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../index.html">pytorch-seq2seq</a>
-        
-      </nav>
-
-
-      
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-<div role="navigation" aria-label="breadcrumbs navigation">
-
-  <ul class="wy-breadcrumbs">
-    
-      <li><a href="../../../index.html">Docs</a> &raquo;</li>
-        
-          <li><a href="../../index.html">Module code</a> &raquo;</li>
-        
-      <li>seq2seq.evaluator.evaluator</li>
-    
-    
-      <li class="wy-breadcrumbs-aside">
-        
-            
-        
-      </li>
-    
-  </ul>
-
-  
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-            
-  <h1>Source code for seq2seq.evaluator.evaluator</h1><div class="highlight"><pre>
-<span></span><span class="kn">from</span> <span class="nn">__future__</span> <span class="k">import</span> <span class="n">print_function</span>
-
-<span class="kn">import</span> <span class="nn">torch</span>
-
-<span class="kn">from</span> <span class="nn">seq2seq.loss</span> <span class="k">import</span> <span class="n">NLLLoss</span>
-
-<div class="viewcode-block" id="Evaluator"><a class="viewcode-back" href="../../../evaluator.html#seq2seq.evaluator.evaluator.Evaluator">[docs]</a><span class="k">class</span> <span class="nc">Evaluator</span><span class="p">(</span><span class="nb">object</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot; Class to evaluate models with given datasets.</span>
-<span class="sd">    Args:</span>
-<span class="sd">        loss (seq2seq.loss, optional): loss for evaluator (default: seq2seq.loss.NLLLoss)</span>
-<span class="sd">        batch_size (int, optional): batch size for evaluator (default: 64)</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">loss</span><span class="o">=</span><span class="n">NLLLoss</span><span class="p">(),</span> <span class="n">batch_size</span><span class="o">=</span><span class="mi">64</span><span class="p">):</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">loss</span> <span class="o">=</span> <span class="n">loss</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">batch_size</span> <span class="o">=</span> <span class="n">batch_size</span>
-
-<div class="viewcode-block" id="Evaluator.evaluate"><a class="viewcode-back" href="../../../evaluator.html#seq2seq.evaluator.evaluator.Evaluator.evaluate">[docs]</a>    <span class="k">def</span> <span class="nf">evaluate</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">model</span><span class="p">,</span> <span class="n">data</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot; Evaluate a model on given dataset and return performance.</span>
-
-<span class="sd">        Args:</span>
-<span class="sd">            model (seq2seq.models): model to evaluate</span>
-<span class="sd">            data (seq2seq.dataset.dataset.Dataset): dataset to evaluate against</span>
-
-<span class="sd">        Returns:</span>
-<span class="sd">            loss (float): loss of the given model on the given dataset</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="n">model</span><span class="o">.</span><span class="n">eval</span><span class="p">()</span>
-        <span class="n">loss</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">loss</span>
-        <span class="n">loss</span><span class="o">.</span><span class="n">reset</span><span class="p">()</span>
-
-        <span class="k">for</span> <span class="n">batch</span> <span class="ow">in</span> <span class="n">data</span><span class="o">.</span><span class="n">make_batches</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">batch_size</span><span class="p">):</span>
-            <span class="n">input_variables</span> <span class="o">=</span> <span class="n">batch</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
-            <span class="n">target_variables</span> <span class="o">=</span> <span class="n">batch</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
-
-            <span class="n">decoder_outputs</span><span class="p">,</span> <span class="n">decoder_hidden</span><span class="p">,</span> <span class="n">other</span> <span class="o">=</span> <span class="n">model</span><span class="p">(</span><span class="n">input_variables</span><span class="p">,</span> <span class="n">target_variables</span><span class="p">,</span> <span class="n">volatile</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
-
-            <span class="c1"># Evaluation</span>
-            <span class="n">targets</span> <span class="o">=</span> <span class="n">other</span><span class="p">[</span><span class="s1">&#39;inputs&#39;</span><span class="p">]</span>
-            <span class="n">lengths</span> <span class="o">=</span> <span class="n">other</span><span class="p">[</span><span class="s1">&#39;length&#39;</span><span class="p">]</span>
-            <span class="k">for</span> <span class="n">b</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">targets</span><span class="p">)):</span>
-                <span class="c1"># Batch wise loss</span>
-                <span class="n">batch_target</span> <span class="o">=</span> <span class="n">targets</span><span class="p">[</span><span class="n">b</span><span class="p">]</span>
-                <span class="n">batch_len</span> <span class="o">=</span> <span class="n">lengths</span><span class="p">[</span><span class="n">b</span><span class="p">]</span>
-                <span class="c1"># Crop output and target to batch length</span>
-                <span class="n">batch_output</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">stack</span><span class="p">([</span><span class="n">output</span><span class="p">[</span><span class="n">b</span><span class="p">]</span> <span class="k">for</span> <span class="n">output</span> <span class="ow">in</span> <span class="n">decoder_outputs</span><span class="p">[:</span><span class="n">batch_len</span><span class="p">]])</span>
-                <span class="n">batch_target</span> <span class="o">=</span> <span class="n">batch_target</span><span class="p">[:</span><span class="n">batch_len</span><span class="p">]</span>
-                <span class="c1"># Evaluate loss</span>
-                <span class="n">loss</span><span class="o">.</span><span class="n">eval_batch</span><span class="p">(</span><span class="n">batch_output</span><span class="p">,</span> <span class="n">batch_target</span><span class="p">)</span>
-
-        <span class="k">return</span> <span class="n">loss</span><span class="o">.</span><span class="n">get_loss</span><span class="p">()</span></div></div>
-</pre></div>
-
-           </div>
-           <div class="articleComments">
-            
-           </div>
-          </div>
-          <footer>
-  
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>
-        &copy; Copyright 2017, pytorch-seq2seq Contritors.
-
-    </p>
-  </div>
-  Built with <a href="http://sphinx-doc.org/">Sphinx</a> using a <a href="https://github.com/snide/sphinx_rtd_theme">theme</a> provided by <a href="https://readthedocs.org">Read the Docs</a>. 
-
-</footer>
-
-        </div>
-      </div>
-
-    </section>
-
-  </div>
-  
-
-
-  
-
-    <script type="text/javascript">
-        var DOCUMENTATION_OPTIONS = {
-            URL_ROOT:'../../../',
-            VERSION:'0.1.2',
-            COLLAPSE_INDEX:false,
-            FILE_SUFFIX:'.html',
-            HAS_SOURCE:  true,
-            SOURCELINK_SUFFIX: '.txt'
-        };
-    </script>
-      <script type="text/javascript" src="../../../_static/jquery.js"></script>
-      <script type="text/javascript" src="../../../_static/underscore.js"></script>
-      <script type="text/javascript" src="../../../_static/doctools.js"></script>
-      <script type="text/javascript" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.1/MathJax.js?config=TeX-AMS-MML_HTMLorMML"></script>
-
-  
-
-  
-  
-    <script type="text/javascript" src="../../../_static/js/theme.js"></script>
-  
-
-  
-  
-  <script type="text/javascript">
-      jQuery(function () {
-          SphinxRtdTheme.StickyNav.enable();
-      });
-  </script>
-   
-
-</body>
-</html>
\ No newline at end of file
diff --git a/docs/public/_modules/seq2seq/evaluator/predictor.html b/docs/public/_modules/seq2seq/evaluator/predictor.html
deleted file mode 100644
index 03f823d..0000000
--- a/docs/public/_modules/seq2seq/evaluator/predictor.html
+++ /dev/null
@@ -1,272 +0,0 @@
-
-
-<!DOCTYPE html>
-<!--[if IE 8]><html class="no-js lt-ie9" lang="en" > <![endif]-->
-<!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
-<head>
-  <meta charset="utf-8">
-  
-  <meta name="viewport" content="width=device-width, initial-scale=1.0">
-  
-  <title>seq2seq.evaluator.predictor &mdash; pytorch-seq2seq 0.1.2 documentation</title>
-  
-
-  
-  
-  
-  
-
-  
-
-  
-  
-    
-
-  
-
-  
-  
-    <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
-  
-
-  
-
-  
-        <link rel="index" title="Index"
-              href="../../../genindex.html"/>
-        <link rel="search" title="Search" href="../../../search.html"/>
-    <link rel="top" title="pytorch-seq2seq 0.1.2 documentation" href="../../../index.html"/>
-        <link rel="up" title="Module code" href="../../index.html"/> 
-
-  
-  <script src="../../../_static/js/modernizr.min.js"></script>
-
-</head>
-
-<body class="wy-body-for-nav" role="document">
-
-   
-  <div class="wy-grid-for-nav">
-
-    
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search">
-          
-
-          
-            <a href="../../../index.html" class="icon icon-home"> pytorch-seq2seq
-          
-
-          
-          </a>
-
-          
-            
-            
-              <div class="version">
-                0.1.2
-              </div>
-            
-          
-
-          
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-
-          
-        </div>
-
-        <div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="main navigation">
-          
-            
-            
-              
-            
-            
-              <p class="caption"><span class="caption-text">Notes</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../notes/intro.html">Introduction</a></li>
-</ul>
-<p class="caption"><span class="caption-text">Package Reference</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../dataset.html">Dataset</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../util.html">Util</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../evaluator.html">Evaluator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../loss.html">Loss</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../optim.html">Optim</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../trainer.html">Trainer</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../models.html">Models</a></li>
-</ul>
-
-            
-          
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap">
-
-      
-      <nav class="wy-nav-top" role="navigation" aria-label="top navigation">
-        
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../index.html">pytorch-seq2seq</a>
-        
-      </nav>
-
-
-      
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-<div role="navigation" aria-label="breadcrumbs navigation">
-
-  <ul class="wy-breadcrumbs">
-    
-      <li><a href="../../../index.html">Docs</a> &raquo;</li>
-        
-          <li><a href="../../index.html">Module code</a> &raquo;</li>
-        
-      <li>seq2seq.evaluator.predictor</li>
-    
-    
-      <li class="wy-breadcrumbs-aside">
-        
-            
-        
-      </li>
-    
-  </ul>
-
-  
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-            
-  <h1>Source code for seq2seq.evaluator.predictor</h1><div class="highlight"><pre>
-<div class="viewcode-block" id="Predictor"><a class="viewcode-back" href="../../../evaluator.html#seq2seq.evaluator.predictor.Predictor">[docs]</a><span></span><span class="k">class</span> <span class="nc">Predictor</span><span class="p">(</span><span class="nb">object</span><span class="p">):</span>
-
-    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">model</span><span class="p">,</span> <span class="n">src_vocab</span><span class="p">,</span> <span class="n">tgt_vocab</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Predictor class to evaluate for a given model.</span>
-<span class="sd">        Args:</span>
-<span class="sd">            model (seq2seq.models): trained model. This can be loaded from a checkpoint</span>
-<span class="sd">                using `seq2seq.util.checkpoint.load`</span>
-<span class="sd">            src_vocab (seq2seq.dataset.vocabulary.Vocabulary): source sequence vocabulary</span>
-<span class="sd">            tgt_vocab (seq2seq.dataset.vocabulary.Vocabulary): target sequence vocabulary</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">model</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">eval</span><span class="p">()</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">src_vocab</span> <span class="o">=</span> <span class="n">src_vocab</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">tgt_vocab</span> <span class="o">=</span> <span class="n">tgt_vocab</span>
-
-<div class="viewcode-block" id="Predictor.predict"><a class="viewcode-back" href="../../../evaluator.html#seq2seq.evaluator.predictor.Predictor.predict">[docs]</a>    <span class="k">def</span> <span class="nf">predict</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">src_seq</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot; Make prediction given `src_seq` as input.</span>
-
-<span class="sd">        Args:</span>
-<span class="sd">            src_seq (list): list of tokens in source language</span>
-
-<span class="sd">        Returns:</span>
-<span class="sd">            tgt_seq (list): list of tokens in target language as predicted</span>
-<span class="sd">            by the pre-trained model</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="n">src_id_seq</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">src_vocab</span><span class="o">.</span><span class="n">indices_from_sequence</span><span class="p">(</span><span class="n">src_seq</span><span class="p">)</span>
-
-        <span class="n">softmax_list</span><span class="p">,</span> <span class="n">_</span><span class="p">,</span> <span class="n">other</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">([</span><span class="n">src_id_seq</span><span class="p">],</span> <span class="n">volatile</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
-        <span class="n">length</span> <span class="o">=</span> <span class="n">other</span><span class="p">[</span><span class="s1">&#39;length&#39;</span><span class="p">][</span><span class="mi">0</span><span class="p">]</span>
-
-        <span class="n">tgt_id_seq</span> <span class="o">=</span> <span class="p">[]</span>
-        <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">length</span><span class="p">):</span>
-            <span class="n">idx</span> <span class="o">=</span> <span class="n">softmax_list</span><span class="p">[</span><span class="n">i</span><span class="p">]</span><span class="o">.</span><span class="n">max</span><span class="p">(</span><span class="mi">1</span><span class="p">)[</span><span class="mi">1</span><span class="p">]</span><span class="o">.</span><span class="n">data</span><span class="p">[</span><span class="mi">0</span><span class="p">][</span><span class="mi">0</span><span class="p">]</span>
-            <span class="n">tgt_id_seq</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">idx</span><span class="p">)</span>
-
-        <span class="n">tgt_seq</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tgt_vocab</span><span class="o">.</span><span class="n">sequence_from_indices</span><span class="p">(</span><span class="n">tgt_id_seq</span><span class="p">)</span>
-        <span class="k">return</span> <span class="n">tgt_seq</span></div></div>
-</pre></div>
-
-           </div>
-           <div class="articleComments">
-            
-           </div>
-          </div>
-          <footer>
-  
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>
-        &copy; Copyright 2017, pytorch-seq2seq Contritors.
-
-    </p>
-  </div>
-  Built with <a href="http://sphinx-doc.org/">Sphinx</a> using a <a href="https://github.com/snide/sphinx_rtd_theme">theme</a> provided by <a href="https://readthedocs.org">Read the Docs</a>. 
-
-</footer>
-
-        </div>
-      </div>
-
-    </section>
-
-  </div>
-  
-
-
-  
-
-    <script type="text/javascript">
-        var DOCUMENTATION_OPTIONS = {
-            URL_ROOT:'../../../',
-            VERSION:'0.1.2',
-            COLLAPSE_INDEX:false,
-            FILE_SUFFIX:'.html',
-            HAS_SOURCE:  true,
-            SOURCELINK_SUFFIX: '.txt'
-        };
-    </script>
-      <script type="text/javascript" src="../../../_static/jquery.js"></script>
-      <script type="text/javascript" src="../../../_static/underscore.js"></script>
-      <script type="text/javascript" src="../../../_static/doctools.js"></script>
-      <script type="text/javascript" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.1/MathJax.js?config=TeX-AMS-MML_HTMLorMML"></script>
-
-  
-
-  
-  
-    <script type="text/javascript" src="../../../_static/js/theme.js"></script>
-  
-
-  
-  
-  <script type="text/javascript">
-      jQuery(function () {
-          SphinxRtdTheme.StickyNav.enable();
-      });
-  </script>
-   
-
-</body>
-</html>
\ No newline at end of file
diff --git a/docs/public/_modules/seq2seq/loss/loss.html b/docs/public/_modules/seq2seq/loss/loss.html
deleted file mode 100644
index cc2d5f0..0000000
--- a/docs/public/_modules/seq2seq/loss/loss.html
+++ /dev/null
@@ -1,377 +0,0 @@
-
-
-<!DOCTYPE html>
-<!--[if IE 8]><html class="no-js lt-ie9" lang="en" > <![endif]-->
-<!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
-<head>
-  <meta charset="utf-8">
-  
-  <meta name="viewport" content="width=device-width, initial-scale=1.0">
-  
-  <title>seq2seq.loss.loss &mdash; pytorch-seq2seq 0.1.2 documentation</title>
-  
-
-  
-  
-  
-  
-
-  
-
-  
-  
-    
-
-  
-
-  
-  
-    <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
-  
-
-  
-
-  
-        <link rel="index" title="Index"
-              href="../../../genindex.html"/>
-        <link rel="search" title="Search" href="../../../search.html"/>
-    <link rel="top" title="pytorch-seq2seq 0.1.2 documentation" href="../../../index.html"/>
-        <link rel="up" title="Module code" href="../../index.html"/> 
-
-  
-  <script src="../../../_static/js/modernizr.min.js"></script>
-
-</head>
-
-<body class="wy-body-for-nav" role="document">
-
-   
-  <div class="wy-grid-for-nav">
-
-    
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search">
-          
-
-          
-            <a href="../../../index.html" class="icon icon-home"> pytorch-seq2seq
-          
-
-          
-          </a>
-
-          
-            
-            
-              <div class="version">
-                0.1.2
-              </div>
-            
-          
-
-          
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-
-          
-        </div>
-
-        <div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="main navigation">
-          
-            
-            
-              
-            
-            
-              <p class="caption"><span class="caption-text">Notes</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../notes/intro.html">Introduction</a></li>
-</ul>
-<p class="caption"><span class="caption-text">Package Reference</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../dataset.html">Dataset</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../util.html">Util</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../evaluator.html">Evaluator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../loss.html">Loss</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../optim.html">Optim</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../trainer.html">Trainer</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../models.html">Models</a></li>
-</ul>
-
-            
-          
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap">
-
-      
-      <nav class="wy-nav-top" role="navigation" aria-label="top navigation">
-        
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../index.html">pytorch-seq2seq</a>
-        
-      </nav>
-
-
-      
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-<div role="navigation" aria-label="breadcrumbs navigation">
-
-  <ul class="wy-breadcrumbs">
-    
-      <li><a href="../../../index.html">Docs</a> &raquo;</li>
-        
-          <li><a href="../../index.html">Module code</a> &raquo;</li>
-        
-      <li>seq2seq.loss.loss</li>
-    
-    
-      <li class="wy-breadcrumbs-aside">
-        
-            
-        
-      </li>
-    
-  </ul>
-
-  
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-            
-  <h1>Source code for seq2seq.loss.loss</h1><div class="highlight"><pre>
-<span></span><span class="kn">from</span> <span class="nn">__future__</span> <span class="k">import</span> <span class="n">print_function</span>
-<span class="kn">import</span> <span class="nn">math</span>
-<span class="kn">import</span> <span class="nn">torch.nn</span> <span class="k">as</span> <span class="nn">nn</span>
-<span class="kn">import</span> <span class="nn">numpy</span> <span class="k">as</span> <span class="nn">np</span>
-
-<div class="viewcode-block" id="Loss"><a class="viewcode-back" href="../../../loss.html#seq2seq.loss.loss.Loss">[docs]</a><span class="k">class</span> <span class="nc">Loss</span><span class="p">(</span><span class="nb">object</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot; Base class for encapsulation of the loss functions.</span>
-
-<span class="sd">    This class defines interfaces that are commonly used with loss functions</span>
-<span class="sd">    in training and inferencing.  For information regarding individual loss</span>
-<span class="sd">    functions, please refer to http://pytorch.org/docs/master/nn.html#loss-functions</span>
-
-<span class="sd">    Note:</span>
-<span class="sd">        Do not use this class directly, use one of the sub classes.</span>
-
-<span class="sd">    Args:</span>
-<span class="sd">        name (str): name of the loss function used by logging messages.</span>
-<span class="sd">        criterion (torch.nn._Loss): one of PyTorch&#39;s loss function.  Refer</span>
-<span class="sd">            to http://pytorch.org/docs/master/nn.html#loss-functions for</span>
-<span class="sd">            a list of them.</span>
-
-<span class="sd">    Attributes:</span>
-<span class="sd">        name (str): name of the loss function used by logging messages.</span>
-<span class="sd">        criterion (torch.nn._Loss): one of PyTorch&#39;s loss function.  Refer</span>
-<span class="sd">            to http://pytorch.org/docs/master/nn.html#loss-functions for</span>
-<span class="sd">            a list of them.  Implementation depends on individual</span>
-<span class="sd">            sub-classes.</span>
-<span class="sd">        acc_loss (int or torcn.nn.Tensor): variable that stores accumulated loss.</span>
-<span class="sd">        norm_term (float): normalization term that can be used to calculate</span>
-<span class="sd">            the loss of multiple batches.  Implementation depends on individual</span>
-<span class="sd">            sub-classes.</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">name</span><span class="p">,</span> <span class="n">criterion</span><span class="p">):</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">name</span> <span class="o">=</span> <span class="n">name</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">criterion</span> <span class="o">=</span> <span class="n">criterion</span>
-        <span class="k">if</span> <span class="ow">not</span> <span class="nb">issubclass</span><span class="p">(</span><span class="nb">type</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">criterion</span><span class="p">),</span> <span class="n">nn</span><span class="o">.</span><span class="n">modules</span><span class="o">.</span><span class="n">loss</span><span class="o">.</span><span class="n">_Loss</span><span class="p">):</span>
-            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;Criterion has to be a subclass of torch.nn._Loss&quot;</span><span class="p">)</span>
-        <span class="c1"># accumulated loss</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">acc_loss</span> <span class="o">=</span> <span class="mi">0</span>
-        <span class="c1"># normalization term</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">norm_term</span> <span class="o">=</span> <span class="mi">0</span>
-
-<div class="viewcode-block" id="Loss.reset"><a class="viewcode-back" href="../../../loss.html#seq2seq.loss.loss.Loss.reset">[docs]</a>    <span class="k">def</span> <span class="nf">reset</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot; Reset the accumulated loss. &quot;&quot;&quot;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">acc_loss</span> <span class="o">=</span> <span class="mi">0</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">norm_term</span> <span class="o">=</span> <span class="mi">0</span></div>
-
-<div class="viewcode-block" id="Loss.get_loss"><a class="viewcode-back" href="../../../loss.html#seq2seq.loss.loss.Loss.get_loss">[docs]</a>    <span class="k">def</span> <span class="nf">get_loss</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot; Get the loss.</span>
-
-<span class="sd">        This method defines how to calculate the averaged loss given the</span>
-<span class="sd">        accumulated loss and the normalization term.  Override to define your</span>
-<span class="sd">        own logic.</span>
-
-<span class="sd">        Returns:</span>
-<span class="sd">            loss (float): value of the loss.</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="k">raise</span> <span class="ne">NotImplementedError</span></div>
-
-<div class="viewcode-block" id="Loss.eval_batch"><a class="viewcode-back" href="../../../loss.html#seq2seq.loss.loss.Loss.eval_batch">[docs]</a>    <span class="k">def</span> <span class="nf">eval_batch</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">outputs</span><span class="p">,</span> <span class="n">target</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot; Evaluate and accumulate loss given outputs and expected results.</span>
-
-<span class="sd">        This method is called after each batch with the batch outputs and</span>
-<span class="sd">        the target (expected) results.  The loss and normalization term are</span>
-<span class="sd">        accumulated in this method.  Override it to define your own accumulation</span>
-<span class="sd">        method.</span>
-
-<span class="sd">        Args:</span>
-<span class="sd">            outputs (torch.Tensor): outputs of a batch.</span>
-<span class="sd">            target (torch.Tensor): expected output of a batch.</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="k">raise</span> <span class="ne">NotImplementedError</span></div>
-
-    <span class="k">def</span> <span class="nf">cuda</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">criterion</span><span class="o">.</span><span class="n">cuda</span><span class="p">()</span>
-
-    <span class="k">def</span> <span class="nf">backward</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
-        <span class="k">if</span> <span class="nb">type</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">acc_loss</span><span class="p">)</span> <span class="ow">is</span> <span class="nb">int</span><span class="p">:</span>
-            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;No loss to back propagate.&quot;</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">acc_loss</span><span class="o">.</span><span class="n">backward</span><span class="p">()</span></div>
-
-<div class="viewcode-block" id="NLLLoss"><a class="viewcode-back" href="../../../loss.html#seq2seq.loss.loss.NLLLoss">[docs]</a><span class="k">class</span> <span class="nc">NLLLoss</span><span class="p">(</span><span class="n">Loss</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot; Batch averaged negative log-likelihood loss.</span>
-
-<span class="sd">    Args:</span>
-<span class="sd">        weight (torch.Tensor, optional): refer to http://pytorch.org/docs/master/nn.html#nllloss</span>
-<span class="sd">        mask (int, optional): index of masked token, i.e. weight[mask] = 0.</span>
-<span class="sd">        size_average (bool, optional): refer to http://pytorch.org/docs/master/nn.html#nllloss</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-
-    <span class="n">_NAME</span> <span class="o">=</span> <span class="s2">&quot;Avg NLLLoss&quot;</span>
-
-    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">weight</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">size_average</span><span class="o">=</span><span class="kc">True</span><span class="p">):</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">mask</span> <span class="o">=</span> <span class="n">mask</span>
-        <span class="k">if</span> <span class="n">mask</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="k">if</span> <span class="n">weight</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-                <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;Must provide weight with a mask.&quot;</span><span class="p">)</span>
-            <span class="n">weight</span><span class="p">[</span><span class="n">mask</span><span class="p">]</span> <span class="o">=</span> <span class="mi">0</span>
-
-        <span class="nb">super</span><span class="p">(</span><span class="n">NLLLoss</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">_NAME</span><span class="p">,</span>
-            <span class="n">nn</span><span class="o">.</span><span class="n">NLLLoss</span><span class="p">(</span><span class="n">weight</span><span class="o">=</span><span class="n">weight</span><span class="p">,</span> <span class="n">size_average</span><span class="o">=</span><span class="n">size_average</span><span class="p">))</span>
-
-    <span class="k">def</span> <span class="nf">get_loss</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
-        <span class="k">if</span> <span class="nb">type</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">acc_loss</span><span class="p">)</span> <span class="ow">is</span> <span class="nb">int</span><span class="p">:</span>
-            <span class="k">return</span> <span class="mi">0</span>
-        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">acc_loss</span><span class="o">.</span><span class="n">data</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">/</span> <span class="bp">self</span><span class="o">.</span><span class="n">norm_term</span>
-
-    <span class="k">def</span> <span class="nf">eval_batch</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">outputs</span><span class="p">,</span> <span class="n">target</span><span class="p">):</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">acc_loss</span> <span class="o">+=</span> <span class="bp">self</span><span class="o">.</span><span class="n">criterion</span><span class="p">(</span><span class="n">outputs</span><span class="p">,</span> <span class="n">target</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">norm_term</span> <span class="o">+=</span> <span class="mi">1</span></div>
-
-<div class="viewcode-block" id="Perplexity"><a class="viewcode-back" href="../../../loss.html#seq2seq.loss.loss.Perplexity">[docs]</a><span class="k">class</span> <span class="nc">Perplexity</span><span class="p">(</span><span class="n">NLLLoss</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot; Language model perplexity loss.</span>
-
-<span class="sd">    Perplexity is the token averaged likelihood.  When the averaging options are the</span>
-<span class="sd">    same, it is the exponential of negative log-likelihood.</span>
-
-<span class="sd">    Args:</span>
-<span class="sd">        weight (torch.Tensor, optional): refer to http://pytorch.org/docs/master/nn.html#nllloss</span>
-<span class="sd">        mask (int, optional): index of masked token, i.e. weight[mask] = 0.</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-
-    <span class="n">_NAME</span> <span class="o">=</span> <span class="s2">&quot;Perplexity&quot;</span>
-    <span class="n">_MAX_EXP</span> <span class="o">=</span> <span class="mi">100</span>
-
-    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">weight</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">mask</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
-        <span class="nb">super</span><span class="p">(</span><span class="n">Perplexity</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="n">weight</span><span class="o">=</span><span class="n">weight</span><span class="p">,</span> <span class="n">mask</span><span class="o">=</span><span class="n">mask</span><span class="p">,</span> <span class="n">size_average</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
-
-    <span class="k">def</span> <span class="nf">eval_batch</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">outputs</span><span class="p">,</span> <span class="n">target</span><span class="p">):</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">acc_loss</span> <span class="o">+=</span> <span class="bp">self</span><span class="o">.</span><span class="n">criterion</span><span class="p">(</span><span class="n">outputs</span><span class="p">,</span> <span class="n">target</span><span class="p">)</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">norm_term</span> <span class="o">+=</span> <span class="n">np</span><span class="o">.</span><span class="n">prod</span><span class="p">(</span><span class="n">target</span><span class="o">.</span><span class="n">size</span><span class="p">())</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">norm_term</span> <span class="o">+=</span> <span class="n">target</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">ne</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">mask</span><span class="p">)</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span>
-
-    <span class="k">def</span> <span class="nf">get_loss</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
-        <span class="n">nll</span> <span class="o">=</span> <span class="nb">super</span><span class="p">(</span><span class="n">Perplexity</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">get_loss</span><span class="p">()</span>
-        <span class="k">if</span> <span class="n">nll</span> <span class="o">&gt;</span> <span class="n">Perplexity</span><span class="o">.</span><span class="n">_MAX_EXP</span><span class="p">:</span>
-            <span class="nb">print</span><span class="p">(</span><span class="s2">&quot;WARNING: Loss exceeded maximum value, capping to e^100&quot;</span><span class="p">)</span>
-            <span class="k">return</span> <span class="n">math</span><span class="o">.</span><span class="n">exp</span><span class="p">(</span><span class="n">Perplexity</span><span class="o">.</span><span class="n">_MAX_EXP</span><span class="p">)</span>
-        <span class="k">return</span> <span class="n">math</span><span class="o">.</span><span class="n">exp</span><span class="p">(</span><span class="n">nll</span><span class="p">)</span></div>
-</pre></div>
-
-           </div>
-           <div class="articleComments">
-            
-           </div>
-          </div>
-          <footer>
-  
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>
-        &copy; Copyright 2017, pytorch-seq2seq Contritors.
-
-    </p>
-  </div>
-  Built with <a href="http://sphinx-doc.org/">Sphinx</a> using a <a href="https://github.com/snide/sphinx_rtd_theme">theme</a> provided by <a href="https://readthedocs.org">Read the Docs</a>. 
-
-</footer>
-
-        </div>
-      </div>
-
-    </section>
-
-  </div>
-  
-
-
-  
-
-    <script type="text/javascript">
-        var DOCUMENTATION_OPTIONS = {
-            URL_ROOT:'../../../',
-            VERSION:'0.1.2',
-            COLLAPSE_INDEX:false,
-            FILE_SUFFIX:'.html',
-            HAS_SOURCE:  true,
-            SOURCELINK_SUFFIX: '.txt'
-        };
-    </script>
-      <script type="text/javascript" src="../../../_static/jquery.js"></script>
-      <script type="text/javascript" src="../../../_static/underscore.js"></script>
-      <script type="text/javascript" src="../../../_static/doctools.js"></script>
-      <script type="text/javascript" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.1/MathJax.js?config=TeX-AMS-MML_HTMLorMML"></script>
-
-  
-
-  
-  
-    <script type="text/javascript" src="../../../_static/js/theme.js"></script>
-  
-
-  
-  
-  <script type="text/javascript">
-      jQuery(function () {
-          SphinxRtdTheme.StickyNav.enable();
-      });
-  </script>
-   
-
-</body>
-</html>
\ No newline at end of file
diff --git a/docs/public/_modules/seq2seq/models/DecoderRNN.html b/docs/public/_modules/seq2seq/models/DecoderRNN.html
deleted file mode 100644
index f9a1548..0000000
--- a/docs/public/_modules/seq2seq/models/DecoderRNN.html
+++ /dev/null
@@ -1,411 +0,0 @@
-
-
-<!DOCTYPE html>
-<!--[if IE 8]><html class="no-js lt-ie9" lang="en" > <![endif]-->
-<!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
-<head>
-  <meta charset="utf-8">
-  
-  <meta name="viewport" content="width=device-width, initial-scale=1.0">
-  
-  <title>seq2seq.models.DecoderRNN &mdash; pytorch-seq2seq 0.1.2 documentation</title>
-  
-
-  
-  
-  
-  
-
-  
-
-  
-  
-    
-
-  
-
-  
-  
-    <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
-  
-
-  
-
-  
-        <link rel="index" title="Index"
-              href="../../../genindex.html"/>
-        <link rel="search" title="Search" href="../../../search.html"/>
-    <link rel="top" title="pytorch-seq2seq 0.1.2 documentation" href="../../../index.html"/>
-        <link rel="up" title="Module code" href="../../index.html"/> 
-
-  
-  <script src="../../../_static/js/modernizr.min.js"></script>
-
-</head>
-
-<body class="wy-body-for-nav" role="document">
-
-   
-  <div class="wy-grid-for-nav">
-
-    
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search">
-          
-
-          
-            <a href="../../../index.html" class="icon icon-home"> pytorch-seq2seq
-          
-
-          
-          </a>
-
-          
-            
-            
-              <div class="version">
-                0.1.2
-              </div>
-            
-          
-
-          
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-
-          
-        </div>
-
-        <div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="main navigation">
-          
-            
-            
-              
-            
-            
-              <p class="caption"><span class="caption-text">Notes</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../notes/intro.html">Introduction</a></li>
-</ul>
-<p class="caption"><span class="caption-text">Package Reference</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../dataset.html">Dataset</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../util.html">Util</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../evaluator.html">Evaluator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../loss.html">Loss</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../optim.html">Optim</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../trainer.html">Trainer</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../models.html">Models</a></li>
-</ul>
-
-            
-          
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap">
-
-      
-      <nav class="wy-nav-top" role="navigation" aria-label="top navigation">
-        
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../index.html">pytorch-seq2seq</a>
-        
-      </nav>
-
-
-      
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-<div role="navigation" aria-label="breadcrumbs navigation">
-
-  <ul class="wy-breadcrumbs">
-    
-      <li><a href="../../../index.html">Docs</a> &raquo;</li>
-        
-          <li><a href="../../index.html">Module code</a> &raquo;</li>
-        
-      <li>seq2seq.models.DecoderRNN</li>
-    
-    
-      <li class="wy-breadcrumbs-aside">
-        
-            
-        
-      </li>
-    
-  </ul>
-
-  
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-            
-  <h1>Source code for seq2seq.models.DecoderRNN</h1><div class="highlight"><pre>
-<span></span><span class="kn">import</span> <span class="nn">random</span>
-
-<span class="kn">import</span> <span class="nn">numpy</span> <span class="k">as</span> <span class="nn">np</span>
-
-<span class="kn">import</span> <span class="nn">torch</span>
-<span class="k">if</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">is_available</span><span class="p">():</span>
-    <span class="kn">import</span> <span class="nn">torch.cuda</span> <span class="k">as</span> <span class="nn">device</span>
-<span class="k">else</span><span class="p">:</span>
-    <span class="kn">import</span> <span class="nn">torch</span> <span class="k">as</span> <span class="nn">device</span>
-<span class="kn">import</span> <span class="nn">torch.nn</span> <span class="k">as</span> <span class="nn">nn</span>
-<span class="kn">from</span> <span class="nn">torch.autograd</span> <span class="k">import</span> <span class="n">Variable</span>
-<span class="kn">import</span> <span class="nn">torch.nn.functional</span> <span class="k">as</span> <span class="nn">F</span>
-
-<span class="kn">from</span> <span class="nn">attention</span> <span class="k">import</span> <span class="n">Attention</span>
-<span class="kn">from</span> <span class="nn">baseRNN</span> <span class="k">import</span> <span class="n">BaseRNN</span>
-
-
-<div class="viewcode-block" id="DecoderRNN"><a class="viewcode-back" href="../../../models.html#seq2seq.models.DecoderRNN.DecoderRNN">[docs]</a><span class="k">class</span> <span class="nc">DecoderRNN</span><span class="p">(</span><span class="n">BaseRNN</span><span class="p">):</span>
-    <span class="sa">r</span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Provides functionality for decoding in a seq2seq framework, with an option for attention.</span>
-
-<span class="sd">    Args:</span>
-<span class="sd">        vocab (Vocabulary): an object of Vocabulary class</span>
-<span class="sd">        max_len (int): a maximum allowed length for the sequence to be processed</span>
-<span class="sd">        hidden_size (int): the number of features in the hidden state `h`</span>
-<span class="sd">        n_layers (int, optional): number of recurrent layers (default: 1)</span>
-<span class="sd">        rnn_cell (str, optional): type of RNN cell (default: gru)</span>
-<span class="sd">        input_dropout_p (float, optional): dropout probability for the input sequence (default: 0)</span>
-<span class="sd">        dropout_p (float, optional): dropout probability for the output sequence (default: 0)</span>
-<span class="sd">        use_attention(bool, optional): flag indication whether to use attention mechanism or not (default: false)</span>
-
-<span class="sd">    Attributes:</span>
-<span class="sd">        KEY_ATTN_SCORE (str): key used to indicate attention weights in `ret_dict`</span>
-<span class="sd">        KEY_LENGTH (str): key used to indicate a list representing lengths of output sequences in `ret_dict`</span>
-<span class="sd">        KEY_SEQUENCE (str): key used to indicate a list of sequences in `ret_dict`</span>
-<span class="sd">        KEY_INPUT (str): key used to target outputs in `ret_dict`</span>
-
-<span class="sd">    Inputs: inputs, encoder_hidden, encoder_outputs, function, teacher_forcing_ratio</span>
-<span class="sd">        - **inputs** (seq_len, batch, input_size): list of sequences, whose length is the batch size and within which</span>
-<span class="sd">          each sequence is a list of token IDs.  It is used for teacher forcing when provided. (default is `None`)</span>
-<span class="sd">        - **encoder_hidden** (batch, seq_len, hidden_size): tensor containing the features in the hidden state `h` of</span>
-<span class="sd">          encoder. Used as the initial hidden state of the decoder.</span>
-<span class="sd">        - **encoder_outputs** (batch, seq_len, hidden_size): tensor with containing the outputs of the encoder.</span>
-<span class="sd">          Used for attention mechanism (default is `None`).</span>
-<span class="sd">        - **function** (torch.nn.Module): A function used to generate symbols from RNN hidden state</span>
-<span class="sd">          (default is `torch.nn.functional.log_softmax`).</span>
-<span class="sd">        - **teacher_forcing_ratio** (float): The probability that teacher forcing will be used. A random number is</span>
-<span class="sd">          drawn uniformly from 0-1 for every decoding token, and if the sample is smaller than the given value,</span>
-<span class="sd">          teacher forcing would be used (default is 0).</span>
-
-<span class="sd">    Outputs: decoder_outputs, decoder_hidden, ret_dict</span>
-<span class="sd">        - **decoder_outputs** (batch): batch-length list of tensors with size (max_length, hidden_size) containing the</span>
-<span class="sd">          outputs of the decoder.</span>
-<span class="sd">        - **decoder_hidden** (num_layers * num_directions, batch, hidden_size): tensor containing the last hidden</span>
-<span class="sd">          state of the decoder.</span>
-<span class="sd">        - **ret_dict**: dictionary containing additional information as follows {*KEY_LENGTH* : list of integers</span>
-<span class="sd">          representing lengths of output sequences, *KEY_SEQUENCE* : list of sequences, where each sequence is a list of</span>
-<span class="sd">          predicted token IDs, *KEY_INPUT* : target outputs if provided for decoding, *KEY_ATTN_SCORE* : list of</span>
-<span class="sd">          sequences, where each list is of attention weights }.</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-
-    <span class="n">KEY_ATTN_SCORE</span> <span class="o">=</span> <span class="s1">&#39;attention_score&#39;</span>
-    <span class="n">KEY_LENGTH</span> <span class="o">=</span> <span class="s1">&#39;length&#39;</span>
-    <span class="n">KEY_SEQUENCE</span> <span class="o">=</span> <span class="s1">&#39;sequence&#39;</span>
-    <span class="n">KEY_INPUT</span> <span class="o">=</span> <span class="s1">&#39;inputs&#39;</span>
-
-    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">vocab</span><span class="p">,</span> <span class="n">max_len</span><span class="p">,</span> <span class="n">hidden_size</span><span class="p">,</span>
-            <span class="n">n_layers</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">rnn_cell</span><span class="o">=</span><span class="s1">&#39;gru&#39;</span><span class="p">,</span>
-            <span class="n">input_dropout_p</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span> <span class="n">dropout_p</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span> <span class="n">use_attention</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
-        <span class="nb">super</span><span class="p">(</span><span class="n">DecoderRNN</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="n">vocab</span><span class="p">,</span> <span class="n">max_len</span><span class="p">,</span> <span class="n">hidden_size</span><span class="p">,</span>
-                <span class="n">input_dropout_p</span><span class="p">,</span> <span class="n">dropout_p</span><span class="p">,</span>
-                <span class="n">n_layers</span><span class="p">,</span> <span class="n">rnn_cell</span><span class="p">)</span>
-
-        <span class="bp">self</span><span class="o">.</span><span class="n">output_size</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">vocab</span><span class="o">.</span><span class="n">get_vocab_size</span><span class="p">()</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">dropout_p</span> <span class="o">=</span> <span class="n">dropout_p</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">max_length</span> <span class="o">=</span> <span class="n">max_len</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">use_attention</span> <span class="o">=</span> <span class="n">use_attention</span>
-
-        <span class="bp">self</span><span class="o">.</span><span class="n">init_input</span> <span class="o">=</span> <span class="kc">None</span>
-
-        <span class="bp">self</span><span class="o">.</span><span class="n">embedding</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Embedding</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">output_size</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">dropout</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Dropout</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dropout_p</span><span class="p">)</span>
-        <span class="k">if</span> <span class="n">use_attention</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">attention</span> <span class="o">=</span> <span class="n">Attention</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">)</span>
-
-        <span class="bp">self</span><span class="o">.</span><span class="n">out</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Linear</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">output_size</span><span class="p">)</span>
-
-    <span class="k">def</span> <span class="nf">init_start_input</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">):</span>
-        <span class="c1"># GO input for decoder # Re-initialize when batch size changes</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">init_input</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">init_input</span><span class="o">.</span><span class="n">size</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span> <span class="o">!=</span> <span class="n">batch_size</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">init_input</span> <span class="o">=</span> <span class="n">Variable</span><span class="p">(</span><span class="n">device</span><span class="o">.</span><span class="n">LongTensor</span><span class="p">([[</span><span class="bp">self</span><span class="o">.</span><span class="n">vocab</span><span class="o">.</span><span class="n">SOS_token_id</span><span class="p">]</span><span class="o">*</span><span class="n">batch_size</span><span class="p">]))</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">)</span>
-        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">init_input</span>
-
-    <span class="k">def</span> <span class="nf">forward_step</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">input_var</span><span class="p">,</span> <span class="n">hidden</span><span class="p">,</span> <span class="n">encoder_outputs</span><span class="p">,</span> <span class="n">function</span><span class="p">):</span>
-        <span class="n">batch_size</span> <span class="o">=</span> <span class="n">input_var</span><span class="o">.</span><span class="n">size</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
-        <span class="n">output_size</span> <span class="o">=</span> <span class="n">input_var</span><span class="o">.</span><span class="n">size</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
-        <span class="n">embedded</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">embedding</span><span class="p">(</span><span class="n">input_var</span><span class="p">)</span>
-        <span class="n">embedded</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">input_dropout</span><span class="p">(</span><span class="n">embedded</span><span class="p">)</span>
-
-        <span class="n">output</span><span class="p">,</span> <span class="n">hidden</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">rnn</span><span class="p">(</span><span class="n">embedded</span><span class="p">,</span> <span class="n">hidden</span><span class="p">)</span>
-        <span class="n">output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">dropout</span><span class="p">(</span><span class="n">output</span><span class="p">)</span>
-
-        <span class="n">attn</span> <span class="o">=</span> <span class="kc">None</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">use_attention</span><span class="p">:</span>
-            <span class="n">output</span><span class="p">,</span> <span class="n">attn</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">attention</span><span class="p">(</span><span class="n">output</span><span class="p">,</span> <span class="n">encoder_outputs</span><span class="p">)</span>
-
-        <span class="n">predicted_softmax</span> <span class="o">=</span> <span class="n">function</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">out</span><span class="p">(</span><span class="n">output</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">)))</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">output_size</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">)</span>
-        <span class="k">return</span> <span class="n">predicted_softmax</span><span class="p">,</span> <span class="n">hidden</span><span class="p">,</span> <span class="n">attn</span>
-
-    <span class="k">def</span> <span class="nf">forward_rnn</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">inputs</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">encoder_hidden</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">function</span><span class="o">=</span><span class="n">F</span><span class="o">.</span><span class="n">log_softmax</span><span class="p">,</span>
-                    <span class="n">encoder_outputs</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">teacher_forcing_ratio</span><span class="o">=</span><span class="mi">0</span><span class="p">):</span>
-        <span class="n">ret_dict</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">()</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">use_attention</span><span class="p">:</span>
-            <span class="k">if</span> <span class="n">encoder_outputs</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-                <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;Argument encoder_outputs cannot be None when attention is used.&quot;</span><span class="p">)</span>
-            <span class="n">ret_dict</span><span class="p">[</span><span class="n">DecoderRNN</span><span class="o">.</span><span class="n">KEY_ATTN_SCORE</span><span class="p">]</span> <span class="o">=</span> <span class="nb">list</span><span class="p">()</span>
-        <span class="k">if</span> <span class="n">inputs</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="k">if</span> <span class="n">teacher_forcing_ratio</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
-                <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;Teacher forcing has to be disabled (set 0) when no inputs is provided.&quot;</span><span class="p">)</span>
-        <span class="k">if</span> <span class="n">inputs</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">encoder_hidden</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="n">batch_size</span> <span class="o">=</span> <span class="mi">1</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="k">if</span> <span class="n">inputs</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-                <span class="n">batch_size</span> <span class="o">=</span> <span class="n">inputs</span><span class="o">.</span><span class="n">size</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
-            <span class="k">else</span><span class="p">:</span>
-                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">rnn_cell</span> <span class="ow">is</span> <span class="n">nn</span><span class="o">.</span><span class="n">LSTM</span><span class="p">:</span>
-                    <span class="n">batch_size</span> <span class="o">=</span> <span class="n">encoder_hidden</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">size</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
-                <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">rnn_cell</span> <span class="ow">is</span> <span class="n">nn</span><span class="o">.</span><span class="n">GRU</span><span class="p">:</span>
-                    <span class="n">batch_size</span> <span class="o">=</span> <span class="n">encoder_hidden</span><span class="o">.</span><span class="n">size</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
-
-        <span class="n">decoder_input</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">init_start_input</span><span class="p">(</span><span class="n">batch_size</span><span class="p">)</span>
-        <span class="n">decoder_hidden</span> <span class="o">=</span> <span class="n">encoder_hidden</span>
-
-        <span class="n">use_teacher_forcing</span> <span class="o">=</span> <span class="kc">True</span> <span class="k">if</span> <span class="n">random</span><span class="o">.</span><span class="n">random</span><span class="p">()</span> <span class="o">&lt;</span> <span class="n">teacher_forcing_ratio</span> <span class="k">else</span> <span class="kc">False</span>
-
-        <span class="n">decoder_outputs</span> <span class="o">=</span> <span class="p">[]</span>
-        <span class="n">sequence_symbols</span> <span class="o">=</span> <span class="p">[]</span>
-        <span class="n">lengths</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">([</span><span class="bp">self</span><span class="o">.</span><span class="n">max_length</span><span class="p">]</span> <span class="o">*</span> <span class="n">batch_size</span><span class="p">)</span>
-
-        <span class="k">def</span> <span class="nf">decode</span><span class="p">(</span><span class="n">step</span><span class="p">,</span> <span class="n">step_output</span><span class="p">,</span> <span class="n">step_attn</span><span class="p">):</span>
-            <span class="n">decoder_outputs</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">step_output</span><span class="p">)</span>
-            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">use_attention</span><span class="p">:</span>
-                <span class="n">ret_dict</span><span class="p">[</span><span class="n">DecoderRNN</span><span class="o">.</span><span class="n">KEY_ATTN_SCORE</span><span class="p">]</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">step_attn</span><span class="p">)</span>
-            <span class="n">symbols</span> <span class="o">=</span> <span class="n">decoder_outputs</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span><span class="o">.</span><span class="n">topk</span><span class="p">(</span><span class="mi">1</span><span class="p">)[</span><span class="mi">1</span><span class="p">]</span>
-            <span class="n">sequence_symbols</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">symbols</span><span class="p">)</span>
-
-            <span class="n">eos_batches</span> <span class="o">=</span> <span class="n">symbols</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">eq</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">vocab</span><span class="o">.</span><span class="n">EOS_token_id</span><span class="p">)</span>
-            <span class="k">if</span> <span class="n">eos_batches</span><span class="o">.</span><span class="n">dim</span><span class="p">()</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
-                <span class="n">eos_batches</span> <span class="o">=</span> <span class="n">eos_batches</span><span class="o">.</span><span class="n">cpu</span><span class="p">()</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">)</span><span class="o">.</span><span class="n">numpy</span><span class="p">()</span>
-                <span class="n">update_idx</span> <span class="o">=</span> <span class="p">((</span><span class="n">lengths</span> <span class="o">&gt;</span> <span class="n">di</span><span class="p">)</span> <span class="o">&amp;</span> <span class="n">eos_batches</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">0</span>
-                <span class="n">lengths</span><span class="p">[</span><span class="n">update_idx</span><span class="p">]</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">sequence_symbols</span><span class="p">)</span>
-            <span class="k">return</span> <span class="n">symbols</span>
-
-        <span class="c1"># Manual unrolling is used to support random teacher forcing.</span>
-        <span class="c1"># If teacher_forcing_ratio is True or False instead of a probability, the unrolling can be done in graph</span>
-        <span class="k">if</span> <span class="n">use_teacher_forcing</span><span class="p">:</span>
-            <span class="n">decoder_input</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">cat</span><span class="p">([</span><span class="n">decoder_input</span><span class="p">,</span> <span class="n">inputs</span><span class="p">],</span> <span class="n">dim</span><span class="o">=</span><span class="mi">1</span><span class="p">)</span>
-            <span class="n">decoder_output</span><span class="p">,</span> <span class="n">decoder_hidden</span><span class="p">,</span> <span class="n">attn</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">forward_step</span><span class="p">(</span><span class="n">decoder_input</span><span class="p">,</span> <span class="n">decoder_hidden</span><span class="p">,</span> <span class="n">encoder_outputs</span><span class="p">,</span>
-                                                                     <span class="n">function</span><span class="o">=</span><span class="n">function</span><span class="p">)</span>
-
-            <span class="k">for</span> <span class="n">di</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">max_length</span><span class="p">):</span>
-                <span class="n">step_output</span> <span class="o">=</span> <span class="n">decoder_output</span><span class="p">[:,</span> <span class="n">di</span><span class="p">,</span> <span class="p">:]</span>
-                <span class="n">step_attn</span> <span class="o">=</span> <span class="n">attn</span><span class="p">[:,</span> <span class="n">di</span><span class="p">,</span> <span class="p">:]</span>
-                <span class="n">decode</span><span class="p">(</span><span class="n">di</span><span class="p">,</span> <span class="n">step_output</span><span class="p">,</span> <span class="n">step_attn</span><span class="p">)</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="k">for</span> <span class="n">di</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">max_length</span><span class="p">):</span>
-                <span class="n">decoder_output</span><span class="p">,</span> <span class="n">decoder_hidden</span><span class="p">,</span> <span class="n">step_attn</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">forward_step</span><span class="p">(</span><span class="n">decoder_input</span><span class="p">,</span> <span class="n">decoder_hidden</span><span class="p">,</span> <span class="n">encoder_outputs</span><span class="p">,</span>
-                                                                         <span class="n">function</span><span class="o">=</span><span class="n">function</span><span class="p">)</span>
-                <span class="n">step_output</span> <span class="o">=</span> <span class="n">decoder_output</span><span class="o">.</span><span class="n">squeeze</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
-                <span class="n">symbols</span> <span class="o">=</span> <span class="n">decode</span><span class="p">(</span><span class="n">di</span><span class="p">,</span> <span class="n">step_output</span><span class="p">,</span> <span class="n">step_attn</span><span class="p">)</span>
-                <span class="n">decoder_input</span> <span class="o">=</span> <span class="n">symbols</span>
-
-        <span class="n">ret_dict</span><span class="p">[</span><span class="n">DecoderRNN</span><span class="o">.</span><span class="n">KEY_SEQUENCE</span><span class="p">]</span> <span class="o">=</span> <span class="n">sequence_symbols</span>
-        <span class="n">ret_dict</span><span class="p">[</span><span class="n">DecoderRNN</span><span class="o">.</span><span class="n">KEY_LENGTH</span><span class="p">]</span> <span class="o">=</span> <span class="n">lengths</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span>
-        <span class="n">ret_dict</span><span class="p">[</span><span class="n">DecoderRNN</span><span class="o">.</span><span class="n">KEY_INPUT</span><span class="p">]</span> <span class="o">=</span> <span class="n">inputs</span>
-
-        <span class="k">return</span> <span class="n">decoder_outputs</span><span class="p">,</span> <span class="n">decoder_hidden</span><span class="p">,</span> <span class="n">ret_dict</span></div>
-</pre></div>
-
-           </div>
-           <div class="articleComments">
-            
-           </div>
-          </div>
-          <footer>
-  
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>
-        &copy; Copyright 2017, pytorch-seq2seq Contritors.
-
-    </p>
-  </div>
-  Built with <a href="http://sphinx-doc.org/">Sphinx</a> using a <a href="https://github.com/snide/sphinx_rtd_theme">theme</a> provided by <a href="https://readthedocs.org">Read the Docs</a>. 
-
-</footer>
-
-        </div>
-      </div>
-
-    </section>
-
-  </div>
-  
-
-
-  
-
-    <script type="text/javascript">
-        var DOCUMENTATION_OPTIONS = {
-            URL_ROOT:'../../../',
-            VERSION:'0.1.2',
-            COLLAPSE_INDEX:false,
-            FILE_SUFFIX:'.html',
-            HAS_SOURCE:  true,
-            SOURCELINK_SUFFIX: '.txt'
-        };
-    </script>
-      <script type="text/javascript" src="../../../_static/jquery.js"></script>
-      <script type="text/javascript" src="../../../_static/underscore.js"></script>
-      <script type="text/javascript" src="../../../_static/doctools.js"></script>
-      <script type="text/javascript" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.1/MathJax.js?config=TeX-AMS-MML_HTMLorMML"></script>
-
-  
-
-  
-  
-    <script type="text/javascript" src="../../../_static/js/theme.js"></script>
-  
-
-  
-  
-  <script type="text/javascript">
-      jQuery(function () {
-          SphinxRtdTheme.StickyNav.enable();
-      });
-  </script>
-   
-
-</body>
-</html>
\ No newline at end of file
diff --git a/docs/public/_modules/seq2seq/models/EncoderRNN.html b/docs/public/_modules/seq2seq/models/EncoderRNN.html
deleted file mode 100644
index d2158ee..0000000
--- a/docs/public/_modules/seq2seq/models/EncoderRNN.html
+++ /dev/null
@@ -1,295 +0,0 @@
-
-
-<!DOCTYPE html>
-<!--[if IE 8]><html class="no-js lt-ie9" lang="en" > <![endif]-->
-<!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
-<head>
-  <meta charset="utf-8">
-  
-  <meta name="viewport" content="width=device-width, initial-scale=1.0">
-  
-  <title>seq2seq.models.EncoderRNN &mdash; pytorch-seq2seq 0.1.2 documentation</title>
-  
-
-  
-  
-  
-  
-
-  
-
-  
-  
-    
-
-  
-
-  
-  
-    <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
-  
-
-  
-
-  
-        <link rel="index" title="Index"
-              href="../../../genindex.html"/>
-        <link rel="search" title="Search" href="../../../search.html"/>
-    <link rel="top" title="pytorch-seq2seq 0.1.2 documentation" href="../../../index.html"/>
-        <link rel="up" title="Module code" href="../../index.html"/> 
-
-  
-  <script src="../../../_static/js/modernizr.min.js"></script>
-
-</head>
-
-<body class="wy-body-for-nav" role="document">
-
-   
-  <div class="wy-grid-for-nav">
-
-    
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search">
-          
-
-          
-            <a href="../../../index.html" class="icon icon-home"> pytorch-seq2seq
-          
-
-          
-          </a>
-
-          
-            
-            
-              <div class="version">
-                0.1.2
-              </div>
-            
-          
-
-          
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-
-          
-        </div>
-
-        <div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="main navigation">
-          
-            
-            
-              
-            
-            
-              <p class="caption"><span class="caption-text">Notes</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../notes/intro.html">Introduction</a></li>
-</ul>
-<p class="caption"><span class="caption-text">Package Reference</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../dataset.html">Dataset</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../util.html">Util</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../evaluator.html">Evaluator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../loss.html">Loss</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../optim.html">Optim</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../trainer.html">Trainer</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../models.html">Models</a></li>
-</ul>
-
-            
-          
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap">
-
-      
-      <nav class="wy-nav-top" role="navigation" aria-label="top navigation">
-        
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../index.html">pytorch-seq2seq</a>
-        
-      </nav>
-
-
-      
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-<div role="navigation" aria-label="breadcrumbs navigation">
-
-  <ul class="wy-breadcrumbs">
-    
-      <li><a href="../../../index.html">Docs</a> &raquo;</li>
-        
-          <li><a href="../../index.html">Module code</a> &raquo;</li>
-        
-      <li>seq2seq.models.EncoderRNN</li>
-    
-    
-      <li class="wy-breadcrumbs-aside">
-        
-            
-        
-      </li>
-    
-  </ul>
-
-  
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-            
-  <h1>Source code for seq2seq.models.EncoderRNN</h1><div class="highlight"><pre>
-<span></span><span class="kn">import</span> <span class="nn">torch.nn</span> <span class="k">as</span> <span class="nn">nn</span>
-<span class="kn">from</span> <span class="nn">baseRNN</span> <span class="k">import</span> <span class="n">BaseRNN</span>
-
-
-<div class="viewcode-block" id="EncoderRNN"><a class="viewcode-back" href="../../../models.html#seq2seq.models.EncoderRNN.EncoderRNN">[docs]</a><span class="k">class</span> <span class="nc">EncoderRNN</span><span class="p">(</span><span class="n">BaseRNN</span><span class="p">):</span>
-    <span class="sa">r</span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Applies a multi-layer RNN to an input sequence.</span>
-<span class="sd">    Args:</span>
-<span class="sd">        vocab (Vocabulary): an object of Vocabulary class</span>
-<span class="sd">        max_len (int): a maximum allowed length for the sequence to be processed</span>
-<span class="sd">        hidden_size (int): the number of features in the hidden state `h`</span>
-<span class="sd">        input_dropout_p (float, optional): dropout probability for the input sequence (default: 0)</span>
-<span class="sd">        dropout_p (float, optional): dropout probability for the output sequence (default: 0)</span>
-<span class="sd">        n_layers (int, optional): number of recurrent layers (default: 1)</span>
-<span class="sd">        rnn_cell (str, optional): type of RNN cell (default: gru)</span>
-
-<span class="sd">    Inputs: inputs, volatile</span>
-<span class="sd">        - **inputs**: list of sequences, whose length is the batch size and within which each sequence is a list of token IDs.</span>
-<span class="sd">        - **volatile** (bool, optional): boolean flag specifying whether to preserve gradients, when you are sure you</span>
-<span class="sd">          will not be even calling .backward().</span>
-<span class="sd">    Outputs: output, hidden</span>
-<span class="sd">        - **output** (batch, seq_len, hidden_size): tensor containing the encoded features of the input sequence</span>
-<span class="sd">        - **hidden** (num_layers * num_directions, batch, hidden_size): tensor containing the features in the hidden state `h`</span>
-
-<span class="sd">    Examples::</span>
-
-<span class="sd">         &gt;&gt;&gt; encoder = EncoderRNN(input_vocab, max_seq_length, hidden_size)</span>
-<span class="sd">         &gt;&gt;&gt; output, hidden = encoder(input)</span>
-
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">vocab</span><span class="p">,</span> <span class="n">max_len</span><span class="p">,</span> <span class="n">hidden_size</span><span class="p">,</span>
-            <span class="n">input_dropout_p</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span> <span class="n">dropout_p</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
-            <span class="n">n_layers</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">rnn_cell</span><span class="o">=</span><span class="s1">&#39;gru&#39;</span><span class="p">):</span>
-        <span class="nb">super</span><span class="p">(</span><span class="n">EncoderRNN</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="n">vocab</span><span class="p">,</span> <span class="n">max_len</span><span class="p">,</span> <span class="n">hidden_size</span><span class="p">,</span>
-                <span class="n">input_dropout_p</span><span class="p">,</span> <span class="n">dropout_p</span><span class="p">,</span> <span class="n">n_layers</span><span class="p">,</span> <span class="n">rnn_cell</span><span class="p">)</span>
-
-        <span class="bp">self</span><span class="o">.</span><span class="n">embedding</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Embedding</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">vocab</span><span class="o">.</span><span class="n">get_vocab_size</span><span class="p">(),</span> <span class="n">hidden_size</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">lengths</span> <span class="o">=</span> <span class="kc">None</span>
-
-    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-        <span class="n">batch</span> <span class="o">=</span> <span class="n">args</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">lengths</span> <span class="o">=</span> <span class="p">[</span><span class="nb">min</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">max_len</span><span class="p">,</span> <span class="nb">len</span><span class="p">(</span><span class="n">seq</span><span class="p">))</span> <span class="k">for</span> <span class="n">seq</span> <span class="ow">in</span> <span class="n">batch</span><span class="p">]</span>
-        <span class="k">return</span> <span class="nb">super</span><span class="p">(</span><span class="n">EncoderRNN</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">forward</span><span class="p">(</span><span class="n">batch</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
-
-<div class="viewcode-block" id="EncoderRNN.forward_rnn"><a class="viewcode-back" href="../../../models.html#seq2seq.models.EncoderRNN.EncoderRNN.forward_rnn">[docs]</a>    <span class="k">def</span> <span class="nf">forward_rnn</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">input_var</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Applies a multi-layer RNN to an input sequence.</span>
-
-<span class="sd">        Args:</span>
-<span class="sd">            input_var (batch, seq_len): tensor containing the features of the input sequence.</span>
-
-<span class="sd">       returns: output, hidden</span>
-<span class="sd">            - **output** (batch, seq_len, hidden_size): variable containing the encoded features of the input sequence</span>
-<span class="sd">            - **hidden** (num_layers * num_directions, batch, hidden_size): variable containing the features in the hidden state h</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="n">embedded</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">embedding</span><span class="p">(</span><span class="n">input_var</span><span class="p">)</span>
-        <span class="n">embedded</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">input_dropout</span><span class="p">(</span><span class="n">embedded</span><span class="p">)</span>
-        <span class="n">embedded</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">utils</span><span class="o">.</span><span class="n">rnn</span><span class="o">.</span><span class="n">pack_padded_sequence</span><span class="p">(</span><span class="n">embedded</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">lengths</span><span class="p">,</span> <span class="n">batch_first</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
-        <span class="n">output</span><span class="p">,</span> <span class="n">hidden</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">rnn</span><span class="p">(</span><span class="n">embedded</span><span class="p">)</span>
-        <span class="n">output</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">utils</span><span class="o">.</span><span class="n">rnn</span><span class="o">.</span><span class="n">pad_packed_sequence</span><span class="p">(</span><span class="n">output</span><span class="p">,</span> <span class="n">batch_first</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
-        <span class="k">return</span> <span class="n">output</span><span class="p">,</span> <span class="n">hidden</span></div></div>
-</pre></div>
-
-           </div>
-           <div class="articleComments">
-            
-           </div>
-          </div>
-          <footer>
-  
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>
-        &copy; Copyright 2017, pytorch-seq2seq Contritors.
-
-    </p>
-  </div>
-  Built with <a href="http://sphinx-doc.org/">Sphinx</a> using a <a href="https://github.com/snide/sphinx_rtd_theme">theme</a> provided by <a href="https://readthedocs.org">Read the Docs</a>. 
-
-</footer>
-
-        </div>
-      </div>
-
-    </section>
-
-  </div>
-  
-
-
-  
-
-    <script type="text/javascript">
-        var DOCUMENTATION_OPTIONS = {
-            URL_ROOT:'../../../',
-            VERSION:'0.1.2',
-            COLLAPSE_INDEX:false,
-            FILE_SUFFIX:'.html',
-            HAS_SOURCE:  true,
-            SOURCELINK_SUFFIX: '.txt'
-        };
-    </script>
-      <script type="text/javascript" src="../../../_static/jquery.js"></script>
-      <script type="text/javascript" src="../../../_static/underscore.js"></script>
-      <script type="text/javascript" src="../../../_static/doctools.js"></script>
-      <script type="text/javascript" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.1/MathJax.js?config=TeX-AMS-MML_HTMLorMML"></script>
-
-  
-
-  
-  
-    <script type="text/javascript" src="../../../_static/js/theme.js"></script>
-  
-
-  
-  
-  <script type="text/javascript">
-      jQuery(function () {
-          SphinxRtdTheme.StickyNav.enable();
-      });
-  </script>
-   
-
-</body>
-</html>
\ No newline at end of file
diff --git a/docs/public/_modules/seq2seq/models/TopKDecoder.html b/docs/public/_modules/seq2seq/models/TopKDecoder.html
deleted file mode 100644
index 585e6e8..0000000
--- a/docs/public/_modules/seq2seq/models/TopKDecoder.html
+++ /dev/null
@@ -1,554 +0,0 @@
-
-
-<!DOCTYPE html>
-<!--[if IE 8]><html class="no-js lt-ie9" lang="en" > <![endif]-->
-<!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
-<head>
-  <meta charset="utf-8">
-  
-  <meta name="viewport" content="width=device-width, initial-scale=1.0">
-  
-  <title>seq2seq.models.TopKDecoder &mdash; pytorch-seq2seq 0.1.2 documentation</title>
-  
-
-  
-  
-  
-  
-
-  
-
-  
-  
-    
-
-  
-
-  
-  
-    <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
-  
-
-  
-
-  
-        <link rel="index" title="Index"
-              href="../../../genindex.html"/>
-        <link rel="search" title="Search" href="../../../search.html"/>
-    <link rel="top" title="pytorch-seq2seq 0.1.2 documentation" href="../../../index.html"/>
-        <link rel="up" title="Module code" href="../../index.html"/> 
-
-  
-  <script src="../../../_static/js/modernizr.min.js"></script>
-
-</head>
-
-<body class="wy-body-for-nav" role="document">
-
-   
-  <div class="wy-grid-for-nav">
-
-    
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search">
-          
-
-          
-            <a href="../../../index.html" class="icon icon-home"> pytorch-seq2seq
-          
-
-          
-          </a>
-
-          
-            
-            
-              <div class="version">
-                0.1.2
-              </div>
-            
-          
-
-          
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-
-          
-        </div>
-
-        <div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="main navigation">
-          
-            
-            
-              
-            
-            
-              <p class="caption"><span class="caption-text">Notes</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../notes/intro.html">Introduction</a></li>
-</ul>
-<p class="caption"><span class="caption-text">Package Reference</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../dataset.html">Dataset</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../util.html">Util</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../evaluator.html">Evaluator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../loss.html">Loss</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../optim.html">Optim</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../trainer.html">Trainer</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../models.html">Models</a></li>
-</ul>
-
-            
-          
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap">
-
-      
-      <nav class="wy-nav-top" role="navigation" aria-label="top navigation">
-        
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../index.html">pytorch-seq2seq</a>
-        
-      </nav>
-
-
-      
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-<div role="navigation" aria-label="breadcrumbs navigation">
-
-  <ul class="wy-breadcrumbs">
-    
-      <li><a href="../../../index.html">Docs</a> &raquo;</li>
-        
-          <li><a href="../../index.html">Module code</a> &raquo;</li>
-        
-      <li>seq2seq.models.TopKDecoder</li>
-    
-    
-      <li class="wy-breadcrumbs-aside">
-        
-            
-        
-      </li>
-    
-  </ul>
-
-  
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-            
-  <h1>Source code for seq2seq.models.TopKDecoder</h1><div class="highlight"><pre>
-<span></span><span class="kn">import</span> <span class="nn">torch</span>
-<span class="kn">import</span> <span class="nn">torch.nn.functional</span> <span class="k">as</span> <span class="nn">F</span>
-<span class="kn">from</span> <span class="nn">torch.autograd</span> <span class="k">import</span> <span class="n">Variable</span>
-<span class="kn">from</span> <span class="nn">baseRNN</span> <span class="k">import</span> <span class="n">BaseRNN</span>
-
-
-<div class="viewcode-block" id="TopKDecoder"><a class="viewcode-back" href="../../../models.html#seq2seq.models.TopKDecoder.TopKDecoder">[docs]</a><span class="k">class</span> <span class="nc">TopKDecoder</span><span class="p">(</span><span class="n">BaseRNN</span><span class="p">):</span>
-    <span class="sa">r</span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Top-K decoding with beam search.</span>
-
-<span class="sd">    Args:</span>
-<span class="sd">        decoder_rnn (DecoderRNN): An object of DecoderRNN used for decoding.</span>
-<span class="sd">        k (int): Size of the beam.</span>
-
-<span class="sd">    Inputs: inputs, encoder_hidden, encoder_outputs, function, teacher_forcing_ratio</span>
-<span class="sd">        - **inputs** (seq_len, batch, input_size): list of sequences, whose length is the batch size and within which</span>
-<span class="sd">          each sequence is a list of token IDs.  It is used for teacher forcing when provided. (default is `None`)</span>
-<span class="sd">        - **encoder_hidden** (batch, seq_len, hidden_size): tensor containing the features in the hidden state `h` of</span>
-<span class="sd">          encoder. Used as the initial hidden state of the decoder.</span>
-<span class="sd">        - **encoder_outputs** (batch, seq_len, hidden_size): tensor with containing the outputs of the encoder.</span>
-<span class="sd">          Used for attention mechanism (default is `None`).</span>
-<span class="sd">        - **function** (torch.nn.Module): A function used to generate symbols from RNN hidden state</span>
-<span class="sd">          (default is `torch.nn.functional.log_softmax`).</span>
-<span class="sd">        - **teacher_forcing_ratio** (float): The probability that teacher forcing will be used. A random number is</span>
-<span class="sd">          drawn uniformly from 0-1 for every decoding token, and if the sample is smaller than the given value,</span>
-<span class="sd">          teacher forcing would be used (default is 0).</span>
-
-<span class="sd">    Outputs: decoder_outputs, decoder_hidden, ret_dict</span>
-<span class="sd">        - **decoder_outputs** (batch): batch-length list of tensors with size (max_length, hidden_size) containing the</span>
-<span class="sd">          outputs of the decoder.</span>
-<span class="sd">        - **decoder_hidden** (num_layers * num_directions, batch, hidden_size): tensor containing the last hidden</span>
-<span class="sd">          state of the decoder.</span>
-<span class="sd">        - **ret_dict**: dictionary containing additional information as follows {*length* : list of integers</span>
-<span class="sd">          representing lengths of output sequences, *sequence* : list of sequences, where each sequence is a list of</span>
-<span class="sd">          predicted token IDs, *inputs* : target outputs if provided for decoding}.</span>
-
-<span class="sd">    &quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">decoder_rnn</span><span class="p">,</span> <span class="n">k</span><span class="p">):</span>
-        <span class="nb">super</span><span class="p">(</span><span class="n">TopKDecoder</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="n">decoder_rnn</span><span class="o">.</span><span class="n">lang</span><span class="p">,</span> <span class="n">decoder_rnn</span><span class="o">.</span><span class="n">max_length</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">rnn</span> <span class="o">=</span> <span class="n">decoder_rnn</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">k</span> <span class="o">=</span> <span class="n">k</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">V</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">rnn</span><span class="o">.</span><span class="n">lang</span><span class="o">.</span><span class="n">get_vocab_size</span><span class="p">()</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">SOS</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">rnn</span><span class="o">.</span><span class="n">lang</span><span class="o">.</span><span class="n">SOS_token_id</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">EOS</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">rnn</span><span class="o">.</span><span class="n">lang</span><span class="o">.</span><span class="n">EOS_token_id</span>
-
-<div class="viewcode-block" id="TopKDecoder.forward_rnn"><a class="viewcode-back" href="../../../models.html#seq2seq.models.TopKDecoder.TopKDecoder.forward_rnn">[docs]</a>    <span class="k">def</span> <span class="nf">forward_rnn</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">inputs</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">encoder_hidden</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">encoder_outputs</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">function</span><span class="o">=</span><span class="n">F</span><span class="o">.</span><span class="n">log_softmax</span><span class="p">,</span>
-                    <span class="n">retain_output_probs</span><span class="o">=</span><span class="kc">True</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Forward rnn for MAX_LENGTH steps.  Look at :func:`seq2seq.models.DecoderRNN.DecoderRNN.forward_rnn` for details.</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-
-        <span class="c1"># TODO: Looks like encoder_hidden is not optional, we need unit tests</span>
-        <span class="c1"># for this class</span>
-        <span class="c1"># Get batch size, assuming h_0 is num_layers*directions x b x hidden_dim</span>
-        <span class="n">b</span> <span class="o">=</span> <span class="n">encoder_hidden</span><span class="o">.</span><span class="n">size</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
-        <span class="n">h</span> <span class="o">=</span> <span class="n">encoder_hidden</span><span class="o">.</span><span class="n">size</span><span class="p">(</span><span class="mi">2</span><span class="p">)</span>
-
-        <span class="bp">self</span><span class="o">.</span><span class="n">pos_index</span> <span class="o">=</span> <span class="n">Variable</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">LongTensor</span><span class="p">(</span><span class="nb">range</span><span class="p">(</span><span class="n">b</span><span class="p">))</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">k</span><span class="p">)</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
-
-        <span class="c1"># Inflate the initial hidden states to be of size: b*k x h</span>
-        <span class="n">hidden</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_inflate</span><span class="p">(</span><span class="n">encoder_hidden</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">k</span><span class="p">)</span>
-        <span class="c1"># ... same idea for encoder_outputs and decoder_outputs</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">rnn</span><span class="o">.</span><span class="n">use_attention</span><span class="p">:</span>
-            <span class="k">if</span> <span class="n">encoder_outputs</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-                <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;Argument encoder_outputs cannot be None when attention is used.&quot;</span><span class="p">)</span>
-            <span class="k">else</span><span class="p">:</span>
-                <span class="n">inflated_encoder_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_inflate</span><span class="p">(</span><span class="n">encoder_outputs</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">k</span><span class="p">)</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="n">inflated_encoder_outputs</span> <span class="o">=</span> <span class="kc">None</span>
-
-        <span class="c1"># Initialize the scores; for the first step,</span>
-        <span class="c1"># ignore the inflated copies to avoid duplicate entries in the top k</span>
-        <span class="n">sequence_scores</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">(</span><span class="n">b</span><span class="o">*</span><span class="bp">self</span><span class="o">.</span><span class="n">k</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
-        <span class="n">sequence_scores</span><span class="o">.</span><span class="n">fill_</span><span class="p">(</span><span class="o">-</span><span class="nb">float</span><span class="p">(</span><span class="s1">&#39;Inf&#39;</span><span class="p">))</span>
-        <span class="n">sequence_scores</span><span class="o">.</span><span class="n">index_fill_</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="n">torch</span><span class="o">.</span><span class="n">LongTensor</span><span class="p">([</span><span class="n">i</span><span class="o">*</span><span class="bp">self</span><span class="o">.</span><span class="n">k</span> <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="n">b</span><span class="p">)]),</span> <span class="mf">0.0</span><span class="p">)</span>
-        <span class="n">sequence_scores</span> <span class="o">=</span> <span class="n">Variable</span><span class="p">(</span><span class="n">sequence_scores</span><span class="p">)</span>
-
-        <span class="c1"># Initialize the input vector</span>
-        <span class="n">input_var</span> <span class="o">=</span> <span class="n">Variable</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">LongTensor</span><span class="p">([[</span><span class="bp">self</span><span class="o">.</span><span class="n">SOS</span><span class="p">]</span><span class="o">*</span><span class="n">b</span><span class="o">*</span><span class="bp">self</span><span class="o">.</span><span class="n">k</span><span class="p">]),</span> <span class="mi">0</span><span class="p">,</span> <span class="mi">1</span><span class="p">))</span>
-
-        <span class="c1"># Store decisions for backtracking</span>
-        <span class="n">stored_outputs</span> <span class="o">=</span> <span class="nb">list</span><span class="p">()</span>
-        <span class="n">stored_scores</span> <span class="o">=</span> <span class="nb">list</span><span class="p">()</span>
-        <span class="n">stored_predecessors</span> <span class="o">=</span> <span class="nb">list</span><span class="p">()</span>
-        <span class="n">stored_emitted_symbols</span> <span class="o">=</span> <span class="nb">list</span><span class="p">()</span>
-        <span class="n">stored_hidden</span> <span class="o">=</span> <span class="nb">list</span><span class="p">()</span>
-
-        <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">rnn</span><span class="o">.</span><span class="n">max_length</span><span class="p">):</span>
-
-            <span class="c1"># Run the RNN one step forward</span>
-            <span class="n">log_softmax_output</span><span class="p">,</span> <span class="n">hidden</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">rnn</span><span class="o">.</span><span class="n">forward_step</span><span class="p">(</span><span class="n">input_var</span><span class="p">,</span> <span class="n">hidden</span><span class="p">,</span> <span class="n">inflated_encoder_outputs</span><span class="p">,</span> <span class="n">function</span><span class="o">=</span><span class="n">function</span><span class="p">)</span>
-
-            <span class="c1"># If doing local backprop (e.g. supervised training), retain the output layer</span>
-            <span class="k">if</span> <span class="n">retain_output_probs</span><span class="p">:</span>
-                <span class="n">stored_outputs</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">log_softmax_output</span><span class="p">)</span>
-
-            <span class="c1"># To get the full sequence scores for the new candidates, add the local scores for t_i to the predecessor scores for t_(i-1)</span>
-            <span class="n">sequence_scores</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_inflate</span><span class="p">(</span><span class="n">sequence_scores</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">V</span><span class="p">)</span>
-            <span class="n">sequence_scores</span> <span class="o">+=</span> <span class="n">log_softmax_output</span>
-            <span class="n">scores</span><span class="p">,</span> <span class="n">candidates</span> <span class="o">=</span> <span class="n">sequence_scores</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="n">b</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">)</span><span class="o">.</span><span class="n">topk</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">k</span><span class="p">,</span> <span class="n">dim</span><span class="o">=</span><span class="mi">1</span><span class="p">)</span>
-
-            <span class="c1"># Reshape input = (bk, 1) and sequence_scores = (bk, 1)</span>
-            <span class="n">input_var</span> <span class="o">=</span> <span class="p">(</span><span class="n">candidates</span> <span class="o">%</span> <span class="bp">self</span><span class="o">.</span><span class="n">V</span><span class="p">)</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="n">b</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">k</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
-            <span class="n">sequence_scores</span> <span class="o">=</span> <span class="n">scores</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="n">b</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">k</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
-
-            <span class="c1"># Update fields for next timestep</span>
-            <span class="n">predecessors</span> <span class="o">=</span> <span class="p">(</span><span class="n">candidates</span> <span class="o">/</span> <span class="bp">self</span><span class="o">.</span><span class="n">V</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">pos_index</span><span class="o">.</span><span class="n">expand_as</span><span class="p">(</span><span class="n">candidates</span><span class="p">))</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="n">b</span><span class="o">*</span><span class="bp">self</span><span class="o">.</span><span class="n">k</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
-            <span class="n">hidden</span> <span class="o">=</span> <span class="n">hidden</span><span class="o">.</span><span class="n">index_select</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="n">predecessors</span><span class="o">.</span><span class="n">squeeze</span><span class="p">())</span>
-
-            <span class="c1"># Update sequence scores and erase scores for end-of-sentence symbol so that they aren&#39;t expanded</span>
-            <span class="n">stored_scores</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">sequence_scores</span><span class="o">.</span><span class="n">clone</span><span class="p">())</span>
-            <span class="n">eos_indices</span> <span class="o">=</span> <span class="n">input_var</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">eq</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">EOS</span><span class="p">)</span>
-            <span class="k">if</span> <span class="n">eos_indices</span><span class="o">.</span><span class="n">nonzero</span><span class="p">()</span><span class="o">.</span><span class="n">dim</span><span class="p">()</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
-                <span class="n">sequence_scores</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">masked_fill_</span><span class="p">(</span><span class="n">eos_indices</span><span class="p">,</span> <span class="o">-</span><span class="nb">float</span><span class="p">(</span><span class="s1">&#39;inf&#39;</span><span class="p">))</span>
-
-            <span class="c1"># Cache results for backtracking</span>
-            <span class="n">stored_predecessors</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">predecessors</span><span class="p">)</span>
-            <span class="n">stored_emitted_symbols</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">input_var</span><span class="p">)</span>
-            <span class="n">stored_hidden</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">hidden</span><span class="p">)</span>
-
-        <span class="c1"># Do backtracking to return the optimal values</span>
-        <span class="n">output</span><span class="p">,</span> <span class="n">h_t</span><span class="p">,</span> <span class="n">h_n</span><span class="p">,</span> <span class="n">s</span><span class="p">,</span> <span class="n">l</span><span class="p">,</span> <span class="n">p</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_backtrack</span><span class="p">(</span><span class="n">stored_outputs</span><span class="p">,</span> <span class="n">stored_hidden</span><span class="p">,</span>
-                                                 <span class="n">stored_predecessors</span><span class="p">,</span> <span class="n">stored_emitted_symbols</span><span class="p">,</span> <span class="n">stored_scores</span><span class="p">,</span> <span class="n">b</span><span class="p">,</span> <span class="n">h</span><span class="p">)</span>
-
-        <span class="c1"># Build return objects</span>
-        <span class="n">decoder_outputs</span> <span class="o">=</span> <span class="p">[</span><span class="n">step</span><span class="p">[:,</span> <span class="mi">0</span><span class="p">,</span> <span class="p">:]</span> <span class="k">for</span> <span class="n">step</span> <span class="ow">in</span> <span class="n">output</span><span class="p">]</span>
-        <span class="n">decoder_hidden</span> <span class="o">=</span> <span class="n">h_n</span><span class="p">[:,</span> <span class="p">:,</span> <span class="mi">0</span><span class="p">,</span> <span class="p">:]</span>
-        <span class="n">metadata</span> <span class="o">=</span> <span class="p">{}</span>
-        <span class="n">metadata</span><span class="p">[</span><span class="s1">&#39;inputs&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">inputs</span>
-        <span class="n">metadata</span><span class="p">[</span><span class="s1">&#39;output&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">output</span>
-        <span class="n">metadata</span><span class="p">[</span><span class="s1">&#39;h_t&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">h_t</span>
-        <span class="n">metadata</span><span class="p">[</span><span class="s1">&#39;score&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">s</span>
-        <span class="n">metadata</span><span class="p">[</span><span class="s1">&#39;length&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">l</span>
-        <span class="n">metadata</span><span class="p">[</span><span class="s1">&#39;sequence&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">p</span>
-        <span class="k">return</span> <span class="n">decoder_outputs</span><span class="p">,</span> <span class="n">decoder_hidden</span><span class="p">,</span> <span class="n">metadata</span></div>
-
-    <span class="k">def</span> <span class="nf">_backtrack</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">nw_output</span><span class="p">,</span> <span class="n">nw_hidden</span><span class="p">,</span> <span class="n">predecessors</span><span class="p">,</span> <span class="n">symbols</span><span class="p">,</span> <span class="n">scores</span><span class="p">,</span> <span class="n">b</span><span class="p">,</span> <span class="n">hidden_size</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;Backtracks over batch to generate optimal k-sequences.</span>
-
-<span class="sd">        Args:</span>
-<span class="sd">            nw_output [(batch*k, vocab_size)] * sequence_length: A Tensor of outputs from network</span>
-<span class="sd">            nw_hidden [(num_layers, batch*k, hidden_size)] * sequence_length: A Tensor of hidden states from network</span>
-<span class="sd">            predecessors [(batch*k)] * sequence_length: A Tensor of predecessors</span>
-<span class="sd">            symbols [(batch*k)] * sequence_length: A Tensor of predicted tokens</span>
-<span class="sd">            scores [(batch*k)] * sequence_length: A Tensor containing sequence scores for every token t = [0, ... , seq_len - 1]</span>
-<span class="sd">            b: Size of the batch</span>
-<span class="sd">            hidden_size: Size of the hidden state</span>
-
-<span class="sd">        Returns:</span>
-<span class="sd">            output [(batch, k, vocab_size)] * sequence_length: A list of the output probabilities (p_n)</span>
-<span class="sd">            from the last layer of the RNN, for every n = [0, ... , seq_len - 1]</span>
-
-<span class="sd">            h_t [(batch, k, hidden_size)] * sequence_length: A list containing the output features (h_n)</span>
-<span class="sd">            from the last layer of the RNN, for every n = [0, ... , seq_len - 1]</span>
-
-<span class="sd">            h_n(batch, k, hidden_size): A Tensor containing the last hidden state for all top-k sequences.</span>
-
-<span class="sd">            score [batch, k]: A list containing the final scores for all top-k sequences</span>
-
-<span class="sd">            length [batch, k]: A list specifying the length of each sequence in the top-k candidates</span>
-
-<span class="sd">            p (batch, k, sequence_len): A Tensor containing predicted sequence</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-
-        <span class="c1"># initialize return variables given different types</span>
-        <span class="n">output</span> <span class="o">=</span> <span class="nb">list</span><span class="p">()</span>
-        <span class="n">h_t</span> <span class="o">=</span> <span class="nb">list</span><span class="p">()</span>
-        <span class="n">p</span> <span class="o">=</span> <span class="nb">list</span><span class="p">()</span>
-        <span class="n">h_n</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="n">nw_hidden</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">size</span><span class="p">())</span>  <span class="c1"># Placeholder for last hidden state of top-k sequences.</span>
-                                                <span class="c1"># If a (top-k) sequence ends early in decoding, `h_n` contains</span>
-                                                <span class="c1"># its hidden state when it sees EOS.  Otherwise, `h_n` contains</span>
-                                                <span class="c1"># the last hidden state of decoding.</span>
-        <span class="n">l</span> <span class="o">=</span> <span class="p">[[</span><span class="bp">self</span><span class="o">.</span><span class="n">rnn</span><span class="o">.</span><span class="n">max_length</span><span class="p">]</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">k</span> <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">b</span><span class="p">)]</span>  <span class="c1"># Placeholder for lengths of top-k sequences</span>
-                                                                <span class="c1"># Similar to `h_n`</span>
-
-        <span class="c1"># the last step output of the beams are not sorted</span>
-        <span class="c1"># thus they are sorted here</span>
-        <span class="n">sorted_score</span><span class="p">,</span> <span class="n">sorted_idx</span> <span class="o">=</span> <span class="n">scores</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="n">b</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">k</span><span class="p">)</span><span class="o">.</span><span class="n">topk</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">k</span><span class="p">)</span>
-        <span class="c1"># initialize the sequence scores with the sorted last step beam scores</span>
-        <span class="n">s</span> <span class="o">=</span> <span class="n">sorted_score</span><span class="o">.</span><span class="n">clone</span><span class="p">()</span>
-
-        <span class="n">batch_eos_found</span> <span class="o">=</span> <span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">*</span> <span class="n">b</span>   <span class="c1"># the number of EOS found</span>
-                                    <span class="c1"># in the backward loop below for each batch</span>
-
-        <span class="n">t</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">rnn</span><span class="o">.</span><span class="n">max_length</span> <span class="o">-</span> <span class="mi">1</span>
-        <span class="c1"># initialize the back pointer with the sorted order of the last step beams.</span>
-        <span class="c1"># add self.pos_index for indexing variable with b*k as the first dimension.</span>
-        <span class="n">t_predecessors</span> <span class="o">=</span> <span class="p">(</span><span class="n">sorted_idx</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">pos_index</span><span class="o">.</span><span class="n">expand_as</span><span class="p">(</span><span class="n">sorted_idx</span><span class="p">))</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="n">b</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">k</span><span class="p">)</span>
-        <span class="k">while</span> <span class="n">t</span> <span class="o">&gt;=</span> <span class="mi">0</span><span class="p">:</span>
-            <span class="c1"># Re-order the variables with the back pointer</span>
-            <span class="n">current_output</span> <span class="o">=</span> <span class="n">nw_output</span><span class="p">[</span><span class="n">t</span><span class="p">]</span><span class="o">.</span><span class="n">index_select</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="n">t_predecessors</span><span class="p">)</span>
-            <span class="n">current_hidden</span> <span class="o">=</span> <span class="n">nw_hidden</span><span class="p">[</span><span class="n">t</span><span class="p">]</span><span class="o">.</span><span class="n">index_select</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="n">t_predecessors</span><span class="p">)</span>
-            <span class="n">current_symbol</span> <span class="o">=</span> <span class="n">symbols</span><span class="p">[</span><span class="n">t</span><span class="p">]</span><span class="o">.</span><span class="n">index_select</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="n">t_predecessors</span><span class="p">)</span>
-            <span class="c1"># Re-order the back pointer of the previous step with the back pointer of</span>
-            <span class="c1"># the current step</span>
-            <span class="n">t_predecessors</span> <span class="o">=</span> <span class="n">predecessors</span><span class="p">[</span><span class="n">t</span><span class="p">]</span><span class="o">.</span><span class="n">index_select</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="n">t_predecessors</span><span class="p">)</span><span class="o">.</span><span class="n">squeeze</span><span class="p">()</span>
-
-            <span class="c1"># This tricky block handles dropped sequences that see EOS earlier.</span>
-            <span class="c1"># The basic idea is summarized below:</span>
-            <span class="c1">#</span>
-            <span class="c1">#   Terms:</span>
-            <span class="c1">#       Ended sequences = sequences that see EOS early and dropped</span>
-            <span class="c1">#       Survived sequences = sequences in the last step of the beams</span>
-            <span class="c1">#</span>
-            <span class="c1">#       Although the ended sequences are dropped during decoding,</span>
-            <span class="c1">#   their generated symbols and complete backtracking information are still</span>
-            <span class="c1">#   in the backtracking variables.</span>
-            <span class="c1">#   For each batch, everytime we see an EOS in the backtracking process,</span>
-            <span class="c1">#       1. If there is survived sequences in the return variables, replace</span>
-            <span class="c1">#       the one with the lowest survived sequence score with the new ended</span>
-            <span class="c1">#       sequences</span>
-            <span class="c1">#       2. Otherwise, replace the ended sequence with the lowest sequence</span>
-            <span class="c1">#       score with the new ended sequence</span>
-            <span class="c1">#</span>
-            <span class="n">eos_indices</span> <span class="o">=</span> <span class="n">symbols</span><span class="p">[</span><span class="n">t</span><span class="p">]</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">squeeze</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span><span class="o">.</span><span class="n">eq</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">EOS</span><span class="p">)</span><span class="o">.</span><span class="n">nonzero</span><span class="p">()</span>
-            <span class="k">if</span> <span class="n">eos_indices</span><span class="o">.</span><span class="n">dim</span><span class="p">()</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
-                <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">eos_indices</span><span class="o">.</span><span class="n">size</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span><span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">):</span>
-                    <span class="c1"># Indices of the EOS symbol for both variables</span>
-                    <span class="c1"># with b*k as the first dimension, and b, k for</span>
-                    <span class="c1"># the first two dimensions</span>
-                    <span class="n">idx</span> <span class="o">=</span> <span class="n">eos_indices</span><span class="p">[</span><span class="n">i</span><span class="p">]</span>
-                    <span class="n">b_idx</span> <span class="o">=</span> <span class="n">idx</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">/</span> <span class="bp">self</span><span class="o">.</span><span class="n">k</span>
-                    <span class="c1"># The indices of the replacing position</span>
-                    <span class="c1"># according to the replacement strategy noted above</span>
-                    <span class="n">res_k_idx</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">k</span> <span class="o">-</span> <span class="p">(</span><span class="n">batch_eos_found</span><span class="p">[</span><span class="n">b_idx</span><span class="p">]</span> <span class="o">%</span> <span class="bp">self</span><span class="o">.</span><span class="n">k</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span>
-                    <span class="n">batch_eos_found</span><span class="p">[</span><span class="n">b_idx</span><span class="p">]</span> <span class="o">+=</span> <span class="mi">1</span>
-                    <span class="n">res_idx</span> <span class="o">=</span> <span class="n">b_idx</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">k</span> <span class="o">+</span> <span class="n">res_k_idx</span>
-
-                    <span class="c1"># Replace the old information in return variables</span>
-                    <span class="c1"># with the new ended sequence information</span>
-                    <span class="n">t_predecessors</span><span class="p">[</span><span class="n">res_idx</span><span class="p">]</span> <span class="o">=</span> <span class="n">predecessors</span><span class="p">[</span><span class="n">t</span><span class="p">][</span><span class="n">idx</span><span class="p">[</span><span class="mi">0</span><span class="p">]]</span>
-                    <span class="n">current_output</span><span class="p">[</span><span class="n">res_idx</span><span class="p">,</span> <span class="p">:]</span> <span class="o">=</span> <span class="n">nw_output</span><span class="p">[</span><span class="n">t</span><span class="p">][</span><span class="n">idx</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="p">:]</span>
-                    <span class="n">current_hidden</span><span class="p">[:,</span> <span class="n">res_idx</span><span class="p">,</span> <span class="p">:]</span> <span class="o">=</span> <span class="n">nw_hidden</span><span class="p">[</span><span class="n">t</span><span class="p">][:,</span> <span class="n">idx</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="p">:]</span>
-                    <span class="n">h_n</span><span class="p">[:,</span> <span class="n">res_idx</span><span class="p">,</span> <span class="p">:]</span> <span class="o">=</span> <span class="n">nw_hidden</span><span class="p">[</span><span class="n">t</span><span class="p">][:,</span> <span class="n">idx</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="p">:]</span><span class="o">.</span><span class="n">data</span>
-                    <span class="n">current_symbol</span><span class="p">[</span><span class="n">res_idx</span><span class="p">,</span> <span class="p">:]</span> <span class="o">=</span> <span class="n">symbols</span><span class="p">[</span><span class="n">t</span><span class="p">][</span><span class="n">idx</span><span class="p">[</span><span class="mi">0</span><span class="p">]]</span>
-                    <span class="n">s</span><span class="p">[</span><span class="n">b_idx</span><span class="p">,</span> <span class="n">res_k_idx</span><span class="p">]</span> <span class="o">=</span> <span class="n">scores</span><span class="p">[</span><span class="n">t</span><span class="p">][</span><span class="n">idx</span><span class="p">[</span><span class="mi">0</span><span class="p">]]</span><span class="o">.</span><span class="n">data</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
-                    <span class="n">l</span><span class="p">[</span><span class="n">b_idx</span><span class="p">][</span><span class="n">res_k_idx</span><span class="p">]</span> <span class="o">=</span> <span class="n">t</span> <span class="o">+</span> <span class="mi">1</span>
-
-            <span class="c1"># record the back tracked results</span>
-            <span class="n">output</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">current_output</span><span class="p">)</span>
-            <span class="n">h_t</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">current_hidden</span><span class="p">)</span>
-            <span class="n">p</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">current_symbol</span><span class="p">)</span>
-
-            <span class="n">t</span> <span class="o">-=</span> <span class="mi">1</span>
-
-        <span class="c1"># Sort and re-order again as the added ended sequences may change</span>
-        <span class="c1"># the order (very unlikely)</span>
-        <span class="n">s</span><span class="p">,</span> <span class="n">re_sorted_idx</span> <span class="o">=</span> <span class="n">s</span><span class="o">.</span><span class="n">topk</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">k</span><span class="p">)</span>
-        <span class="k">for</span> <span class="n">b_idx</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">b</span><span class="p">):</span>
-            <span class="n">l</span><span class="p">[</span><span class="n">b_idx</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span><span class="n">l</span><span class="p">[</span><span class="n">b_idx</span><span class="p">][</span><span class="n">k_idx</span><span class="o">.</span><span class="n">data</span><span class="p">[</span><span class="mi">0</span><span class="p">]]</span> <span class="k">for</span> <span class="n">k_idx</span> <span class="ow">in</span> <span class="n">re_sorted_idx</span><span class="p">[</span><span class="n">b_idx</span><span class="p">,:]]</span>
-
-        <span class="n">re_sorted_idx</span> <span class="o">=</span> <span class="p">(</span><span class="n">re_sorted_idx</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">pos_index</span><span class="o">.</span><span class="n">expand_as</span><span class="p">(</span><span class="n">re_sorted_idx</span><span class="p">))</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="n">b</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">k</span><span class="p">)</span>
-
-        <span class="c1"># Reverse the sequences and re-order at the same time</span>
-        <span class="c1"># It is reversed because the backtracking happens in reverse time order</span>
-        <span class="n">output</span> <span class="o">=</span> <span class="p">[</span><span class="n">step</span><span class="o">.</span><span class="n">index_select</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="n">re_sorted_idx</span><span class="p">)</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="n">b</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">k</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">)</span> <span class="k">for</span> <span class="n">step</span> <span class="ow">in</span> <span class="nb">reversed</span><span class="p">(</span><span class="n">output</span><span class="p">)]</span>
-        <span class="n">p</span> <span class="o">=</span> <span class="p">[</span><span class="n">step</span><span class="o">.</span><span class="n">index_select</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="n">re_sorted_idx</span><span class="p">)</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="n">b</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">k</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">)</span> <span class="k">for</span> <span class="n">step</span> <span class="ow">in</span> <span class="nb">reversed</span><span class="p">(</span><span class="n">p</span><span class="p">)]</span>
-        <span class="n">h_t</span> <span class="o">=</span> <span class="p">[</span><span class="n">step</span><span class="o">.</span><span class="n">index_select</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="n">re_sorted_idx</span><span class="p">)</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="n">b</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">k</span><span class="p">,</span> <span class="n">hidden_size</span><span class="p">)</span> <span class="k">for</span> <span class="n">step</span> <span class="ow">in</span> <span class="nb">reversed</span><span class="p">(</span><span class="n">h_t</span><span class="p">)]</span>
-        <span class="n">h_n</span> <span class="o">=</span> <span class="n">h_n</span><span class="o">.</span><span class="n">index_select</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="n">re_sorted_idx</span><span class="o">.</span><span class="n">data</span><span class="p">)</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="n">b</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">k</span><span class="p">,</span> <span class="n">hidden_size</span><span class="p">)</span>
-        <span class="n">s</span> <span class="o">=</span> <span class="n">s</span><span class="o">.</span><span class="n">data</span>
-
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">k</span> <span class="o">==</span> <span class="mi">1</span><span class="p">:</span>
-            <span class="n">l</span> <span class="o">=</span> <span class="p">[</span><span class="n">_l</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="k">for</span> <span class="n">_l</span> <span class="ow">in</span> <span class="n">l</span><span class="p">]</span>
-
-        <span class="k">return</span> <span class="n">output</span><span class="p">,</span> <span class="n">h_t</span><span class="p">,</span> <span class="n">h_n</span><span class="p">,</span> <span class="n">s</span><span class="p">,</span> <span class="n">l</span><span class="p">,</span> <span class="n">p</span>
-
-    <span class="k">def</span> <span class="nf">_mask_symbol_scores</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">score</span><span class="p">,</span> <span class="n">idx</span><span class="p">,</span> <span class="n">masking_score</span><span class="o">=-</span><span class="nb">float</span><span class="p">(</span><span class="s1">&#39;inf&#39;</span><span class="p">)):</span>
-            <span class="n">score</span><span class="p">[</span><span class="n">idx</span><span class="p">]</span> <span class="o">=</span> <span class="n">masking_score</span>
-
-    <span class="k">def</span> <span class="nf">_mask</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">tensor</span><span class="p">,</span> <span class="n">idx</span><span class="p">,</span> <span class="n">dim</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span> <span class="n">masking_score</span><span class="o">=-</span><span class="nb">float</span><span class="p">(</span><span class="s1">&#39;inf&#39;</span><span class="p">)):</span>
-        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">idx</span><span class="o">.</span><span class="n">size</span><span class="p">())</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
-            <span class="n">indices</span> <span class="o">=</span> <span class="n">idx</span><span class="p">[:,</span> <span class="mi">0</span><span class="p">]</span>
-            <span class="n">tensor</span><span class="o">.</span><span class="n">index_fill_</span><span class="p">(</span><span class="n">dim</span><span class="p">,</span> <span class="n">indices</span><span class="p">,</span> <span class="n">masking_score</span><span class="p">)</span>
-
-    <span class="k">def</span> <span class="nf">_inflate</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">tensor</span><span class="p">,</span> <span class="n">times</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Given a tensor, &#39;inflates&#39; it along the given dimension by replicating each slice specified number of times (in-place)</span>
-
-<span class="sd">        Args:</span>
-<span class="sd">            tensor: A :class:`Tensor` to inflate</span>
-<span class="sd">            times: number of repetitions</span>
-<span class="sd">            dimension: axis for inflation (default=0)</span>
-
-<span class="sd">        Returns:</span>
-<span class="sd">            A :class:`Tensor`</span>
-
-<span class="sd">        Examples::</span>
-<span class="sd">            &gt;&gt; a = torch.LongTensor([[1, 2], [3, 4]])</span>
-<span class="sd">            &gt;&gt; a</span>
-<span class="sd">            1   2</span>
-<span class="sd">            3   4</span>
-<span class="sd">            [torch.LongTensor of size 2x2]</span>
-<span class="sd">            &gt;&gt; decoder = TopKDecoder(nn.RNN(10, 20, 2), 3)</span>
-<span class="sd">            &gt;&gt; b = decoder._inflate(a, 1, dimension=1)</span>
-<span class="sd">            &gt;&gt; b</span>
-<span class="sd">            1   1   2   2</span>
-<span class="sd">            3   3   4   4</span>
-<span class="sd">            [torch.LongTensor of size 2x4]</span>
-<span class="sd">            &gt;&gt; c = decoder._inflate(a, 1, dimension=0)</span>
-<span class="sd">            &gt;&gt; c</span>
-<span class="sd">            1   2</span>
-<span class="sd">            1   2</span>
-<span class="sd">            3   4</span>
-<span class="sd">            3   4</span>
-<span class="sd">            [torch.LongTensor of size 4x2]</span>
-
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="n">tensor_dim</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">tensor</span><span class="o">.</span><span class="n">size</span><span class="p">())</span>
-        <span class="k">if</span> <span class="n">tensor_dim</span> <span class="ow">is</span> <span class="mi">3</span><span class="p">:</span>
-            <span class="n">b</span> <span class="o">=</span> <span class="n">tensor</span><span class="o">.</span><span class="n">size</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
-            <span class="k">return</span> <span class="n">tensor</span><span class="o">.</span><span class="n">repeat</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="n">times</span><span class="p">)</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="n">tensor</span><span class="o">.</span><span class="n">size</span><span class="p">(</span><span class="mi">0</span><span class="p">),</span> <span class="n">b</span> <span class="o">*</span> <span class="n">times</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">)</span>
-        <span class="k">elif</span> <span class="n">tensor_dim</span> <span class="ow">is</span> <span class="mi">2</span><span class="p">:</span>
-            <span class="k">return</span> <span class="n">tensor</span><span class="o">.</span><span class="n">repeat</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="n">times</span><span class="p">)</span>
-        <span class="k">elif</span> <span class="n">tensor_dim</span> <span class="ow">is</span> <span class="mi">1</span><span class="p">:</span>
-            <span class="n">b</span> <span class="o">=</span> <span class="n">tensor</span><span class="o">.</span><span class="n">size</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
-            <span class="k">return</span> <span class="n">tensor</span><span class="o">.</span><span class="n">repeat</span><span class="p">(</span><span class="n">times</span><span class="p">)</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="n">b</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">)</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;Tensor can be of 1D, 2D or 3D only. This one is </span><span class="si">{}</span><span class="s2">D.&quot;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">tensor_dim</span><span class="p">))</span></div>
-
-</pre></div>
-
-           </div>
-           <div class="articleComments">
-            
-           </div>
-          </div>
-          <footer>
-  
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>
-        &copy; Copyright 2017, pytorch-seq2seq Contritors.
-
-    </p>
-  </div>
-  Built with <a href="http://sphinx-doc.org/">Sphinx</a> using a <a href="https://github.com/snide/sphinx_rtd_theme">theme</a> provided by <a href="https://readthedocs.org">Read the Docs</a>. 
-
-</footer>
-
-        </div>
-      </div>
-
-    </section>
-
-  </div>
-  
-
-
-  
-
-    <script type="text/javascript">
-        var DOCUMENTATION_OPTIONS = {
-            URL_ROOT:'../../../',
-            VERSION:'0.1.2',
-            COLLAPSE_INDEX:false,
-            FILE_SUFFIX:'.html',
-            HAS_SOURCE:  true,
-            SOURCELINK_SUFFIX: '.txt'
-        };
-    </script>
-      <script type="text/javascript" src="../../../_static/jquery.js"></script>
-      <script type="text/javascript" src="../../../_static/underscore.js"></script>
-      <script type="text/javascript" src="../../../_static/doctools.js"></script>
-      <script type="text/javascript" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.1/MathJax.js?config=TeX-AMS-MML_HTMLorMML"></script>
-
-  
-
-  
-  
-    <script type="text/javascript" src="../../../_static/js/theme.js"></script>
-  
-
-  
-  
-  <script type="text/javascript">
-      jQuery(function () {
-          SphinxRtdTheme.StickyNav.enable();
-      });
-  </script>
-   
-
-</body>
-</html>
\ No newline at end of file
diff --git a/docs/public/_modules/seq2seq/models/attention.html b/docs/public/_modules/seq2seq/models/attention.html
deleted file mode 100644
index 1acf7bf..0000000
--- a/docs/public/_modules/seq2seq/models/attention.html
+++ /dev/null
@@ -1,306 +0,0 @@
-
-
-<!DOCTYPE html>
-<!--[if IE 8]><html class="no-js lt-ie9" lang="en" > <![endif]-->
-<!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
-<head>
-  <meta charset="utf-8">
-  
-  <meta name="viewport" content="width=device-width, initial-scale=1.0">
-  
-  <title>seq2seq.models.attention &mdash; pytorch-seq2seq 0.1.2 documentation</title>
-  
-
-  
-  
-  
-  
-
-  
-
-  
-  
-    
-
-  
-
-  
-  
-    <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
-  
-
-  
-
-  
-        <link rel="index" title="Index"
-              href="../../../genindex.html"/>
-        <link rel="search" title="Search" href="../../../search.html"/>
-    <link rel="top" title="pytorch-seq2seq 0.1.2 documentation" href="../../../index.html"/>
-        <link rel="up" title="Module code" href="../../index.html"/> 
-
-  
-  <script src="../../../_static/js/modernizr.min.js"></script>
-
-</head>
-
-<body class="wy-body-for-nav" role="document">
-
-   
-  <div class="wy-grid-for-nav">
-
-    
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search">
-          
-
-          
-            <a href="../../../index.html" class="icon icon-home"> pytorch-seq2seq
-          
-
-          
-          </a>
-
-          
-            
-            
-              <div class="version">
-                0.1.2
-              </div>
-            
-          
-
-          
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-
-          
-        </div>
-
-        <div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="main navigation">
-          
-            
-            
-              
-            
-            
-              <p class="caption"><span class="caption-text">Notes</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../notes/intro.html">Introduction</a></li>
-</ul>
-<p class="caption"><span class="caption-text">Package Reference</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../dataset.html">Dataset</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../util.html">Util</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../evaluator.html">Evaluator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../loss.html">Loss</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../optim.html">Optim</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../trainer.html">Trainer</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../models.html">Models</a></li>
-</ul>
-
-            
-          
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap">
-
-      
-      <nav class="wy-nav-top" role="navigation" aria-label="top navigation">
-        
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../index.html">pytorch-seq2seq</a>
-        
-      </nav>
-
-
-      
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-<div role="navigation" aria-label="breadcrumbs navigation">
-
-  <ul class="wy-breadcrumbs">
-    
-      <li><a href="../../../index.html">Docs</a> &raquo;</li>
-        
-          <li><a href="../../index.html">Module code</a> &raquo;</li>
-        
-      <li>seq2seq.models.attention</li>
-    
-    
-      <li class="wy-breadcrumbs-aside">
-        
-            
-        
-      </li>
-    
-  </ul>
-
-  
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-            
-  <h1>Source code for seq2seq.models.attention</h1><div class="highlight"><pre>
-<span></span><span class="kn">import</span> <span class="nn">torch</span>
-<span class="kn">import</span> <span class="nn">torch.nn</span> <span class="k">as</span> <span class="nn">nn</span>
-<span class="kn">import</span> <span class="nn">torch.nn.functional</span> <span class="k">as</span> <span class="nn">F</span>
-
-
-<div class="viewcode-block" id="Attention"><a class="viewcode-back" href="../../../models.html#seq2seq.models.attention.Attention">[docs]</a><span class="k">class</span> <span class="nc">Attention</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
-    <span class="sa">r</span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Applies an attention mechanism on the output features from the decoder.</span>
-
-<span class="sd">    .. math::</span>
-<span class="sd">            \begin{array}{ll}</span>
-<span class="sd">            x = context*output \\</span>
-<span class="sd">            attn = exp(x_i - max_i x_i) / sum_j exp(x_j - max_i x_i) \\</span>
-<span class="sd">            output = \tanh(w * (attn * context) + b * output)</span>
-<span class="sd">            \end{array}</span>
-
-<span class="sd">    Args:</span>
-<span class="sd">        dim(int): The number of expected features in the output</span>
-
-<span class="sd">    Inputs: output, context</span>
-<span class="sd">        - **output** (batch, output_len, dimensions): tensor containing the output features from the decoder.</span>
-<span class="sd">        - **context** (batch, input_len, dimensions): tensor containing features of the encoded input sequence.</span>
-
-<span class="sd">    Outputs: output, attn</span>
-<span class="sd">        - **output** (batch, output_len, dimensions): tensor containing the attended output features from the decoder.</span>
-<span class="sd">        - **attn** (batch, output_len, input_len): tensor containing attention weights.</span>
-
-<span class="sd">    Attributes:</span>
-<span class="sd">        linear_out (torch.nn.Linear): applies a linear transformation to the incoming data: :math:`y = Ax + b`.</span>
-<span class="sd">        mask (torch.Tensor, optional): applies a :math:`-inf` to the indices specified in the `Tensor`.</span>
-
-<span class="sd">    Examples::</span>
-
-<span class="sd">         &gt;&gt;&gt; attention = seq2seq.models.Attention(256)</span>
-<span class="sd">         &gt;&gt;&gt; context = Variable(torch.randn(5, 3, 256))</span>
-<span class="sd">         &gt;&gt;&gt; output = Variable(torch.randn(5, 5, 256))</span>
-<span class="sd">         &gt;&gt;&gt; output, attn = attention(output, context)</span>
-
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dim</span><span class="p">):</span>
-        <span class="nb">super</span><span class="p">(</span><span class="n">Attention</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">linear_out</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Linear</span><span class="p">(</span><span class="n">dim</span><span class="o">*</span><span class="mi">2</span><span class="p">,</span> <span class="n">dim</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">mask</span> <span class="o">=</span> <span class="kc">None</span>
-
-<div class="viewcode-block" id="Attention.set_mask"><a class="viewcode-back" href="../../../models.html#seq2seq.models.attention.Attention.set_mask">[docs]</a>    <span class="k">def</span> <span class="nf">set_mask</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">mask</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Sets indices to be masked</span>
-
-<span class="sd">        Args:</span>
-<span class="sd">            mask (torch.Tensor): tensor containing indices to be masked</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">mask</span> <span class="o">=</span> <span class="n">mask</span></div>
-
-    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">output</span><span class="p">,</span> <span class="n">context</span><span class="p">):</span>
-        <span class="n">batch_size</span> <span class="o">=</span> <span class="n">output</span><span class="o">.</span><span class="n">size</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
-        <span class="n">hidden_size</span> <span class="o">=</span> <span class="n">output</span><span class="o">.</span><span class="n">size</span><span class="p">(</span><span class="mi">2</span><span class="p">)</span>
-        <span class="n">input_size</span> <span class="o">=</span> <span class="n">context</span><span class="o">.</span><span class="n">size</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
-        <span class="c1"># (batch, out_len, dim) * (batch, in_len, dim) -&gt; (batch, out_len, in_len)</span>
-        <span class="n">attn</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">bmm</span><span class="p">(</span><span class="n">output</span><span class="p">,</span> <span class="n">context</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">2</span><span class="p">))</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">mask</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="n">attn</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">masked_fill_</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">mask</span><span class="p">,</span> <span class="o">-</span><span class="nb">float</span><span class="p">(</span><span class="s1">&#39;inf&#39;</span><span class="p">))</span>
-        <span class="n">attn</span> <span class="o">=</span> <span class="n">F</span><span class="o">.</span><span class="n">softmax</span><span class="p">(</span><span class="n">attn</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="n">input_size</span><span class="p">))</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="n">input_size</span><span class="p">)</span>
-
-        <span class="c1"># (batch, out_len, in_len) * (batch, in_len, dim) -&gt; (batch, out_len, dim)</span>
-        <span class="n">mix</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">bmm</span><span class="p">(</span><span class="n">attn</span><span class="p">,</span> <span class="n">context</span><span class="p">)</span>
-
-        <span class="c1"># concat -&gt; (batch, out_len, 2*dim)</span>
-        <span class="n">combined</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">cat</span><span class="p">((</span><span class="n">mix</span><span class="p">,</span> <span class="n">output</span><span class="p">),</span> <span class="n">dim</span><span class="o">=</span><span class="mi">2</span><span class="p">)</span>
-        <span class="c1"># output -&gt; (batch, out_len, dim)</span>
-        <span class="n">output</span> <span class="o">=</span> <span class="n">F</span><span class="o">.</span><span class="n">tanh</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">linear_out</span><span class="p">(</span><span class="n">combined</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="mi">2</span> <span class="o">*</span> <span class="n">hidden_size</span><span class="p">)))</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="n">hidden_size</span><span class="p">)</span>
-
-        <span class="k">return</span> <span class="n">output</span><span class="p">,</span> <span class="n">attn</span></div>
-</pre></div>
-
-           </div>
-           <div class="articleComments">
-            
-           </div>
-          </div>
-          <footer>
-  
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>
-        &copy; Copyright 2017, pytorch-seq2seq Contritors.
-
-    </p>
-  </div>
-  Built with <a href="http://sphinx-doc.org/">Sphinx</a> using a <a href="https://github.com/snide/sphinx_rtd_theme">theme</a> provided by <a href="https://readthedocs.org">Read the Docs</a>. 
-
-</footer>
-
-        </div>
-      </div>
-
-    </section>
-
-  </div>
-  
-
-
-  
-
-    <script type="text/javascript">
-        var DOCUMENTATION_OPTIONS = {
-            URL_ROOT:'../../../',
-            VERSION:'0.1.2',
-            COLLAPSE_INDEX:false,
-            FILE_SUFFIX:'.html',
-            HAS_SOURCE:  true,
-            SOURCELINK_SUFFIX: '.txt'
-        };
-    </script>
-      <script type="text/javascript" src="../../../_static/jquery.js"></script>
-      <script type="text/javascript" src="../../../_static/underscore.js"></script>
-      <script type="text/javascript" src="../../../_static/doctools.js"></script>
-      <script type="text/javascript" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.1/MathJax.js?config=TeX-AMS-MML_HTMLorMML"></script>
-
-  
-
-  
-  
-    <script type="text/javascript" src="../../../_static/js/theme.js"></script>
-  
-
-  
-  
-  <script type="text/javascript">
-      jQuery(function () {
-          SphinxRtdTheme.StickyNav.enable();
-      });
-  </script>
-   
-
-</body>
-</html>
\ No newline at end of file
diff --git a/docs/public/_modules/seq2seq/models/baseRNN.html b/docs/public/_modules/seq2seq/models/baseRNN.html
deleted file mode 100644
index ed42f44..0000000
--- a/docs/public/_modules/seq2seq/models/baseRNN.html
+++ /dev/null
@@ -1,324 +0,0 @@
-
-
-<!DOCTYPE html>
-<!--[if IE 8]><html class="no-js lt-ie9" lang="en" > <![endif]-->
-<!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
-<head>
-  <meta charset="utf-8">
-  
-  <meta name="viewport" content="width=device-width, initial-scale=1.0">
-  
-  <title>seq2seq.models.baseRNN &mdash; pytorch-seq2seq 0.1.2 documentation</title>
-  
-
-  
-  
-  
-  
-
-  
-
-  
-  
-    
-
-  
-
-  
-  
-    <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
-  
-
-  
-
-  
-        <link rel="index" title="Index"
-              href="../../../genindex.html"/>
-        <link rel="search" title="Search" href="../../../search.html"/>
-    <link rel="top" title="pytorch-seq2seq 0.1.2 documentation" href="../../../index.html"/>
-        <link rel="up" title="Module code" href="../../index.html"/> 
-
-  
-  <script src="../../../_static/js/modernizr.min.js"></script>
-
-</head>
-
-<body class="wy-body-for-nav" role="document">
-
-   
-  <div class="wy-grid-for-nav">
-
-    
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search">
-          
-
-          
-            <a href="../../../index.html" class="icon icon-home"> pytorch-seq2seq
-          
-
-          
-          </a>
-
-          
-            
-            
-              <div class="version">
-                0.1.2
-              </div>
-            
-          
-
-          
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-
-          
-        </div>
-
-        <div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="main navigation">
-          
-            
-            
-              
-            
-            
-              <p class="caption"><span class="caption-text">Notes</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../notes/intro.html">Introduction</a></li>
-</ul>
-<p class="caption"><span class="caption-text">Package Reference</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../dataset.html">Dataset</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../util.html">Util</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../evaluator.html">Evaluator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../loss.html">Loss</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../optim.html">Optim</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../trainer.html">Trainer</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../models.html">Models</a></li>
-</ul>
-
-            
-          
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap">
-
-      
-      <nav class="wy-nav-top" role="navigation" aria-label="top navigation">
-        
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../index.html">pytorch-seq2seq</a>
-        
-      </nav>
-
-
-      
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-<div role="navigation" aria-label="breadcrumbs navigation">
-
-  <ul class="wy-breadcrumbs">
-    
-      <li><a href="../../../index.html">Docs</a> &raquo;</li>
-        
-          <li><a href="../../index.html">Module code</a> &raquo;</li>
-        
-      <li>seq2seq.models.baseRNN</li>
-    
-    
-      <li class="wy-breadcrumbs-aside">
-        
-            
-        
-      </li>
-    
-  </ul>
-
-  
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-            
-  <h1>Source code for seq2seq.models.baseRNN</h1><div class="highlight"><pre>
-<span></span><span class="sd">&quot;&quot;&quot; A base class for RNN. &quot;&quot;&quot;</span>
-<span class="kn">import</span> <span class="nn">torch</span>
-<span class="kn">import</span> <span class="nn">torch.nn</span> <span class="k">as</span> <span class="nn">nn</span>
-
-
-<div class="viewcode-block" id="BaseRNN"><a class="viewcode-back" href="../../../models.html#seq2seq.models.baseRNN.BaseRNN">[docs]</a><span class="k">class</span> <span class="nc">BaseRNN</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
-    <span class="sa">r</span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Applies a multi-layer RNN to an input sequence.</span>
-<span class="sd">    Note:</span>
-<span class="sd">        Do not use this class directly, use one of the sub classes.</span>
-<span class="sd">    Args:</span>
-<span class="sd">        vocab (Vocabulary): object of Vocabulary class</span>
-<span class="sd">        max_len (int): maximum allowed length for the sequence to be processed</span>
-<span class="sd">        hidden_size (int): number of features in the hidden state `h`</span>
-<span class="sd">        input_dropout_p (float): dropout probability for the input sequence</span>
-<span class="sd">        dropout_p (float): dropout probability for the output sequence</span>
-<span class="sd">        n_layers (int): number of recurrent layers</span>
-<span class="sd">        rnn_cell (str): type of RNN cell (Eg. &#39;LSTM&#39; , &#39;GRU&#39;)</span>
-
-<span class="sd">    Inputs: ``*args``, ``**kwargs``</span>
-<span class="sd">        - ``*args``: variable length argument list.</span>
-<span class="sd">        - ``**kwargs``: arbitrary keyword arguments.</span>
-
-<span class="sd">    Attributes:</span>
-<span class="sd">        SYM_MASK: masking symbol</span>
-<span class="sd">        SYM_EOS: end-of-sequence symbol</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="n">SYM_MASK</span> <span class="o">=</span> <span class="s2">&quot;MASK&quot;</span>
-    <span class="n">SYM_EOS</span> <span class="o">=</span> <span class="s2">&quot;EOS&quot;</span>
-
-    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">vocab</span><span class="p">,</span> <span class="n">max_len</span><span class="p">,</span> <span class="n">hidden_size</span><span class="p">,</span> <span class="n">input_dropout_p</span><span class="p">,</span> <span class="n">dropout_p</span><span class="p">,</span> <span class="n">n_layers</span><span class="p">,</span> <span class="n">rnn_cell</span><span class="p">):</span>
-        <span class="nb">super</span><span class="p">(</span><span class="n">BaseRNN</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">vocab</span> <span class="o">=</span> <span class="n">vocab</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">max_len</span> <span class="o">=</span> <span class="n">max_len</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">=</span> <span class="n">hidden_size</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">n_layers</span> <span class="o">=</span> <span class="n">n_layers</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">input_dropout_p</span> <span class="o">=</span> <span class="n">input_dropout_p</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">input_dropout</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Dropout</span><span class="p">(</span><span class="n">p</span><span class="o">=</span><span class="n">input_dropout_p</span><span class="p">)</span>
-        <span class="k">if</span> <span class="n">rnn_cell</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span> <span class="o">==</span> <span class="s1">&#39;lstm&#39;</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">rnn_cell</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">LSTM</span>
-        <span class="k">elif</span> <span class="n">rnn_cell</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span> <span class="o">==</span> <span class="s1">&#39;gru&#39;</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">rnn_cell</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">GRU</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;Unsupported RNN Cell: </span><span class="si">{0}</span><span class="s2">&quot;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">rnn_cell</span><span class="p">))</span>
-
-        <span class="bp">self</span><span class="o">.</span><span class="n">dropout_p</span> <span class="o">=</span> <span class="n">dropout_p</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">rnn</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">rnn_cell</span><span class="p">(</span><span class="n">hidden_size</span><span class="p">,</span> <span class="n">hidden_size</span><span class="p">,</span> <span class="n">n_layers</span><span class="p">,</span> <span class="n">batch_first</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">dropout</span><span class="o">=</span><span class="n">dropout_p</span><span class="p">)</span>
-
-<div class="viewcode-block" id="BaseRNN.balance"><a class="viewcode-back" href="../../../models.html#seq2seq.models.baseRNN.BaseRNN.balance">[docs]</a>    <span class="k">def</span> <span class="nf">balance</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch</span><span class="p">,</span> <span class="n">volatile</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Add reserved symbols and balance batch input.</span>
-<span class="sd">        It first appends EOS symbol to each sequence and then appends multiple</span>
-<span class="sd">        MASK symbols to make the sequences the same length.</span>
-<span class="sd">        Args:</span>
-<span class="sd">            batch: list of sequences, each of which is a list of integers</span>
-<span class="sd">            volatile: boolean flag specifying whether to preserve gradients, when you are sure you will not be even calling .backward().</span>
-
-<span class="sd">        Returns:</span>
-<span class="sd">            torch.autograd.Variable: variable with balanced input data.</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="n">max_len</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_len</span>
-        <span class="n">outputs</span> <span class="o">=</span> <span class="p">[]</span>
-        <span class="k">for</span> <span class="n">seq</span> <span class="ow">in</span> <span class="n">batch</span><span class="p">:</span>
-            <span class="n">seq</span> <span class="o">=</span> <span class="n">seq</span><span class="p">[:</span><span class="nb">min</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">seq</span><span class="p">),</span> <span class="n">max_len</span> <span class="o">-</span> <span class="mi">1</span><span class="p">)]</span>
-            <span class="n">outputs</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">seq</span> <span class="o">+</span> <span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">vocab</span><span class="o">.</span><span class="n">EOS_token_id</span><span class="p">]</span> <span class="o">+</span> <span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">vocab</span><span class="o">.</span><span class="n">MASK_token_id</span><span class="p">]</span> <span class="o">*</span> <span class="p">(</span><span class="n">max_len</span> <span class="o">-</span> <span class="nb">len</span><span class="p">(</span><span class="n">seq</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span><span class="p">))</span>
-
-        <span class="n">outputs_var</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">autograd</span><span class="o">.</span><span class="n">Variable</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">LongTensor</span><span class="p">(</span><span class="n">outputs</span><span class="p">),</span> <span class="n">volatile</span><span class="o">=</span><span class="n">volatile</span><span class="p">)</span>
-        <span class="k">if</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">is_available</span><span class="p">():</span>
-            <span class="n">outputs_var</span> <span class="o">=</span> <span class="n">outputs_var</span><span class="o">.</span><span class="n">cuda</span><span class="p">()</span>
-
-        <span class="k">return</span> <span class="n">outputs_var</span></div>
-
-    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-        <span class="k">if</span> <span class="s1">&#39;volatile&#39;</span> <span class="ow">in</span> <span class="n">kwargs</span><span class="p">:</span>
-            <span class="n">volatile</span> <span class="o">=</span> <span class="n">kwargs</span><span class="p">[</span><span class="s1">&#39;volatile&#39;</span><span class="p">]</span>
-            <span class="n">kwargs</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="s1">&#39;volatile&#39;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="n">volatile</span> <span class="o">=</span> <span class="kc">False</span>
-        <span class="k">if</span> <span class="n">args</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">balanced_batch</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">balance</span><span class="p">(</span><span class="n">args</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">volatile</span><span class="p">)</span>
-            <span class="n">args</span> <span class="o">=</span> <span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">balanced_batch</span><span class="p">]</span> <span class="o">+</span> <span class="nb">list</span><span class="p">(</span><span class="n">args</span><span class="p">[</span><span class="mi">1</span><span class="p">:])</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="k">if</span> <span class="s1">&#39;inputs&#39;</span> <span class="ow">in</span> <span class="n">kwargs</span> <span class="ow">and</span> <span class="n">kwargs</span><span class="p">[</span><span class="s1">&#39;inputs&#39;</span><span class="p">]</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-                <span class="bp">self</span><span class="o">.</span><span class="n">balanced_batch</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">balance</span><span class="p">(</span><span class="n">kwargs</span><span class="p">[</span><span class="s1">&#39;inputs&#39;</span><span class="p">],</span> <span class="n">volatile</span><span class="p">)</span>
-                <span class="n">kwargs</span><span class="p">[</span><span class="s1">&#39;inputs&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">balanced_batch</span>
-
-        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">forward_rnn</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
-
-    <span class="k">def</span> <span class="nf">forward_rnn</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-        <span class="k">raise</span> <span class="ne">NotImplementedError</span><span class="p">()</span></div>
-</pre></div>
-
-           </div>
-           <div class="articleComments">
-            
-           </div>
-          </div>
-          <footer>
-  
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>
-        &copy; Copyright 2017, pytorch-seq2seq Contritors.
-
-    </p>
-  </div>
-  Built with <a href="http://sphinx-doc.org/">Sphinx</a> using a <a href="https://github.com/snide/sphinx_rtd_theme">theme</a> provided by <a href="https://readthedocs.org">Read the Docs</a>. 
-
-</footer>
-
-        </div>
-      </div>
-
-    </section>
-
-  </div>
-  
-
-
-  
-
-    <script type="text/javascript">
-        var DOCUMENTATION_OPTIONS = {
-            URL_ROOT:'../../../',
-            VERSION:'0.1.2',
-            COLLAPSE_INDEX:false,
-            FILE_SUFFIX:'.html',
-            HAS_SOURCE:  true,
-            SOURCELINK_SUFFIX: '.txt'
-        };
-    </script>
-      <script type="text/javascript" src="../../../_static/jquery.js"></script>
-      <script type="text/javascript" src="../../../_static/underscore.js"></script>
-      <script type="text/javascript" src="../../../_static/doctools.js"></script>
-      <script type="text/javascript" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.1/MathJax.js?config=TeX-AMS-MML_HTMLorMML"></script>
-
-  
-
-  
-  
-    <script type="text/javascript" src="../../../_static/js/theme.js"></script>
-  
-
-  
-  
-  <script type="text/javascript">
-      jQuery(function () {
-          SphinxRtdTheme.StickyNav.enable();
-      });
-  </script>
-   
-
-</body>
-</html>
\ No newline at end of file
diff --git a/docs/public/_modules/seq2seq/models/seq2seq.html b/docs/public/_modules/seq2seq/models/seq2seq.html
deleted file mode 100644
index ac6ba77..0000000
--- a/docs/public/_modules/seq2seq/models/seq2seq.html
+++ /dev/null
@@ -1,294 +0,0 @@
-
-
-<!DOCTYPE html>
-<!--[if IE 8]><html class="no-js lt-ie9" lang="en" > <![endif]-->
-<!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
-<head>
-  <meta charset="utf-8">
-  
-  <meta name="viewport" content="width=device-width, initial-scale=1.0">
-  
-  <title>seq2seq.models.seq2seq &mdash; pytorch-seq2seq 0.1.2 documentation</title>
-  
-
-  
-  
-  
-  
-
-  
-
-  
-  
-    
-
-  
-
-  
-  
-    <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
-  
-
-  
-
-  
-        <link rel="index" title="Index"
-              href="../../../genindex.html"/>
-        <link rel="search" title="Search" href="../../../search.html"/>
-    <link rel="top" title="pytorch-seq2seq 0.1.2 documentation" href="../../../index.html"/>
-        <link rel="up" title="Module code" href="../../index.html"/> 
-
-  
-  <script src="../../../_static/js/modernizr.min.js"></script>
-
-</head>
-
-<body class="wy-body-for-nav" role="document">
-
-   
-  <div class="wy-grid-for-nav">
-
-    
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search">
-          
-
-          
-            <a href="../../../index.html" class="icon icon-home"> pytorch-seq2seq
-          
-
-          
-          </a>
-
-          
-            
-            
-              <div class="version">
-                0.1.2
-              </div>
-            
-          
-
-          
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-
-          
-        </div>
-
-        <div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="main navigation">
-          
-            
-            
-              
-            
-            
-              <p class="caption"><span class="caption-text">Notes</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../notes/intro.html">Introduction</a></li>
-</ul>
-<p class="caption"><span class="caption-text">Package Reference</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../dataset.html">Dataset</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../util.html">Util</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../evaluator.html">Evaluator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../loss.html">Loss</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../optim.html">Optim</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../trainer.html">Trainer</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../models.html">Models</a></li>
-</ul>
-
-            
-          
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap">
-
-      
-      <nav class="wy-nav-top" role="navigation" aria-label="top navigation">
-        
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../index.html">pytorch-seq2seq</a>
-        
-      </nav>
-
-
-      
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-<div role="navigation" aria-label="breadcrumbs navigation">
-
-  <ul class="wy-breadcrumbs">
-    
-      <li><a href="../../../index.html">Docs</a> &raquo;</li>
-        
-          <li><a href="../../index.html">Module code</a> &raquo;</li>
-        
-      <li>seq2seq.models.seq2seq</li>
-    
-    
-      <li class="wy-breadcrumbs-aside">
-        
-            
-        
-      </li>
-    
-  </ul>
-
-  
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-            
-  <h1>Source code for seq2seq.models.seq2seq</h1><div class="highlight"><pre>
-<span></span><span class="kn">import</span> <span class="nn">os</span>
-<span class="kn">import</span> <span class="nn">torch</span>
-<span class="kn">import</span> <span class="nn">torch.nn</span> <span class="k">as</span> <span class="nn">nn</span>
-<span class="kn">import</span> <span class="nn">torch.nn.functional</span> <span class="k">as</span> <span class="nn">F</span>
-
-<div class="viewcode-block" id="Seq2seq"><a class="viewcode-back" href="../../../models.html#seq2seq.models.seq2seq.Seq2seq">[docs]</a><span class="k">class</span> <span class="nc">Seq2seq</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot; Standard sequence-to-sequence architecture with configurable encoder</span>
-<span class="sd">    and decoder.</span>
-<span class="sd">    Args:</span>
-<span class="sd">        encoder (EncoderRNN): object of EncoderRNN</span>
-<span class="sd">        decoder (DecoderRNN): object of DecoderRNN</span>
-<span class="sd">        decode_function (func, optional): function to generate symbols from output hidden states (default: F.log_softmax)</span>
-
-<span class="sd">    Inputs: input_variable, target_variable, teacher_forcing_ratio, volatile</span>
-<span class="sd">        - **input_variable** (list, option): list of sequences, whose length is the batch size and within which</span>
-<span class="sd">          each sequence is a list of token IDs. This information is forwarded to the encoder.</span>
-<span class="sd">        - **target_variable** (list, optional): list of sequences, whose length is the batch size and within which</span>
-<span class="sd">          each sequence is a list of token IDs. This information is forwarded to the decoder.</span>
-<span class="sd">        - **teacher_forcing_ratio** (int, optional): The probability that teacher forcing will be used. A random number</span>
-<span class="sd">          is drawn uniformly from 0-1 for every decoding token, and if the sample is smaller than the given value,</span>
-<span class="sd">          teacher forcing would be used (default is 0)</span>
-<span class="sd">        - **volatile** (bool, optional): boolean flag specifying whether to preserve gradients, when you are sure you</span>
-<span class="sd">          will not be even calling .backward().</span>
-
-<span class="sd">    Outputs: decoder_outputs, decoder_hidden, ret_dict</span>
-<span class="sd">        - **decoder_outputs** (batch): batch-length list of tensors with size (max_length, hidden_size) containing the</span>
-<span class="sd">          outputs of the decoder.</span>
-<span class="sd">        - **decoder_hidden** (num_layers * num_directions, batch, hidden_size): tensor containing the last hidden</span>
-<span class="sd">          state of the decoder.</span>
-<span class="sd">        - **ret_dict**: dictionary containing additional information as follows {*KEY_LENGTH* : list of integers</span>
-<span class="sd">          representing lengths of output sequences, *KEY_SEQUENCE* : list of sequences, where each sequence is a list of</span>
-<span class="sd">          predicted token IDs, *KEY_INPUT* : target outputs if provided for decoding, *KEY_ATTN_SCORE* : list of</span>
-<span class="sd">          sequences, where each list is of attention weights }.</span>
-
-<span class="sd">    &quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">encoder</span><span class="p">,</span> <span class="n">decoder</span><span class="p">,</span> <span class="n">decode_function</span><span class="o">=</span><span class="n">F</span><span class="o">.</span><span class="n">log_softmax</span><span class="p">):</span>
-        <span class="nb">super</span><span class="p">(</span><span class="n">Seq2seq</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">encoder</span> <span class="o">=</span> <span class="n">encoder</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">decoder</span> <span class="o">=</span> <span class="n">decoder</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">decode_function</span> <span class="o">=</span> <span class="n">decode_function</span>
-
-    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">input_variable</span><span class="p">,</span> <span class="n">target_variable</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
-                <span class="n">teacher_forcing_ratio</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span> <span class="n">volatile</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
-        <span class="k">if</span> <span class="n">target_variable</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="n">input_variable</span> <span class="o">=</span> <span class="nb">sorted</span><span class="p">(</span><span class="n">input_variable</span><span class="p">,</span> <span class="nb">len</span><span class="p">,</span> <span class="n">reverse</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="n">sorted_input</span> <span class="o">=</span> <span class="nb">sorted</span><span class="p">(</span><span class="nb">zip</span><span class="p">(</span><span class="n">input_variable</span><span class="p">,</span> <span class="n">target_variable</span><span class="p">),</span>
-                                  <span class="n">key</span><span class="o">=</span><span class="k">lambda</span> <span class="n">x</span><span class="p">:</span> <span class="nb">len</span><span class="p">(</span><span class="n">x</span><span class="p">[</span><span class="mi">0</span><span class="p">]),</span> <span class="n">reverse</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
-            <span class="n">input_variable</span> <span class="o">=</span> <span class="p">[</span><span class="n">p</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="k">for</span> <span class="n">p</span> <span class="ow">in</span> <span class="n">sorted_input</span><span class="p">]</span>
-            <span class="n">target_variable</span> <span class="o">=</span> <span class="p">[</span><span class="n">p</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="k">for</span> <span class="n">p</span> <span class="ow">in</span> <span class="n">sorted_input</span><span class="p">]</span>
-        <span class="n">encoder_outputs</span><span class="p">,</span> <span class="n">encoder_hidden</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">encoder</span><span class="p">(</span><span class="n">input_variable</span><span class="p">,</span> <span class="n">volatile</span><span class="o">=</span><span class="n">volatile</span><span class="p">)</span>
-        <span class="n">result</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">decoder</span><span class="p">(</span><span class="n">inputs</span><span class="o">=</span><span class="n">target_variable</span><span class="p">,</span>
-                              <span class="n">encoder_hidden</span><span class="o">=</span><span class="n">encoder_hidden</span><span class="p">,</span>
-                              <span class="n">encoder_outputs</span><span class="o">=</span><span class="n">encoder_outputs</span><span class="p">,</span>
-                              <span class="n">function</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">decode_function</span><span class="p">,</span>
-                              <span class="n">teacher_forcing_ratio</span><span class="o">=</span><span class="n">teacher_forcing_ratio</span><span class="p">,</span>
-                              <span class="n">volatile</span><span class="o">=</span><span class="n">volatile</span><span class="p">)</span>
-        <span class="k">return</span> <span class="n">result</span></div>
-
-</pre></div>
-
-           </div>
-           <div class="articleComments">
-            
-           </div>
-          </div>
-          <footer>
-  
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>
-        &copy; Copyright 2017, pytorch-seq2seq Contritors.
-
-    </p>
-  </div>
-  Built with <a href="http://sphinx-doc.org/">Sphinx</a> using a <a href="https://github.com/snide/sphinx_rtd_theme">theme</a> provided by <a href="https://readthedocs.org">Read the Docs</a>. 
-
-</footer>
-
-        </div>
-      </div>
-
-    </section>
-
-  </div>
-  
-
-
-  
-
-    <script type="text/javascript">
-        var DOCUMENTATION_OPTIONS = {
-            URL_ROOT:'../../../',
-            VERSION:'0.1.2',
-            COLLAPSE_INDEX:false,
-            FILE_SUFFIX:'.html',
-            HAS_SOURCE:  true,
-            SOURCELINK_SUFFIX: '.txt'
-        };
-    </script>
-      <script type="text/javascript" src="../../../_static/jquery.js"></script>
-      <script type="text/javascript" src="../../../_static/underscore.js"></script>
-      <script type="text/javascript" src="../../../_static/doctools.js"></script>
-      <script type="text/javascript" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.1/MathJax.js?config=TeX-AMS-MML_HTMLorMML"></script>
-
-  
-
-  
-  
-    <script type="text/javascript" src="../../../_static/js/theme.js"></script>
-  
-
-  
-  
-  <script type="text/javascript">
-      jQuery(function () {
-          SphinxRtdTheme.StickyNav.enable();
-      });
-  </script>
-   
-
-</body>
-</html>
\ No newline at end of file
diff --git a/docs/public/_modules/seq2seq/optim/optim.html b/docs/public/_modules/seq2seq/optim/optim.html
deleted file mode 100644
index 8d56f2f..0000000
--- a/docs/public/_modules/seq2seq/optim/optim.html
+++ /dev/null
@@ -1,313 +0,0 @@
-
-
-<!DOCTYPE html>
-<!--[if IE 8]><html class="no-js lt-ie9" lang="en" > <![endif]-->
-<!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
-<head>
-  <meta charset="utf-8">
-  
-  <meta name="viewport" content="width=device-width, initial-scale=1.0">
-  
-  <title>seq2seq.optim.optim &mdash; pytorch-seq2seq 0.1.2 documentation</title>
-  
-
-  
-  
-  
-  
-
-  
-
-  
-  
-    
-
-  
-
-  
-  
-    <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
-  
-
-  
-
-  
-        <link rel="index" title="Index"
-              href="../../../genindex.html"/>
-        <link rel="search" title="Search" href="../../../search.html"/>
-    <link rel="top" title="pytorch-seq2seq 0.1.2 documentation" href="../../../index.html"/>
-        <link rel="up" title="Module code" href="../../index.html"/> 
-
-  
-  <script src="../../../_static/js/modernizr.min.js"></script>
-
-</head>
-
-<body class="wy-body-for-nav" role="document">
-
-   
-  <div class="wy-grid-for-nav">
-
-    
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search">
-          
-
-          
-            <a href="../../../index.html" class="icon icon-home"> pytorch-seq2seq
-          
-
-          
-          </a>
-
-          
-            
-            
-              <div class="version">
-                0.1.2
-              </div>
-            
-          
-
-          
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-
-          
-        </div>
-
-        <div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="main navigation">
-          
-            
-            
-              
-            
-            
-              <p class="caption"><span class="caption-text">Notes</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../notes/intro.html">Introduction</a></li>
-</ul>
-<p class="caption"><span class="caption-text">Package Reference</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../dataset.html">Dataset</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../util.html">Util</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../evaluator.html">Evaluator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../loss.html">Loss</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../optim.html">Optim</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../trainer.html">Trainer</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../models.html">Models</a></li>
-</ul>
-
-            
-          
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap">
-
-      
-      <nav class="wy-nav-top" role="navigation" aria-label="top navigation">
-        
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../index.html">pytorch-seq2seq</a>
-        
-      </nav>
-
-
-      
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-<div role="navigation" aria-label="breadcrumbs navigation">
-
-  <ul class="wy-breadcrumbs">
-    
-      <li><a href="../../../index.html">Docs</a> &raquo;</li>
-        
-          <li><a href="../../index.html">Module code</a> &raquo;</li>
-        
-      <li>seq2seq.optim.optim</li>
-    
-    
-      <li class="wy-breadcrumbs-aside">
-        
-            
-        
-      </li>
-    
-  </ul>
-
-  
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-            
-  <h1>Source code for seq2seq.optim.optim</h1><div class="highlight"><pre>
-<span></span><span class="kn">import</span> <span class="nn">torch</span>
-
-<div class="viewcode-block" id="Optimizer"><a class="viewcode-back" href="../../../optim.html#seq2seq.optim.optim.Optimizer">[docs]</a><span class="k">class</span> <span class="nc">Optimizer</span><span class="p">(</span><span class="nb">object</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot; The Optimizer class encapsulates torch.optim package and provides functionalities</span>
-<span class="sd">    for learning rate scheduling and gradient norm clipping.</span>
-
-<span class="sd">    Args:</span>
-<span class="sd">        optim_class (torch.optim.Optimizer): optimizer class, e.g. torch.optim.SGD</span>
-<span class="sd">        max_grad_norm (float, optional): value used for gradient norm clipping,</span>
-<span class="sd">            set 0 to disable (default 0)</span>
-<span class="sd">        lr_decay (float, optional): value for learning rate decay:</span>
-<span class="sd">            lr = lr_decay * lr (default 1)</span>
-<span class="sd">        decay_after_epoch (float, optional): learning rate starts to decay after the</span>
-<span class="sd">            specified epoch number, set 0 to disable (default 0)</span>
-<span class="sd">        **kwargs: arguments for the given optimizer class,</span>
-<span class="sd">            refer http://pytorch.org/docs/optim.html#algorithms for more information</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-
-    <span class="n">_ARG_MAX_GRAD_NORM</span> <span class="o">=</span> <span class="s1">&#39;max_grad_norm&#39;</span>
-    <span class="n">_ARG_DECAY_AFTER</span> <span class="o">=</span> <span class="s2">&quot;decay_after_epoch&quot;</span>
-    <span class="n">_ARG_LR_DECAY</span> <span class="o">=</span> <span class="s2">&quot;lr_decay&quot;</span>
-
-    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">optim_class</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">optim_class</span> <span class="o">=</span> <span class="n">optim_class</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">optimizer</span> <span class="o">=</span> <span class="kc">None</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">parameters</span> <span class="o">=</span> <span class="kc">None</span>
-
-        <span class="bp">self</span><span class="o">.</span><span class="n">max_grad_norm</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_get_remove</span><span class="p">(</span><span class="n">kwargs</span><span class="p">,</span> <span class="n">Optimizer</span><span class="o">.</span><span class="n">_ARG_MAX_GRAD_NORM</span><span class="p">,</span> <span class="mi">0</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">lr_decay</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_get_remove</span><span class="p">(</span><span class="n">kwargs</span><span class="p">,</span> <span class="n">Optimizer</span><span class="o">.</span><span class="n">_ARG_LR_DECAY</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">decay_after_epoch</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_get_remove</span><span class="p">(</span><span class="n">kwargs</span><span class="p">,</span> <span class="n">Optimizer</span><span class="o">.</span><span class="n">_ARG_DECAY_AFTER</span><span class="p">,</span> <span class="mi">0</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">optim_args</span> <span class="o">=</span> <span class="n">kwargs</span>
-
-    <span class="k">def</span> <span class="nf">_get_remove</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">args</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">default</span><span class="p">):</span>
-        <span class="n">value</span> <span class="o">=</span> <span class="n">default</span>
-        <span class="k">if</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">args</span><span class="p">:</span>
-            <span class="n">value</span> <span class="o">=</span> <span class="n">args</span><span class="p">[</span><span class="n">key</span><span class="p">]</span>
-            <span class="k">del</span> <span class="n">args</span><span class="p">[</span><span class="n">key</span><span class="p">]</span>
-        <span class="k">return</span> <span class="n">value</span>
-
-<div class="viewcode-block" id="Optimizer.set_parameters"><a class="viewcode-back" href="../../../optim.html#seq2seq.optim.optim.Optimizer.set_parameters">[docs]</a>    <span class="k">def</span> <span class="nf">set_parameters</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">parameters</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot; Set the parameters to optimize.</span>
-
-<span class="sd">        Args:</span>
-<span class="sd">            parameters (iterable): An iterable of torch.nn.Parameter.</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">parameters</span> <span class="o">=</span> <span class="n">parameters</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">optimizer</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">optim_class</span><span class="p">(</span><span class="n">parameters</span><span class="p">,</span> <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">optim_args</span><span class="p">)</span></div>
-
-<div class="viewcode-block" id="Optimizer.step"><a class="viewcode-back" href="../../../optim.html#seq2seq.optim.optim.Optimizer.step">[docs]</a>    <span class="k">def</span> <span class="nf">step</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot; Performs a single optimization step, including gradient norm clipping if necessary. &quot;&quot;&quot;</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_grad_norm</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
-            <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">utils</span><span class="o">.</span><span class="n">clip_grad_norm</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">parameters</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_grad_norm</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">optimizer</span><span class="o">.</span><span class="n">step</span><span class="p">()</span></div>
-
-<div class="viewcode-block" id="Optimizer.update"><a class="viewcode-back" href="../../../optim.html#seq2seq.optim.optim.Optimizer.update">[docs]</a>    <span class="k">def</span> <span class="nf">update</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">loss</span><span class="p">,</span> <span class="n">epoch</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot; Update the learning rate if the conditions are met. Override this method</span>
-<span class="sd">        to implement your own learning rate schedule.</span>
-
-<span class="sd">        Args:</span>
-<span class="sd">            loss (float): The current loss.  It could be training loss or developing loss</span>
-<span class="sd">                depending on the caller.  By default the supervised trainer uses developing</span>
-<span class="sd">                loss.</span>
-<span class="sd">            epoch (int): The current epoch number.</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="n">after_decay_epoch</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">decay_after_epoch</span> <span class="o">!=</span> <span class="mi">0</span> <span class="ow">and</span> <span class="n">epoch</span> <span class="o">&gt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">decay_after_epoch</span>
-        <span class="k">if</span> <span class="n">after_decay_epoch</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">optimizer</span><span class="o">.</span><span class="n">param_groups</span><span class="p">[</span><span class="mi">0</span><span class="p">][</span><span class="s1">&#39;lr&#39;</span><span class="p">]</span> <span class="o">*=</span> <span class="bp">self</span><span class="o">.</span><span class="n">lr_decay</span></div>
-
-<div class="viewcode-block" id="Optimizer.load_state_dict"><a class="viewcode-back" href="../../../optim.html#seq2seq.optim.optim.Optimizer.load_state_dict">[docs]</a>    <span class="k">def</span> <span class="nf">load_state_dict</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">optimizer_dict</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot; Wrapper for loading optimizer state_dict.</span>
-<span class="sd">            For further reference please refer to http://pytorch.org/docs/master/optim.html#torch.optim.Optimizer.load_state_dict</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">optimizer</span><span class="o">.</span><span class="n">load_state_dict</span><span class="p">(</span><span class="n">optimizer_dict</span><span class="p">)</span></div>
-
-<div class="viewcode-block" id="Optimizer.state_dict"><a class="viewcode-back" href="../../../optim.html#seq2seq.optim.optim.Optimizer.state_dict">[docs]</a>    <span class="k">def</span> <span class="nf">state_dict</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;Wrapper for accessing optimizer state_dict.</span>
-<span class="sd">            For further reference please refer to http://pytorch.org/docs/master/optim.html#torch.optim.Optimizer.state_dict</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">optimizer</span><span class="o">.</span><span class="n">state_dict</span><span class="p">()</span></div></div>
-</pre></div>
-
-           </div>
-           <div class="articleComments">
-            
-           </div>
-          </div>
-          <footer>
-  
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>
-        &copy; Copyright 2017, pytorch-seq2seq Contritors.
-
-    </p>
-  </div>
-  Built with <a href="http://sphinx-doc.org/">Sphinx</a> using a <a href="https://github.com/snide/sphinx_rtd_theme">theme</a> provided by <a href="https://readthedocs.org">Read the Docs</a>. 
-
-</footer>
-
-        </div>
-      </div>
-
-    </section>
-
-  </div>
-  
-
-
-  
-
-    <script type="text/javascript">
-        var DOCUMENTATION_OPTIONS = {
-            URL_ROOT:'../../../',
-            VERSION:'0.1.2',
-            COLLAPSE_INDEX:false,
-            FILE_SUFFIX:'.html',
-            HAS_SOURCE:  true,
-            SOURCELINK_SUFFIX: '.txt'
-        };
-    </script>
-      <script type="text/javascript" src="../../../_static/jquery.js"></script>
-      <script type="text/javascript" src="../../../_static/underscore.js"></script>
-      <script type="text/javascript" src="../../../_static/doctools.js"></script>
-      <script type="text/javascript" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.1/MathJax.js?config=TeX-AMS-MML_HTMLorMML"></script>
-
-  
-
-  
-  
-    <script type="text/javascript" src="../../../_static/js/theme.js"></script>
-  
-
-  
-  
-  <script type="text/javascript">
-      jQuery(function () {
-          SphinxRtdTheme.StickyNav.enable();
-      });
-  </script>
-   
-
-</body>
-</html>
\ No newline at end of file
diff --git a/docs/public/_modules/seq2seq/trainer/supervised_trainer.html b/docs/public/_modules/seq2seq/trainer/supervised_trainer.html
deleted file mode 100644
index 82fac57..0000000
--- a/docs/public/_modules/seq2seq/trainer/supervised_trainer.html
+++ /dev/null
@@ -1,397 +0,0 @@
-
-
-<!DOCTYPE html>
-<!--[if IE 8]><html class="no-js lt-ie9" lang="en" > <![endif]-->
-<!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
-<head>
-  <meta charset="utf-8">
-  
-  <meta name="viewport" content="width=device-width, initial-scale=1.0">
-  
-  <title>seq2seq.trainer.supervised_trainer &mdash; pytorch-seq2seq 0.1.2 documentation</title>
-  
-
-  
-  
-  
-  
-
-  
-
-  
-  
-    
-
-  
-
-  
-  
-    <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
-  
-
-  
-
-  
-        <link rel="index" title="Index"
-              href="../../../genindex.html"/>
-        <link rel="search" title="Search" href="../../../search.html"/>
-    <link rel="top" title="pytorch-seq2seq 0.1.2 documentation" href="../../../index.html"/>
-        <link rel="up" title="Module code" href="../../index.html"/> 
-
-  
-  <script src="../../../_static/js/modernizr.min.js"></script>
-
-</head>
-
-<body class="wy-body-for-nav" role="document">
-
-   
-  <div class="wy-grid-for-nav">
-
-    
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search">
-          
-
-          
-            <a href="../../../index.html" class="icon icon-home"> pytorch-seq2seq
-          
-
-          
-          </a>
-
-          
-            
-            
-              <div class="version">
-                0.1.2
-              </div>
-            
-          
-
-          
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-
-          
-        </div>
-
-        <div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="main navigation">
-          
-            
-            
-              
-            
-            
-              <p class="caption"><span class="caption-text">Notes</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../notes/intro.html">Introduction</a></li>
-</ul>
-<p class="caption"><span class="caption-text">Package Reference</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../dataset.html">Dataset</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../util.html">Util</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../evaluator.html">Evaluator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../loss.html">Loss</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../optim.html">Optim</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../trainer.html">Trainer</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../models.html">Models</a></li>
-</ul>
-
-            
-          
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap">
-
-      
-      <nav class="wy-nav-top" role="navigation" aria-label="top navigation">
-        
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../index.html">pytorch-seq2seq</a>
-        
-      </nav>
-
-
-      
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-<div role="navigation" aria-label="breadcrumbs navigation">
-
-  <ul class="wy-breadcrumbs">
-    
-      <li><a href="../../../index.html">Docs</a> &raquo;</li>
-        
-          <li><a href="../../index.html">Module code</a> &raquo;</li>
-        
-      <li>seq2seq.trainer.supervised_trainer</li>
-    
-    
-      <li class="wy-breadcrumbs-aside">
-        
-            
-        
-      </li>
-    
-  </ul>
-
-  
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-            
-  <h1>Source code for seq2seq.trainer.supervised_trainer</h1><div class="highlight"><pre>
-<span></span><span class="kn">import</span> <span class="nn">os</span>
-<span class="kn">import</span> <span class="nn">random</span>
-<span class="kn">import</span> <span class="nn">logging</span>
-
-<span class="kn">import</span> <span class="nn">torch</span>
-<span class="kn">from</span> <span class="nn">torch</span> <span class="k">import</span> <span class="n">optim</span>
-
-<span class="kn">from</span> <span class="nn">seq2seq.evaluator</span> <span class="k">import</span> <span class="n">Evaluator</span>
-<span class="kn">from</span> <span class="nn">seq2seq.loss</span> <span class="k">import</span> <span class="n">NLLLoss</span>
-<span class="kn">from</span> <span class="nn">seq2seq.optim</span> <span class="k">import</span> <span class="n">Optimizer</span>
-<span class="kn">from</span> <span class="nn">seq2seq.util.custom_time</span> <span class="k">import</span> <span class="o">*</span>
-<span class="kn">from</span> <span class="nn">seq2seq.util.checkpoint</span> <span class="k">import</span> <span class="n">Checkpoint</span>
-
-<div class="viewcode-block" id="SupervisedTrainer"><a class="viewcode-back" href="../../../trainer.html#seq2seq.trainer.supervised_trainer.SupervisedTrainer">[docs]</a><span class="k">class</span> <span class="nc">SupervisedTrainer</span><span class="p">(</span><span class="nb">object</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot; The SupervisedTrainer class helps in setting up a training framework in a</span>
-<span class="sd">    supervised setting.</span>
-
-<span class="sd">    Args:</span>
-<span class="sd">        expt_dir (optional, str): experiment Directory to store details of the experiment,</span>
-<span class="sd">            by default it makes a folder in the current directory to store the details (default: `experiment`).</span>
-<span class="sd">        loss (seq2seq.loss.loss.Loss, optional): loss for training, (default: seq2seq.loss.NLLLoss)</span>
-<span class="sd">        batch_size (int, optional): batch size for experiment, (default: 64)</span>
-<span class="sd">        checkpoint_every (int, optional): number of epochs to checkpoint after, (default: 100)</span>
-<span class="sd">        optimizer (seq2seq.optim.Optimizer, optional): optimizer for training</span>
-<span class="sd">            (default: Optimizer(pytorch.optim.Adam, max_grad_norm=5))</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">expt_dir</span><span class="o">=</span><span class="s1">&#39;experiment&#39;</span><span class="p">,</span> <span class="n">loss</span><span class="o">=</span><span class="n">NLLLoss</span><span class="p">(),</span> <span class="n">batch_size</span><span class="o">=</span><span class="mi">64</span><span class="p">,</span>
-                 <span class="n">random_seed</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
-                 <span class="n">checkpoint_every</span><span class="o">=</span><span class="mi">100</span><span class="p">,</span> <span class="n">print_every</span><span class="o">=</span><span class="mi">100</span><span class="p">,</span>
-                 <span class="n">optimizer</span><span class="o">=</span><span class="n">Optimizer</span><span class="p">(</span><span class="n">optim</span><span class="o">.</span><span class="n">Adam</span><span class="p">,</span> <span class="n">max_grad_norm</span><span class="o">=</span><span class="mi">5</span><span class="p">)):</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">_trainer</span> <span class="o">=</span> <span class="s2">&quot;Simple Trainer&quot;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">random_seed</span> <span class="o">=</span> <span class="n">random_seed</span>
-        <span class="k">if</span> <span class="n">random_seed</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="n">random</span><span class="o">.</span><span class="n">seed</span><span class="p">(</span><span class="n">random_seed</span><span class="p">)</span>
-            <span class="n">torch</span><span class="o">.</span><span class="n">manual_seed</span><span class="p">(</span><span class="n">random_seed</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">loss</span> <span class="o">=</span> <span class="n">loss</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">evaluator</span> <span class="o">=</span> <span class="n">Evaluator</span><span class="p">(</span><span class="n">loss</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">loss</span><span class="p">,</span> <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">optimizer</span> <span class="o">=</span> <span class="n">optimizer</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">checkpoint_every</span> <span class="o">=</span> <span class="n">checkpoint_every</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">print_every</span> <span class="o">=</span> <span class="n">print_every</span>
-
-        <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">isabs</span><span class="p">(</span><span class="n">expt_dir</span><span class="p">):</span>
-            <span class="n">expt_dir</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">getcwd</span><span class="p">(),</span> <span class="n">expt_dir</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">expt_dir</span> <span class="o">=</span> <span class="n">expt_dir</span>
-        <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">expt_dir</span><span class="p">):</span>
-            <span class="n">os</span><span class="o">.</span><span class="n">makedirs</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">expt_dir</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">batch_size</span> <span class="o">=</span> <span class="n">batch_size</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">input_vocab_file</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">expt_dir</span><span class="p">,</span> <span class="s1">&#39;input_vocab&#39;</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">output_vocab_file</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">expt_dir</span><span class="p">,</span> <span class="s1">&#39;output_vocab&#39;</span><span class="p">)</span>
-
-        <span class="bp">self</span><span class="o">.</span><span class="n">logger</span> <span class="o">=</span> <span class="n">logging</span><span class="o">.</span><span class="n">getLogger</span><span class="p">(</span><span class="vm">__name__</span><span class="p">)</span>
-
-    <span class="k">def</span> <span class="nf">_train_batch</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">input_variable</span><span class="p">,</span> <span class="n">target_variable</span><span class="p">,</span> <span class="n">model</span><span class="p">,</span> <span class="n">teacher_forcing_ratio</span><span class="p">):</span>
-        <span class="n">loss</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">loss</span>
-        <span class="c1"># Forward propagation</span>
-        <span class="n">decoder_outputs</span><span class="p">,</span> <span class="n">decoder_hidden</span><span class="p">,</span> <span class="n">other</span> <span class="o">=</span> <span class="n">model</span><span class="p">(</span><span class="n">input_variable</span><span class="p">,</span> <span class="n">target_variable</span><span class="p">,</span>
-                                                       <span class="n">teacher_forcing_ratio</span><span class="o">=</span><span class="n">teacher_forcing_ratio</span><span class="p">)</span>
-        <span class="c1"># Get loss</span>
-        <span class="n">loss</span><span class="o">.</span><span class="n">reset</span><span class="p">()</span>
-        <span class="n">targets</span> <span class="o">=</span> <span class="n">other</span><span class="p">[</span><span class="s1">&#39;inputs&#39;</span><span class="p">]</span>
-        <span class="n">lengths</span> <span class="o">=</span> <span class="n">other</span><span class="p">[</span><span class="s1">&#39;length&#39;</span><span class="p">]</span>
-        <span class="k">for</span> <span class="n">batch</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">targets</span><span class="p">)):</span>
-            <span class="c1"># Batch wise loss</span>
-            <span class="n">batch_target</span> <span class="o">=</span> <span class="n">targets</span><span class="p">[</span><span class="n">batch</span><span class="p">]</span>
-            <span class="n">batch_len</span> <span class="o">=</span> <span class="n">lengths</span><span class="p">[</span><span class="n">batch</span><span class="p">]</span>
-            <span class="c1"># Crop output and target to batch length</span>
-            <span class="n">batch_output</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">stack</span><span class="p">([</span><span class="n">output</span><span class="p">[</span><span class="n">batch</span><span class="p">]</span> <span class="k">for</span> <span class="n">output</span> <span class="ow">in</span> <span class="n">decoder_outputs</span><span class="p">[:</span><span class="n">batch_len</span><span class="p">]])</span>
-            <span class="n">batch_target</span> <span class="o">=</span> <span class="n">batch_target</span><span class="p">[:</span><span class="n">batch_len</span><span class="p">]</span>
-            <span class="c1"># Evaluate loss</span>
-            <span class="n">loss</span><span class="o">.</span><span class="n">eval_batch</span><span class="p">(</span><span class="n">batch_output</span><span class="p">,</span> <span class="n">batch_target</span><span class="p">)</span>
-        <span class="c1"># Backward propagation</span>
-        <span class="n">model</span><span class="o">.</span><span class="n">zero_grad</span><span class="p">()</span>
-        <span class="n">loss</span><span class="o">.</span><span class="n">backward</span><span class="p">()</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">optimizer</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>
-
-        <span class="k">return</span> <span class="n">loss</span><span class="o">.</span><span class="n">get_loss</span><span class="p">()</span>
-
-    <span class="k">def</span> <span class="nf">_train_epoches</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">data</span><span class="p">,</span> <span class="n">model</span><span class="p">,</span> <span class="n">n_epochs</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">resume</span><span class="p">,</span> <span class="n">dev_data</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">teacher_forcing_ratio</span><span class="o">=</span><span class="mi">0</span><span class="p">):</span>
-        <span class="n">start</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span>
-        <span class="n">print_loss_total</span> <span class="o">=</span> <span class="mi">0</span>  <span class="c1"># Reset every print_every</span>
-        <span class="n">steps_per_epoch</span> <span class="o">=</span> <span class="n">data</span><span class="o">.</span><span class="n">num_batches</span><span class="p">(</span><span class="n">batch_size</span><span class="p">)</span>
-        <span class="n">total_steps</span> <span class="o">=</span> <span class="n">steps_per_epoch</span> <span class="o">*</span> <span class="n">n_epochs</span>
-
-        <span class="c1"># If training is set to resume</span>
-        <span class="k">if</span> <span class="n">resume</span><span class="p">:</span>
-            <span class="n">latest_checkpoint_path</span> <span class="o">=</span> <span class="n">Checkpoint</span><span class="o">.</span><span class="n">get_latest_checkpoint</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">expt_dir</span><span class="p">)</span>
-            <span class="n">resume_checkpoint</span> <span class="o">=</span> <span class="n">Checkpoint</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">latest_checkpoint_path</span><span class="p">)</span>
-            <span class="n">model</span> <span class="o">=</span> <span class="n">resume_checkpoint</span><span class="o">.</span><span class="n">model</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">optimizer</span><span class="o">.</span><span class="n">set_parameters</span><span class="p">(</span><span class="n">model</span><span class="o">.</span><span class="n">parameters</span><span class="p">())</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">optimizer</span><span class="o">.</span><span class="n">load_state_dict</span><span class="p">(</span><span class="n">resume_checkpoint</span><span class="o">.</span><span class="n">optimizer_state_dict</span><span class="p">)</span>
-            <span class="n">start_epoch</span> <span class="o">=</span> <span class="n">resume_checkpoint</span><span class="o">.</span><span class="n">epoch</span>
-            <span class="n">step</span> <span class="o">=</span> <span class="n">resume_checkpoint</span><span class="o">.</span><span class="n">step</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="n">start_epoch</span> <span class="o">=</span> <span class="mi">1</span>
-            <span class="n">step</span> <span class="o">=</span> <span class="mi">0</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">optimizer</span><span class="o">.</span><span class="n">set_parameters</span><span class="p">(</span><span class="n">model</span><span class="o">.</span><span class="n">parameters</span><span class="p">())</span>
-
-        <span class="k">for</span> <span class="n">epoch</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">start_epoch</span><span class="p">,</span> <span class="n">n_epochs</span> <span class="o">+</span> <span class="mi">1</span><span class="p">):</span>
-            <span class="n">data</span><span class="o">.</span><span class="n">shuffle</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">random_seed</span><span class="p">)</span>
-
-            <span class="n">batch_generator</span> <span class="o">=</span> <span class="n">data</span><span class="o">.</span><span class="n">make_batches</span><span class="p">(</span><span class="n">batch_size</span><span class="p">)</span>
-
-            <span class="c1"># consuming seen batches from previous training</span>
-            <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">((</span><span class="n">epoch</span> <span class="o">-</span> <span class="mi">1</span><span class="p">)</span> <span class="o">*</span> <span class="n">steps_per_epoch</span><span class="p">,</span> <span class="n">step</span><span class="p">):</span>
-                <span class="nb">next</span><span class="p">(</span><span class="n">batch_generator</span><span class="p">)</span>
-
-            <span class="n">model</span><span class="o">.</span><span class="n">train</span><span class="p">(</span><span class="kc">True</span><span class="p">)</span>
-            <span class="k">for</span> <span class="n">batch</span> <span class="ow">in</span> <span class="n">batch_generator</span><span class="p">:</span>
-                <span class="n">step</span> <span class="o">+=</span> <span class="mi">1</span>
-
-                <span class="n">input_variables</span> <span class="o">=</span> <span class="n">batch</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
-                <span class="n">target_variables</span> <span class="o">=</span> <span class="n">batch</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
-
-                <span class="n">loss</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_train_batch</span><span class="p">(</span><span class="n">input_variables</span><span class="p">,</span> <span class="n">target_variables</span><span class="p">,</span> <span class="n">model</span><span class="p">,</span> <span class="n">teacher_forcing_ratio</span><span class="p">)</span>
-
-                <span class="c1"># Record average loss</span>
-                <span class="n">print_loss_total</span> <span class="o">+=</span> <span class="n">loss</span>
-
-                <span class="k">if</span> <span class="n">step</span> <span class="o">%</span> <span class="bp">self</span><span class="o">.</span><span class="n">print_every</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
-                    <span class="n">print_loss_avg</span> <span class="o">=</span> <span class="n">print_loss_total</span> <span class="o">/</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">print_every</span><span class="p">)</span>
-                    <span class="n">print_loss_total</span> <span class="o">=</span> <span class="mi">0</span>
-                    <span class="n">log_msg</span> <span class="o">=</span> <span class="s1">&#39;Time elapsed: </span><span class="si">%s</span><span class="s1">, Progress: </span><span class="si">%d%%</span><span class="s1">, Train </span><span class="si">%s</span><span class="s1">: </span><span class="si">%.4f</span><span class="s1">&#39;</span> <span class="o">%</span> <span class="p">(</span>
-                        <span class="n">pretty_interval</span><span class="p">(</span><span class="n">start</span><span class="p">),</span>
-                        <span class="nb">float</span><span class="p">(</span><span class="n">step</span><span class="p">)</span> <span class="o">/</span> <span class="n">total_steps</span> <span class="o">*</span> <span class="mi">100</span><span class="p">,</span>
-                        <span class="bp">self</span><span class="o">.</span><span class="n">loss</span><span class="o">.</span><span class="n">name</span><span class="p">,</span>
-                        <span class="n">print_loss_avg</span><span class="p">)</span>
-                    <span class="bp">self</span><span class="o">.</span><span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="n">log_msg</span><span class="p">)</span>
-
-                <span class="c1"># Checkpoint</span>
-                <span class="k">if</span> <span class="n">step</span> <span class="o">%</span> <span class="bp">self</span><span class="o">.</span><span class="n">checkpoint_every</span> <span class="o">==</span> <span class="mi">0</span> <span class="ow">or</span> <span class="n">step</span> <span class="o">==</span> <span class="n">total_steps</span><span class="p">:</span>
-                    <span class="n">Checkpoint</span><span class="p">(</span><span class="n">model</span><span class="o">=</span><span class="n">model</span><span class="p">,</span>
-                               <span class="n">optimizer_state_dict</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">optimizer</span><span class="o">.</span><span class="n">state_dict</span><span class="p">(),</span>
-                               <span class="n">epoch</span><span class="o">=</span><span class="n">epoch</span><span class="p">,</span> <span class="n">step</span><span class="o">=</span><span class="n">step</span><span class="p">,</span>
-                               <span class="n">input_vocab</span><span class="o">=</span><span class="n">data</span><span class="o">.</span><span class="n">input_vocab</span><span class="p">,</span>
-                               <span class="n">output_vocab</span><span class="o">=</span><span class="n">data</span><span class="o">.</span><span class="n">output_vocab</span><span class="p">)</span><span class="o">.</span><span class="n">save</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">expt_dir</span><span class="p">)</span>
-
-            <span class="n">log_msg</span> <span class="o">=</span> <span class="s2">&quot;Finished epoch </span><span class="si">{0}</span><span class="s2">&quot;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">epoch</span><span class="p">)</span>
-            <span class="k">if</span> <span class="n">dev_data</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-                <span class="n">dev_loss</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">evaluator</span><span class="o">.</span><span class="n">evaluate</span><span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="n">dev_data</span><span class="p">)</span>
-                <span class="bp">self</span><span class="o">.</span><span class="n">optimizer</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">dev_loss</span><span class="p">,</span> <span class="n">epoch</span><span class="p">)</span>
-                <span class="n">log_msg</span> <span class="o">+=</span> <span class="s2">&quot;, Dev </span><span class="si">%s</span><span class="s2">: </span><span class="si">%.4f</span><span class="s2">&quot;</span> <span class="o">%</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">loss</span><span class="o">.</span><span class="n">name</span><span class="p">,</span> <span class="n">dev_loss</span><span class="p">)</span>
-                <span class="n">model</span><span class="o">.</span><span class="n">train</span><span class="p">(</span><span class="n">mode</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="n">log_msg</span><span class="p">)</span>
-
-<div class="viewcode-block" id="SupervisedTrainer.train"><a class="viewcode-back" href="../../../trainer.html#seq2seq.trainer.supervised_trainer.SupervisedTrainer.train">[docs]</a>    <span class="k">def</span> <span class="nf">train</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">model</span><span class="p">,</span> <span class="n">data</span><span class="p">,</span> <span class="n">num_epochs</span><span class="o">=</span><span class="mi">5</span><span class="p">,</span> <span class="n">resume</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">dev_data</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">teacher_forcing_ratio</span><span class="o">=</span><span class="mi">0</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot; Run training for a given model.</span>
-
-<span class="sd">         Args:</span>
-<span class="sd">             model (seq2seq.models): model to run training on, if `resume=True`, it would be</span>
-<span class="sd">                overwritten by the model loaded from the latest checkpoint.</span>
-<span class="sd">             data (seq2seq.dataset.dataset.Dataset): dataset object to train on</span>
-<span class="sd">             num_epochs (int, optional): number of epochs to run (default 5)</span>
-<span class="sd">             resume(bool, optional): resume training with the latest checkpoint, (default False)</span>
-<span class="sd">             dev_data (seq2seq.dataset.dataset.Dataset, optional): dev Dataset (default None)</span>
-<span class="sd">             teacher_forcing_ratio (float, optional): teaching forcing ratio (default 0)</span>
-
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="c1"># Make Checkpoint Directories</span>
-        <span class="n">data</span><span class="o">.</span><span class="n">input_vocab</span><span class="o">.</span><span class="n">save</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">input_vocab_file</span><span class="p">)</span>
-        <span class="n">data</span><span class="o">.</span><span class="n">output_vocab</span><span class="o">.</span><span class="n">save</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">output_vocab_file</span><span class="p">)</span>
-
-        <span class="bp">self</span><span class="o">.</span><span class="n">_train_epoches</span><span class="p">(</span><span class="n">data</span><span class="p">,</span> <span class="n">model</span><span class="p">,</span> <span class="n">num_epochs</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span>
-                            <span class="n">resume</span><span class="o">=</span><span class="n">resume</span><span class="p">,</span> <span class="n">dev_data</span><span class="o">=</span><span class="n">dev_data</span><span class="p">,</span> <span class="n">teacher_forcing_ratio</span><span class="o">=</span><span class="n">teacher_forcing_ratio</span><span class="p">)</span></div></div>
-</pre></div>
-
-           </div>
-           <div class="articleComments">
-            
-           </div>
-          </div>
-          <footer>
-  
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>
-        &copy; Copyright 2017, pytorch-seq2seq Contritors.
-
-    </p>
-  </div>
-  Built with <a href="http://sphinx-doc.org/">Sphinx</a> using a <a href="https://github.com/snide/sphinx_rtd_theme">theme</a> provided by <a href="https://readthedocs.org">Read the Docs</a>. 
-
-</footer>
-
-        </div>
-      </div>
-
-    </section>
-
-  </div>
-  
-
-
-  
-
-    <script type="text/javascript">
-        var DOCUMENTATION_OPTIONS = {
-            URL_ROOT:'../../../',
-            VERSION:'0.1.2',
-            COLLAPSE_INDEX:false,
-            FILE_SUFFIX:'.html',
-            HAS_SOURCE:  true,
-            SOURCELINK_SUFFIX: '.txt'
-        };
-    </script>
-      <script type="text/javascript" src="../../../_static/jquery.js"></script>
-      <script type="text/javascript" src="../../../_static/underscore.js"></script>
-      <script type="text/javascript" src="../../../_static/doctools.js"></script>
-      <script type="text/javascript" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.1/MathJax.js?config=TeX-AMS-MML_HTMLorMML"></script>
-
-  
-
-  
-  
-    <script type="text/javascript" src="../../../_static/js/theme.js"></script>
-  
-
-  
-  
-  <script type="text/javascript">
-      jQuery(function () {
-          SphinxRtdTheme.StickyNav.enable();
-      });
-  </script>
-   
-
-</body>
-</html>
\ No newline at end of file
diff --git a/docs/public/_modules/seq2seq/util/checkpoint.html b/docs/public/_modules/seq2seq/util/checkpoint.html
deleted file mode 100644
index cf3bf2b..0000000
--- a/docs/public/_modules/seq2seq/util/checkpoint.html
+++ /dev/null
@@ -1,353 +0,0 @@
-
-
-<!DOCTYPE html>
-<!--[if IE 8]><html class="no-js lt-ie9" lang="en" > <![endif]-->
-<!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
-<head>
-  <meta charset="utf-8">
-  
-  <meta name="viewport" content="width=device-width, initial-scale=1.0">
-  
-  <title>seq2seq.util.checkpoint &mdash; pytorch-seq2seq 0.1.2 documentation</title>
-  
-
-  
-  
-  
-  
-
-  
-
-  
-  
-    
-
-  
-
-  
-  
-    <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
-  
-
-  
-
-  
-        <link rel="index" title="Index"
-              href="../../../genindex.html"/>
-        <link rel="search" title="Search" href="../../../search.html"/>
-    <link rel="top" title="pytorch-seq2seq 0.1.2 documentation" href="../../../index.html"/>
-        <link rel="up" title="Module code" href="../../index.html"/> 
-
-  
-  <script src="../../../_static/js/modernizr.min.js"></script>
-
-</head>
-
-<body class="wy-body-for-nav" role="document">
-
-   
-  <div class="wy-grid-for-nav">
-
-    
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search">
-          
-
-          
-            <a href="../../../index.html" class="icon icon-home"> pytorch-seq2seq
-          
-
-          
-          </a>
-
-          
-            
-            
-              <div class="version">
-                0.1.2
-              </div>
-            
-          
-
-          
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-
-          
-        </div>
-
-        <div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="main navigation">
-          
-            
-            
-              
-            
-            
-              <p class="caption"><span class="caption-text">Notes</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../notes/intro.html">Introduction</a></li>
-</ul>
-<p class="caption"><span class="caption-text">Package Reference</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../dataset.html">Dataset</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../util.html">Util</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../evaluator.html">Evaluator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../loss.html">Loss</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../optim.html">Optim</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../trainer.html">Trainer</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../models.html">Models</a></li>
-</ul>
-
-            
-          
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap">
-
-      
-      <nav class="wy-nav-top" role="navigation" aria-label="top navigation">
-        
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../index.html">pytorch-seq2seq</a>
-        
-      </nav>
-
-
-      
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-<div role="navigation" aria-label="breadcrumbs navigation">
-
-  <ul class="wy-breadcrumbs">
-    
-      <li><a href="../../../index.html">Docs</a> &raquo;</li>
-        
-          <li><a href="../../index.html">Module code</a> &raquo;</li>
-        
-      <li>seq2seq.util.checkpoint</li>
-    
-    
-      <li class="wy-breadcrumbs-aside">
-        
-            
-        
-      </li>
-    
-  </ul>
-
-  
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-            
-  <h1>Source code for seq2seq.util.checkpoint</h1><div class="highlight"><pre>
-<span></span><span class="kn">import</span> <span class="nn">os</span>
-<span class="kn">import</span> <span class="nn">time</span>
-<span class="kn">import</span> <span class="nn">shutil</span>
-
-<span class="kn">import</span> <span class="nn">torch</span>
-
-<span class="kn">from</span> <span class="nn">seq2seq.dataset.vocabulary</span> <span class="k">import</span> <span class="n">Vocabulary</span>
-
-
-<div class="viewcode-block" id="Checkpoint"><a class="viewcode-back" href="../../../util.html#seq2seq.util.checkpoint.Checkpoint">[docs]</a><span class="k">class</span> <span class="nc">Checkpoint</span><span class="p">(</span><span class="nb">object</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    The Checkpoint class manages the saving and loading of a model during training. It allows training to be suspended</span>
-<span class="sd">    and resumed at a later time (e.g. when running on a cluster using sequential jobs).</span>
-
-<span class="sd">    To make a checkpoint, initialize a Checkpoint object with the following args; then call that object&#39;s save() method</span>
-<span class="sd">    to write parameters to disk.</span>
-
-<span class="sd">    Args:</span>
-<span class="sd">        model (seq2seq): seq2seq model being trained</span>
-<span class="sd">        optimizer_state_dict (dict): stores the state of the optimizer</span>
-<span class="sd">        epoch (int): current epoch (an epoch is a loop through the full training data)</span>
-<span class="sd">        step (int): number of examples seen within the current epoch</span>
-<span class="sd">        input_vocab (Vocabulary): vocabulary for the input language</span>
-<span class="sd">        output_vocab (Vocabulary): vocabulary for the output language</span>
-
-<span class="sd">    Attributes:</span>
-<span class="sd">        CHECKPOINT_DIR_NAME (str): name of the checkpoint directory</span>
-<span class="sd">        TRAINER_STATE_NAME (str): name of the file storing trainer states</span>
-<span class="sd">        MODEL_NAME (str): name of the file storing model</span>
-<span class="sd">        INPUT_VOCAB_FILE (str): name of the input vocab file</span>
-<span class="sd">        OUTPUT_VOCAB_FILE (str): name of the output vocab file</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-
-    <span class="n">CHECKPOINT_DIR_NAME</span> <span class="o">=</span> <span class="s1">&#39;checkpoints&#39;</span>
-    <span class="n">TRAINER_STATE_NAME</span> <span class="o">=</span> <span class="s1">&#39;trainer_states.pt&#39;</span>
-    <span class="n">MODEL_NAME</span> <span class="o">=</span> <span class="s1">&#39;model.pt&#39;</span>
-    <span class="n">INPUT_VOCAB_FILE</span> <span class="o">=</span> <span class="s1">&#39;input_vocab.pt&#39;</span>
-    <span class="n">OUTPUT_VOCAB_FILE</span> <span class="o">=</span> <span class="s1">&#39;output_vocab.pt&#39;</span>
-
-    <span class="k">def</span> <span class="nf">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">model</span><span class="p">,</span> <span class="n">optimizer_state_dict</span><span class="p">,</span> <span class="n">epoch</span><span class="p">,</span> <span class="n">step</span><span class="p">,</span> <span class="n">input_vocab</span><span class="p">,</span> <span class="n">output_vocab</span><span class="p">,</span> <span class="n">path</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">model</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">optimizer_state_dict</span> <span class="o">=</span> <span class="n">optimizer_state_dict</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">input_vocab</span> <span class="o">=</span> <span class="n">input_vocab</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">output_vocab</span> <span class="o">=</span> <span class="n">output_vocab</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">epoch</span> <span class="o">=</span> <span class="n">epoch</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">step</span> <span class="o">=</span> <span class="n">step</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">_path</span> <span class="o">=</span> <span class="n">path</span>
-
-    <span class="nd">@property</span>
-    <span class="k">def</span> <span class="nf">path</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">_path</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="k">raise</span> <span class="ne">LookupError</span><span class="p">(</span><span class="s2">&quot;The checkpoint has not been saved.&quot;</span><span class="p">)</span>
-        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_path</span>
-
-<div class="viewcode-block" id="Checkpoint.save"><a class="viewcode-back" href="../../../util.html#seq2seq.util.checkpoint.Checkpoint.save">[docs]</a>    <span class="k">def</span> <span class="nf">save</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">experiment_dir</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Saves the current model and related training parameters into a subdirectory of the checkpoint directory.</span>
-<span class="sd">        The name of the subdirectory is the current local time in Y_M_D_H_M_S format.</span>
-<span class="sd">        Args:</span>
-<span class="sd">            experiment_dir (str): path to the experiment root directory</span>
-<span class="sd">        Returns:</span>
-<span class="sd">             str: path to the saved checkpoint subdirectory</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="n">date_time</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">strftime</span><span class="p">(</span><span class="s1">&#39;%Y_%m_</span><span class="si">%d</span><span class="s1">_%H_%M_%S&#39;</span><span class="p">,</span> <span class="n">time</span><span class="o">.</span><span class="n">localtime</span><span class="p">())</span>
-
-        <span class="bp">self</span><span class="o">.</span><span class="n">_path</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">experiment_dir</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">CHECKPOINT_DIR_NAME</span><span class="p">,</span> <span class="n">date_time</span><span class="p">)</span>
-        <span class="n">path</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_path</span>
-
-        <span class="k">if</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">path</span><span class="p">):</span>
-            <span class="n">shutil</span><span class="o">.</span><span class="n">rmtree</span><span class="p">(</span><span class="n">path</span><span class="p">)</span>
-        <span class="n">os</span><span class="o">.</span><span class="n">makedirs</span><span class="p">(</span><span class="n">path</span><span class="p">)</span>
-        <span class="n">torch</span><span class="o">.</span><span class="n">save</span><span class="p">({</span><span class="s1">&#39;epoch&#39;</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">epoch</span><span class="p">,</span>
-                    <span class="s1">&#39;step&#39;</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">step</span><span class="p">,</span>
-                    <span class="s1">&#39;optimizer&#39;</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">optimizer_state_dict</span><span class="p">},</span>
-                   <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">path</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">TRAINER_STATE_NAME</span><span class="p">))</span>
-        <span class="n">torch</span><span class="o">.</span><span class="n">save</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">,</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">path</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">MODEL_NAME</span><span class="p">))</span>
-
-        <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">isfile</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">path</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">INPUT_VOCAB_FILE</span><span class="p">)):</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">input_vocab</span><span class="o">.</span><span class="n">save</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">path</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">INPUT_VOCAB_FILE</span><span class="p">))</span>
-        <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">isfile</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">path</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">OUTPUT_VOCAB_FILE</span><span class="p">)):</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">output_vocab</span><span class="o">.</span><span class="n">save</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">path</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">OUTPUT_VOCAB_FILE</span><span class="p">))</span>
-
-        <span class="k">return</span> <span class="n">path</span></div>
-
-<div class="viewcode-block" id="Checkpoint.load"><a class="viewcode-back" href="../../../util.html#seq2seq.util.checkpoint.Checkpoint.load">[docs]</a>    <span class="nd">@classmethod</span>
-    <span class="k">def</span> <span class="nf">load</span><span class="p">(</span><span class="bp">cls</span><span class="p">,</span> <span class="n">path</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Loads a Checkpoint object that was previously saved to disk.</span>
-<span class="sd">        Args:</span>
-<span class="sd">            path (str): path to the checkpoint subdirectory</span>
-<span class="sd">        Returns:</span>
-<span class="sd">            checkpoint (Checkpoint): checkpoint object with fields copied from those stored on disk</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="nb">print</span> <span class="s2">&quot;Loading checkpoints from </span><span class="si">{}</span><span class="s2">&quot;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">path</span><span class="p">)</span>
-        <span class="n">resume_checkpoint</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">path</span><span class="p">,</span> <span class="bp">cls</span><span class="o">.</span><span class="n">TRAINER_STATE_NAME</span><span class="p">))</span>
-        <span class="n">model</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">path</span><span class="p">,</span> <span class="bp">cls</span><span class="o">.</span><span class="n">MODEL_NAME</span><span class="p">))</span>
-        <span class="n">input_vocab</span> <span class="o">=</span> <span class="n">Vocabulary</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">path</span><span class="p">,</span> <span class="bp">cls</span><span class="o">.</span><span class="n">INPUT_VOCAB_FILE</span><span class="p">))</span>
-        <span class="n">output_vocab</span> <span class="o">=</span> <span class="n">Vocabulary</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">path</span><span class="p">,</span> <span class="bp">cls</span><span class="o">.</span><span class="n">OUTPUT_VOCAB_FILE</span><span class="p">))</span>
-        <span class="k">return</span> <span class="n">Checkpoint</span><span class="p">(</span><span class="n">model</span><span class="o">=</span><span class="n">model</span><span class="p">,</span> <span class="n">input_vocab</span><span class="o">=</span><span class="n">input_vocab</span><span class="p">,</span>
-                          <span class="n">output_vocab</span><span class="o">=</span><span class="n">output_vocab</span><span class="p">,</span>
-                          <span class="n">optimizer_state_dict</span><span class="o">=</span><span class="n">resume_checkpoint</span><span class="p">[</span><span class="s1">&#39;optimizer&#39;</span><span class="p">],</span>
-                          <span class="n">epoch</span><span class="o">=</span><span class="n">resume_checkpoint</span><span class="p">[</span><span class="s1">&#39;epoch&#39;</span><span class="p">],</span>
-                          <span class="n">step</span><span class="o">=</span><span class="n">resume_checkpoint</span><span class="p">[</span><span class="s1">&#39;step&#39;</span><span class="p">],</span>
-                          <span class="n">path</span><span class="o">=</span><span class="n">path</span><span class="p">)</span></div>
-
-<div class="viewcode-block" id="Checkpoint.get_latest_checkpoint"><a class="viewcode-back" href="../../../util.html#seq2seq.util.checkpoint.Checkpoint.get_latest_checkpoint">[docs]</a>    <span class="nd">@classmethod</span>
-    <span class="k">def</span> <span class="nf">get_latest_checkpoint</span><span class="p">(</span><span class="bp">cls</span><span class="p">,</span> <span class="n">experiment_path</span><span class="p">):</span>
-        <span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Given the path to an experiment directory, returns the path to the last saved checkpoint&#39;s subdirectory.</span>
-
-<span class="sd">        Precondition: at least one checkpoint has been made (i.e., latest checkpoint subdirectory exists).</span>
-<span class="sd">        Args:</span>
-<span class="sd">            experiment_path (str): path to the experiment directory</span>
-<span class="sd">        Returns:</span>
-<span class="sd">             str: path to the last saved checkpoint&#39;s subdirectory</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="n">checkpoints_path</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">experiment_path</span><span class="p">,</span> <span class="bp">cls</span><span class="o">.</span><span class="n">CHECKPOINT_DIR_NAME</span><span class="p">)</span>
-        <span class="n">all_times</span> <span class="o">=</span> <span class="nb">sorted</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">listdir</span><span class="p">(</span><span class="n">checkpoints_path</span><span class="p">),</span> <span class="n">reverse</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
-        <span class="k">return</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">checkpoints_path</span><span class="p">,</span> <span class="n">all_times</span><span class="p">[</span><span class="mi">0</span><span class="p">])</span></div></div>
-</pre></div>
-
-           </div>
-           <div class="articleComments">
-            
-           </div>
-          </div>
-          <footer>
-  
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>
-        &copy; Copyright 2017, pytorch-seq2seq Contritors.
-
-    </p>
-  </div>
-  Built with <a href="http://sphinx-doc.org/">Sphinx</a> using a <a href="https://github.com/snide/sphinx_rtd_theme">theme</a> provided by <a href="https://readthedocs.org">Read the Docs</a>. 
-
-</footer>
-
-        </div>
-      </div>
-
-    </section>
-
-  </div>
-  
-
-
-  
-
-    <script type="text/javascript">
-        var DOCUMENTATION_OPTIONS = {
-            URL_ROOT:'../../../',
-            VERSION:'0.1.2',
-            COLLAPSE_INDEX:false,
-            FILE_SUFFIX:'.html',
-            HAS_SOURCE:  true,
-            SOURCELINK_SUFFIX: '.txt'
-        };
-    </script>
-      <script type="text/javascript" src="../../../_static/jquery.js"></script>
-      <script type="text/javascript" src="../../../_static/underscore.js"></script>
-      <script type="text/javascript" src="../../../_static/doctools.js"></script>
-      <script type="text/javascript" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.1/MathJax.js?config=TeX-AMS-MML_HTMLorMML"></script>
-
-  
-
-  
-  
-    <script type="text/javascript" src="../../../_static/js/theme.js"></script>
-  
-
-  
-  
-  <script type="text/javascript">
-      jQuery(function () {
-          SphinxRtdTheme.StickyNav.enable();
-      });
-  </script>
-   
-
-</body>
-</html>
\ No newline at end of file
diff --git a/docs/public/_modules/seq2seq/util/custom_time.html b/docs/public/_modules/seq2seq/util/custom_time.html
deleted file mode 100644
index fe0c088..0000000
--- a/docs/public/_modules/seq2seq/util/custom_time.html
+++ /dev/null
@@ -1,280 +0,0 @@
-
-
-<!DOCTYPE html>
-<!--[if IE 8]><html class="no-js lt-ie9" lang="en" > <![endif]-->
-<!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
-<head>
-  <meta charset="utf-8">
-  
-  <meta name="viewport" content="width=device-width, initial-scale=1.0">
-  
-  <title>seq2seq.util.custom_time &mdash; pytorch-seq2seq 0.1.2 documentation</title>
-  
-
-  
-  
-  
-  
-
-  
-
-  
-  
-    
-
-  
-
-  
-  
-    <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
-  
-
-  
-
-  
-        <link rel="index" title="Index"
-              href="../../../genindex.html"/>
-        <link rel="search" title="Search" href="../../../search.html"/>
-    <link rel="top" title="pytorch-seq2seq 0.1.2 documentation" href="../../../index.html"/>
-        <link rel="up" title="Module code" href="../../index.html"/> 
-
-  
-  <script src="../../../_static/js/modernizr.min.js"></script>
-
-</head>
-
-<body class="wy-body-for-nav" role="document">
-
-   
-  <div class="wy-grid-for-nav">
-
-    
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search">
-          
-
-          
-            <a href="../../../index.html" class="icon icon-home"> pytorch-seq2seq
-          
-
-          
-          </a>
-
-          
-            
-            
-              <div class="version">
-                0.1.2
-              </div>
-            
-          
-
-          
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-
-          
-        </div>
-
-        <div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="main navigation">
-          
-            
-            
-              
-            
-            
-              <p class="caption"><span class="caption-text">Notes</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../notes/intro.html">Introduction</a></li>
-</ul>
-<p class="caption"><span class="caption-text">Package Reference</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../dataset.html">Dataset</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../util.html">Util</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../evaluator.html">Evaluator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../loss.html">Loss</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../optim.html">Optim</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../trainer.html">Trainer</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../models.html">Models</a></li>
-</ul>
-
-            
-          
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap">
-
-      
-      <nav class="wy-nav-top" role="navigation" aria-label="top navigation">
-        
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../index.html">pytorch-seq2seq</a>
-        
-      </nav>
-
-
-      
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-<div role="navigation" aria-label="breadcrumbs navigation">
-
-  <ul class="wy-breadcrumbs">
-    
-      <li><a href="../../../index.html">Docs</a> &raquo;</li>
-        
-          <li><a href="../../index.html">Module code</a> &raquo;</li>
-        
-      <li>seq2seq.util.custom_time</li>
-    
-    
-      <li class="wy-breadcrumbs-aside">
-        
-            
-        
-      </li>
-    
-  </ul>
-
-  
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-            
-  <h1>Source code for seq2seq.util.custom_time</h1><div class="highlight"><pre>
-<span></span><span class="kn">import</span> <span class="nn">time</span>
-
-
-<div class="viewcode-block" id="pretty_interval"><a class="viewcode-back" href="../../../util.html#seq2seq.util.custom_time.pretty_interval">[docs]</a><span class="k">def</span> <span class="nf">pretty_interval</span><span class="p">(</span><span class="n">start_time</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Given a previous point in time (e.g. the start of process, measured by calling time.time()), calculates</span>
-<span class="sd">    the time elapsed since that point, divides the elapsed time days/hours/minutes/seconds, and returns that summary</span>
-
-<span class="sd">    Args:</span>
-<span class="sd">        start_time (float): the start of the interval of time, obtained by calling time.time()</span>
-<span class="sd">    Returns:</span>
-<span class="sd">        str: elapsed time in &#39;##d ##h ##m ##s&#39; format</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="k">return</span> <span class="n">pretty_time</span><span class="p">(</span><span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span> <span class="o">-</span> <span class="n">start_time</span><span class="p">)</span></div>
-
-
-<div class="viewcode-block" id="pretty_time"><a class="viewcode-back" href="../../../util.html#seq2seq.util.custom_time.pretty_time">[docs]</a><span class="k">def</span> <span class="nf">pretty_time</span><span class="p">(</span><span class="n">timespan_in_seconds</span><span class="p">):</span>
-    <span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Given a length of time (measured in seconds), divides that timespan into</span>
-<span class="sd">    days/hours/minutes/seconds and returns that summary.</span>
-
-<span class="sd">    Args:</span>
-<span class="sd">     timespan_in_seconds (float): the number of seconds in a span of time</span>
-
-<span class="sd">    Returns:</span>
-<span class="sd">        str: timespan in &#39;##d ##h ##m ##s&#39; format</span>
-
-
-<span class="sd">    Examples::</span>
-
-<span class="sd">        &gt;&gt;&gt; print seq2seq.util.custom_time.pretty_time(426753)</span>
-<span class="sd">        &gt;&gt;&gt; 4d 22h 32m 33</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="n">seconds</span> <span class="o">=</span> <span class="nb">abs</span><span class="p">(</span><span class="nb">int</span><span class="p">(</span><span class="n">timespan_in_seconds</span><span class="p">))</span>
-    <span class="n">msg</span> <span class="o">=</span> <span class="p">[]</span>
-    <span class="n">days</span><span class="p">,</span> <span class="n">seconds</span> <span class="o">=</span> <span class="nb">divmod</span><span class="p">(</span><span class="n">seconds</span><span class="p">,</span> <span class="mi">86400</span><span class="p">)</span>
-    <span class="k">if</span> <span class="n">days</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
-        <span class="n">msg</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="s2">&quot;</span><span class="si">%d</span><span class="s2">d&quot;</span> <span class="o">%</span> <span class="n">days</span><span class="p">)</span>
-    <span class="n">hours</span><span class="p">,</span> <span class="n">seconds</span> <span class="o">=</span> <span class="nb">divmod</span><span class="p">(</span><span class="n">seconds</span><span class="p">,</span> <span class="mi">3600</span><span class="p">)</span>
-    <span class="k">if</span> <span class="n">hours</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
-        <span class="n">msg</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="s2">&quot;</span><span class="si">%d</span><span class="s2">h&quot;</span> <span class="o">%</span> <span class="n">hours</span><span class="p">)</span>
-    <span class="n">minutes</span><span class="p">,</span> <span class="n">seconds</span> <span class="o">=</span> <span class="nb">divmod</span><span class="p">(</span><span class="n">seconds</span><span class="p">,</span> <span class="mi">60</span><span class="p">)</span>
-    <span class="k">if</span> <span class="n">minutes</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
-        <span class="n">msg</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="s2">&quot;</span><span class="si">%d</span><span class="s2">m&quot;</span> <span class="o">%</span> <span class="n">minutes</span><span class="p">)</span>
-    <span class="n">msg</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="s2">&quot;</span><span class="si">%d</span><span class="s2">s&quot;</span> <span class="o">%</span> <span class="n">seconds</span><span class="p">)</span>
-    <span class="k">return</span> <span class="s2">&quot; &quot;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">msg</span><span class="p">)</span></div>
-</pre></div>
-
-           </div>
-           <div class="articleComments">
-            
-           </div>
-          </div>
-          <footer>
-  
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>
-        &copy; Copyright 2017, pytorch-seq2seq Contritors.
-
-    </p>
-  </div>
-  Built with <a href="http://sphinx-doc.org/">Sphinx</a> using a <a href="https://github.com/snide/sphinx_rtd_theme">theme</a> provided by <a href="https://readthedocs.org">Read the Docs</a>. 
-
-</footer>
-
-        </div>
-      </div>
-
-    </section>
-
-  </div>
-  
-
-
-  
-
-    <script type="text/javascript">
-        var DOCUMENTATION_OPTIONS = {
-            URL_ROOT:'../../../',
-            VERSION:'0.1.2',
-            COLLAPSE_INDEX:false,
-            FILE_SUFFIX:'.html',
-            HAS_SOURCE:  true,
-            SOURCELINK_SUFFIX: '.txt'
-        };
-    </script>
-      <script type="text/javascript" src="../../../_static/jquery.js"></script>
-      <script type="text/javascript" src="../../../_static/underscore.js"></script>
-      <script type="text/javascript" src="../../../_static/doctools.js"></script>
-      <script type="text/javascript" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.1/MathJax.js?config=TeX-AMS-MML_HTMLorMML"></script>
-
-  
-
-  
-  
-    <script type="text/javascript" src="../../../_static/js/theme.js"></script>
-  
-
-  
-  
-  <script type="text/javascript">
-      jQuery(function () {
-          SphinxRtdTheme.StickyNav.enable();
-      });
-  </script>
-   
-
-</body>
-</html>
\ No newline at end of file
diff --git a/docs/public/dataset.html b/docs/public/dataset.html
index d53741c..e05c869 100644
--- a/docs/public/dataset.html
+++ b/docs/public/dataset.html
@@ -8,7 +8,7 @@
   
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Dataset &mdash; pytorch-seq2seq 0.1.5 documentation</title>
+  <title>Dataset &mdash; pytorch-seq2seq 0.1.6 documentation</title>
   
 
   
@@ -35,7 +35,7 @@
         <link rel="index" title="Index"
               href="genindex.html"/>
         <link rel="search" title="Search" href="search.html"/>
-    <link rel="top" title="pytorch-seq2seq 0.1.5 documentation" href="index.html"/>
+    <link rel="top" title="pytorch-seq2seq 0.1.6 documentation" href="index.html"/>
         <link rel="next" title="Util" href="util.html"/>
         <link rel="prev" title="Introduction" href="notes/intro.html"/> 
 
@@ -66,7 +66,7 @@
             
             
               <div class="version">
-                0.1.5
+                0.1.6
               </div>
             
           
@@ -260,7 +260,7 @@ <h1>Dataset<a class="headerlink" href="#dataset" title="Permalink to this headli
     <script type="text/javascript">
         var DOCUMENTATION_OPTIONS = {
             URL_ROOT:'./',
-            VERSION:'0.1.5',
+            VERSION:'0.1.6',
             COLLAPSE_INDEX:false,
             FILE_SUFFIX:'.html',
             HAS_SOURCE:  true,
diff --git a/docs/public/evaluator.html b/docs/public/evaluator.html
index 6a97d4a..dd947a3 100644
--- a/docs/public/evaluator.html
+++ b/docs/public/evaluator.html
@@ -8,7 +8,7 @@
   
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Evaluator &mdash; pytorch-seq2seq 0.1.5 documentation</title>
+  <title>Evaluator &mdash; pytorch-seq2seq 0.1.6 documentation</title>
   
 
   
@@ -35,7 +35,7 @@
         <link rel="index" title="Index"
               href="genindex.html"/>
         <link rel="search" title="Search" href="search.html"/>
-    <link rel="top" title="pytorch-seq2seq 0.1.5 documentation" href="index.html"/>
+    <link rel="top" title="pytorch-seq2seq 0.1.6 documentation" href="index.html"/>
         <link rel="next" title="Loss" href="loss.html"/>
         <link rel="prev" title="Util" href="util.html"/> 
 
@@ -66,7 +66,7 @@
             
             
               <div class="version">
-                0.1.5
+                0.1.6
               </div>
             
           
@@ -184,7 +184,7 @@ <h2>evaluator<a class="headerlink" href="#id1" title="Permalink to this headline
 <tbody valign="top">
 <tr class="field-odd field"><th class="field-name">Parameters:</th><td class="field-body"><ul class="first last simple">
 <li><strong>loss</strong> (<em>seq2seq.loss</em><em>, </em><em>optional</em>) – loss for evaluator (default: seq2seq.loss.NLLLoss)</li>
-<li><strong>batch_size</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#int" title="(in Python v2.7)"><em>int</em></a><em>, </em><em>optional</em>) – batch size for evaluator (default: 64)</li>
+<li><strong>batch_size</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.6)"><em>int</em></a><em>, </em><em>optional</em>) – batch size for evaluator (default: 64)</li>
 </ul>
 </td>
 </tr>
@@ -207,7 +207,7 @@ <h2>evaluator<a class="headerlink" href="#id1" title="Permalink to this headline
 <tr class="field-even field"><th class="field-name">Returns:</th><td class="field-body"><p class="first">loss of the given model on the given dataset</p>
 </td>
 </tr>
-<tr class="field-odd field"><th class="field-name">Return type:</th><td class="field-body"><p class="first last"><a class="reference internal" href="loss.html#module-seq2seq.loss.loss" title="seq2seq.loss.loss">loss</a> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#float" title="(in Python v2.7)">float</a>)</p>
+<tr class="field-odd field"><th class="field-name">Return type:</th><td class="field-body"><p class="first last"><a class="reference internal" href="loss.html#module-seq2seq.loss.loss" title="seq2seq.loss.loss">loss</a> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.6)">float</a>)</p>
 </td>
 </tr>
 </tbody>
@@ -223,6 +223,11 @@ <h2>evaluator<a class="headerlink" href="#id1" title="Permalink to this headline
 <dt id="seq2seq.evaluator.predictor.Predictor">
 <em class="property">class </em><code class="descclassname">seq2seq.evaluator.predictor.</code><code class="descname">Predictor</code><span class="sig-paren">(</span><em>model</em>, <em>src_vocab</em>, <em>tgt_vocab</em><span class="sig-paren">)</span><a class="headerlink" href="#seq2seq.evaluator.predictor.Predictor" title="Permalink to this definition">¶</a></dt>
 <dd><dl class="method">
+<dt id="seq2seq.evaluator.predictor.Predictor.get_decoder_features">
+<code class="descname">get_decoder_features</code><span class="sig-paren">(</span><em>src_seq</em><span class="sig-paren">)</span><a class="headerlink" href="#seq2seq.evaluator.predictor.Predictor.get_decoder_features" title="Permalink to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="method">
 <dt id="seq2seq.evaluator.predictor.Predictor.predict">
 <code class="descname">predict</code><span class="sig-paren">(</span><em>src_seq</em><span class="sig-paren">)</span><a class="headerlink" href="#seq2seq.evaluator.predictor.Predictor.predict" title="Permalink to this definition">¶</a></dt>
 <dd><p>Make prediction given <cite>src_seq</cite> as input.</p>
@@ -230,12 +235,42 @@ <h2>evaluator<a class="headerlink" href="#id1" title="Permalink to this headline
 <col class="field-name" />
 <col class="field-body" />
 <tbody valign="top">
-<tr class="field-odd field"><th class="field-name">Parameters:</th><td class="field-body"><strong>src_seq</strong> (<em>list</em>) – list of tokens in source language</td>
+<tr class="field-odd field"><th class="field-name">Parameters:</th><td class="field-body"><strong>src_seq</strong> (<a class="reference external" href="https://docs.python.org/3/library/stdtypes.html#list" title="(in Python v3.6)"><em>list</em></a>) – list of tokens in source language</td>
 </tr>
 <tr class="field-even field"><th class="field-name">Returns:</th><td class="field-body">list of tokens in target language as predicted
 by the pre-trained model</td>
 </tr>
-<tr class="field-odd field"><th class="field-name">Return type:</th><td class="field-body">tgt_seq (list)</td>
+<tr class="field-odd field"><th class="field-name">Return type:</th><td class="field-body">tgt_seq (<a class="reference external" href="https://docs.python.org/3/library/stdtypes.html#list" title="(in Python v3.6)">list</a>)</td>
+</tr>
+</tbody>
+</table>
+</dd></dl>
+
+<dl class="method">
+<dt id="seq2seq.evaluator.predictor.Predictor.predict_n">
+<code class="descname">predict_n</code><span class="sig-paren">(</span><em>src_seq</em>, <em>n=1</em><span class="sig-paren">)</span><a class="headerlink" href="#seq2seq.evaluator.predictor.Predictor.predict_n" title="Permalink to this definition">¶</a></dt>
+<dd><p>Make ‘n’ predictions given <cite>src_seq</cite> as input.</p>
+<table class="docutils field-list" frame="void" rules="none">
+<col class="field-name" />
+<col class="field-body" />
+<tbody valign="top">
+<tr class="field-odd field"><th class="field-name">Parameters:</th><td class="field-body"><ul class="first simple">
+<li><strong>src_seq</strong> (<a class="reference external" href="https://docs.python.org/3/library/stdtypes.html#list" title="(in Python v3.6)"><em>list</em></a>) – list of tokens in source language</li>
+<li><strong>n</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.6)"><em>int</em></a>) – number of predicted seqs to return. If None,
+it will return just one seq.</li>
+</ul>
+</td>
+</tr>
+<tr class="field-even field"><th class="field-name">Returns:</th><td class="field-body"><p class="first"><dl class="docutils">
+<dt>list of tokens in target language as predicted</dt>
+<dd><p class="first last">by the pre-trained model</p>
+</dd>
+</dl>
+</p>
+</td>
+</tr>
+<tr class="field-odd field"><th class="field-name">Return type:</th><td class="field-body"><p class="first last">tgt_seq (<a class="reference external" href="https://docs.python.org/3/library/stdtypes.html#list" title="(in Python v3.6)">list</a>)</p>
+</td>
 </tr>
 </tbody>
 </table>
@@ -290,7 +325,7 @@ <h2>evaluator<a class="headerlink" href="#id1" title="Permalink to this headline
     <script type="text/javascript">
         var DOCUMENTATION_OPTIONS = {
             URL_ROOT:'./',
-            VERSION:'0.1.5',
+            VERSION:'0.1.6',
             COLLAPSE_INDEX:false,
             FILE_SUFFIX:'.html',
             HAS_SOURCE:  true,
diff --git a/docs/public/genindex.html b/docs/public/genindex.html
index fdabc4f..6b59af9 100644
--- a/docs/public/genindex.html
+++ b/docs/public/genindex.html
@@ -9,7 +9,7 @@
   
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Index &mdash; pytorch-seq2seq 0.1.5 documentation</title>
+  <title>Index &mdash; pytorch-seq2seq 0.1.6 documentation</title>
   
 
   
@@ -36,7 +36,7 @@
         <link rel="index" title="Index"
               href="#"/>
         <link rel="search" title="Search" href="search.html"/>
-    <link rel="top" title="pytorch-seq2seq 0.1.5 documentation" href="index.html"/> 
+    <link rel="top" title="pytorch-seq2seq 0.1.6 documentation" href="index.html"/> 
 
   
   <script src="_static/js/modernizr.min.js"></script>
@@ -65,7 +65,7 @@
             
             
               <div class="version">
-                0.1.5
+                0.1.6
               </div>
             
           
@@ -257,10 +257,12 @@ <h2 id="F">F</h2>
 <h2 id="G">G</h2>
 <table style="width: 100%" class="indextable genindextable"><tr>
   <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="util.html#seq2seq.util.checkpoint.Checkpoint.get_latest_checkpoint">get_latest_checkpoint() (seq2seq.util.checkpoint.Checkpoint class method)</a>
+      <li><a href="evaluator.html#seq2seq.evaluator.predictor.Predictor.get_decoder_features">get_decoder_features() (seq2seq.evaluator.predictor.Predictor method)</a>
 </li>
   </ul></td>
   <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="util.html#seq2seq.util.checkpoint.Checkpoint.get_latest_checkpoint">get_latest_checkpoint() (seq2seq.util.checkpoint.Checkpoint class method)</a>
+</li>
       <li><a href="loss.html#seq2seq.loss.loss.Loss.get_loss">get_loss() (seq2seq.loss.loss.Loss method)</a>
 </li>
   </ul></td>
@@ -324,6 +326,8 @@ <h2 id="P">P</h2>
   </ul></td>
   <td style="width: 33%; vertical-align: top;"><ul>
       <li><a href="evaluator.html#seq2seq.evaluator.predictor.Predictor.predict">predict() (seq2seq.evaluator.predictor.Predictor method)</a>
+</li>
+      <li><a href="evaluator.html#seq2seq.evaluator.predictor.Predictor.predict_n">predict_n() (seq2seq.evaluator.predictor.Predictor method)</a>
 </li>
       <li><a href="evaluator.html#seq2seq.evaluator.predictor.Predictor">Predictor (class in seq2seq.evaluator.predictor)</a>
 </li>
@@ -450,7 +454,7 @@ <h2 id="U">U</h2>
     <script type="text/javascript">
         var DOCUMENTATION_OPTIONS = {
             URL_ROOT:'./',
-            VERSION:'0.1.5',
+            VERSION:'0.1.6',
             COLLAPSE_INDEX:false,
             FILE_SUFFIX:'.html',
             HAS_SOURCE:  true,
diff --git a/docs/public/index.html b/docs/public/index.html
index 3777de0..6fe023c 100644
--- a/docs/public/index.html
+++ b/docs/public/index.html
@@ -8,7 +8,7 @@
   
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>PyTorch-Seq2seq: A sequence-to-sequence framework for PyTorch &mdash; pytorch-seq2seq 0.1.5 documentation</title>
+  <title>PyTorch-Seq2seq: A sequence-to-sequence framework for PyTorch &mdash; pytorch-seq2seq 0.1.6 documentation</title>
   
 
   
@@ -35,7 +35,7 @@
         <link rel="index" title="Index"
               href="genindex.html"/>
         <link rel="search" title="Search" href="search.html"/>
-    <link rel="top" title="pytorch-seq2seq 0.1.5 documentation" href="#"/>
+    <link rel="top" title="pytorch-seq2seq 0.1.6 documentation" href="#"/>
         <link rel="next" title="Introduction" href="notes/intro.html"/> 
 
   
@@ -65,7 +65,7 @@
             
             
               <div class="version">
-                0.1.5
+                0.1.6
               </div>
             
           
@@ -229,7 +229,7 @@ <h1>PyTorch-Seq2seq: A sequence-to-sequence framework for PyTorch<a class="heade
     <script type="text/javascript">
         var DOCUMENTATION_OPTIONS = {
             URL_ROOT:'./',
-            VERSION:'0.1.5',
+            VERSION:'0.1.6',
             COLLAPSE_INDEX:false,
             FILE_SUFFIX:'.html',
             HAS_SOURCE:  true,
diff --git a/docs/public/loss.html b/docs/public/loss.html
index b392952..b4ca53d 100644
--- a/docs/public/loss.html
+++ b/docs/public/loss.html
@@ -8,7 +8,7 @@
   
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Loss &mdash; pytorch-seq2seq 0.1.5 documentation</title>
+  <title>Loss &mdash; pytorch-seq2seq 0.1.6 documentation</title>
   
 
   
@@ -35,7 +35,7 @@
         <link rel="index" title="Index"
               href="genindex.html"/>
         <link rel="search" title="Search" href="search.html"/>
-    <link rel="top" title="pytorch-seq2seq 0.1.5 documentation" href="index.html"/>
+    <link rel="top" title="pytorch-seq2seq 0.1.6 documentation" href="index.html"/>
         <link rel="next" title="Optim" href="optim.html"/>
         <link rel="prev" title="Evaluator" href="evaluator.html"/> 
 
@@ -66,7 +66,7 @@
             
             
               <div class="version">
-                0.1.5
+                0.1.6
               </div>
             
           
@@ -191,7 +191,7 @@ <h2>Loss<a class="headerlink" href="#id1" title="Permalink to this headline">¶<
 <col class="field-body" />
 <tbody valign="top">
 <tr class="field-odd field"><th class="field-name">Parameters:</th><td class="field-body"><ul class="first simple">
-<li><strong>name</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#str" title="(in Python v2.7)"><em>str</em></a>) – name of the loss function used by logging messages.</li>
+<li><strong>name</strong> (<a class="reference external" href="https://docs.python.org/3/library/stdtypes.html#str" title="(in Python v3.6)"><em>str</em></a>) – name of the loss function used by logging messages.</li>
 <li><strong>criterion</strong> (<em>torch.nn._Loss</em>) – one of PyTorch’s loss function.  Refer
 to <a class="reference external" href="http://pytorch.org/docs/master/nn.html#loss-functions">http://pytorch.org/docs/master/nn.html#loss-functions</a> for
 a list of them.</li>
@@ -199,13 +199,13 @@ <h2>Loss<a class="headerlink" href="#id1" title="Permalink to this headline">¶<
 </td>
 </tr>
 <tr class="field-even field"><th class="field-name">Variables:</th><td class="field-body"><ul class="first last simple">
-<li><strong>name</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#str" title="(in Python v2.7)"><em>str</em></a>) – name of the loss function used by logging messages.</li>
+<li><strong>name</strong> (<a class="reference external" href="https://docs.python.org/3/library/stdtypes.html#str" title="(in Python v3.6)"><em>str</em></a>) – name of the loss function used by logging messages.</li>
 <li><strong>criterion</strong> (<em>torch.nn._Loss</em>) – one of PyTorch’s loss function.  Refer
 to <a class="reference external" href="http://pytorch.org/docs/master/nn.html#loss-functions">http://pytorch.org/docs/master/nn.html#loss-functions</a> for
 a list of them.  Implementation depends on individual
 sub-classes.</li>
-<li><strong>acc_loss</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#int" title="(in Python v2.7)"><em>int</em></a><em> or </em><em>torcn.nn.Tensor</em>) – variable that stores accumulated loss.</li>
-<li><strong>norm_term</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#float" title="(in Python v2.7)"><em>float</em></a>) – normalization term that can be used to calculate
+<li><strong>acc_loss</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.6)"><em>int</em></a><em> or </em><em>torcn.nn.Tensor</em>) – variable that stores accumulated loss.</li>
+<li><strong>norm_term</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.6)"><em>float</em></a>) – normalization term that can be used to calculate
 the loss of multiple batches.  Implementation depends on individual
 sub-classes.</li>
 </ul>
@@ -226,8 +226,8 @@ <h2>Loss<a class="headerlink" href="#id1" title="Permalink to this headline">¶<
 <col class="field-body" />
 <tbody valign="top">
 <tr class="field-odd field"><th class="field-name">Parameters:</th><td class="field-body"><ul class="first last simple">
-<li><strong>outputs</strong> (<a class="reference external" href="http://pytorch.org/docs/master/tensors.html#torch.Tensor" title="(in PyTorch vmaster (0.2.0+2e42272 ))"><em>torch.Tensor</em></a>) – outputs of a batch.</li>
-<li><strong>target</strong> (<a class="reference external" href="http://pytorch.org/docs/master/tensors.html#torch.Tensor" title="(in PyTorch vmaster (0.2.0+2e42272 ))"><em>torch.Tensor</em></a>) – expected output of a batch.</li>
+<li><strong>outputs</strong> (<a class="reference external" href="https://pytorch.org/docs/master/tensors.html#torch.Tensor" title="(in PyTorch vmaster (0.5.0a0+0829d45 ))"><em>torch.Tensor</em></a>) – outputs of a batch.</li>
+<li><strong>target</strong> (<a class="reference external" href="https://pytorch.org/docs/master/tensors.html#torch.Tensor" title="(in PyTorch vmaster (0.5.0a0+0829d45 ))"><em>torch.Tensor</em></a>) – expected output of a batch.</li>
 </ul>
 </td>
 </tr>
@@ -248,7 +248,7 @@ <h2>Loss<a class="headerlink" href="#id1" title="Permalink to this headline">¶<
 <tbody valign="top">
 <tr class="field-odd field"><th class="field-name">Returns:</th><td class="field-body">value of the loss.</td>
 </tr>
-<tr class="field-even field"><th class="field-name">Return type:</th><td class="field-body"><a class="reference internal" href="#module-seq2seq.loss.loss" title="seq2seq.loss.loss">loss</a> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#float" title="(in Python v2.7)">float</a>)</td>
+<tr class="field-even field"><th class="field-name">Return type:</th><td class="field-body"><a class="reference internal" href="#module-seq2seq.loss.loss" title="seq2seq.loss.loss">loss</a> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.6)">float</a>)</td>
 </tr>
 </tbody>
 </table>
@@ -274,9 +274,9 @@ <h2>NLLLoss<a class="headerlink" href="#nllloss" title="Permalink to this headli
 <col class="field-body" />
 <tbody valign="top">
 <tr class="field-odd field"><th class="field-name">Parameters:</th><td class="field-body"><ul class="first last simple">
-<li><strong>weight</strong> (<a class="reference external" href="http://pytorch.org/docs/master/tensors.html#torch.Tensor" title="(in PyTorch vmaster (0.2.0+2e42272 ))"><em>torch.Tensor</em></a><em>, </em><em>optional</em>) – refer to <a class="reference external" href="http://pytorch.org/docs/master/nn.html#nllloss">http://pytorch.org/docs/master/nn.html#nllloss</a></li>
-<li><strong>mask</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#int" title="(in Python v2.7)"><em>int</em></a><em>, </em><em>optional</em>) – index of masked token, i.e. weight[mask] = 0.</li>
-<li><strong>size_average</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#bool" title="(in Python v2.7)"><em>bool</em></a><em>, </em><em>optional</em>) – refer to <a class="reference external" href="http://pytorch.org/docs/master/nn.html#nllloss">http://pytorch.org/docs/master/nn.html#nllloss</a></li>
+<li><strong>weight</strong> (<a class="reference external" href="https://pytorch.org/docs/master/tensors.html#torch.Tensor" title="(in PyTorch vmaster (0.5.0a0+0829d45 ))"><em>torch.Tensor</em></a><em>, </em><em>optional</em>) – refer to <a class="reference external" href="http://pytorch.org/docs/master/nn.html#nllloss">http://pytorch.org/docs/master/nn.html#nllloss</a></li>
+<li><strong>mask</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.6)"><em>int</em></a><em>, </em><em>optional</em>) – index of masked token, i.e. weight[mask] = 0.</li>
+<li><strong>size_average</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#bool" title="(in Python v3.6)"><em>bool</em></a><em>, </em><em>optional</em>) – refer to <a class="reference external" href="http://pytorch.org/docs/master/nn.html#nllloss">http://pytorch.org/docs/master/nn.html#nllloss</a></li>
 </ul>
 </td>
 </tr>
@@ -298,8 +298,8 @@ <h2>Perplexity<a class="headerlink" href="#perplexity" title="Permalink to this
 <col class="field-body" />
 <tbody valign="top">
 <tr class="field-odd field"><th class="field-name">Parameters:</th><td class="field-body"><ul class="first last simple">
-<li><strong>weight</strong> (<a class="reference external" href="http://pytorch.org/docs/master/tensors.html#torch.Tensor" title="(in PyTorch vmaster (0.2.0+2e42272 ))"><em>torch.Tensor</em></a><em>, </em><em>optional</em>) – refer to <a class="reference external" href="http://pytorch.org/docs/master/nn.html#nllloss">http://pytorch.org/docs/master/nn.html#nllloss</a></li>
-<li><strong>mask</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#int" title="(in Python v2.7)"><em>int</em></a><em>, </em><em>optional</em>) – index of masked token, i.e. weight[mask] = 0.</li>
+<li><strong>weight</strong> (<a class="reference external" href="https://pytorch.org/docs/master/tensors.html#torch.Tensor" title="(in PyTorch vmaster (0.5.0a0+0829d45 ))"><em>torch.Tensor</em></a><em>, </em><em>optional</em>) – refer to <a class="reference external" href="http://pytorch.org/docs/master/nn.html#nllloss">http://pytorch.org/docs/master/nn.html#nllloss</a></li>
+<li><strong>mask</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.6)"><em>int</em></a><em>, </em><em>optional</em>) – index of masked token, i.e. weight[mask] = 0.</li>
 </ul>
 </td>
 </tr>
@@ -354,7 +354,7 @@ <h2>Perplexity<a class="headerlink" href="#perplexity" title="Permalink to this
     <script type="text/javascript">
         var DOCUMENTATION_OPTIONS = {
             URL_ROOT:'./',
-            VERSION:'0.1.5',
+            VERSION:'0.1.6',
             COLLAPSE_INDEX:false,
             FILE_SUFFIX:'.html',
             HAS_SOURCE:  true,
diff --git a/docs/public/models.html b/docs/public/models.html
index 98c6e76..2d204ee 100644
--- a/docs/public/models.html
+++ b/docs/public/models.html
@@ -8,7 +8,7 @@
   
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Models &mdash; pytorch-seq2seq 0.1.5 documentation</title>
+  <title>Models &mdash; pytorch-seq2seq 0.1.6 documentation</title>
   
 
   
@@ -35,7 +35,7 @@
         <link rel="index" title="Index"
               href="genindex.html"/>
         <link rel="search" title="Search" href="search.html"/>
-    <link rel="top" title="pytorch-seq2seq 0.1.5 documentation" href="index.html"/>
+    <link rel="top" title="pytorch-seq2seq 0.1.6 documentation" href="index.html"/>
         <link rel="prev" title="Trainer" href="trainer.html"/> 
 
   
@@ -65,7 +65,7 @@
             
             
               <div class="version">
-                0.1.5
+                0.1.6
               </div>
             
           
@@ -188,13 +188,13 @@ <h1>Models<a class="headerlink" href="#models" title="Permalink to this headline
 <col class="field-body" />
 <tbody valign="top">
 <tr class="field-odd field"><th class="field-name">Parameters:</th><td class="field-body"><ul class="first last simple">
-<li><strong>vocab_size</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#int" title="(in Python v2.7)"><em>int</em></a>) – size of the vocabulary</li>
-<li><strong>max_len</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#int" title="(in Python v2.7)"><em>int</em></a>) – maximum allowed length for the sequence to be processed</li>
-<li><strong>hidden_size</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#int" title="(in Python v2.7)"><em>int</em></a>) – number of features in the hidden state <cite>h</cite></li>
-<li><strong>input_dropout_p</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#float" title="(in Python v2.7)"><em>float</em></a>) – dropout probability for the input sequence</li>
-<li><strong>dropout_p</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#float" title="(in Python v2.7)"><em>float</em></a>) – dropout probability for the output sequence</li>
-<li><strong>n_layers</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#int" title="(in Python v2.7)"><em>int</em></a>) – number of recurrent layers</li>
-<li><strong>rnn_cell</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#str" title="(in Python v2.7)"><em>str</em></a>) – type of RNN cell (Eg. ‘LSTM’ , ‘GRU’)</li>
+<li><strong>vocab_size</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.6)"><em>int</em></a>) – size of the vocabulary</li>
+<li><strong>max_len</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.6)"><em>int</em></a>) – maximum allowed length for the sequence to be processed</li>
+<li><strong>hidden_size</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.6)"><em>int</em></a>) – number of features in the hidden state <cite>h</cite></li>
+<li><strong>input_dropout_p</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.6)"><em>float</em></a>) – dropout probability for the input sequence</li>
+<li><strong>dropout_p</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.6)"><em>float</em></a>) – dropout probability for the output sequence</li>
+<li><strong>n_layers</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.6)"><em>int</em></a>) – number of recurrent layers</li>
+<li><strong>rnn_cell</strong> (<a class="reference external" href="https://docs.python.org/3/library/stdtypes.html#str" title="(in Python v3.6)"><em>str</em></a>) – type of RNN cell (Eg. ‘LSTM’ , ‘GRU’)</li>
 </ul>
 </td>
 </tr>
@@ -227,22 +227,26 @@ <h1>Models<a class="headerlink" href="#models" title="Permalink to this headline
 <span id="encoderrnn"></span><h2>EncoderRNN<a class="headerlink" href="#module-seq2seq.models.EncoderRNN" title="Permalink to this headline">¶</a></h2>
 <dl class="class">
 <dt id="seq2seq.models.EncoderRNN.EncoderRNN">
-<em class="property">class </em><code class="descclassname">seq2seq.models.EncoderRNN.</code><code class="descname">EncoderRNN</code><span class="sig-paren">(</span><em>vocab_size</em>, <em>max_len</em>, <em>hidden_size</em>, <em>input_dropout_p=0</em>, <em>dropout_p=0</em>, <em>n_layers=1</em>, <em>bidirectional=False</em>, <em>rnn_cell='gru'</em>, <em>variable_lengths=False</em><span class="sig-paren">)</span><a class="headerlink" href="#seq2seq.models.EncoderRNN.EncoderRNN" title="Permalink to this definition">¶</a></dt>
+<em class="property">class </em><code class="descclassname">seq2seq.models.EncoderRNN.</code><code class="descname">EncoderRNN</code><span class="sig-paren">(</span><em>vocab_size</em>, <em>max_len</em>, <em>hidden_size</em>, <em>input_dropout_p=0</em>, <em>dropout_p=0</em>, <em>n_layers=1</em>, <em>bidirectional=False</em>, <em>rnn_cell='gru'</em>, <em>variable_lengths=False</em>, <em>embedding=None</em>, <em>update_embedding=True</em><span class="sig-paren">)</span><a class="headerlink" href="#seq2seq.models.EncoderRNN.EncoderRNN" title="Permalink to this definition">¶</a></dt>
 <dd><p>Applies a multi-layer RNN to an input sequence.</p>
 <table class="docutils field-list" frame="void" rules="none">
 <col class="field-name" />
 <col class="field-body" />
 <tbody valign="top">
 <tr class="field-odd field"><th class="field-name">Parameters:</th><td class="field-body"><ul class="first last simple">
-<li><strong>vocab_size</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#int" title="(in Python v2.7)"><em>int</em></a>) – size of the vocabulary</li>
-<li><strong>max_len</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#int" title="(in Python v2.7)"><em>int</em></a>) – a maximum allowed length for the sequence to be processed</li>
-<li><strong>hidden_size</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#int" title="(in Python v2.7)"><em>int</em></a>) – the number of features in the hidden state <cite>h</cite></li>
-<li><strong>input_dropout_p</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#float" title="(in Python v2.7)"><em>float</em></a><em>, </em><em>optional</em>) – dropout probability for the input sequence (default: 0)</li>
-<li><strong>dropout_p</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#float" title="(in Python v2.7)"><em>float</em></a><em>, </em><em>optional</em>) – dropout probability for the output sequence (default: 0)</li>
-<li><strong>n_layers</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#int" title="(in Python v2.7)"><em>int</em></a><em>, </em><em>optional</em>) – number of recurrent layers (default: 1)</li>
-<li><strong>bidirectional</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#bool" title="(in Python v2.7)"><em>bool</em></a><em>, </em><em>optional</em>) – if True, becomes a bidirectional encodr (defulat False)</li>
-<li><strong>rnn_cell</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#str" title="(in Python v2.7)"><em>str</em></a><em>, </em><em>optional</em>) – type of RNN cell (default: gru)</li>
-<li><strong>variable_lengths</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#bool" title="(in Python v2.7)"><em>bool</em></a><em>, </em><em>optional</em>) – if use variable length RNN (default: False)</li>
+<li><strong>vocab_size</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.6)"><em>int</em></a>) – size of the vocabulary</li>
+<li><strong>max_len</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.6)"><em>int</em></a>) – a maximum allowed length for the sequence to be processed</li>
+<li><strong>hidden_size</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.6)"><em>int</em></a>) – the number of features in the hidden state <cite>h</cite></li>
+<li><strong>input_dropout_p</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.6)"><em>float</em></a><em>, </em><em>optional</em>) – dropout probability for the input sequence (default: 0)</li>
+<li><strong>dropout_p</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.6)"><em>float</em></a><em>, </em><em>optional</em>) – dropout probability for the output sequence (default: 0)</li>
+<li><strong>n_layers</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.6)"><em>int</em></a><em>, </em><em>optional</em>) – number of recurrent layers (default: 1)</li>
+<li><strong>bidirectional</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#bool" title="(in Python v3.6)"><em>bool</em></a><em>, </em><em>optional</em>) – if True, becomes a bidirectional encodr (defulat False)</li>
+<li><strong>rnn_cell</strong> (<a class="reference external" href="https://docs.python.org/3/library/stdtypes.html#str" title="(in Python v3.6)"><em>str</em></a><em>, </em><em>optional</em>) – type of RNN cell (default: gru)</li>
+<li><strong>variable_lengths</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#bool" title="(in Python v3.6)"><em>bool</em></a><em>, </em><em>optional</em>) – if use variable length RNN (default: False)</li>
+<li><strong>embedding</strong> (<a class="reference external" href="https://pytorch.org/docs/master/tensors.html#torch.Tensor" title="(in PyTorch vmaster (0.5.0a0+0829d45 ))"><em>torch.Tensor</em></a><em>, </em><em>optional</em>) – Pre-trained embedding.  The size of the tensor has to match
+the size of the embedding parameter: (vocab_size, hidden_size).  The embedding layer would be initialized
+with the tensor if provided (default: None).</li>
+<li><strong>update_embedding</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#bool" title="(in Python v3.6)"><em>bool</em></a><em>, </em><em>optional</em>) – If the embedding should be updated during training (default: False).</li>
 </ul>
 </td>
 </tr>
@@ -312,24 +316,24 @@ <h1>Models<a class="headerlink" href="#models" title="Permalink to this headline
 <col class="field-body" />
 <tbody valign="top">
 <tr class="field-odd field"><th class="field-name">Parameters:</th><td class="field-body"><ul class="first simple">
-<li><strong>vocab_size</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#int" title="(in Python v2.7)"><em>int</em></a>) – size of the vocabulary</li>
-<li><strong>max_len</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#int" title="(in Python v2.7)"><em>int</em></a>) – a maximum allowed length for the sequence to be processed</li>
-<li><strong>hidden_size</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#int" title="(in Python v2.7)"><em>int</em></a>) – the number of features in the hidden state <cite>h</cite></li>
-<li><strong>sos_id</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#int" title="(in Python v2.7)"><em>int</em></a>) – index of the start of sentence symbol</li>
-<li><strong>eos_id</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#int" title="(in Python v2.7)"><em>int</em></a>) – index of the end of sentence symbol</li>
-<li><strong>n_layers</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#int" title="(in Python v2.7)"><em>int</em></a><em>, </em><em>optional</em>) – number of recurrent layers (default: 1)</li>
-<li><strong>rnn_cell</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#str" title="(in Python v2.7)"><em>str</em></a><em>, </em><em>optional</em>) – type of RNN cell (default: gru)</li>
-<li><strong>bidirectional</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#bool" title="(in Python v2.7)"><em>bool</em></a><em>, </em><em>optional</em>) – if the encoder is bidirectional (default False)</li>
-<li><strong>input_dropout_p</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#float" title="(in Python v2.7)"><em>float</em></a><em>, </em><em>optional</em>) – dropout probability for the input sequence (default: 0)</li>
-<li><strong>dropout_p</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#float" title="(in Python v2.7)"><em>float</em></a><em>, </em><em>optional</em>) – dropout probability for the output sequence (default: 0)</li>
-<li><strong>use_attention</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#bool" title="(in Python v2.7)"><em>bool</em></a><em>, </em><em>optional</em>) – flag indication whether to use attention mechanism or not (default: false)</li>
+<li><strong>vocab_size</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.6)"><em>int</em></a>) – size of the vocabulary</li>
+<li><strong>max_len</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.6)"><em>int</em></a>) – a maximum allowed length for the sequence to be processed</li>
+<li><strong>hidden_size</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.6)"><em>int</em></a>) – the number of features in the hidden state <cite>h</cite></li>
+<li><strong>sos_id</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.6)"><em>int</em></a>) – index of the start of sentence symbol</li>
+<li><strong>eos_id</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.6)"><em>int</em></a>) – index of the end of sentence symbol</li>
+<li><strong>n_layers</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.6)"><em>int</em></a><em>, </em><em>optional</em>) – number of recurrent layers (default: 1)</li>
+<li><strong>rnn_cell</strong> (<a class="reference external" href="https://docs.python.org/3/library/stdtypes.html#str" title="(in Python v3.6)"><em>str</em></a><em>, </em><em>optional</em>) – type of RNN cell (default: gru)</li>
+<li><strong>bidirectional</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#bool" title="(in Python v3.6)"><em>bool</em></a><em>, </em><em>optional</em>) – if the encoder is bidirectional (default False)</li>
+<li><strong>input_dropout_p</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.6)"><em>float</em></a><em>, </em><em>optional</em>) – dropout probability for the input sequence (default: 0)</li>
+<li><strong>dropout_p</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.6)"><em>float</em></a><em>, </em><em>optional</em>) – dropout probability for the output sequence (default: 0)</li>
+<li><strong>use_attention</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#bool" title="(in Python v3.6)"><em>bool</em></a><em>, </em><em>optional</em>) – flag indication whether to use attention mechanism or not (default: false)</li>
 </ul>
 </td>
 </tr>
 <tr class="field-even field"><th class="field-name">Variables:</th><td class="field-body"><ul class="first last simple">
-<li><strong>KEY_ATTN_SCORE</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#str" title="(in Python v2.7)"><em>str</em></a>) – key used to indicate attention weights in <cite>ret_dict</cite></li>
-<li><strong>KEY_LENGTH</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#str" title="(in Python v2.7)"><em>str</em></a>) – key used to indicate a list representing lengths of output sequences in <cite>ret_dict</cite></li>
-<li><strong>KEY_SEQUENCE</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#str" title="(in Python v2.7)"><em>str</em></a>) – key used to indicate a list of sequences in <cite>ret_dict</cite></li>
+<li><strong>KEY_ATTN_SCORE</strong> (<a class="reference external" href="https://docs.python.org/3/library/stdtypes.html#str" title="(in Python v3.6)"><em>str</em></a>) – key used to indicate attention weights in <cite>ret_dict</cite></li>
+<li><strong>KEY_LENGTH</strong> (<a class="reference external" href="https://docs.python.org/3/library/stdtypes.html#str" title="(in Python v3.6)"><em>str</em></a>) – key used to indicate a list representing lengths of output sequences in <cite>ret_dict</cite></li>
+<li><strong>KEY_SEQUENCE</strong> (<a class="reference external" href="https://docs.python.org/3/library/stdtypes.html#str" title="(in Python v3.6)"><em>str</em></a>) – key used to indicate a list of sequences in <cite>ret_dict</cite></li>
 </ul>
 </td>
 </tr>
@@ -378,7 +382,7 @@ <h1>Models<a class="headerlink" href="#models" title="Permalink to this headline
 <tbody valign="top">
 <tr class="field-odd field"><th class="field-name">Parameters:</th><td class="field-body"><ul class="first last simple">
 <li><strong>decoder_rnn</strong> (<a class="reference internal" href="#module-seq2seq.models.DecoderRNN" title="seq2seq.models.DecoderRNN"><em>DecoderRNN</em></a>) – An object of DecoderRNN used for decoding.</li>
-<li><strong>k</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#int" title="(in Python v2.7)"><em>int</em></a>) – Size of the beam.</li>
+<li><strong>k</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.6)"><em>int</em></a>) – Size of the beam.</li>
 </ul>
 </td>
 </tr>
@@ -389,8 +393,8 @@ <h1>Models<a class="headerlink" href="#models" title="Permalink to this headline
 <dd><ul class="first last simple">
 <li><strong>inputs</strong> (seq_len, batch, input_size): list of sequences, whose length is the batch size and within which
 each sequence is a list of token IDs.  It is used for teacher forcing when provided. (default is <cite>None</cite>)</li>
-<li><strong>encoder_hidden</strong> (batch, seq_len, hidden_size): tensor containing the features in the hidden state <cite>h</cite> of
-encoder. Used as the initial hidden state of the decoder.</li>
+<li><strong>encoder_hidden</strong> (num_layers * num_directions, batch_size, hidden_size): tensor containing the features
+in the hidden state <cite>h</cite> of encoder. Used as the initial hidden state of the decoder.</li>
 <li><strong>encoder_outputs</strong> (batch, seq_len, hidden_size): tensor with containing the outputs of the encoder.
 Used for attention mechanism (default is <cite>None</cite>).</li>
 <li><strong>function</strong> (torch.nn.Module): A function used to generate symbols from RNN hidden state
@@ -432,14 +436,14 @@ <h1>Models<a class="headerlink" href="#models" title="Permalink to this headline
 <div class="math">
 \[\begin{split}\begin{array}{ll}
 x = context*output \\
-attn = exp(x_i - max_i x_i) / sum_j exp(x_j - max_i x_i) \\
+attn = exp(x_i) / sum_j exp(x_j) \\
 output = \tanh(w * (attn * context) + b * output)
 \end{array}\end{split}\]</div>
 <table class="docutils field-list" frame="void" rules="none">
 <col class="field-name" />
 <col class="field-body" />
 <tbody valign="top">
-<tr class="field-odd field"><th class="field-name">Parameters:</th><td class="field-body"><strong>dim</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#int" title="(in Python v2.7)"><em>int</em></a>) – The number of expected features in the output</td>
+<tr class="field-odd field"><th class="field-name">Parameters:</th><td class="field-body"><strong>dim</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.6)"><em>int</em></a>) – The number of expected features in the output</td>
 </tr>
 </tbody>
 </table>
@@ -462,8 +466,8 @@ <h1>Models<a class="headerlink" href="#models" title="Permalink to this headline
 <col class="field-body" />
 <tbody valign="top">
 <tr class="field-odd field"><th class="field-name">Variables:</th><td class="field-body"><ul class="first last simple">
-<li><strong>linear_out</strong> (<a class="reference external" href="http://pytorch.org/docs/master/nn.html#torch.nn.Linear" title="(in PyTorch vmaster (0.2.0+2e42272 ))"><em>torch.nn.Linear</em></a>) – applies a linear transformation to the incoming data: <span class="math">\(y = Ax + b\)</span>.</li>
-<li><strong>mask</strong> (<a class="reference external" href="http://pytorch.org/docs/master/tensors.html#torch.Tensor" title="(in PyTorch vmaster (0.2.0+2e42272 ))"><em>torch.Tensor</em></a><em>, </em><em>optional</em>) – applies a <span class="math">\(-inf\)</span> to the indices specified in the <cite>Tensor</cite>.</li>
+<li><strong>linear_out</strong> (<a class="reference external" href="https://pytorch.org/docs/master/nn.html#torch.nn.Linear" title="(in PyTorch vmaster (0.5.0a0+0829d45 ))"><em>torch.nn.Linear</em></a>) – applies a linear transformation to the incoming data: <span class="math">\(y = Ax + b\)</span>.</li>
+<li><strong>mask</strong> (<a class="reference external" href="https://pytorch.org/docs/master/tensors.html#torch.Tensor" title="(in PyTorch vmaster (0.5.0a0+0829d45 ))"><em>torch.Tensor</em></a><em>, </em><em>optional</em>) – applies a <span class="math">\(-inf\)</span> to the indices specified in the <cite>Tensor</cite>.</li>
 </ul>
 </td>
 </tr>
@@ -484,7 +488,7 @@ <h1>Models<a class="headerlink" href="#models" title="Permalink to this headline
 <col class="field-name" />
 <col class="field-body" />
 <tbody valign="top">
-<tr class="field-odd field"><th class="field-name">Parameters:</th><td class="field-body"><strong>mask</strong> (<a class="reference external" href="http://pytorch.org/docs/master/tensors.html#torch.Tensor" title="(in PyTorch vmaster (0.2.0+2e42272 ))"><em>torch.Tensor</em></a>) – tensor containing indices to be masked</td>
+<tr class="field-odd field"><th class="field-name">Parameters:</th><td class="field-body"><strong>mask</strong> (<a class="reference external" href="https://pytorch.org/docs/master/tensors.html#torch.Tensor" title="(in PyTorch vmaster (0.5.0a0+0829d45 ))"><em>torch.Tensor</em></a>) – tensor containing indices to be masked</td>
 </tr>
 </tbody>
 </table>
@@ -514,7 +518,7 @@ <h1>Models<a class="headerlink" href="#models" title="Permalink to this headline
 </tbody>
 </table>
 <dl class="docutils">
-<dt>Inputs: input_variable, input_lengths, target_variable, teacher_forcing_ratio, volatile</dt>
+<dt>Inputs: input_variable, input_lengths, target_variable, teacher_forcing_ratio</dt>
 <dd><ul class="first last simple">
 <li><strong>input_variable</strong> (list, option): list of sequences, whose length is the batch size and within which
 each sequence is a list of token IDs. This information is forwarded to the encoder.</li>
@@ -590,7 +594,7 @@ <h1>Models<a class="headerlink" href="#models" title="Permalink to this headline
     <script type="text/javascript">
         var DOCUMENTATION_OPTIONS = {
             URL_ROOT:'./',
-            VERSION:'0.1.5',
+            VERSION:'0.1.6',
             COLLAPSE_INDEX:false,
             FILE_SUFFIX:'.html',
             HAS_SOURCE:  true,
diff --git a/docs/public/notes/intro.html b/docs/public/notes/intro.html
index 88e71a0..792f4a4 100644
--- a/docs/public/notes/intro.html
+++ b/docs/public/notes/intro.html
@@ -8,7 +8,7 @@
   
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Introduction &mdash; pytorch-seq2seq 0.1.5 documentation</title>
+  <title>Introduction &mdash; pytorch-seq2seq 0.1.6 documentation</title>
   
 
   
@@ -35,7 +35,7 @@
         <link rel="index" title="Index"
               href="../genindex.html"/>
         <link rel="search" title="Search" href="../search.html"/>
-    <link rel="top" title="pytorch-seq2seq 0.1.5 documentation" href="../index.html"/>
+    <link rel="top" title="pytorch-seq2seq 0.1.6 documentation" href="../index.html"/>
         <link rel="next" title="Dataset" href="../dataset.html"/>
         <link rel="prev" title="PyTorch-Seq2seq: A sequence-to-sequence framework for PyTorch" href="../index.html"/> 
 
@@ -66,7 +66,7 @@
             
             
               <div class="version">
-                0.1.5
+                0.1.6
               </div>
             
           
@@ -121,7 +121,6 @@
 <li class="toctree-l1"><a class="reference internal" href="../loss.html">Loss</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../optim.html">Optim</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../trainer.html">Trainer</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../models.html">Models</a></li>
 </ul>
 
             
@@ -317,7 +316,7 @@
     <script type="text/javascript">
         var DOCUMENTATION_OPTIONS = {
             URL_ROOT:'../',
-            VERSION:'0.1.5',
+            VERSION:'0.1.6',
             COLLAPSE_INDEX:false,
             FILE_SUFFIX:'.html',
             HAS_SOURCE:  true,
diff --git a/docs/public/objects.inv b/docs/public/objects.inv
index 7516ce1..df3e948 100644
--- a/docs/public/objects.inv
+++ b/docs/public/objects.inv
@@ -1,6 +1,9 @@
 # Sphinx inventory version 2
 # Project: pytorch-seq2seq
-# Version: 0.1.5
+# Version: 0.1.6
 # The remainder of this file is compressed using zlib.
-xڭ�]s�0����ٽ%�q�;W�SEG����2EB�`�����J���y��Mb8�����#"��bH"���ݞFy�;RU;�O�TQ�+�-~R�=��&�s�ä|"�	{q9��.g�"����+P�mP�<N��@C�-�ĎF���@���ڒ1?m}�� `Gg�Q�3TG�h�(����Zg��t��bC-%���a)�}	^�:��V֟_v?��>���4��d W�(��X����%���y�XH8�A(l��Ե}S�A�ᨦu�	��^�x+�pF7��({#,2f�ȧ�Cm���Kh��p��KC*b�^`���Nh��L�'�e���<.[O��j	�^�^Цz�Z¹6i&�}�4��}�i*�*��?s�i�rbx���f��8���ru�Eݣ�G/�Ӣ�<v�9DA2FP���a?{M�o�jh��*�p���E�`9=�KF�T&˺>�!��E���og��^�]?��7�;Y:�+�h��]?����t�+��/�.W3gq����w��L殳	<�;��dy�� .���47�l47�$�&#bw�GN�a�o�Et�����U/V��e�wZ�\�gH�4��29![H�t���E�j�j���>���;�>��ɟ�lAmUFO��፲$�{���;�n����RZ�٢'h�Z��"鄏�h��&��Y*G)��zFu�V�e1��☷��LKo�qTn�r��tev��UY^U�&�`��]��%��S�X
-zR�4У,Y�30�b
\ No newline at end of file
+xڭ�]s� ���+�ٽ���eﬦ�N����^e0k�1�@l�_�����z	�����@����)�D�ěb*Pz��1�ŀ�n��]���|GG��b�e<���%Ǆ1��)_�}�_@�B�����]x9�Hɣu&�
+�w�:�b�YH��4��2��$Έd�)Y�i��2t��]��g�ՙ���rԉ�r�Qx�����&����2Pl�Ȍ��A��n
+����	Q<�/j�&���i�ӳ�������pk���6�B=�^J�.��d�鴯�%�4��HΫ��B,�\S���J@�ږ�O�#���Ĝл��7�#N�����w©��3 ��O��l�cRG#-�K�����#�MJG'�X�c��}�ձu�z����!t{�zA���k��d��v��갬o��P�E����k̐�����n���~	���,��g|�^r%yY
+|	�AUe͠k��v��*�멵���`�m+7�Q�Uz�הE��Lmm��xd1���M�G����r1���x�
+�Ù{|w�̗͜�~�g1>������b�No3�ų�����d����mY\e�H� ���z���ƌ�`R"�W{doo6���AB�{�B4��{и|q�/#ҾӢ���y�$J(|�1YC����2z��&�b˃�x�T'�="��A�@��.�';xg���^���j��+ ʯ�Ny���i�fE9:�#=tC��,�����CM=g&ݨ��U�fa~�;�Yf�7�8*�{�j�\�)��(�l_�p��n�̍U���/3�^�Y���<���
\ No newline at end of file
diff --git a/docs/public/optim.html b/docs/public/optim.html
index fb69c78..b6be1cb 100644
--- a/docs/public/optim.html
+++ b/docs/public/optim.html
@@ -8,7 +8,7 @@
   
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Optim &mdash; pytorch-seq2seq 0.1.5 documentation</title>
+  <title>Optim &mdash; pytorch-seq2seq 0.1.6 documentation</title>
   
 
   
@@ -35,7 +35,7 @@
         <link rel="index" title="Index"
               href="genindex.html"/>
         <link rel="search" title="Search" href="search.html"/>
-    <link rel="top" title="pytorch-seq2seq 0.1.5 documentation" href="index.html"/>
+    <link rel="top" title="pytorch-seq2seq 0.1.6 documentation" href="index.html"/>
         <link rel="next" title="Trainer" href="trainer.html"/>
         <link rel="prev" title="Loss" href="loss.html"/> 
 
@@ -66,7 +66,7 @@
             
             
               <div class="version">
-                0.1.5
+                0.1.6
               </div>
             
           
@@ -183,9 +183,9 @@ <h2>optim<a class="headerlink" href="#id1" title="Permalink to this headline">¶
 <col class="field-body" />
 <tbody valign="top">
 <tr class="field-odd field"><th class="field-name">Parameters:</th><td class="field-body"><ul class="first last simple">
-<li><strong>optim</strong> (<a class="reference external" href="http://pytorch.org/docs/master/optim.html#torch.optim.Optimizer" title="(in PyTorch vmaster (0.2.0+2e42272 ))"><em>torch.optim.Optimizer</em></a>) – optimizer object, the parameters to be optimized
+<li><strong>optim</strong> (<a class="reference external" href="https://pytorch.org/docs/master/optim.html#torch.optim.Optimizer" title="(in PyTorch vmaster (0.5.0a0+0829d45 ))"><em>torch.optim.Optimizer</em></a>) – optimizer object, the parameters to be optimized
 should be given when instantiating the object, e.g. torch.optim.SGD(params)</li>
-<li><strong>max_grad_norm</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#float" title="(in Python v2.7)"><em>float</em></a><em>, </em><em>optional</em>) – value used for gradient norm clipping,
+<li><strong>max_grad_norm</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.6)"><em>float</em></a><em>, </em><em>optional</em>) – value used for gradient norm clipping,
 set 0 to disable (default 0)</li>
 </ul>
 </td>
@@ -222,10 +222,10 @@ <h2>optim<a class="headerlink" href="#id1" title="Permalink to this headline">¶
 <col class="field-body" />
 <tbody valign="top">
 <tr class="field-odd field"><th class="field-name">Parameters:</th><td class="field-body"><ul class="first last simple">
-<li><strong>loss</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#float" title="(in Python v2.7)"><em>float</em></a>) – The current loss.  It could be training loss or developing loss
+<li><strong>loss</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.6)"><em>float</em></a>) – The current loss.  It could be training loss or developing loss
 depending on the caller.  By default the supervised trainer uses developing
 loss.</li>
-<li><strong>epoch</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#int" title="(in Python v2.7)"><em>int</em></a>) – The current epoch number.</li>
+<li><strong>epoch</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.6)"><em>int</em></a>) – The current epoch number.</li>
 </ul>
 </td>
 </tr>
@@ -282,7 +282,7 @@ <h2>optim<a class="headerlink" href="#id1" title="Permalink to this headline">¶
     <script type="text/javascript">
         var DOCUMENTATION_OPTIONS = {
             URL_ROOT:'./',
-            VERSION:'0.1.5',
+            VERSION:'0.1.6',
             COLLAPSE_INDEX:false,
             FILE_SUFFIX:'.html',
             HAS_SOURCE:  true,
diff --git a/docs/public/py-modindex.html b/docs/public/py-modindex.html
index 51dfd2e..7e604f5 100644
--- a/docs/public/py-modindex.html
+++ b/docs/public/py-modindex.html
@@ -8,7 +8,7 @@
   
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Python Module Index &mdash; pytorch-seq2seq 0.1.5 documentation</title>
+  <title>Python Module Index &mdash; pytorch-seq2seq 0.1.6 documentation</title>
   
 
   
@@ -35,7 +35,7 @@
         <link rel="index" title="Index"
               href="genindex.html"/>
         <link rel="search" title="Search" href="search.html"/>
-    <link rel="top" title="pytorch-seq2seq 0.1.5 documentation" href="index.html"/>
+    <link rel="top" title="pytorch-seq2seq 0.1.6 documentation" href="index.html"/>
  
 
 
@@ -67,7 +67,7 @@
             
             
               <div class="version">
-                0.1.5
+                0.1.6
               </div>
             
           
@@ -284,7 +284,7 @@ <h1>Python Module Index</h1>
     <script type="text/javascript">
         var DOCUMENTATION_OPTIONS = {
             URL_ROOT:'./',
-            VERSION:'0.1.5',
+            VERSION:'0.1.6',
             COLLAPSE_INDEX:false,
             FILE_SUFFIX:'.html',
             HAS_SOURCE:  true,
diff --git a/docs/public/search.html b/docs/public/search.html
index 081ea15..6ff3aa4 100644
--- a/docs/public/search.html
+++ b/docs/public/search.html
@@ -8,7 +8,7 @@
   
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Search &mdash; pytorch-seq2seq 0.1.5 documentation</title>
+  <title>Search &mdash; pytorch-seq2seq 0.1.6 documentation</title>
   
 
   
@@ -35,7 +35,7 @@
         <link rel="index" title="Index"
               href="genindex.html"/>
         <link rel="search" title="Search" href="#"/>
-    <link rel="top" title="pytorch-seq2seq 0.1.5 documentation" href="index.html"/> 
+    <link rel="top" title="pytorch-seq2seq 0.1.6 documentation" href="index.html"/> 
 
   
   <script src="_static/js/modernizr.min.js"></script>
@@ -64,7 +64,7 @@
             
             
               <div class="version">
-                0.1.5
+                0.1.6
               </div>
             
           
@@ -208,7 +208,7 @@
     <script type="text/javascript">
         var DOCUMENTATION_OPTIONS = {
             URL_ROOT:'./',
-            VERSION:'0.1.5',
+            VERSION:'0.1.6',
             COLLAPSE_INDEX:false,
             FILE_SUFFIX:'.html',
             HAS_SOURCE:  true,
diff --git a/docs/public/searchindex.js b/docs/public/searchindex.js
index 0f434b8..f12a153 100644
--- a/docs/public/searchindex.js
+++ b/docs/public/searchindex.js
@@ -1 +1 @@
-Search.setIndex({docnames:["dataset","evaluator","index","loss","models","notes/intro","optim","trainer","util"],envversion:52,filenames:["dataset.rst","evaluator.rst","index.rst","loss.rst","models.rst","notes/intro.md","optim.rst","trainer.rst","util.rst"],objects:{"seq2seq.dataset":{fields:[0,0,0,"-"]},"seq2seq.dataset.fields":{SourceField:[0,1,1,""],TargetField:[0,1,1,""]},"seq2seq.dataset.fields.TargetField":{SYM_EOS:[0,2,1,""],SYM_SOS:[0,2,1,""],build_vocab:[0,3,1,""]},"seq2seq.evaluator":{evaluator:[1,0,0,"-"],predictor:[1,0,0,"-"]},"seq2seq.evaluator.evaluator":{Evaluator:[1,1,1,""]},"seq2seq.evaluator.evaluator.Evaluator":{evaluate:[1,3,1,""]},"seq2seq.evaluator.predictor":{Predictor:[1,1,1,""]},"seq2seq.evaluator.predictor.Predictor":{predict:[1,3,1,""]},"seq2seq.loss":{loss:[3,0,0,"-"]},"seq2seq.loss.loss":{Loss:[3,1,1,""],NLLLoss:[3,1,1,""],Perplexity:[3,1,1,""]},"seq2seq.loss.loss.Loss":{eval_batch:[3,3,1,""],get_loss:[3,3,1,""],reset:[3,3,1,""]},"seq2seq.models":{DecoderRNN:[4,0,0,"-"],EncoderRNN:[4,0,0,"-"],TopKDecoder:[4,0,0,"-"],attention:[4,0,0,"-"],baseRNN:[4,0,0,"-"],seq2seq:[4,0,0,"-"]},"seq2seq.models.DecoderRNN":{DecoderRNN:[4,1,1,""]},"seq2seq.models.EncoderRNN":{EncoderRNN:[4,1,1,""]},"seq2seq.models.EncoderRNN.EncoderRNN":{forward:[4,3,1,""]},"seq2seq.models.TopKDecoder":{TopKDecoder:[4,1,1,""]},"seq2seq.models.TopKDecoder.TopKDecoder":{forward:[4,3,1,""]},"seq2seq.models.attention":{Attention:[4,1,1,""]},"seq2seq.models.attention.Attention":{set_mask:[4,3,1,""]},"seq2seq.models.baseRNN":{BaseRNN:[4,1,1,""]},"seq2seq.models.seq2seq":{Seq2seq:[4,1,1,""]},"seq2seq.optim":{optim:[6,0,0,"-"]},"seq2seq.optim.optim":{Optimizer:[6,1,1,""]},"seq2seq.optim.optim.Optimizer":{set_scheduler:[6,3,1,""],step:[6,3,1,""],update:[6,3,1,""]},"seq2seq.trainer":{supervised_trainer:[7,0,0,"-"]},"seq2seq.trainer.supervised_trainer":{SupervisedTrainer:[7,1,1,""]},"seq2seq.trainer.supervised_trainer.SupervisedTrainer":{train:[7,3,1,""]},"seq2seq.util":{checkpoint:[8,0,0,"-"]},"seq2seq.util.checkpoint":{Checkpoint:[8,1,1,""]},"seq2seq.util.checkpoint.Checkpoint":{CHECKPOINT_DIR_NAME:[8,2,1,""],INPUT_VOCAB_FILE:[8,2,1,""],MODEL_NAME:[8,2,1,""],OUTPUT_VOCAB_FILE:[8,2,1,""],TRAINER_STATE_NAME:[8,2,1,""],get_latest_checkpoint:[8,4,1,""],load:[8,4,1,""],path:[8,2,1,""],save:[8,3,1,""]}},objnames:{"0":["py","module","Python module"],"1":["py","class","Python class"],"2":["py","attribute","Python attribute"],"3":["py","method","Python method"],"4":["py","classmethod","Python class method"]},objtypes:{"0":"py:module","1":"py:class","2":"py:attribute","3":"py:method","4":"py:classmethod"},terms:{"22h":[],"32m":[],"class":[0,1,3,4,6,7,8],"default":[1,4,5,6,7],"float":[1,3,4,6,7],"function":[3,4,6],"import":5,"int":[1,3,4,6,7,8],"new":5,"return":[1,3,4,7,8],"true":[0,3,4,7],"try":5,"while":5,Adding:5,EOS:5,For:[0,3,5],IDs:4,The:[3,4,5,6,7,8],Used:4,_loss:3,about:[0,5],acc_loss:3,accumul:3,activ:5,actual:[],adam:7,add:[],add_sequ:[],add_token:[],added:[],addit:4,after:[3,7],against:1,all:5,allow:[4,8],alpha:5,alreadi:5,ani:5,append:0,appli:4,applic:5,appreci:5,arbitrari:4,architectur:[4,5],arg:[0,4,8],argument:4,attend:4,attent:5,attn:4,averag:3,base:[3,4,5],batch:[1,3,4,7],batch_first:0,batch_siz:[1,4,7],beam:4,becom:4,been:8,being:[5,8],belong:[],below:5,benchmark:5,bidirect:4,bool:[3,4,7],bug:5,build_vocab:0,calcul:3,call:[3,8],caller:6,can:3,caption:5,cell:4,check_sort:[],checkout:5,checkpoint:7,checkpoint_dir_nam:8,checkpoint_everi:7,classmethod:8,clip:6,cluster:8,cnn:5,coco:5,collabor:5,com:0,command:5,commonli:3,complet:5,compon:5,conda:5,configur:4,constantli:5,contain:4,context:4,convers:5,convolut:5,copi:8,correspond:5,could:6,cpu:5,creat:5,criteria:6,criterion:3,ctrl:5,current:[5,6,7,8],cutoff:[],dai:[],data:[0,1,4,5,7,8],dataset:[1,2,7],decod:[4,5],decode_funct:4,decoder_hidden:4,decoder_output:4,decoder_rnn:4,defin:3,defulat:4,delimit:[],depend:[3,6],descend:[],detail:[4,7],dev:[5,7],dev_data:7,dev_path:5,develop:6,dictionari:4,dim:4,dimens:4,directli:[3,4],directori:[5,7,8],disabl:6,discuss:5,disk:8,divid:[],doc:3,docstr:5,document:5,drawn:4,dropout:4,dropout_p:4,dure:8,each:[3,4],elaps:[],els:[],enc_max_len:[],encapsul:[3,6],encod:[4,5],encoder_hidden:4,encoder_output:4,encodr:4,end:[0,4],enter:5,eos:0,eos_id:[0,4],epoch:[6,7,8],equal:[],especi:5,etc:5,eval_batch:3,evalu:[2,3,5],everi:4,evolv:5,exampl:[4,5,8],exce:[],exist:8,expect:[3,4,5],experi:[5,7,8],experiment_dir:[5,8],experiment_path:8,exponenti:3,expt_dir:7,extens:5,facilit:5,fals:[4,7],fast:5,featur:[4,5],feedback:5,feel:5,field:[5,8],file:[5,8],file_nam:[],filepath:[],filter_pair:[],fix:5,flag:4,flexibl:5,focu:5,folder:[5,7],follow:[4,5,8],forc:[0,4,7],format:8,forward:4,forward_rnn:4,framework:[4,5,7],free:5,frequenc:[],frequent:5,from:[4,7,8],full:8,func:4,gener:[4,5],get:3,get_index:[],get_latest_checkpoint:8,get_loss:3,get_token:[],get_vocab_s:[],github:[0,5],given:[1,3,4,6,7,8],global:[],goal:5,googl:5,gradient:6,greater:[],gru:4,guid:5,had:5,handl:[],has:[5,8],have:5,help:7,helper:[],here:5,hidden:4,hidden_s:4,hour:[],how:3,html:3,http:[0,3],ignor:[],imag:5,implement:[3,5],improv:5,includ:[5,6],include_length:0,incom:4,increment:[],index:[0,3,4],indic:4,indices_from_sequ:[],individu:3,infer:5,inferenc:3,inform:[0,3,4],initi:[4,8],input:[1,4,5,8],input_dropout_p:4,input_len:4,input_length:4,input_s:4,input_var:4,input_vari:4,input_vocab:[4,5,8],input_vocab_fil:8,instanti:6,integ:4,interfac:3,interv:[],introduct:2,issu:5,item:5,its:5,ivar:[],job:8,k80:5,kei:4,key_attn_scor:4,key_input:4,key_length:4,key_sequ:4,keyword:4,kind:5,kwarg:[0,4],languag:[1,3,8],last:[4,8],later:8,latest:[5,7,8],layer:4,learn:[5,6],least:[5,8],length:4,less:5,librari:5,like:5,likelihood:3,line:[],linear:4,linear_out:4,list:[1,3,4],load:[0,5,7,8],local:8,log:3,log_softmax:4,logic:3,look:[4,5],loop:8,loss:[1,2,6,7],lr_schedul:6,lstm:4,machin:5,made:8,major:5,make:[1,7,8],manag:[0,8],map:[],marker:[],mask:[3,4],master:3,max_grad_norm:[6,7],max_len:4,max_length:4,max_num_vocab:[],max_seq_length:4,maximum:4,measur:[],mechan:4,meet:[],messag:3,met:6,method:[3,8],mini:4,minut:5,model:[1,2,3,5,7,8],model_checkpoint:5,model_nam:8,modul:4,modular:5,more:[0,5],multi:4,multipl:3,must:4,n_layer:4,name:[3,8],necessari:6,need:5,neg:3,nllloss:[1,7],none:[3,4,7,8],norm:6,norm_term:3,normal:3,note:[2,4],num_direct:4,num_epoch:7,num_lay:4,number:[4,6,7,8],numpi:5,object:[1,4,6,7,8],observ:[],obtain:[],occurr:[],onc:5,one:[3,4,8],onli:5,open:5,optim:[2,7,8],option:[1,3,4,5,6,7],order:[],org:3,organ:5,otherwis:[],our:5,out:5,output:[3,4,5,8],output_len:4,output_vocab:[5,8],output_vocab_fil:8,overrid:3,overwritten:7,own:3,packag:[2,5,6],pair:[],param:[6,8],paramet:[1,3,4,6,7,8],particular:[],path:8,perform:[1,6],pickl:[],piec:[],pip:5,pleas:[0,3,5],point:[],pointer:[],pointerattent:[],pre:1,precondit:8,predict:[1,4,5],prepare_data:[],prepare_data_from_list:[],prepend:0,preprocess:0,pretty_interv:[],pretty_tim:[],previou:[],previous:8,print:5,print_everi:7,probabl:4,problem:5,proce:5,process:[0,4],project:5,prompt:5,propos:5,provid:[4,5,6],publish:5,python:5,pytorch:[0,3,5,7],qualiti:5,question:5,randn:4,random:4,random_se:7,rare:[],rate:6,ratio:7,raw:[],read:[],read_vocabulari:[],recommend:5,recov:[],recurr:4,refer:[2,3,5],regard:3,relat:8,releas:5,remain:[],report:5,repres:4,request:5,requir:5,reserv:[],reset:3,result:3,resum:[5,7,8],ret_dict:4,retain_output_prob:4,revers:5,rnn:4,rnn_cell:4,root:[5,8],run:[5,7,8],same:3,sampl:[4,5],save:[5,8],schedul:6,script:5,search:4,second:[],seen:8,sentenc:[0,4],separ:[],seq2seq:[0,1,3,5,6,7,8],seq_len:4,sequenc:[0,4,5],sequence_from_indic:[],sequenti:8,set:[4,6,7],set_mask:4,set_schedul:6,setup:5,setuptool:5,sgd:6,shorter:[],should:6,shown:5,sinc:[],singl:6,size:[1,4,7],size_averag:3,small:5,smaller:4,sort:[],sos:0,sos_id:[0,4],sourc:1,sourcefield:0,space:[],space_token:[],span:[],special:[],specifi:4,split:[],src_list:[],src_max_len:[],src_seq:1,src_vocab:1,standard:4,start:[0,4],start_tim:[],state:[4,8],step:[0,4,6,8],steplr:6,store:[3,5,7,8],str:[3,4,7,8],string:[],structur:5,sub:[3,4],subdirectori:8,summari:[],supervis:[6,7],supervisedtrain:7,support:5,suspend:8,sym_eo:[0,4],sym_mask:4,sym_so:0,symbol:[0,4],system:5,tab:[],take:5,target:[1,3,4],target_vari:4,targetfield:0,teach:7,teacher:4,teacher_forcing_ratio:[4,7],techniqu:5,tensor:[3,4],term:3,termin:5,tesla:5,text:0,tgt_list:[],tgt_max_len:[],tgt_seq:1,tgt_vocab:1,than:[4,5],them:3,thi:[3,4,5],those:8,three:[],through:8,time:8,timespan:[],timespan_in_second:[],timestamp:5,token:[1,3,4],tokenize_func:[],top:4,topk_length:4,topk_sequ:4,torch:[3,4,5,6],torchtext:0,torcn:3,toy_revers:5,train:[1,3,6,7,8],train_path:5,trainer:[2,6,8],trainer_st:8,trainer_state_nam:8,transform:[4,5],translat:5,trim:[],txt:5,type:[1,3,4,7,8],uniformli:4,uniqu:[],unknown:[],updat:6,usabl:5,usag:5,use:[0,3,4,5],use_attent:4,used:[3,4,6],uses:6,using:[4,5,8],util:2,vagrant:5,vagrantfil:5,valu:[3,4,6],variabl:[0,3,4,8],variable_length:4,verifi:5,version:5,virtual:5,virtualenv:5,vocab:8,vocab_s:4,vocabulari:[4,8],volatil:4,websit:5,weight:[3,4],when:[3,4,6,8],where:4,whether:4,which:4,whose:4,within:[4,8],wmt:5,word:[],would:[4,7],wrapper:0,write:8,y_m_d_h_m_:8,you:5,your:[3,5],yyyy_mm_dd_hh_mm_ss:5},titles:["Dataset","Evaluator","PyTorch-Seq2seq: A sequence-to-sequence framework for PyTorch","Loss","Models","Introduction","Optim","Trainer","Util"],titleterms:{attent:4,basernn:4,checkpoint:[5,8],code:5,contribut:5,custom_tim:[],dataset:[0,5],decoderrnn:4,develop:5,encoderrnn:4,environ:5,evalu:1,field:0,framework:2,from:5,get:5,instal:5,introduct:5,loss:3,model:4,nllloss:3,optim:6,perplex:3,plai:5,predictor:1,prepar:5,prerequisit:5,pytorch:2,roadmap:5,seq2seq:[2,4],sequenc:2,sourc:5,start:5,style:5,supervised_train:7,toi:5,topkdecod:4,train:5,trainer:7,troubleshoot:5,util:8,vocabulari:[]}})
\ No newline at end of file
+Search.setIndex({docnames:["dataset","evaluator","index","loss","models","notes/intro","optim","trainer","util"],envversion:52,filenames:["dataset.rst","evaluator.rst","index.rst","loss.rst","models.rst","notes/intro.md","optim.rst","trainer.rst","util.rst"],objects:{"seq2seq.dataset":{fields:[0,0,0,"-"]},"seq2seq.dataset.fields":{SourceField:[0,1,1,""],TargetField:[0,1,1,""]},"seq2seq.dataset.fields.TargetField":{SYM_EOS:[0,2,1,""],SYM_SOS:[0,2,1,""],build_vocab:[0,3,1,""]},"seq2seq.evaluator":{evaluator:[1,0,0,"-"],predictor:[1,0,0,"-"]},"seq2seq.evaluator.evaluator":{Evaluator:[1,1,1,""]},"seq2seq.evaluator.evaluator.Evaluator":{evaluate:[1,3,1,""]},"seq2seq.evaluator.predictor":{Predictor:[1,1,1,""]},"seq2seq.evaluator.predictor.Predictor":{get_decoder_features:[1,3,1,""],predict:[1,3,1,""],predict_n:[1,3,1,""]},"seq2seq.loss":{loss:[3,0,0,"-"]},"seq2seq.loss.loss":{Loss:[3,1,1,""],NLLLoss:[3,1,1,""],Perplexity:[3,1,1,""]},"seq2seq.loss.loss.Loss":{eval_batch:[3,3,1,""],get_loss:[3,3,1,""],reset:[3,3,1,""]},"seq2seq.models":{DecoderRNN:[4,0,0,"-"],EncoderRNN:[4,0,0,"-"],TopKDecoder:[4,0,0,"-"],attention:[4,0,0,"-"],baseRNN:[4,0,0,"-"],seq2seq:[4,0,0,"-"]},"seq2seq.models.DecoderRNN":{DecoderRNN:[4,1,1,""]},"seq2seq.models.EncoderRNN":{EncoderRNN:[4,1,1,""]},"seq2seq.models.EncoderRNN.EncoderRNN":{forward:[4,3,1,""]},"seq2seq.models.TopKDecoder":{TopKDecoder:[4,1,1,""]},"seq2seq.models.TopKDecoder.TopKDecoder":{forward:[4,3,1,""]},"seq2seq.models.attention":{Attention:[4,1,1,""]},"seq2seq.models.attention.Attention":{set_mask:[4,3,1,""]},"seq2seq.models.baseRNN":{BaseRNN:[4,1,1,""]},"seq2seq.models.seq2seq":{Seq2seq:[4,1,1,""]},"seq2seq.optim":{optim:[6,0,0,"-"]},"seq2seq.optim.optim":{Optimizer:[6,1,1,""]},"seq2seq.optim.optim.Optimizer":{set_scheduler:[6,3,1,""],step:[6,3,1,""],update:[6,3,1,""]},"seq2seq.trainer":{supervised_trainer:[7,0,0,"-"]},"seq2seq.trainer.supervised_trainer":{SupervisedTrainer:[7,1,1,""]},"seq2seq.trainer.supervised_trainer.SupervisedTrainer":{train:[7,3,1,""]},"seq2seq.util":{checkpoint:[8,0,0,"-"]},"seq2seq.util.checkpoint":{Checkpoint:[8,1,1,""]},"seq2seq.util.checkpoint.Checkpoint":{CHECKPOINT_DIR_NAME:[8,2,1,""],INPUT_VOCAB_FILE:[8,2,1,""],MODEL_NAME:[8,2,1,""],OUTPUT_VOCAB_FILE:[8,2,1,""],TRAINER_STATE_NAME:[8,2,1,""],get_latest_checkpoint:[8,4,1,""],load:[8,4,1,""],path:[8,2,1,""],save:[8,3,1,""]}},objnames:{"0":["py","module","Python module"],"1":["py","class","Python class"],"2":["py","attribute","Python attribute"],"3":["py","method","Python method"],"4":["py","classmethod","Python class method"]},objtypes:{"0":"py:module","1":"py:class","2":"py:attribute","3":"py:method","4":"py:classmethod"},terms:{"class":[0,1,3,4,6,7,8],"default":[1,4,5,6,7],"float":[1,3,4,6,7],"function":[3,4,6],"import":5,"int":[1,3,4,6,7,8],"new":5,"return":[1,3,4,7,8],"true":[0,3,4,7],"try":5,"while":5,Adding:5,EOS:5,For:[0,3,5],IDs:4,The:[3,4,5,6,7,8],Used:4,_loss:3,about:[0,5],acc_loss:3,accumul:3,activ:5,adam:7,addit:4,after:[3,7],against:1,all:5,allow:[4,8],alpha:5,alreadi:5,ani:5,append:0,appli:4,applic:5,appreci:5,arbitrari:4,architectur:[4,5],arg:[0,4,8],argument:4,attend:4,attent:5,attn:4,averag:3,base:[3,4,5],batch:[1,3,4,7],batch_first:0,batch_siz:[1,4,7],beam:4,becom:4,been:8,being:[5,8],below:5,benchmark:5,bidirect:4,bool:[3,4,7],bug:5,build_vocab:0,calcul:3,call:[3,8],caller:6,can:3,caption:5,cell:4,checkout:5,checkpoint:7,checkpoint_dir_nam:8,checkpoint_everi:7,classmethod:8,clip:6,cluster:8,cnn:5,coco:5,collabor:5,com:0,command:5,commonli:3,complet:5,compon:5,conda:5,configur:4,constantli:5,contain:4,context:4,convers:5,convolut:5,copi:8,correspond:5,could:6,cpu:5,creat:5,criteria:6,criterion:3,ctrl:5,current:[5,6,7,8],data:[0,1,4,5,7,8],dataset:[1,2,7],decod:[4,5],decode_funct:4,decoder_hidden:4,decoder_output:4,decoder_rnn:4,defin:3,defulat:4,depend:[3,6],detail:[4,7],dev:[5,7],dev_data:7,dev_path:5,develop:6,dictionari:4,dim:4,dimens:4,directli:[3,4],directori:[5,7,8],disabl:6,discuss:5,disk:8,doc:3,docstr:5,document:5,drawn:4,dropout:4,dropout_p:4,dure:[4,8],each:[3,4],embed:4,encapsul:[3,6],encod:[4,5],encoder_hidden:4,encoder_output:4,encodr:4,end:[0,4],enter:5,eos:0,eos_id:[0,4],epoch:[6,7,8],especi:5,etc:5,eval_batch:3,evalu:[2,3,5],everi:4,evolv:5,exampl:[4,5,8],exist:8,expect:[3,4,5],experi:[5,7,8],experiment_dir:[5,8],experiment_path:8,exponenti:3,expt_dir:7,extens:5,facilit:5,fals:[4,7],fast:5,featur:[4,5],feedback:5,feel:5,field:[5,8],file:[5,8],fix:5,flag:4,flexibl:5,focu:5,folder:[5,7],follow:[4,5,8],forc:[0,4,7],format:8,forward:4,forward_rnn:4,framework:[4,5,7],free:5,frequent:5,from:[4,7,8],full:8,func:4,gener:[4,5],get:3,get_decoder_featur:1,get_latest_checkpoint:8,get_loss:3,github:[0,5],given:[1,3,4,6,7,8],goal:5,googl:5,gradient:6,gru:4,guid:5,had:5,has:[4,5,8],have:5,help:7,here:5,hidden:4,hidden_s:4,how:3,html:3,http:[0,3],imag:5,implement:[3,5],improv:5,includ:[5,6],include_length:0,incom:4,index:[0,3,4],indic:4,individu:3,infer:5,inferenc:3,inform:[0,3,4],initi:[4,8],input:[1,4,5,8],input_dropout_p:4,input_len:4,input_length:4,input_s:4,input_var:4,input_vari:4,input_vocab:[4,5,8],input_vocab_fil:8,instanti:6,integ:4,interfac:3,introduct:2,issu:5,item:5,its:5,job:8,just:1,k80:5,kei:4,key_attn_scor:4,key_input:4,key_length:4,key_sequ:4,keyword:4,kind:5,kwarg:[0,4],languag:[1,3,8],last:[4,8],later:8,latest:[5,7,8],layer:4,learn:[5,6],least:[5,8],length:4,less:5,librari:5,like:5,likelihood:3,linear:4,linear_out:4,list:[1,3,4],load:[0,5,7,8],local:8,log:3,log_softmax:4,logic:3,look:[4,5],loop:8,loss:[1,2,6,7],lr_schedul:6,lstm:4,machin:5,made:8,major:5,make:[1,7,8],manag:[0,8],mask:[3,4],master:3,match:4,max_grad_norm:[6,7],max_len:4,max_length:4,max_seq_length:4,maximum:4,mechan:4,messag:3,met:6,method:[3,8],mini:4,minut:5,model:[1,2,3,5,7,8],model_checkpoint:5,model_nam:8,modul:4,modular:5,more:[0,5],multi:4,multipl:3,must:4,n_layer:4,name:[3,8],necessari:6,need:5,neg:3,nllloss:[1,7],none:[1,3,4,7,8],norm:6,norm_term:3,normal:3,note:[2,4],num_direct:4,num_epoch:7,num_lay:4,number:[1,4,6,7,8],numpi:5,object:[1,4,6,7,8],onc:5,one:[1,3,4,8],onli:5,open:5,optim:[2,7,8],option:[1,3,4,5,6,7],org:3,organ:5,our:5,out:5,output:[3,4,5,8],output_len:4,output_vocab:[5,8],output_vocab_fil:8,overrid:3,overwritten:7,own:3,packag:[2,5,6],param:[6,8],paramet:[1,3,4,6,7,8],path:8,perform:[1,6],pip:5,pleas:[0,3,5],pre:[1,4],precondit:8,predict:[1,4,5],predict_n:1,prepend:0,preprocess:0,previous:8,print:5,print_everi:7,probabl:4,problem:5,proce:5,process:[0,4],project:5,prompt:5,propos:5,provid:[4,5,6],publish:5,python:5,pytorch:[0,3,5,7],qualiti:5,question:5,randn:4,random:4,random_se:7,rate:6,ratio:7,recommend:5,recurr:4,refer:[2,3,5],regard:3,relat:8,releas:5,report:5,repres:4,request:5,requir:5,reset:3,result:3,resum:[5,7,8],ret_dict:4,retain_output_prob:4,revers:5,rnn:4,rnn_cell:4,root:[5,8],run:[5,7,8],same:3,sampl:[4,5],save:[5,8],schedul:6,script:5,search:4,seen:8,sentenc:[0,4],seq2seq:[0,1,3,5,6,7,8],seq:1,seq_len:4,sequenc:[0,4,5],sequenti:8,set:[4,6,7],set_mask:4,set_schedul:6,setup:5,setuptool:5,sgd:6,should:[4,6],shown:5,singl:6,size:[1,4,7],size_averag:3,small:5,smaller:4,sos:0,sos_id:[0,4],sourc:1,sourcefield:0,specifi:4,src_seq:1,src_vocab:1,standard:4,start:[0,4],state:[4,8],step:[0,4,6,8],steplr:6,store:[3,5,7,8],str:[3,4,7,8],structur:5,sub:[3,4],subdirectori:8,supervis:[6,7],supervisedtrain:7,support:5,suspend:8,sym_eo:[0,4],sym_mask:4,sym_so:0,symbol:[0,4],system:5,take:5,target:[1,3,4],target_vari:4,targetfield:0,teach:7,teacher:4,teacher_forcing_ratio:[4,7],techniqu:5,tensor:[3,4],term:3,termin:5,tesla:5,text:0,tgt_seq:1,tgt_vocab:1,than:[4,5],them:3,thi:[3,4,5],those:8,through:8,time:8,timestamp:5,token:[1,3,4],top:4,topk_length:4,topk_sequ:4,torch:[3,4,5,6],torchtext:0,torcn:3,toy_revers:5,train:[1,3,4,6,7,8],train_path:5,trainer:[2,6,8],trainer_st:8,trainer_state_nam:8,transform:[4,5],translat:5,txt:5,type:[1,3,4,7,8],uniformli:4,updat:[4,6],update_embed:4,usabl:5,usag:5,use:[0,3,4,5],use_attent:4,used:[3,4,6],uses:6,using:[4,5,8],util:2,vagrant:5,vagrantfil:5,valu:[3,4,6],variabl:[0,3,4,8],variable_length:4,verifi:5,version:5,virtual:5,virtualenv:5,vocab:8,vocab_s:4,vocabulari:[4,8],websit:5,weight:[3,4],when:[3,4,6,8],where:4,whether:4,which:4,whose:4,within:[4,8],wmt:5,would:[4,7],wrapper:0,write:8,y_m_d_h_m_:8,you:5,your:[3,5],yyyy_mm_dd_hh_mm_ss:5},titles:["Dataset","Evaluator","PyTorch-Seq2seq: A sequence-to-sequence framework for PyTorch","Loss","Models","Introduction","Optim","Trainer","Util"],titleterms:{attent:4,basernn:4,checkpoint:[5,8],code:5,contribut:5,dataset:[0,5],decoderrnn:4,develop:5,encoderrnn:4,environ:5,evalu:1,field:0,framework:2,from:5,get:5,instal:5,introduct:5,loss:3,model:4,nllloss:3,optim:6,perplex:3,plai:5,predictor:1,prepar:5,prerequisit:5,pytorch:2,roadmap:5,seq2seq:[2,4],sequenc:2,sourc:5,start:5,style:5,supervised_train:7,toi:5,topkdecod:4,train:5,trainer:7,troubleshoot:5,util:8}})
\ No newline at end of file
diff --git a/docs/public/trainer.html b/docs/public/trainer.html
index 2cb6b86..d183b00 100644
--- a/docs/public/trainer.html
+++ b/docs/public/trainer.html
@@ -8,7 +8,7 @@
   
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Trainer &mdash; pytorch-seq2seq 0.1.5 documentation</title>
+  <title>Trainer &mdash; pytorch-seq2seq 0.1.6 documentation</title>
   
 
   
@@ -35,7 +35,7 @@
         <link rel="index" title="Index"
               href="genindex.html"/>
         <link rel="search" title="Search" href="search.html"/>
-    <link rel="top" title="pytorch-seq2seq 0.1.5 documentation" href="index.html"/>
+    <link rel="top" title="pytorch-seq2seq 0.1.6 documentation" href="index.html"/>
         <link rel="next" title="Models" href="models.html"/>
         <link rel="prev" title="Optim" href="optim.html"/> 
 
@@ -66,7 +66,7 @@
             
             
               <div class="version">
-                0.1.5
+                0.1.6
               </div>
             
           
@@ -183,11 +183,11 @@ <h1>Trainer<a class="headerlink" href="#trainer" title="Permalink to this headli
 <col class="field-body" />
 <tbody valign="top">
 <tr class="field-odd field"><th class="field-name">Parameters:</th><td class="field-body"><ul class="first last simple">
-<li><strong>expt_dir</strong> (<em>optional</em><em>, </em><a class="reference external" href="https://docs.python.org/2/library/functions.html#str" title="(in Python v2.7)"><em>str</em></a>) – experiment Directory to store details of the experiment,
+<li><strong>expt_dir</strong> (<em>optional</em><em>, </em><a class="reference external" href="https://docs.python.org/3/library/stdtypes.html#str" title="(in Python v3.6)"><em>str</em></a>) – experiment Directory to store details of the experiment,
 by default it makes a folder in the current directory to store the details (default: <cite>experiment</cite>).</li>
 <li><strong>loss</strong> (<a class="reference internal" href="loss.html#seq2seq.loss.loss.Loss" title="seq2seq.loss.loss.Loss"><em>seq2seq.loss.loss.Loss</em></a><em>, </em><em>optional</em>) – loss for training, (default: seq2seq.loss.NLLLoss)</li>
-<li><strong>batch_size</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#int" title="(in Python v2.7)"><em>int</em></a><em>, </em><em>optional</em>) – batch size for experiment, (default: 64)</li>
-<li><strong>checkpoint_every</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#int" title="(in Python v2.7)"><em>int</em></a><em>, </em><em>optional</em>) – number of epochs to checkpoint after, (default: 100)</li>
+<li><strong>batch_size</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.6)"><em>int</em></a><em>, </em><em>optional</em>) – batch size for experiment, (default: 64)</li>
+<li><strong>checkpoint_every</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.6)"><em>int</em></a><em>, </em><em>optional</em>) – number of batches to checkpoint after, (default: 100)</li>
 </ul>
 </td>
 </tr>
@@ -205,12 +205,12 @@ <h1>Trainer<a class="headerlink" href="#trainer" title="Permalink to this headli
 <li><strong>model</strong> (<em>seq2seq.models</em>) – model to run training on, if <cite>resume=True</cite>, it would be
 overwritten by the model loaded from the latest checkpoint.</li>
 <li><strong>data</strong> (<em>seq2seq.dataset.dataset.Dataset</em>) – dataset object to train on</li>
-<li><strong>num_epochs</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#int" title="(in Python v2.7)"><em>int</em></a><em>, </em><em>optional</em>) – number of epochs to run (default 5)</li>
-<li><strong>resume</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#bool" title="(in Python v2.7)"><em>bool</em></a><em>, </em><em>optional</em>) – resume training with the latest checkpoint, (default False)</li>
+<li><strong>num_epochs</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.6)"><em>int</em></a><em>, </em><em>optional</em>) – number of epochs to run (default 5)</li>
+<li><strong>resume</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#bool" title="(in Python v3.6)"><em>bool</em></a><em>, </em><em>optional</em>) – resume training with the latest checkpoint, (default False)</li>
 <li><strong>dev_data</strong> (<em>seq2seq.dataset.dataset.Dataset</em><em>, </em><em>optional</em>) – dev Dataset (default None)</li>
 <li><strong>optimizer</strong> (<em>seq2seq.optim.Optimizer</em><em>, </em><em>optional</em>) – optimizer for training
 (default: Optimizer(pytorch.optim.Adam, max_grad_norm=5))</li>
-<li><strong>teacher_forcing_ratio</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#float" title="(in Python v2.7)"><em>float</em></a><em>, </em><em>optional</em>) – teaching forcing ratio (default 0)</li>
+<li><strong>teacher_forcing_ratio</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.6)"><em>float</em></a><em>, </em><em>optional</em>) – teaching forcing ratio (default 0)</li>
 </ul>
 </td>
 </tr>
@@ -273,7 +273,7 @@ <h1>Trainer<a class="headerlink" href="#trainer" title="Permalink to this headli
     <script type="text/javascript">
         var DOCUMENTATION_OPTIONS = {
             URL_ROOT:'./',
-            VERSION:'0.1.5',
+            VERSION:'0.1.6',
             COLLAPSE_INDEX:false,
             FILE_SUFFIX:'.html',
             HAS_SOURCE:  true,
diff --git a/docs/public/util.html b/docs/public/util.html
index f4d014a..7d10188 100644
--- a/docs/public/util.html
+++ b/docs/public/util.html
@@ -8,7 +8,7 @@
   
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Util &mdash; pytorch-seq2seq 0.1.5 documentation</title>
+  <title>Util &mdash; pytorch-seq2seq 0.1.6 documentation</title>
   
 
   
@@ -35,7 +35,7 @@
         <link rel="index" title="Index"
               href="genindex.html"/>
         <link rel="search" title="Search" href="search.html"/>
-    <link rel="top" title="pytorch-seq2seq 0.1.5 documentation" href="index.html"/>
+    <link rel="top" title="pytorch-seq2seq 0.1.6 documentation" href="index.html"/>
         <link rel="next" title="Evaluator" href="evaluator.html"/>
         <link rel="prev" title="Dataset" href="dataset.html"/> 
 
@@ -66,7 +66,7 @@
             
             
               <div class="version">
-                0.1.5
+                0.1.6
               </div>
             
           
@@ -187,19 +187,19 @@ <h1>Util<a class="headerlink" href="#util" title="Permalink to this headline">¶
 <tr class="field-odd field"><th class="field-name">Parameters:</th><td class="field-body"><ul class="first simple">
 <li><strong>model</strong> (<a class="reference internal" href="models.html#module-seq2seq.models.seq2seq" title="seq2seq.models.seq2seq"><em>seq2seq</em></a>) – seq2seq model being trained</li>
 <li><strong>optimizer</strong> (<a class="reference internal" href="optim.html#seq2seq.optim.optim.Optimizer" title="seq2seq.optim.optim.Optimizer"><em>Optimizer</em></a>) – stores the state of the optimizer</li>
-<li><strong>epoch</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#int" title="(in Python v2.7)"><em>int</em></a>) – current epoch (an epoch is a loop through the full training data)</li>
-<li><strong>step</strong> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#int" title="(in Python v2.7)"><em>int</em></a>) – number of examples seen within the current epoch</li>
+<li><strong>epoch</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.6)"><em>int</em></a>) – current epoch (an epoch is a loop through the full training data)</li>
+<li><strong>step</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.6)"><em>int</em></a>) – number of examples seen within the current epoch</li>
 <li><strong>input_vocab</strong> (<em>Vocabulary</em>) – vocabulary for the input language</li>
 <li><strong>output_vocab</strong> (<em>Vocabulary</em>) – vocabulary for the output language</li>
 </ul>
 </td>
 </tr>
 <tr class="field-even field"><th class="field-name">Variables:</th><td class="field-body"><ul class="first last simple">
-<li><a class="reference internal" href="#seq2seq.util.checkpoint.Checkpoint.CHECKPOINT_DIR_NAME" title="seq2seq.util.checkpoint.Checkpoint.CHECKPOINT_DIR_NAME"><strong>CHECKPOINT_DIR_NAME</strong></a> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#str" title="(in Python v2.7)"><em>str</em></a>) – name of the checkpoint directory</li>
-<li><a class="reference internal" href="#seq2seq.util.checkpoint.Checkpoint.TRAINER_STATE_NAME" title="seq2seq.util.checkpoint.Checkpoint.TRAINER_STATE_NAME"><strong>TRAINER_STATE_NAME</strong></a> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#str" title="(in Python v2.7)"><em>str</em></a>) – name of the file storing trainer states</li>
-<li><a class="reference internal" href="#seq2seq.util.checkpoint.Checkpoint.MODEL_NAME" title="seq2seq.util.checkpoint.Checkpoint.MODEL_NAME"><strong>MODEL_NAME</strong></a> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#str" title="(in Python v2.7)"><em>str</em></a>) – name of the file storing model</li>
-<li><a class="reference internal" href="#seq2seq.util.checkpoint.Checkpoint.INPUT_VOCAB_FILE" title="seq2seq.util.checkpoint.Checkpoint.INPUT_VOCAB_FILE"><strong>INPUT_VOCAB_FILE</strong></a> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#str" title="(in Python v2.7)"><em>str</em></a>) – name of the input vocab file</li>
-<li><a class="reference internal" href="#seq2seq.util.checkpoint.Checkpoint.OUTPUT_VOCAB_FILE" title="seq2seq.util.checkpoint.Checkpoint.OUTPUT_VOCAB_FILE"><strong>OUTPUT_VOCAB_FILE</strong></a> (<a class="reference external" href="https://docs.python.org/2/library/functions.html#str" title="(in Python v2.7)"><em>str</em></a>) – name of the output vocab file</li>
+<li><a class="reference internal" href="#seq2seq.util.checkpoint.Checkpoint.CHECKPOINT_DIR_NAME" title="seq2seq.util.checkpoint.Checkpoint.CHECKPOINT_DIR_NAME"><strong>CHECKPOINT_DIR_NAME</strong></a> (<a class="reference external" href="https://docs.python.org/3/library/stdtypes.html#str" title="(in Python v3.6)"><em>str</em></a>) – name of the checkpoint directory</li>
+<li><a class="reference internal" href="#seq2seq.util.checkpoint.Checkpoint.TRAINER_STATE_NAME" title="seq2seq.util.checkpoint.Checkpoint.TRAINER_STATE_NAME"><strong>TRAINER_STATE_NAME</strong></a> (<a class="reference external" href="https://docs.python.org/3/library/stdtypes.html#str" title="(in Python v3.6)"><em>str</em></a>) – name of the file storing trainer states</li>
+<li><a class="reference internal" href="#seq2seq.util.checkpoint.Checkpoint.MODEL_NAME" title="seq2seq.util.checkpoint.Checkpoint.MODEL_NAME"><strong>MODEL_NAME</strong></a> (<a class="reference external" href="https://docs.python.org/3/library/stdtypes.html#str" title="(in Python v3.6)"><em>str</em></a>) – name of the file storing model</li>
+<li><a class="reference internal" href="#seq2seq.util.checkpoint.Checkpoint.INPUT_VOCAB_FILE" title="seq2seq.util.checkpoint.Checkpoint.INPUT_VOCAB_FILE"><strong>INPUT_VOCAB_FILE</strong></a> (<a class="reference external" href="https://docs.python.org/3/library/stdtypes.html#str" title="(in Python v3.6)"><em>str</em></a>) – name of the input vocab file</li>
+<li><a class="reference internal" href="#seq2seq.util.checkpoint.Checkpoint.OUTPUT_VOCAB_FILE" title="seq2seq.util.checkpoint.Checkpoint.OUTPUT_VOCAB_FILE"><strong>OUTPUT_VOCAB_FILE</strong></a> (<a class="reference external" href="https://docs.python.org/3/library/stdtypes.html#str" title="(in Python v3.6)"><em>str</em></a>) – name of the output vocab file</li>
 </ul>
 </td>
 </tr>
@@ -243,7 +243,7 @@ <h1>Util<a class="headerlink" href="#util" title="Permalink to this headline">¶
 <tbody valign="top">
 <tr class="field-odd field"><th class="field-name">Returns:</th><td class="field-body">path to the last saved checkpoint’s subdirectory</td>
 </tr>
-<tr class="field-even field"><th class="field-name">Return type:</th><td class="field-body"><a class="reference external" href="https://docs.python.org/2/library/functions.html#str" title="(in Python v2.7)">str</a></td>
+<tr class="field-even field"><th class="field-name">Return type:</th><td class="field-body"><a class="reference external" href="https://docs.python.org/3/library/stdtypes.html#str" title="(in Python v3.6)">str</a></td>
 </tr>
 </tbody>
 </table>
@@ -285,7 +285,7 @@ <h1>Util<a class="headerlink" href="#util" title="Permalink to this headline">¶
 <tbody valign="top">
 <tr class="field-odd field"><th class="field-name">Returns:</th><td class="field-body">path to the saved checkpoint subdirectory</td>
 </tr>
-<tr class="field-even field"><th class="field-name">Return type:</th><td class="field-body"><a class="reference external" href="https://docs.python.org/2/library/functions.html#str" title="(in Python v2.7)">str</a></td>
+<tr class="field-even field"><th class="field-name">Return type:</th><td class="field-body"><a class="reference external" href="https://docs.python.org/3/library/stdtypes.html#str" title="(in Python v3.6)">str</a></td>
 </tr>
 </tbody>
 </table>
@@ -340,7 +340,7 @@ <h1>Util<a class="headerlink" href="#util" title="Permalink to this headline">¶
     <script type="text/javascript">
         var DOCUMENTATION_OPTIONS = {
             URL_ROOT:'./',
-            VERSION:'0.1.5',
+            VERSION:'0.1.6',
             COLLAPSE_INDEX:false,
             FILE_SUFFIX:'.html',
             HAS_SOURCE:  true,
diff --git a/docs/source/conf.py b/docs/source/conf.py
index e8079a2..50ddd90 100644
--- a/docs/source/conf.py
+++ b/docs/source/conf.py
@@ -72,9 +72,9 @@
 # built documents.
 #
 # The short X.Y version.
-version = u'0.1.5'
+version = u'0.1.6'
 # The full version, including alpha/beta/rc tags.
-release = u'0.1.5'
+release = u'0.1.6'
 
 # The language for content autogenerated by Sphinx. Refer to documentation
 # for a list of supported languages.
diff --git a/requirements.txt b/requirements.txt
index d0915c1..7e93b1c 100644
--- a/requirements.txt
+++ b/requirements.txt
@@ -1,3 +1,4 @@
+torch
 numpy
 dill
 tqdm
diff --git a/seq2seq/evaluator/evaluator.py b/seq2seq/evaluator/evaluator.py
index dd5566d..504539d 100644
--- a/seq2seq/evaluator/evaluator.py
+++ b/seq2seq/evaluator/evaluator.py
@@ -43,22 +43,23 @@ def evaluate(self, model, data):
         tgt_vocab = data.fields[seq2seq.tgt_field_name].vocab
         pad = tgt_vocab.stoi[data.fields[seq2seq.tgt_field_name].pad_token]
 
-        for batch in batch_iterator:
-            input_variables, input_lengths  = getattr(batch, seq2seq.src_field_name)
-            target_variables = getattr(batch, seq2seq.tgt_field_name)
-
-            decoder_outputs, decoder_hidden, other = model(input_variables, input_lengths.tolist(), target_variables)
-
-            # Evaluation
-            seqlist = other['sequence']
-            for step, step_output in enumerate(decoder_outputs):
-                target = target_variables[:, step + 1]
-                loss.eval_batch(step_output.view(target_variables.size(0), -1), target)
-
-                non_padding = target.ne(pad)
-                correct = seqlist[step].view(-1).eq(target).masked_select(non_padding).sum().data[0]
-                match += correct
-                total += non_padding.sum().data[0]
+        with torch.no_grad():
+            for batch in batch_iterator:
+                input_variables, input_lengths  = getattr(batch, seq2seq.src_field_name)
+                target_variables = getattr(batch, seq2seq.tgt_field_name)
+
+                decoder_outputs, decoder_hidden, other = model(input_variables, input_lengths.tolist(), target_variables)
+
+                # Evaluation
+                seqlist = other['sequence']
+                for step, step_output in enumerate(decoder_outputs):
+                    target = target_variables[:, step + 1]
+                    loss.eval_batch(step_output.view(target_variables.size(0), -1), target)
+
+                    non_padding = target.ne(pad)
+                    correct = seqlist[step].view(-1).eq(target).masked_select(non_padding).sum().item()
+                    match += correct
+                    total += non_padding.sum().item()
 
         if total == 0:
             accuracy = float('nan')
diff --git a/seq2seq/evaluator/predictor.py b/seq2seq/evaluator/predictor.py
index e521868..56b1a91 100644
--- a/seq2seq/evaluator/predictor.py
+++ b/seq2seq/evaluator/predictor.py
@@ -1,6 +1,7 @@
 import torch
 from torch.autograd import Variable
 
+
 class Predictor(object):
 
     def __init__(self, model, src_vocab, tgt_vocab):
@@ -20,6 +21,15 @@ def __init__(self, model, src_vocab, tgt_vocab):
         self.src_vocab = src_vocab
         self.tgt_vocab = tgt_vocab
 
+    def get_decoder_features(self, src_seq):
+        src_id_seq = torch.LongTensor([self.src_vocab.stoi[tok] for tok in src_seq]).view(1, -1)
+        if torch.cuda.is_available():
+            src_id_seq = src_id_seq.cuda()
+
+        with torch.no_grad():
+            softmax_list, _, other = self.model(src_id_seq, [len(src_seq)])
+
+        return other
 
     def predict(self, src_seq):
         """ Make prediction given `src_seq` as input.
@@ -31,14 +41,33 @@ def predict(self, src_seq):
             tgt_seq (list): list of tokens in target language as predicted
             by the pre-trained model
         """
-        src_id_seq = Variable(torch.LongTensor([self.src_vocab.stoi[tok] for tok in src_seq]),
-                              volatile=True).view(1, -1)
-        if torch.cuda.is_available():
-            src_id_seq = src_id_seq.cuda()
+        other = self.get_decoder_features(src_seq)
 
-        softmax_list, _, other = self.model(src_id_seq, [len(src_seq)])
         length = other['length'][0]
 
         tgt_id_seq = [other['sequence'][di][0].data[0] for di in range(length)]
         tgt_seq = [self.tgt_vocab.itos[tok] for tok in tgt_id_seq]
         return tgt_seq
+
+    def predict_n(self, src_seq, n=1):
+        """ Make 'n' predictions given `src_seq` as input.
+
+        Args:
+            src_seq (list): list of tokens in source language
+            n (int): number of predicted seqs to return. If None,
+                     it will return just one seq.
+
+        Returns:
+            tgt_seq (list): list of tokens in target language as predicted
+                            by the pre-trained model
+        """
+        other = self.get_decoder_features(src_seq)
+
+        result = []
+        for x in range(0, int(n)):
+            length = other['topk_length'][0][x]
+            tgt_id_seq = [other['topk_sequence'][di][0, x, 0].data[0] for di in range(length)]
+            tgt_seq = [self.tgt_vocab.itos[tok] for tok in tgt_id_seq]
+            result.append(tgt_seq)
+
+        return result
diff --git a/seq2seq/loss/loss.py b/seq2seq/loss/loss.py
index 0d2e05b..431b4d8 100644
--- a/seq2seq/loss/loss.py
+++ b/seq2seq/loss/loss.py
@@ -107,7 +107,7 @@ def get_loss(self):
         if isinstance(self.acc_loss, int):
             return 0
         # total loss for all batches
-        loss = self.acc_loss.data[0]
+        loss = self.acc_loss.data.item()
         if self.size_average:
             # average loss per batch
             loss /= self.norm_term
@@ -143,7 +143,7 @@ def eval_batch(self, outputs, target):
 
     def get_loss(self):
         nll = super(Perplexity, self).get_loss()
-        nll /= self.norm_term
+        nll /= self.norm_term.item()
         if nll > Perplexity._MAX_EXP:
             print("WARNING: Loss exceeded maximum value, capping to e^100")
             return math.exp(Perplexity._MAX_EXP)
diff --git a/seq2seq/models/DecoderRNN.py b/seq2seq/models/DecoderRNN.py
index 9cc7644..dcf1ef3 100644
--- a/seq2seq/models/DecoderRNN.py
+++ b/seq2seq/models/DecoderRNN.py
@@ -102,7 +102,7 @@ def forward_step(self, input_var, hidden, encoder_outputs, function):
         if self.use_attention:
             output, attn = self.attention(output, encoder_outputs)
 
-        predicted_softmax = function(self.out(output.contiguous().view(-1, self.hidden_size))).view(batch_size, output_size, -1)
+        predicted_softmax = function(self.out(output.contiguous().view(-1, self.hidden_size)), dim=1).view(batch_size, output_size, -1)
         return predicted_softmax, hidden, attn
 
     def forward(self, inputs=None, encoder_hidden=None, encoder_outputs=None,
@@ -202,8 +202,7 @@ def _validate_args(self, inputs, encoder_hidden, encoder_outputs, function, teac
         if inputs is None:
             if teacher_forcing_ratio > 0:
                 raise ValueError("Teacher forcing has to be disabled (set 0) when no inputs is provided.")
-            inputs = Variable(torch.LongTensor([self.sos_id] * batch_size),
-                                    volatile=True).view(batch_size, 1)
+            inputs = torch.LongTensor([self.sos_id] * batch_size).view(batch_size, 1)
             if torch.cuda.is_available():
                 inputs = inputs.cuda()
             max_length = self.max_length
diff --git a/seq2seq/models/EncoderRNN.py b/seq2seq/models/EncoderRNN.py
index 94fec10..855cc17 100644
--- a/seq2seq/models/EncoderRNN.py
+++ b/seq2seq/models/EncoderRNN.py
@@ -16,12 +16,16 @@ class EncoderRNN(BaseRNN):
         bidirectional (bool, optional): if True, becomes a bidirectional encodr (defulat False)
         rnn_cell (str, optional): type of RNN cell (default: gru)
         variable_lengths (bool, optional): if use variable length RNN (default: False)
+        embedding (torch.Tensor, optional): Pre-trained embedding.  The size of the tensor has to match
+            the size of the embedding parameter: (vocab_size, hidden_size).  The embedding layer would be initialized
+            with the tensor if provided (default: None).
+        update_embedding (bool, optional): If the embedding should be updated during training (default: False).
 
     Inputs: inputs, input_lengths
         - **inputs**: list of sequences, whose length is the batch size and within which each sequence is a list of token IDs.
         - **input_lengths** (list of int, optional): list that contains the lengths of sequences
             in the mini-batch, it must be provided when using variable length RNN (default: `None`)
-            
+
     Outputs: output, hidden
         - **output** (batch, seq_len, hidden_size): tensor containing the encoded features of the input sequence
         - **hidden** (num_layers * num_directions, batch, hidden_size): tensor containing the features in the hidden state `h`
@@ -34,13 +38,17 @@ class EncoderRNN(BaseRNN):
     """
 
     def __init__(self, vocab_size, max_len, hidden_size,
-            input_dropout_p=0, dropout_p=0,
-            n_layers=1, bidirectional=False, rnn_cell='gru', variable_lengths=False):
+                 input_dropout_p=0, dropout_p=0,
+                 n_layers=1, bidirectional=False, rnn_cell='gru', variable_lengths=False,
+                 embedding=None, update_embedding=True):
         super(EncoderRNN, self).__init__(vocab_size, max_len, hidden_size,
                 input_dropout_p, dropout_p, n_layers, rnn_cell)
 
         self.variable_lengths = variable_lengths
         self.embedding = nn.Embedding(vocab_size, hidden_size)
+        if embedding is not None:
+            self.embedding.weight = nn.Parameter(embedding)
+        self.embedding.weight.requires_grad = update_embedding
         self.rnn = self.rnn_cell(hidden_size, hidden_size, n_layers,
                                  batch_first=True, bidirectional=bidirectional, dropout=dropout_p)
 
diff --git a/seq2seq/models/TopKDecoder.py b/seq2seq/models/TopKDecoder.py
index 038e9a0..2a2d550 100644
--- a/seq2seq/models/TopKDecoder.py
+++ b/seq2seq/models/TopKDecoder.py
@@ -312,7 +312,7 @@ def _backtrack(self, nw_output, nw_hidden, predecessors, symbols, scores, b, hid
         # the order (very unlikely)
         s, re_sorted_idx = s.topk(self.k)
         for b_idx in range(b):
-            l[b_idx] = [l[b_idx][k_idx.data[0]] for k_idx in re_sorted_idx[b_idx,:]]
+            l[b_idx] = [l[b_idx][k_idx.item()] for k_idx in re_sorted_idx[b_idx,:]]
 
         re_sorted_idx = (re_sorted_idx + self.pos_index.expand_as(re_sorted_idx)).view(b * self.k)
 
diff --git a/seq2seq/models/attention.py b/seq2seq/models/attention.py
index 0f06916..f6898a8 100644
--- a/seq2seq/models/attention.py
+++ b/seq2seq/models/attention.py
@@ -59,7 +59,7 @@ def forward(self, output, context):
         attn = torch.bmm(output, context.transpose(1, 2))
         if self.mask is not None:
             attn.data.masked_fill_(self.mask, -float('inf'))
-        attn = F.softmax(attn.view(-1, input_size)).view(batch_size, -1, input_size)
+        attn = F.softmax(attn.view(-1, input_size), dim=1).view(batch_size, -1, input_size)
 
         # (batch, out_len, in_len) * (batch, in_len, dim) -> (batch, out_len, dim)
         mix = torch.bmm(attn, context)
diff --git a/seq2seq/models/seq2seq.py b/seq2seq/models/seq2seq.py
index c0481b7..cde5dfe 100644
--- a/seq2seq/models/seq2seq.py
+++ b/seq2seq/models/seq2seq.py
@@ -10,7 +10,7 @@ class Seq2seq(nn.Module):
         decoder (DecoderRNN): object of DecoderRNN
         decode_function (func, optional): function to generate symbols from output hidden states (default: F.log_softmax)
 
-    Inputs: input_variable, input_lengths, target_variable, teacher_forcing_ratio, volatile
+    Inputs: input_variable, input_lengths, target_variable, teacher_forcing_ratio
         - **input_variable** (list, option): list of sequences, whose length is the batch size and within which
           each sequence is a list of token IDs. This information is forwarded to the encoder.
         - **input_lengths** (list of int, optional): A list that contains the lengths of sequences
diff --git a/seq2seq/optim/optim.py b/seq2seq/optim/optim.py
index cc3bd47..f89fd52 100644
--- a/seq2seq/optim/optim.py
+++ b/seq2seq/optim/optim.py
@@ -33,7 +33,7 @@ def step(self):
         """ Performs a single optimization step, including gradient norm clipping if necessary. """
         if self.max_grad_norm > 0:
             params = itertools.chain.from_iterable([group['params'] for group in self.optimizer.param_groups])
-            torch.nn.utils.clip_grad_norm(params, self.max_grad_norm)
+            torch.nn.utils.clip_grad_norm_(params, self.max_grad_norm)
         self.optimizer.step()
 
     def update(self, loss, epoch):
diff --git a/seq2seq/trainer/supervised_trainer.py b/seq2seq/trainer/supervised_trainer.py
index 68c2711..6745ce0 100644
--- a/seq2seq/trainer/supervised_trainer.py
+++ b/seq2seq/trainer/supervised_trainer.py
@@ -23,7 +23,7 @@ class SupervisedTrainer(object):
             by default it makes a folder in the current directory to store the details (default: `experiment`).
         loss (seq2seq.loss.loss.Loss, optional): loss for training, (default: seq2seq.loss.NLLLoss)
         batch_size (int, optional): batch size for experiment, (default: 64)
-        checkpoint_every (int, optional): number of epochs to checkpoint after, (default: 100)
+        checkpoint_every (int, optional): number of batches to checkpoint after, (default: 100)
     """
     def __init__(self, expt_dir='experiment', loss=NLLLoss(), batch_size=64,
                  random_seed=None,
diff --git a/setup.py b/setup.py
index 9fd2470..ca583f5 100644
--- a/setup.py
+++ b/setup.py
@@ -15,7 +15,7 @@
     # Versions should comply with PEP440.  For a discussion on single-sourcing
     # the version across setup.py and the project code, see
     # https://packaging.python.org/en/latest/single_source_version.html
-    version='0.1.5',
+    version='0.1.6',
 
     description='A framework for sequence-to-sequence (seq2seq) models implemented in PyTorch.',
     long_description=long_description,
diff --git a/tests/test_encoder_rnn.py b/tests/test_encoder_rnn.py
index 052b578..0cb0e64 100644
--- a/tests/test_encoder_rnn.py
+++ b/tests/test_encoder_rnn.py
@@ -58,3 +58,12 @@ def test_dropout_WITH_NON_ZERO_PROB(self):
                 equal = False
                 break
         self.assertFalse(equal)
+
+    def test_pretrained_embedding(self):
+        hidden_size = 16
+        pretrained_embedding = torch.randn(self.vocab_size, hidden_size)
+        rnn = EncoderRNN(self.vocab_size, 50, hidden_size,
+                         embedding=pretrained_embedding,
+                         update_embedding=False)
+        self.assertTrue(torch.equal(pretrained_embedding, rnn.embedding.weight.data))
+        self.assertFalse(rnn.embedding.weight.requires_grad)
diff --git a/tests/test_loss_loss.py b/tests/test_loss_loss.py
index aec2853..e8c0499 100644
--- a/tests/test_loss_loss.py
+++ b/tests/test_loss_loss.py
@@ -16,7 +16,7 @@ def setUpClass(cls):
         batch_size = 5
         num_batch = 10
         cls.num_batch = num_batch
-        cls.outputs = [F.softmax(Variable(torch.randn(batch_size, num_class)))
+        cls.outputs = [F.softmax(Variable(torch.randn(batch_size, num_class)), dim=1)
                    for _ in range(num_batch)]
         cls.targets = [Variable(torch.LongTensor([random.randint(0, num_class - 1)
                                               for _ in range(batch_size)]))
@@ -54,7 +54,7 @@ def test_nllloss(self):
         loss_val = loss.get_loss()
         pytorch_loss /= self.num_batch
 
-        self.assertAlmostEqual(loss_val, pytorch_loss.data[0])
+        self.assertAlmostEqual(loss_val, pytorch_loss.item())
 
     def test_nllloss_WITH_OUT_SIZE_AVERAGE(self):
         loss = NLLLoss(size_average=False)
@@ -66,7 +66,7 @@ def test_nllloss_WITH_OUT_SIZE_AVERAGE(self):
 
         loss_val = loss.get_loss()
 
-        self.assertAlmostEqual(loss_val, pytorch_loss.data[0])
+        self.assertAlmostEqual(loss_val, pytorch_loss.item())
 
     def test_perplexity_init(self):
         loss = Perplexity()
diff --git a/tests/test_optim_optim.py b/tests/test_optim_optim.py
index bb515d1..30c6674 100644
--- a/tests/test_optim_optim.py
+++ b/tests/test_optim_optim.py
@@ -26,7 +26,7 @@ def test_update(self):
         optimizer.update(10, 1)
         self.assertEquals(optimizer.optimizer.param_groups[0]['lr'], 0.1)
 
-    @mock.patch("torch.nn.utils.clip_grad_norm")
+    @mock.patch("torch.nn.utils.clip_grad_norm_")
     def test_step(self, mock_clip_grad_norm):
         params = [torch.nn.Parameter(torch.randn(2,3,4))]
         optim = Optimizer(torch.optim.Adam(params),