diff --git a/docs/_build/html/.doctrees/api/blocker.doctree b/docs/_build/html/.doctrees/api/blocker.doctree
new file mode 100644
index 0000000..28de037
Binary files /dev/null and b/docs/_build/html/.doctrees/api/blocker.doctree differ
diff --git a/docs/_build/html/.doctrees/api/blocking_result.doctree b/docs/_build/html/.doctrees/api/blocking_result.doctree
new file mode 100644
index 0000000..23abe16
Binary files /dev/null and b/docs/_build/html/.doctrees/api/blocking_result.doctree differ
diff --git a/docs/_build/html/.doctrees/api/index.doctree b/docs/_build/html/.doctrees/api/index.doctree
new file mode 100644
index 0000000..577395e
Binary files /dev/null and b/docs/_build/html/.doctrees/api/index.doctree differ
diff --git a/docs/_build/html/.doctrees/changelog.doctree b/docs/_build/html/.doctrees/changelog.doctree
new file mode 100644
index 0000000..68be04f
Binary files /dev/null and b/docs/_build/html/.doctrees/changelog.doctree differ
diff --git a/docs/_build/html/.doctrees/environment.pickle b/docs/_build/html/.doctrees/environment.pickle
new file mode 100644
index 0000000..07cff67
Binary files /dev/null and b/docs/_build/html/.doctrees/environment.pickle differ
diff --git a/docs/_build/html/.doctrees/examples/deduplication.doctree b/docs/_build/html/.doctrees/examples/deduplication.doctree
new file mode 100644
index 0000000..e8baca9
Binary files /dev/null and b/docs/_build/html/.doctrees/examples/deduplication.doctree differ
diff --git a/docs/_build/html/.doctrees/examples/deduplication_2.doctree b/docs/_build/html/.doctrees/examples/deduplication_2.doctree
new file mode 100644
index 0000000..b1386d9
Binary files /dev/null and b/docs/_build/html/.doctrees/examples/deduplication_2.doctree differ
diff --git a/docs/_build/html/.doctrees/examples/index.doctree b/docs/_build/html/.doctrees/examples/index.doctree
new file mode 100644
index 0000000..7cf8194
Binary files /dev/null and b/docs/_build/html/.doctrees/examples/index.doctree differ
diff --git a/docs/_build/html/.doctrees/examples/record_linkage.doctree b/docs/_build/html/.doctrees/examples/record_linkage.doctree
new file mode 100644
index 0000000..2e1d926
Binary files /dev/null and b/docs/_build/html/.doctrees/examples/record_linkage.doctree differ
diff --git a/docs/_build/html/.doctrees/getting_started/index.doctree b/docs/_build/html/.doctrees/getting_started/index.doctree
new file mode 100644
index 0000000..67c5719
Binary files /dev/null and b/docs/_build/html/.doctrees/getting_started/index.doctree differ
diff --git a/docs/_build/html/.doctrees/getting_started/installation.doctree b/docs/_build/html/.doctrees/getting_started/installation.doctree
new file mode 100644
index 0000000..2501bf7
Binary files /dev/null and b/docs/_build/html/.doctrees/getting_started/installation.doctree differ
diff --git a/docs/_build/html/.doctrees/getting_started/quickstart.doctree b/docs/_build/html/.doctrees/getting_started/quickstart.doctree
new file mode 100644
index 0000000..9821c6f
Binary files /dev/null and b/docs/_build/html/.doctrees/getting_started/quickstart.doctree differ
diff --git a/docs/_build/html/.doctrees/index.doctree b/docs/_build/html/.doctrees/index.doctree
new file mode 100644
index 0000000..81f8619
Binary files /dev/null and b/docs/_build/html/.doctrees/index.doctree differ
diff --git a/docs/_build/html/.doctrees/user_guide/basic_operations.doctree b/docs/_build/html/.doctrees/user_guide/basic_operations.doctree
new file mode 100644
index 0000000..b0b51f9
Binary files /dev/null and b/docs/_build/html/.doctrees/user_guide/basic_operations.doctree differ
diff --git a/docs/_build/html/.doctrees/user_guide/configuration_tuning.doctree b/docs/_build/html/.doctrees/user_guide/configuration_tuning.doctree
new file mode 100644
index 0000000..d822dda
Binary files /dev/null and b/docs/_build/html/.doctrees/user_guide/configuration_tuning.doctree differ
diff --git a/docs/_build/html/.doctrees/user_guide/core_concepts.doctree b/docs/_build/html/.doctrees/user_guide/core_concepts.doctree
new file mode 100644
index 0000000..226dad4
Binary files /dev/null and b/docs/_build/html/.doctrees/user_guide/core_concepts.doctree differ
diff --git a/docs/_build/html/.doctrees/user_guide/evaluation_metrics.doctree b/docs/_build/html/.doctrees/user_guide/evaluation_metrics.doctree
new file mode 100644
index 0000000..fb56d6e
Binary files /dev/null and b/docs/_build/html/.doctrees/user_guide/evaluation_metrics.doctree differ
diff --git a/docs/_build/html/.doctrees/user_guide/index.doctree b/docs/_build/html/.doctrees/user_guide/index.doctree
new file mode 100644
index 0000000..8b91cc3
Binary files /dev/null and b/docs/_build/html/.doctrees/user_guide/index.doctree differ
diff --git a/docs/_build/html/.doctrees/user_guide/input_data_handling.doctree b/docs/_build/html/.doctrees/user_guide/input_data_handling.doctree
new file mode 100644
index 0000000..74eef27
Binary files /dev/null and b/docs/_build/html/.doctrees/user_guide/input_data_handling.doctree differ
diff --git a/docs/_build/html/_modules/blockingpy/blocker.html b/docs/_build/html/_modules/blockingpy/blocker.html
index a061e8d..90500a2 100644
--- a/docs/_build/html/_modules/blockingpy/blocker.html
+++ b/docs/_build/html/_modules/blockingpy/blocker.html
@@ -234,6 +234,9 @@ <h1>Source code for blockingpy.blocker</h1><div class="highlight"><pre>
 <span class="sd">        2. Sparse matrices (scipy.sparse.csr_matrix) as a Document-Term Matrix (DTM)</span>
 <span class="sd">        3. Dense matrices (numpy.ndarray) as a Document-Term Matrix (DTM)</span>
 
+<span class="sd">        For evaluation of larger datasets, we recommend using the separate eval() method</span>
+<span class="sd">        since it allows you to set the batch size for evaluation.</span>
+
 <span class="sd">        For text data, additional preprocessing is performed using</span>
 <span class="sd">        the parameters in control_txt.</span>
 
@@ -278,9 +281,11 @@ <h1>Source code for blockingpy.blocker</h1><div class="highlight"><pre>
         <span class="k">if</span> <span class="n">y</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
             <span class="n">deduplication</span> <span class="o">=</span> <span class="kc">False</span>
             <span class="n">k</span> <span class="o">=</span> <span class="mi">1</span>
+            <span class="n">len_y</span> <span class="o">=</span> <span class="n">y</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
         <span class="k">else</span><span class="p">:</span>
             <span class="n">y</span> <span class="o">=</span> <span class="n">x</span>
             <span class="n">k</span> <span class="o">=</span> <span class="mi">2</span>
+            <span class="n">len_y</span> <span class="o">=</span> <span class="kc">None</span>
 
         <span class="n">InputValidator</span><span class="o">.</span><span class="n">validate_true_blocks</span><span class="p">(</span><span class="n">true_blocks</span><span class="p">,</span> <span class="n">deduplication</span><span class="p">)</span>
 
@@ -332,7 +337,7 @@ <h1>Source code for blockingpy.blocker</h1><div class="highlight"><pre>
             <span class="n">verbose</span><span class="o">=</span><span class="kc">True</span> <span class="k">if</span> <span class="n">verbose</span> <span class="ow">in</span> <span class="p">{</span><span class="mi">2</span><span class="p">,</span> <span class="mi">3</span><span class="p">}</span> <span class="k">else</span> <span class="kc">False</span><span class="p">,</span>
             <span class="n">controls</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">control_ann</span><span class="p">,</span>
         <span class="p">)</span>
-        <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s2">&quot;===== creating graph =====</span><span class="se">\n</span><span class="s2">&quot;</span><span class="p">)</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s2">&quot;===== creating graph =====&quot;</span><span class="p">)</span>
 
         <span class="k">if</span> <span class="n">deduplication</span><span class="p">:</span>
             <span class="n">x_df</span><span class="p">[</span><span class="s2">&quot;pair&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">x_df</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span><span class="k">lambda</span> <span class="n">row</span><span class="p">:</span> <span class="nb">tuple</span><span class="p">(</span><span class="nb">sorted</span><span class="p">([</span><span class="n">row</span><span class="p">[</span><span class="s2">&quot;y&quot;</span><span class="p">],</span> <span class="n">row</span><span class="p">[</span><span class="s2">&quot;x&quot;</span><span class="p">]])),</span> <span class="n">axis</span><span class="o">=</span><span class="mi">1</span><span class="p">)</span>
@@ -345,7 +350,6 @@ <h1>Source code for blockingpy.blocker</h1><div class="highlight"><pre>
             <span class="n">x_df</span><span class="p">[</span><span class="s2">&quot;query_g&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;q&quot;</span> <span class="o">+</span> <span class="n">x_df</span><span class="p">[</span><span class="s2">&quot;y&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="nb">str</span><span class="p">)</span>
             <span class="n">x_df</span><span class="p">[</span><span class="s2">&quot;index_g&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;i&quot;</span> <span class="o">+</span> <span class="n">x_df</span><span class="p">[</span><span class="s2">&quot;x&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="nb">str</span><span class="p">)</span>
 
-        <span class="c1"># IGRAPH PART IN R</span>
         <span class="n">x_gr</span> <span class="o">=</span> <span class="n">nx</span><span class="o">.</span><span class="n">from_pandas_edgelist</span><span class="p">(</span>
             <span class="n">x_df</span><span class="p">,</span> <span class="n">source</span><span class="o">=</span><span class="s2">&quot;query_g&quot;</span><span class="p">,</span> <span class="n">target</span><span class="o">=</span><span class="s2">&quot;index_g&quot;</span><span class="p">,</span> <span class="n">create_using</span><span class="o">=</span><span class="n">nx</span><span class="o">.</span><span class="n">Graph</span><span class="p">()</span>
         <span class="p">)</span>
@@ -367,81 +371,71 @@ <h1>Source code for blockingpy.blocker</h1><div class="highlight"><pre>
                 <span class="n">sorted_dict</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="n">x_block</span><span class="p">[</span><span class="n">key</span><span class="p">]</span>
 
         <span class="n">x_df</span><span class="p">[</span><span class="s2">&quot;block&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">x_df</span><span class="p">[</span><span class="s2">&quot;query_g&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span><span class="k">lambda</span> <span class="n">x</span><span class="p">:</span> <span class="n">x_block</span><span class="p">[</span><span class="n">x</span><span class="p">]</span> <span class="k">if</span> <span class="n">x</span> <span class="ow">in</span> <span class="n">x_block</span> <span class="k">else</span> <span class="kc">None</span><span class="p">)</span>
-        <span class="c1">###</span>
 
         <span class="k">if</span> <span class="n">true_blocks</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s2">&quot;===== evaluating =====&quot;</span><span class="p">)</span>
+            <span class="n">total_tn</span> <span class="o">=</span> <span class="n">total_fp</span> <span class="o">=</span> <span class="n">total_fn</span> <span class="o">=</span> <span class="n">total_tp</span> <span class="o">=</span> <span class="mi">0</span>
+            <span class="n">batch_size</span> <span class="o">=</span> <span class="mi">1000</span>
+
             <span class="k">if</span> <span class="ow">not</span> <span class="n">deduplication</span><span class="p">:</span>
-                <span class="n">candidate_pairs</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="n">itertools</span><span class="o">.</span><span class="n">product</span><span class="p">(</span><span class="nb">list</span><span class="p">(</span><span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">x_dtm</span><span class="p">))),</span> <span class="n">true_blocks</span><span class="p">[</span><span class="s2">&quot;y&quot;</span><span class="p">]))</span>
-                <span class="n">cp_df</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">DataFrame</span><span class="p">(</span><span class="n">candidate_pairs</span><span class="p">,</span> <span class="n">columns</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;x&quot;</span><span class="p">,</span> <span class="s2">&quot;y&quot;</span><span class="p">])</span>
-                <span class="n">cp_df</span> <span class="o">=</span> <span class="n">cp_df</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="nb">int</span><span class="p">)</span>
-                <span class="n">comparison_df</span> <span class="o">=</span> <span class="p">(</span>
-                    <span class="n">cp_df</span><span class="o">.</span><span class="n">merge</span><span class="p">(</span><span class="n">true_blocks</span><span class="p">,</span> <span class="n">on</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;x&quot;</span><span class="p">,</span> <span class="s2">&quot;y&quot;</span><span class="p">],</span> <span class="n">how</span><span class="o">=</span><span class="s2">&quot;left&quot;</span><span class="p">)</span>
-                    <span class="o">.</span><span class="n">rename</span><span class="p">(</span><span class="n">columns</span><span class="o">=</span><span class="p">{</span><span class="s2">&quot;block&quot;</span><span class="p">:</span> <span class="s2">&quot;block_true&quot;</span><span class="p">})</span>
-                    <span class="o">.</span><span class="n">merge</span><span class="p">(</span><span class="n">x_df</span><span class="p">,</span> <span class="n">on</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;x&quot;</span><span class="p">,</span> <span class="s2">&quot;y&quot;</span><span class="p">],</span> <span class="n">how</span><span class="o">=</span><span class="s2">&quot;left&quot;</span><span class="p">)</span>
-                    <span class="o">.</span><span class="n">rename</span><span class="p">(</span><span class="n">columns</span><span class="o">=</span><span class="p">{</span><span class="s2">&quot;block&quot;</span><span class="p">:</span> <span class="s2">&quot;block_pred&quot;</span><span class="p">})</span>
-                <span class="p">)</span>
-                <span class="n">comparison_df</span><span class="p">[</span><span class="s2">&quot;TP&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="n">comparison_df</span><span class="p">[</span><span class="s2">&quot;block_true&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">notna</span><span class="p">())</span> <span class="o">&amp;</span> <span class="p">(</span>
-                    <span class="n">comparison_df</span><span class="p">[</span><span class="s2">&quot;block_pred&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">notna</span><span class="p">()</span>
-                <span class="p">)</span>
-                <span class="c1"># CNL -&gt; Correct Non-Links / True Negative</span>
-                <span class="n">comparison_df</span><span class="p">[</span><span class="s2">&quot;CNL&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="n">comparison_df</span><span class="p">[</span><span class="s2">&quot;block_true&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">isna</span><span class="p">())</span> <span class="o">&amp;</span> <span class="p">(</span>
-                    <span class="n">comparison_df</span><span class="p">[</span><span class="s2">&quot;block_pred&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">isna</span><span class="p">()</span>
-                <span class="p">)</span>
-                <span class="n">comparison_df</span><span class="p">[</span><span class="s2">&quot;FP&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="n">comparison_df</span><span class="p">[</span><span class="s2">&quot;block_true&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">isna</span><span class="p">())</span> <span class="o">&amp;</span> <span class="p">(</span>
-                    <span class="n">comparison_df</span><span class="p">[</span><span class="s2">&quot;block_pred&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">notna</span><span class="p">()</span>
-                <span class="p">)</span>
-                <span class="n">comparison_df</span><span class="p">[</span><span class="s2">&quot;FN&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="n">comparison_df</span><span class="p">[</span><span class="s2">&quot;block_true&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">notna</span><span class="p">())</span> <span class="o">&amp;</span> <span class="p">(</span>
-                    <span class="n">comparison_df</span><span class="p">[</span><span class="s2">&quot;block_pred&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">isna</span><span class="p">()</span>
-                <span class="p">)</span>
-                <span class="bp">self</span><span class="o">.</span><span class="n">confusion</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">DataFrame</span><span class="p">(</span>
-                    <span class="p">[</span>
-                        <span class="p">[</span><span class="n">comparison_df</span><span class="p">[</span><span class="s2">&quot;CNL&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">sum</span><span class="p">(),</span> <span class="n">comparison_df</span><span class="p">[</span><span class="s2">&quot;FN&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">sum</span><span class="p">()],</span>
-                        <span class="p">[</span><span class="n">comparison_df</span><span class="p">[</span><span class="s2">&quot;FP&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">sum</span><span class="p">(),</span> <span class="n">comparison_df</span><span class="p">[</span><span class="s2">&quot;TP&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">sum</span><span class="p">()],</span>
-                    <span class="p">],</span>
-                    <span class="n">index</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;Predicted Negative&quot;</span><span class="p">,</span> <span class="s2">&quot;Predicted Positive&quot;</span><span class="p">],</span>
-                    <span class="n">columns</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;Actual Negative&quot;</span><span class="p">,</span> <span class="s2">&quot;Actual Positive&quot;</span><span class="p">],</span>
-                <span class="p">)</span>
+                <span class="n">unique_tb_x</span> <span class="o">=</span> <span class="n">true_blocks</span><span class="p">[</span><span class="s2">&quot;x&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">unique</span><span class="p">()</span>
+                <span class="n">unique_tb_y</span> <span class="o">=</span> <span class="n">true_blocks</span><span class="p">[</span><span class="s2">&quot;y&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">unique</span><span class="p">()</span>
 
-            <span class="k">else</span><span class="p">:</span>
-                <span class="n">pairs_to_eval_long</span> <span class="o">=</span> <span class="p">(</span>
-                    <span class="n">pd</span><span class="o">.</span><span class="n">melt</span><span class="p">(</span><span class="n">x_df</span><span class="p">[[</span><span class="s2">&quot;x&quot;</span><span class="p">,</span> <span class="s2">&quot;y&quot;</span><span class="p">,</span> <span class="s2">&quot;block&quot;</span><span class="p">]],</span> <span class="n">id_vars</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;block&quot;</span><span class="p">])[[</span><span class="s2">&quot;block&quot;</span><span class="p">,</span> <span class="s2">&quot;value&quot;</span><span class="p">]]</span>
-                    <span class="o">.</span><span class="n">drop_duplicates</span><span class="p">()</span>
-                    <span class="o">.</span><span class="n">rename</span><span class="p">(</span><span class="n">columns</span><span class="o">=</span><span class="p">{</span><span class="s2">&quot;block&quot;</span><span class="p">:</span> <span class="s2">&quot;block_id&quot;</span><span class="p">,</span> <span class="s2">&quot;value&quot;</span><span class="p">:</span> <span class="s2">&quot;x&quot;</span><span class="p">})</span>
-                    <span class="o">.</span><span class="n">merge</span><span class="p">(</span><span class="n">true_blocks</span><span class="p">[[</span><span class="s2">&quot;x&quot;</span><span class="p">,</span> <span class="s2">&quot;block&quot;</span><span class="p">]],</span> <span class="n">on</span><span class="o">=</span><span class="s2">&quot;x&quot;</span><span class="p">,</span> <span class="n">how</span><span class="o">=</span><span class="s2">&quot;left&quot;</span><span class="p">)</span>
-                    <span class="o">.</span><span class="n">rename</span><span class="p">(</span><span class="n">columns</span><span class="o">=</span><span class="p">{</span><span class="s2">&quot;block&quot;</span><span class="p">:</span> <span class="s2">&quot;true_id&quot;</span><span class="p">})</span>
-                <span class="p">)</span>
+                <span class="k">for</span> <span class="n">start_idx_x</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="nb">len</span><span class="p">(</span><span class="n">unique_tb_x</span><span class="p">),</span> <span class="n">batch_size</span><span class="p">):</span>
+                    <span class="n">sub_x</span> <span class="o">=</span> <span class="n">unique_tb_x</span><span class="p">[</span><span class="n">start_idx_x</span> <span class="p">:</span> <span class="n">start_idx_x</span> <span class="o">+</span> <span class="n">batch_size</span><span class="p">]</span>
+                    <span class="k">for</span> <span class="n">start_idx_y</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="nb">len</span><span class="p">(</span><span class="n">unique_tb_y</span><span class="p">),</span> <span class="n">batch_size</span><span class="p">):</span>
+                        <span class="n">sub_y</span> <span class="o">=</span> <span class="n">unique_tb_y</span><span class="p">[</span><span class="n">start_idx_y</span> <span class="p">:</span> <span class="n">start_idx_y</span> <span class="o">+</span> <span class="n">batch_size</span><span class="p">]</span>
 
-                <span class="n">candidate_pairs</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span>
-                    <span class="nb">list</span><span class="p">(</span><span class="n">itertools</span><span class="o">.</span><span class="n">combinations</span><span class="p">(</span><span class="nb">range</span><span class="p">(</span><span class="n">pairs_to_eval_long</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]),</span> <span class="mi">2</span><span class="p">))</span>
-                <span class="p">)</span>
+                        <span class="n">tp</span><span class="p">,</span> <span class="n">fp</span><span class="p">,</span> <span class="n">fn</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_eval_rl_batch</span><span class="p">(</span><span class="n">sub_x</span><span class="p">,</span> <span class="n">sub_y</span><span class="p">,</span> <span class="n">true_blocks</span><span class="p">,</span> <span class="n">x_df</span><span class="p">)</span>
+
+                        <span class="n">total_tp</span> <span class="o">+=</span> <span class="n">tp</span>
+                        <span class="n">total_fp</span> <span class="o">+=</span> <span class="n">fp</span>
+                        <span class="n">total_fn</span> <span class="o">+=</span> <span class="n">fn</span>
+                <span class="n">total_tn</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">unique_tb_x</span><span class="p">)</span> <span class="o">*</span> <span class="nb">len</span><span class="p">(</span><span class="n">unique_tb_y</span><span class="p">)</span> <span class="o">-</span> <span class="n">total_tp</span> <span class="o">-</span> <span class="n">total_fp</span> <span class="o">-</span> <span class="n">total_fn</span>
 
-                <span class="n">block_id_array</span> <span class="o">=</span> <span class="n">pairs_to_eval_long</span><span class="p">[</span><span class="s2">&quot;block_id&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to_numpy</span><span class="p">()</span>
-                <span class="n">true_id_array</span> <span class="o">=</span> <span class="n">pairs_to_eval_long</span><span class="p">[</span><span class="s2">&quot;true_id&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to_numpy</span><span class="p">()</span>
-                <span class="n">same_block</span> <span class="o">=</span> <span class="p">(</span>
-                    <span class="n">block_id_array</span><span class="p">[</span><span class="n">candidate_pairs</span><span class="p">[:,</span> <span class="mi">0</span><span class="p">]]</span> <span class="o">==</span> <span class="n">block_id_array</span><span class="p">[</span><span class="n">candidate_pairs</span><span class="p">[:,</span> <span class="mi">1</span><span class="p">]]</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">x_df_long</span> <span class="o">=</span> <span class="p">(</span>
+                    <span class="n">x_df</span><span class="o">.</span><span class="n">melt</span><span class="p">(</span><span class="n">id_vars</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;block&quot;</span><span class="p">],</span> <span class="n">value_vars</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;x&quot;</span><span class="p">,</span> <span class="s2">&quot;y&quot;</span><span class="p">],</span> <span class="n">value_name</span><span class="o">=</span><span class="s2">&quot;x_x&quot;</span><span class="p">)</span>
+                    <span class="o">.</span><span class="n">drop_duplicates</span><span class="p">(</span><span class="n">subset</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;x_x&quot;</span><span class="p">])[[</span><span class="s2">&quot;x_x&quot;</span><span class="p">,</span> <span class="s2">&quot;block&quot;</span><span class="p">]]</span>
+                    <span class="o">.</span><span class="n">rename</span><span class="p">(</span><span class="n">columns</span><span class="o">=</span><span class="p">{</span><span class="s2">&quot;x_x&quot;</span><span class="p">:</span> <span class="s2">&quot;x&quot;</span><span class="p">})</span>
                 <span class="p">)</span>
-                <span class="n">same_truth</span> <span class="o">=</span> <span class="p">(</span>
-                    <span class="n">true_id_array</span><span class="p">[</span><span class="n">candidate_pairs</span><span class="p">[:,</span> <span class="mi">0</span><span class="p">]]</span> <span class="o">==</span> <span class="n">true_id_array</span><span class="p">[</span><span class="n">candidate_pairs</span><span class="p">[:,</span> <span class="mi">1</span><span class="p">]]</span>
+                <span class="n">unique_tb_x</span> <span class="o">=</span> <span class="n">true_blocks</span><span class="p">[</span><span class="s2">&quot;x&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">unique</span><span class="p">()</span>
+                <span class="k">for</span> <span class="n">start_idx</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="nb">len</span><span class="p">(</span><span class="n">unique_tb_x</span><span class="p">),</span> <span class="n">batch_size</span><span class="p">):</span>
+                    <span class="n">sub_x</span> <span class="o">=</span> <span class="n">unique_tb_x</span><span class="p">[</span><span class="n">start_idx</span> <span class="p">:</span> <span class="n">start_idx</span> <span class="o">+</span> <span class="n">batch_size</span><span class="p">]</span>
+                    <span class="k">for</span> <span class="n">start_idx_y</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="nb">len</span><span class="p">(</span><span class="n">unique_tb_x</span><span class="p">),</span> <span class="n">batch_size</span><span class="p">):</span>
+                        <span class="n">sub_y</span> <span class="o">=</span> <span class="n">unique_tb_x</span><span class="p">[</span><span class="n">start_idx_y</span> <span class="p">:</span> <span class="n">start_idx_y</span> <span class="o">+</span> <span class="n">batch_size</span><span class="p">]</span>
+
+                        <span class="n">tp</span><span class="p">,</span> <span class="n">fp</span><span class="p">,</span> <span class="n">fn</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_eval_dedup_batch</span><span class="p">(</span><span class="n">sub_x</span><span class="p">,</span> <span class="n">sub_y</span><span class="p">,</span> <span class="n">true_blocks</span><span class="p">,</span> <span class="n">x_df_long</span><span class="p">)</span>
+
+                        <span class="n">total_tp</span> <span class="o">+=</span> <span class="n">tp</span>
+                        <span class="n">total_fp</span> <span class="o">+=</span> <span class="n">fp</span>
+                        <span class="n">total_fn</span> <span class="o">+=</span> <span class="n">fn</span>
+                <span class="n">total_tn</span> <span class="o">=</span> <span class="p">(</span>
+                    <span class="p">((</span><span class="nb">len</span><span class="p">(</span><span class="n">unique_tb_x</span><span class="p">)</span> <span class="o">*</span> <span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">unique_tb_x</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span><span class="p">))</span> <span class="o">/</span> <span class="mi">2</span><span class="p">)</span>
+                    <span class="o">-</span> <span class="n">total_tp</span>
+                    <span class="o">-</span> <span class="n">total_fp</span>
+                    <span class="o">-</span> <span class="n">total_fn</span>
                 <span class="p">)</span>
 
-                <span class="bp">self</span><span class="o">.</span><span class="n">confusion</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">crosstab</span><span class="p">(</span><span class="n">same_block</span><span class="p">,</span> <span class="n">same_truth</span><span class="p">)</span>
-                <span class="bp">self</span><span class="o">.</span><span class="n">confusion</span><span class="o">.</span><span class="n">index</span> <span class="o">=</span> <span class="p">[</span><span class="s2">&quot;Predicted Negative&quot;</span><span class="p">,</span> <span class="s2">&quot;Predicted Positive&quot;</span><span class="p">]</span>
-                <span class="bp">self</span><span class="o">.</span><span class="n">confusion</span><span class="o">.</span><span class="n">columns</span> <span class="o">=</span> <span class="p">[</span><span class="s2">&quot;Actual Negative&quot;</span><span class="p">,</span> <span class="s2">&quot;Actual Positive&quot;</span><span class="p">]</span>
-
-            <span class="n">fp</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">confusion</span><span class="o">.</span><span class="n">iloc</span><span class="p">[</span><span class="mi">1</span><span class="p">,</span> <span class="mi">0</span><span class="p">]</span>
-            <span class="n">fn</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">confusion</span><span class="o">.</span><span class="n">iloc</span><span class="p">[</span><span class="mi">0</span><span class="p">,</span> <span class="mi">1</span><span class="p">]</span>
-            <span class="n">tp</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">confusion</span><span class="o">.</span><span class="n">iloc</span><span class="p">[</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">]</span>
-            <span class="n">tn</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">confusion</span><span class="o">.</span><span class="n">iloc</span><span class="p">[</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">]</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">confusion</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">DataFrame</span><span class="p">(</span>
+                <span class="p">[[</span><span class="n">total_tn</span><span class="p">,</span> <span class="n">total_fn</span><span class="p">],</span> <span class="p">[</span><span class="n">total_fp</span><span class="p">,</span> <span class="n">total_tp</span><span class="p">]],</span>
+                <span class="n">index</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;Predicted Negative&quot;</span><span class="p">,</span> <span class="s2">&quot;Predicted Positive&quot;</span><span class="p">],</span>
+                <span class="n">columns</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;Actual Negative&quot;</span><span class="p">,</span> <span class="s2">&quot;Actual Positive&quot;</span><span class="p">],</span>
+            <span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="nb">int</span><span class="p">)</span>
 
-            <span class="n">recall</span> <span class="o">=</span> <span class="n">tp</span> <span class="o">/</span> <span class="p">(</span><span class="n">fn</span> <span class="o">+</span> <span class="n">tp</span><span class="p">)</span> <span class="k">if</span> <span class="p">(</span><span class="n">fn</span> <span class="o">+</span> <span class="n">tp</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">0</span> <span class="k">else</span> <span class="mi">0</span>
-            <span class="n">precision</span> <span class="o">=</span> <span class="n">tp</span> <span class="o">/</span> <span class="p">(</span><span class="n">tp</span> <span class="o">+</span> <span class="n">fp</span><span class="p">)</span> <span class="k">if</span> <span class="p">(</span><span class="n">tp</span> <span class="o">+</span> <span class="n">fp</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">0</span> <span class="k">else</span> <span class="mi">0</span>
+            <span class="n">recall</span> <span class="o">=</span> <span class="n">total_tp</span> <span class="o">/</span> <span class="p">(</span><span class="n">total_fn</span> <span class="o">+</span> <span class="n">total_tp</span><span class="p">)</span> <span class="k">if</span> <span class="p">(</span><span class="n">total_fn</span> <span class="o">+</span> <span class="n">total_tp</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">0</span> <span class="k">else</span> <span class="mi">0</span>
+            <span class="n">precision</span> <span class="o">=</span> <span class="n">total_tp</span> <span class="o">/</span> <span class="p">(</span><span class="n">total_tp</span> <span class="o">+</span> <span class="n">total_fp</span><span class="p">)</span> <span class="k">if</span> <span class="p">(</span><span class="n">total_tp</span> <span class="o">+</span> <span class="n">total_fp</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">0</span> <span class="k">else</span> <span class="mi">0</span>
             <span class="n">f1_score</span> <span class="o">=</span> <span class="p">(</span>
                 <span class="mi">2</span> <span class="o">*</span> <span class="p">(</span><span class="n">precision</span> <span class="o">*</span> <span class="n">recall</span><span class="p">)</span> <span class="o">/</span> <span class="p">(</span><span class="n">precision</span> <span class="o">+</span> <span class="n">recall</span><span class="p">)</span> <span class="k">if</span> <span class="p">(</span><span class="n">precision</span> <span class="o">+</span> <span class="n">recall</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">0</span> <span class="k">else</span> <span class="mi">0</span>
             <span class="p">)</span>
-            <span class="n">accuracy</span> <span class="o">=</span> <span class="p">(</span><span class="n">tp</span> <span class="o">+</span> <span class="n">tn</span><span class="p">)</span> <span class="o">/</span> <span class="p">(</span><span class="n">tp</span> <span class="o">+</span> <span class="n">tn</span> <span class="o">+</span> <span class="n">fp</span> <span class="o">+</span> <span class="n">fn</span><span class="p">)</span>
-            <span class="n">specificity</span> <span class="o">=</span> <span class="n">tn</span> <span class="o">/</span> <span class="p">(</span><span class="n">tn</span> <span class="o">+</span> <span class="n">fp</span><span class="p">)</span> <span class="k">if</span> <span class="p">(</span><span class="n">tn</span> <span class="o">+</span> <span class="n">fp</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">0</span> <span class="k">else</span> <span class="mi">0</span>
-            <span class="n">fpr</span> <span class="o">=</span> <span class="n">fp</span> <span class="o">/</span> <span class="p">(</span><span class="n">fp</span> <span class="o">+</span> <span class="n">tn</span><span class="p">)</span> <span class="k">if</span> <span class="p">(</span><span class="n">fp</span> <span class="o">+</span> <span class="n">tn</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">0</span> <span class="k">else</span> <span class="mi">0</span>
-            <span class="n">fnr</span> <span class="o">=</span> <span class="n">fn</span> <span class="o">/</span> <span class="p">(</span><span class="n">fn</span> <span class="o">+</span> <span class="n">tp</span><span class="p">)</span> <span class="k">if</span> <span class="p">(</span><span class="n">fn</span> <span class="o">+</span> <span class="n">tp</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">0</span> <span class="k">else</span> <span class="mi">0</span>
+            <span class="n">accuracy</span> <span class="o">=</span> <span class="p">(</span>
+                <span class="p">(</span><span class="n">total_tp</span> <span class="o">+</span> <span class="n">total_tn</span><span class="p">)</span> <span class="o">/</span> <span class="p">(</span><span class="n">total_tp</span> <span class="o">+</span> <span class="n">total_tn</span> <span class="o">+</span> <span class="n">total_fp</span> <span class="o">+</span> <span class="n">total_fn</span><span class="p">)</span>
+                <span class="k">if</span> <span class="p">(</span><span class="n">total_tp</span> <span class="o">+</span> <span class="n">total_tn</span> <span class="o">+</span> <span class="n">total_fp</span> <span class="o">+</span> <span class="n">total_fn</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">0</span>
+                <span class="k">else</span> <span class="mi">0</span>
+            <span class="p">)</span>
+            <span class="n">specificity</span> <span class="o">=</span> <span class="n">total_tn</span> <span class="o">/</span> <span class="p">(</span><span class="n">total_tn</span> <span class="o">+</span> <span class="n">total_fp</span><span class="p">)</span> <span class="k">if</span> <span class="p">(</span><span class="n">total_tn</span> <span class="o">+</span> <span class="n">total_fp</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">0</span> <span class="k">else</span> <span class="mi">0</span>
+            <span class="n">fpr</span> <span class="o">=</span> <span class="n">total_fp</span> <span class="o">/</span> <span class="p">(</span><span class="n">total_fp</span> <span class="o">+</span> <span class="n">total_tn</span><span class="p">)</span> <span class="k">if</span> <span class="p">(</span><span class="n">total_fp</span> <span class="o">+</span> <span class="n">total_tn</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">0</span> <span class="k">else</span> <span class="mi">0</span>
+            <span class="n">fnr</span> <span class="o">=</span> <span class="n">total_fn</span> <span class="o">/</span> <span class="p">(</span><span class="n">total_fn</span> <span class="o">+</span> <span class="n">total_tp</span><span class="p">)</span> <span class="k">if</span> <span class="p">(</span><span class="n">total_fn</span> <span class="o">+</span> <span class="n">total_tp</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">0</span> <span class="k">else</span> <span class="mi">0</span>
 
             <span class="bp">self</span><span class="o">.</span><span class="n">eval_metrics</span> <span class="o">=</span> <span class="p">{</span>
                 <span class="s2">&quot;recall&quot;</span><span class="p">:</span> <span class="n">recall</span><span class="p">,</span>
@@ -460,7 +454,7 @@ <h1>Source code for blockingpy.blocker</h1><div class="highlight"><pre>
             <span class="n">x_df</span><span class="o">=</span><span class="n">x_df</span><span class="p">,</span>
             <span class="n">ann</span><span class="o">=</span><span class="n">ann</span><span class="p">,</span>
             <span class="n">deduplication</span><span class="o">=</span><span class="n">deduplication</span><span class="p">,</span>
-            <span class="n">len_x</span><span class="o">=</span><span class="n">len_x</span><span class="p">,</span>
+            <span class="n">n_original_records</span><span class="o">=</span><span class="p">(</span><span class="n">len_x</span><span class="p">,</span> <span class="n">len_y</span><span class="p">),</span>
             <span class="n">true_blocks</span><span class="o">=</span><span class="n">true_blocks</span><span class="p">,</span>
             <span class="n">eval_metrics</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">eval_metrics</span><span class="p">,</span>
             <span class="n">confusion</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">confusion</span><span class="p">,</span>
@@ -471,14 +465,17 @@ <h1>Source code for blockingpy.blocker</h1><div class="highlight"><pre>
 
 <div class="viewcode-block" id="Blocker.eval">
 <a class="viewcode-back" href="../../api/blocker.html#blockingpy.blocker.Blocker.eval">[docs]</a>
-    <span class="k">def</span> <span class="nf">eval</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">blocking_result</span><span class="p">:</span> <span class="n">BlockingResult</span><span class="p">,</span> <span class="n">true_blocks</span><span class="p">:</span> <span class="n">pd</span><span class="o">.</span><span class="n">DataFrame</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">BlockingResult</span><span class="p">:</span>
+    <span class="k">def</span> <span class="nf">eval</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span> <span class="n">blocking_result</span><span class="p">:</span> <span class="n">BlockingResult</span><span class="p">,</span> <span class="n">true_blocks</span><span class="p">:</span> <span class="n">pd</span><span class="o">.</span><span class="n">DataFrame</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1_000</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">BlockingResult</span><span class="p">:</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Evaluate blocking results against true block assignments and return new BlockingResult.</span>
 
 <span class="sd">        This method calculates evaluation metrics and confusion matrix</span>
 <span class="sd">        by comparing predicted blocks with known true blocks and returns</span>
 <span class="sd">        a new BlockingResult instance containing the evaluation results</span>
-<span class="sd">        along with the original blocking results.</span>
+<span class="sd">        along with the original blocking results. It allows you to set</span>
+<span class="sd">        the batch size for evaluation of larger datasets.</span>
 
 <span class="sd">        Parameters</span>
 <span class="sd">        ----------</span>
@@ -488,6 +485,9 @@ <h1>Source code for blockingpy.blocker</h1><div class="highlight"><pre>
 <span class="sd">            DataFrame with true block assignments</span>
 <span class="sd">            For deduplication: columns [&#39;x&#39;, &#39;block&#39;]</span>
 <span class="sd">            For record linkage: columns [&#39;x&#39;, &#39;y&#39;, &#39;block&#39;]</span>
+<span class="sd">        batch_size : int</span>
+<span class="sd">            Size of the batch for evaluation. This size if applied for both datasets</span>
+<span class="sd">            for record linkage. Defaults to 1,000.</span>
 
 <span class="sd">        Returns</span>
 <span class="sd">        -------</span>
@@ -514,82 +514,68 @@ <h1>Source code for blockingpy.blocker</h1><div class="highlight"><pre>
             <span class="p">)</span>
         <span class="n">InputValidator</span><span class="o">.</span><span class="n">validate_true_blocks</span><span class="p">(</span><span class="n">true_blocks</span><span class="p">,</span> <span class="n">blocking_result</span><span class="o">.</span><span class="n">deduplication</span><span class="p">)</span>
 
+        <span class="n">total_tn</span> <span class="o">=</span> <span class="n">total_fp</span> <span class="o">=</span> <span class="n">total_fn</span> <span class="o">=</span> <span class="n">total_tp</span> <span class="o">=</span> <span class="mi">0</span>
+
         <span class="k">if</span> <span class="ow">not</span> <span class="n">blocking_result</span><span class="o">.</span><span class="n">deduplication</span><span class="p">:</span>
-            <span class="n">candidate_pairs</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span>
-                <span class="n">itertools</span><span class="o">.</span><span class="n">product</span><span class="p">(</span><span class="nb">list</span><span class="p">(</span><span class="nb">range</span><span class="p">(</span><span class="n">blocking_result</span><span class="o">.</span><span class="n">len_x</span><span class="p">)),</span> <span class="n">true_blocks</span><span class="p">[</span><span class="s2">&quot;y&quot;</span><span class="p">])</span>
-            <span class="p">)</span>
-            <span class="n">cp_df</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">DataFrame</span><span class="p">(</span><span class="n">candidate_pairs</span><span class="p">,</span> <span class="n">columns</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;x&quot;</span><span class="p">,</span> <span class="s2">&quot;y&quot;</span><span class="p">])</span>
-            <span class="n">cp_df</span> <span class="o">=</span> <span class="n">cp_df</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="nb">int</span><span class="p">)</span>
-            <span class="n">comparison_df</span> <span class="o">=</span> <span class="p">(</span>
-                <span class="n">cp_df</span><span class="o">.</span><span class="n">merge</span><span class="p">(</span><span class="n">true_blocks</span><span class="p">,</span> <span class="n">on</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;x&quot;</span><span class="p">,</span> <span class="s2">&quot;y&quot;</span><span class="p">],</span> <span class="n">how</span><span class="o">=</span><span class="s2">&quot;left&quot;</span><span class="p">)</span>
-                <span class="o">.</span><span class="n">rename</span><span class="p">(</span><span class="n">columns</span><span class="o">=</span><span class="p">{</span><span class="s2">&quot;block&quot;</span><span class="p">:</span> <span class="s2">&quot;block_true&quot;</span><span class="p">})</span>
-                <span class="o">.</span><span class="n">merge</span><span class="p">(</span><span class="n">blocking_result</span><span class="o">.</span><span class="n">result</span><span class="p">,</span> <span class="n">on</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;x&quot;</span><span class="p">,</span> <span class="s2">&quot;y&quot;</span><span class="p">],</span> <span class="n">how</span><span class="o">=</span><span class="s2">&quot;left&quot;</span><span class="p">)</span>
-                <span class="o">.</span><span class="n">rename</span><span class="p">(</span><span class="n">columns</span><span class="o">=</span><span class="p">{</span><span class="s2">&quot;block&quot;</span><span class="p">:</span> <span class="s2">&quot;block_pred&quot;</span><span class="p">})</span>
-            <span class="p">)</span>
-            <span class="n">comparison_df</span><span class="p">[</span><span class="s2">&quot;TP&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="n">comparison_df</span><span class="p">[</span><span class="s2">&quot;block_true&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">notna</span><span class="p">())</span> <span class="o">&amp;</span> <span class="p">(</span>
-                <span class="n">comparison_df</span><span class="p">[</span><span class="s2">&quot;block_pred&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">notna</span><span class="p">()</span>
-            <span class="p">)</span>
-            <span class="c1"># CNL -&gt; Correct Non-Links / True Negative</span>
-            <span class="n">comparison_df</span><span class="p">[</span><span class="s2">&quot;CNL&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="n">comparison_df</span><span class="p">[</span><span class="s2">&quot;block_true&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">isna</span><span class="p">())</span> <span class="o">&amp;</span> <span class="p">(</span>
-                <span class="n">comparison_df</span><span class="p">[</span><span class="s2">&quot;block_pred&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">isna</span><span class="p">()</span>
-            <span class="p">)</span>
-            <span class="n">comparison_df</span><span class="p">[</span><span class="s2">&quot;FP&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="n">comparison_df</span><span class="p">[</span><span class="s2">&quot;block_true&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">isna</span><span class="p">())</span> <span class="o">&amp;</span> <span class="p">(</span>
-                <span class="n">comparison_df</span><span class="p">[</span><span class="s2">&quot;block_pred&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">notna</span><span class="p">()</span>
-            <span class="p">)</span>
-            <span class="n">comparison_df</span><span class="p">[</span><span class="s2">&quot;FN&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="n">comparison_df</span><span class="p">[</span><span class="s2">&quot;block_true&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">notna</span><span class="p">())</span> <span class="o">&amp;</span> <span class="p">(</span>
-                <span class="n">comparison_df</span><span class="p">[</span><span class="s2">&quot;block_pred&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">isna</span><span class="p">()</span>
-            <span class="p">)</span>
-            <span class="n">confusion</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">DataFrame</span><span class="p">(</span>
-                <span class="p">[</span>
-                    <span class="p">[</span><span class="n">comparison_df</span><span class="p">[</span><span class="s2">&quot;CNL&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">sum</span><span class="p">(),</span> <span class="n">comparison_df</span><span class="p">[</span><span class="s2">&quot;FN&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">sum</span><span class="p">()],</span>
-                    <span class="p">[</span><span class="n">comparison_df</span><span class="p">[</span><span class="s2">&quot;FP&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">sum</span><span class="p">(),</span> <span class="n">comparison_df</span><span class="p">[</span><span class="s2">&quot;TP&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">sum</span><span class="p">()],</span>
-                <span class="p">],</span>
-                <span class="n">index</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;Predicted Negative&quot;</span><span class="p">,</span> <span class="s2">&quot;Predicted Positive&quot;</span><span class="p">],</span>
-                <span class="n">columns</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;Actual Negative&quot;</span><span class="p">,</span> <span class="s2">&quot;Actual Positive&quot;</span><span class="p">],</span>
-            <span class="p">)</span>
+            <span class="n">unique_tb_x</span> <span class="o">=</span> <span class="n">true_blocks</span><span class="p">[</span><span class="s2">&quot;x&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">unique</span><span class="p">()</span>
+            <span class="n">unique_tb_y</span> <span class="o">=</span> <span class="n">true_blocks</span><span class="p">[</span><span class="s2">&quot;y&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">unique</span><span class="p">()</span>
 
-        <span class="k">else</span><span class="p">:</span>
-            <span class="n">pairs_to_eval_long</span> <span class="o">=</span> <span class="p">(</span>
-                <span class="n">pd</span><span class="o">.</span><span class="n">melt</span><span class="p">(</span><span class="n">blocking_result</span><span class="o">.</span><span class="n">result</span><span class="p">[[</span><span class="s2">&quot;x&quot;</span><span class="p">,</span> <span class="s2">&quot;y&quot;</span><span class="p">,</span> <span class="s2">&quot;block&quot;</span><span class="p">]],</span> <span class="n">id_vars</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;block&quot;</span><span class="p">])[</span>
-                    <span class="p">[</span><span class="s2">&quot;block&quot;</span><span class="p">,</span> <span class="s2">&quot;value&quot;</span><span class="p">]</span>
-                <span class="p">]</span>
-                <span class="o">.</span><span class="n">drop_duplicates</span><span class="p">()</span>
-                <span class="o">.</span><span class="n">rename</span><span class="p">(</span><span class="n">columns</span><span class="o">=</span><span class="p">{</span><span class="s2">&quot;block&quot;</span><span class="p">:</span> <span class="s2">&quot;block_id&quot;</span><span class="p">,</span> <span class="s2">&quot;value&quot;</span><span class="p">:</span> <span class="s2">&quot;x&quot;</span><span class="p">})</span>
-                <span class="o">.</span><span class="n">merge</span><span class="p">(</span><span class="n">true_blocks</span><span class="p">[[</span><span class="s2">&quot;x&quot;</span><span class="p">,</span> <span class="s2">&quot;block&quot;</span><span class="p">]],</span> <span class="n">on</span><span class="o">=</span><span class="s2">&quot;x&quot;</span><span class="p">,</span> <span class="n">how</span><span class="o">=</span><span class="s2">&quot;left&quot;</span><span class="p">)</span>
-                <span class="o">.</span><span class="n">rename</span><span class="p">(</span><span class="n">columns</span><span class="o">=</span><span class="p">{</span><span class="s2">&quot;block&quot;</span><span class="p">:</span> <span class="s2">&quot;true_id&quot;</span><span class="p">})</span>
-            <span class="p">)</span>
+            <span class="k">for</span> <span class="n">start_idx_x</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="nb">len</span><span class="p">(</span><span class="n">unique_tb_x</span><span class="p">),</span> <span class="n">batch_size</span><span class="p">):</span>
+                <span class="n">sub_x</span> <span class="o">=</span> <span class="n">unique_tb_x</span><span class="p">[</span><span class="n">start_idx_x</span> <span class="p">:</span> <span class="n">start_idx_x</span> <span class="o">+</span> <span class="n">batch_size</span><span class="p">]</span>
+                <span class="k">for</span> <span class="n">start_idx_y</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="nb">len</span><span class="p">(</span><span class="n">unique_tb_y</span><span class="p">),</span> <span class="n">batch_size</span><span class="p">):</span>
+                    <span class="n">sub_y</span> <span class="o">=</span> <span class="n">unique_tb_y</span><span class="p">[</span><span class="n">start_idx_y</span> <span class="p">:</span> <span class="n">start_idx_y</span> <span class="o">+</span> <span class="n">batch_size</span><span class="p">]</span>
 
-            <span class="n">candidate_pairs</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span>
-                <span class="nb">list</span><span class="p">(</span><span class="n">itertools</span><span class="o">.</span><span class="n">combinations</span><span class="p">(</span><span class="nb">range</span><span class="p">(</span><span class="n">pairs_to_eval_long</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]),</span> <span class="mi">2</span><span class="p">))</span>
-            <span class="p">)</span>
+                    <span class="n">tp</span><span class="p">,</span> <span class="n">fp</span><span class="p">,</span> <span class="n">fn</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_eval_rl_batch</span><span class="p">(</span>
+                        <span class="n">sub_x</span><span class="p">,</span> <span class="n">sub_y</span><span class="p">,</span> <span class="n">true_blocks</span><span class="p">,</span> <span class="n">blocking_result</span><span class="o">.</span><span class="n">result</span>
+                    <span class="p">)</span>
+
+                    <span class="n">total_tp</span> <span class="o">+=</span> <span class="n">tp</span>
+                    <span class="n">total_fp</span> <span class="o">+=</span> <span class="n">fp</span>
+                    <span class="n">total_fn</span> <span class="o">+=</span> <span class="n">fn</span>
+            <span class="n">total_tn</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">unique_tb_x</span><span class="p">)</span> <span class="o">*</span> <span class="nb">len</span><span class="p">(</span><span class="n">unique_tb_y</span><span class="p">)</span> <span class="o">-</span> <span class="n">total_tp</span> <span class="o">-</span> <span class="n">total_fp</span> <span class="o">-</span> <span class="n">total_fn</span>
 
-            <span class="n">block_id_array</span> <span class="o">=</span> <span class="n">pairs_to_eval_long</span><span class="p">[</span><span class="s2">&quot;block_id&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to_numpy</span><span class="p">()</span>
-            <span class="n">true_id_array</span> <span class="o">=</span> <span class="n">pairs_to_eval_long</span><span class="p">[</span><span class="s2">&quot;true_id&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to_numpy</span><span class="p">()</span>
-            <span class="n">same_block</span> <span class="o">=</span> <span class="p">(</span>
-                <span class="n">block_id_array</span><span class="p">[</span><span class="n">candidate_pairs</span><span class="p">[:,</span> <span class="mi">0</span><span class="p">]]</span> <span class="o">==</span> <span class="n">block_id_array</span><span class="p">[</span><span class="n">candidate_pairs</span><span class="p">[:,</span> <span class="mi">1</span><span class="p">]]</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">x_df_long</span> <span class="o">=</span> <span class="p">(</span>
+                <span class="n">blocking_result</span><span class="o">.</span><span class="n">result</span><span class="o">.</span><span class="n">melt</span><span class="p">(</span>
+                    <span class="n">id_vars</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;block&quot;</span><span class="p">],</span> <span class="n">value_vars</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;x&quot;</span><span class="p">,</span> <span class="s2">&quot;y&quot;</span><span class="p">],</span> <span class="n">value_name</span><span class="o">=</span><span class="s2">&quot;x_x&quot;</span>
+                <span class="p">)</span>
+                <span class="o">.</span><span class="n">drop_duplicates</span><span class="p">(</span><span class="n">subset</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;x_x&quot;</span><span class="p">])[[</span><span class="s2">&quot;x_x&quot;</span><span class="p">,</span> <span class="s2">&quot;block&quot;</span><span class="p">]]</span>
+                <span class="o">.</span><span class="n">rename</span><span class="p">(</span><span class="n">columns</span><span class="o">=</span><span class="p">{</span><span class="s2">&quot;x_x&quot;</span><span class="p">:</span> <span class="s2">&quot;x&quot;</span><span class="p">})</span>
             <span class="p">)</span>
-            <span class="n">same_truth</span> <span class="o">=</span> <span class="p">(</span>
-                <span class="n">true_id_array</span><span class="p">[</span><span class="n">candidate_pairs</span><span class="p">[:,</span> <span class="mi">0</span><span class="p">]]</span> <span class="o">==</span> <span class="n">true_id_array</span><span class="p">[</span><span class="n">candidate_pairs</span><span class="p">[:,</span> <span class="mi">1</span><span class="p">]]</span>
+            <span class="n">unique_tb_x</span> <span class="o">=</span> <span class="n">true_blocks</span><span class="p">[</span><span class="s2">&quot;x&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">unique</span><span class="p">()</span>
+            <span class="k">for</span> <span class="n">start_idx</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="nb">len</span><span class="p">(</span><span class="n">unique_tb_x</span><span class="p">),</span> <span class="n">batch_size</span><span class="p">):</span>
+                <span class="n">sub_x</span> <span class="o">=</span> <span class="n">unique_tb_x</span><span class="p">[</span><span class="n">start_idx</span> <span class="p">:</span> <span class="n">start_idx</span> <span class="o">+</span> <span class="n">batch_size</span><span class="p">]</span>
+                <span class="k">for</span> <span class="n">start_idx_y</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="nb">len</span><span class="p">(</span><span class="n">unique_tb_x</span><span class="p">),</span> <span class="n">batch_size</span><span class="p">):</span>
+                    <span class="n">sub_y</span> <span class="o">=</span> <span class="n">unique_tb_x</span><span class="p">[</span><span class="n">start_idx_y</span> <span class="p">:</span> <span class="n">start_idx_y</span> <span class="o">+</span> <span class="n">batch_size</span><span class="p">]</span>
+
+                    <span class="n">tp</span><span class="p">,</span> <span class="n">fp</span><span class="p">,</span> <span class="n">fn</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_eval_dedup_batch</span><span class="p">(</span><span class="n">sub_x</span><span class="p">,</span> <span class="n">sub_y</span><span class="p">,</span> <span class="n">true_blocks</span><span class="p">,</span> <span class="n">x_df_long</span><span class="p">)</span>
+
+                    <span class="n">total_tp</span> <span class="o">+=</span> <span class="n">tp</span>
+                    <span class="n">total_fp</span> <span class="o">+=</span> <span class="n">fp</span>
+                    <span class="n">total_fn</span> <span class="o">+=</span> <span class="n">fn</span>
+            <span class="n">total_tn</span> <span class="o">=</span> <span class="p">(</span>
+                <span class="p">((</span><span class="nb">len</span><span class="p">(</span><span class="n">unique_tb_x</span><span class="p">)</span> <span class="o">*</span> <span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">unique_tb_x</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span><span class="p">))</span> <span class="o">/</span> <span class="mi">2</span><span class="p">)</span> <span class="o">-</span> <span class="n">total_tp</span> <span class="o">-</span> <span class="n">total_fp</span> <span class="o">-</span> <span class="n">total_fn</span>
             <span class="p">)</span>
 
-            <span class="n">confusion</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">crosstab</span><span class="p">(</span><span class="n">same_block</span><span class="p">,</span> <span class="n">same_truth</span><span class="p">)</span>
-            <span class="n">confusion</span><span class="o">.</span><span class="n">index</span> <span class="o">=</span> <span class="p">[</span><span class="s2">&quot;Predicted Negative&quot;</span><span class="p">,</span> <span class="s2">&quot;Predicted Positive&quot;</span><span class="p">]</span>
-            <span class="n">confusion</span><span class="o">.</span><span class="n">columns</span> <span class="o">=</span> <span class="p">[</span><span class="s2">&quot;Actual Negative&quot;</span><span class="p">,</span> <span class="s2">&quot;Actual Positive&quot;</span><span class="p">]</span>
+        <span class="n">confusion</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">DataFrame</span><span class="p">(</span>
+            <span class="p">[[</span><span class="n">total_tn</span><span class="p">,</span> <span class="n">total_fn</span><span class="p">],</span> <span class="p">[</span><span class="n">total_fp</span><span class="p">,</span> <span class="n">total_tp</span><span class="p">]],</span>
+            <span class="n">index</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;Predicted Negative&quot;</span><span class="p">,</span> <span class="s2">&quot;Predicted Positive&quot;</span><span class="p">],</span>
+            <span class="n">columns</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;Actual Negative&quot;</span><span class="p">,</span> <span class="s2">&quot;Actual Positive&quot;</span><span class="p">],</span>
+        <span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="nb">int</span><span class="p">)</span>
 
-        <span class="n">fp</span> <span class="o">=</span> <span class="n">confusion</span><span class="o">.</span><span class="n">iloc</span><span class="p">[</span><span class="mi">1</span><span class="p">,</span> <span class="mi">0</span><span class="p">]</span>
-        <span class="n">fn</span> <span class="o">=</span> <span class="n">confusion</span><span class="o">.</span><span class="n">iloc</span><span class="p">[</span><span class="mi">0</span><span class="p">,</span> <span class="mi">1</span><span class="p">]</span>
-        <span class="n">tp</span> <span class="o">=</span> <span class="n">confusion</span><span class="o">.</span><span class="n">iloc</span><span class="p">[</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">]</span>
-        <span class="n">tn</span> <span class="o">=</span> <span class="n">confusion</span><span class="o">.</span><span class="n">iloc</span><span class="p">[</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">]</span>
-
-        <span class="n">recall</span> <span class="o">=</span> <span class="n">tp</span> <span class="o">/</span> <span class="p">(</span><span class="n">fn</span> <span class="o">+</span> <span class="n">tp</span><span class="p">)</span> <span class="k">if</span> <span class="p">(</span><span class="n">fn</span> <span class="o">+</span> <span class="n">tp</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">0</span> <span class="k">else</span> <span class="mi">0</span>
-        <span class="n">precision</span> <span class="o">=</span> <span class="n">tp</span> <span class="o">/</span> <span class="p">(</span><span class="n">tp</span> <span class="o">+</span> <span class="n">fp</span><span class="p">)</span> <span class="k">if</span> <span class="p">(</span><span class="n">tp</span> <span class="o">+</span> <span class="n">fp</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">0</span> <span class="k">else</span> <span class="mi">0</span>
+        <span class="n">recall</span> <span class="o">=</span> <span class="n">total_tp</span> <span class="o">/</span> <span class="p">(</span><span class="n">total_fn</span> <span class="o">+</span> <span class="n">total_tp</span><span class="p">)</span> <span class="k">if</span> <span class="p">(</span><span class="n">total_fn</span> <span class="o">+</span> <span class="n">total_tp</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">0</span> <span class="k">else</span> <span class="mi">0</span>
+        <span class="n">precision</span> <span class="o">=</span> <span class="n">total_tp</span> <span class="o">/</span> <span class="p">(</span><span class="n">total_tp</span> <span class="o">+</span> <span class="n">total_fp</span><span class="p">)</span> <span class="k">if</span> <span class="p">(</span><span class="n">total_tp</span> <span class="o">+</span> <span class="n">total_fp</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">0</span> <span class="k">else</span> <span class="mi">0</span>
         <span class="n">f1_score</span> <span class="o">=</span> <span class="p">(</span>
             <span class="mi">2</span> <span class="o">*</span> <span class="p">(</span><span class="n">precision</span> <span class="o">*</span> <span class="n">recall</span><span class="p">)</span> <span class="o">/</span> <span class="p">(</span><span class="n">precision</span> <span class="o">+</span> <span class="n">recall</span><span class="p">)</span> <span class="k">if</span> <span class="p">(</span><span class="n">precision</span> <span class="o">+</span> <span class="n">recall</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">0</span> <span class="k">else</span> <span class="mi">0</span>
         <span class="p">)</span>
-        <span class="n">accuracy</span> <span class="o">=</span> <span class="p">(</span><span class="n">tp</span> <span class="o">+</span> <span class="n">tn</span><span class="p">)</span> <span class="o">/</span> <span class="p">(</span><span class="n">tp</span> <span class="o">+</span> <span class="n">tn</span> <span class="o">+</span> <span class="n">fp</span> <span class="o">+</span> <span class="n">fn</span><span class="p">)</span>
-        <span class="n">specificity</span> <span class="o">=</span> <span class="n">tn</span> <span class="o">/</span> <span class="p">(</span><span class="n">tn</span> <span class="o">+</span> <span class="n">fp</span><span class="p">)</span> <span class="k">if</span> <span class="p">(</span><span class="n">tn</span> <span class="o">+</span> <span class="n">fp</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">0</span> <span class="k">else</span> <span class="mi">0</span>
-        <span class="n">fpr</span> <span class="o">=</span> <span class="n">fp</span> <span class="o">/</span> <span class="p">(</span><span class="n">fp</span> <span class="o">+</span> <span class="n">tn</span><span class="p">)</span> <span class="k">if</span> <span class="p">(</span><span class="n">fp</span> <span class="o">+</span> <span class="n">tn</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">0</span> <span class="k">else</span> <span class="mi">0</span>
-        <span class="n">fnr</span> <span class="o">=</span> <span class="n">fn</span> <span class="o">/</span> <span class="p">(</span><span class="n">fn</span> <span class="o">+</span> <span class="n">tp</span><span class="p">)</span> <span class="k">if</span> <span class="p">(</span><span class="n">fn</span> <span class="o">+</span> <span class="n">tp</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">0</span> <span class="k">else</span> <span class="mi">0</span>
+        <span class="n">accuracy</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="p">(</span><span class="n">total_tp</span> <span class="o">+</span> <span class="n">total_tn</span><span class="p">)</span> <span class="o">/</span> <span class="p">(</span><span class="n">total_tp</span> <span class="o">+</span> <span class="n">total_tn</span> <span class="o">+</span> <span class="n">total_fp</span> <span class="o">+</span> <span class="n">total_fn</span><span class="p">)</span>
+            <span class="k">if</span> <span class="p">(</span><span class="n">total_tp</span> <span class="o">+</span> <span class="n">total_tn</span> <span class="o">+</span> <span class="n">total_fp</span> <span class="o">+</span> <span class="n">total_fn</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">0</span>
+            <span class="k">else</span> <span class="mi">0</span>
+        <span class="p">)</span>
+        <span class="n">specificity</span> <span class="o">=</span> <span class="n">total_tn</span> <span class="o">/</span> <span class="p">(</span><span class="n">total_tn</span> <span class="o">+</span> <span class="n">total_fp</span><span class="p">)</span> <span class="k">if</span> <span class="p">(</span><span class="n">total_tn</span> <span class="o">+</span> <span class="n">total_fp</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">0</span> <span class="k">else</span> <span class="mi">0</span>
+        <span class="n">fpr</span> <span class="o">=</span> <span class="n">total_fp</span> <span class="o">/</span> <span class="p">(</span><span class="n">total_fp</span> <span class="o">+</span> <span class="n">total_tn</span><span class="p">)</span> <span class="k">if</span> <span class="p">(</span><span class="n">total_fp</span> <span class="o">+</span> <span class="n">total_tn</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">0</span> <span class="k">else</span> <span class="mi">0</span>
+        <span class="n">fnr</span> <span class="o">=</span> <span class="n">total_fn</span> <span class="o">/</span> <span class="p">(</span><span class="n">total_fn</span> <span class="o">+</span> <span class="n">total_tp</span><span class="p">)</span> <span class="k">if</span> <span class="p">(</span><span class="n">total_fn</span> <span class="o">+</span> <span class="n">total_tp</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">0</span> <span class="k">else</span> <span class="mi">0</span>
 
         <span class="n">eval_metrics</span> <span class="o">=</span> <span class="p">{</span>
             <span class="s2">&quot;recall&quot;</span><span class="p">:</span> <span class="n">recall</span><span class="p">,</span>
@@ -606,14 +592,129 @@ <h1>Source code for blockingpy.blocker</h1><div class="highlight"><pre>
             <span class="n">x_df</span><span class="o">=</span><span class="n">blocking_result</span><span class="o">.</span><span class="n">result</span><span class="p">,</span>
             <span class="n">ann</span><span class="o">=</span><span class="n">blocking_result</span><span class="o">.</span><span class="n">method</span><span class="p">,</span>
             <span class="n">deduplication</span><span class="o">=</span><span class="n">blocking_result</span><span class="o">.</span><span class="n">deduplication</span><span class="p">,</span>
-            <span class="n">len_x</span><span class="o">=</span><span class="n">blocking_result</span><span class="o">.</span><span class="n">len_x</span><span class="p">,</span>
+            <span class="n">n_original_records</span><span class="o">=</span><span class="n">blocking_result</span><span class="o">.</span><span class="n">n_original_records</span><span class="p">,</span>
             <span class="n">true_blocks</span><span class="o">=</span><span class="n">true_blocks</span><span class="p">,</span>
             <span class="n">eval_metrics</span><span class="o">=</span><span class="n">eval_metrics</span><span class="p">,</span>
             <span class="n">confusion</span><span class="o">=</span><span class="n">confusion</span><span class="p">,</span>
             <span class="n">colnames_xy</span><span class="o">=</span><span class="n">blocking_result</span><span class="o">.</span><span class="n">colnames</span><span class="p">,</span>
             <span class="n">graph</span><span class="o">=</span><span class="n">blocking_result</span><span class="o">.</span><span class="n">graph</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">,</span>
         <span class="p">)</span></div>
-</div>
+
+
+    <span class="k">def</span> <span class="nf">_eval_dedup_batch</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">sub_x</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span>
+        <span class="n">sub_y</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span>
+        <span class="n">true_blocks</span><span class="p">:</span> <span class="n">pd</span><span class="o">.</span><span class="n">DataFrame</span><span class="p">,</span>
+        <span class="n">x_df_long</span><span class="p">:</span> <span class="n">pd</span><span class="o">.</span><span class="n">DataFrame</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">tuple</span><span class="p">[</span><span class="nb">int</span><span class="p">,</span> <span class="nb">int</span><span class="p">,</span> <span class="nb">int</span><span class="p">]:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Process a batch of candidate pairs for deduplication evaluation.</span>
+<span class="sd">        This method processes a subset of record pairs to compute confusion matrix elements</span>
+<span class="sd">        for evaluating blocking quality.</span>
+
+<span class="sd">        Parameters</span>
+<span class="sd">        ----------</span>
+<span class="sd">        sub_x : numpy.ndarray</span>
+<span class="sd">            Subset of records from dataset X to evaluate</span>
+<span class="sd">        sub_y : numpy.ndarray</span>
+<span class="sd">            Subset of records from dataset X to evaluate, needed to create candidate pairs</span>
+<span class="sd">        true_blocks : pandas.DataFrame</span>
+<span class="sd">            DataFrame containing true block assignments with columns [&#39;x&#39;, &#39;y&#39;, &#39;block&#39;]</span>
+<span class="sd">        x_df_long : pandas.DataFrame</span>
+<span class="sd">            DataFrame containing predicted block assignments with columns [&#39;x&#39;, &#39;block&#39;]</span>
+
+<span class="sd">        Returns</span>
+<span class="sd">        -------</span>
+<span class="sd">        tuple[int, int, int]</span>
+<span class="sd">            A tuple containing partial confusion matrix counts:</span>
+<span class="sd">            - tp (true positives): Pairs correctly blocked together</span>
+<span class="sd">            - fp (false positives): Pairs incorrectly blocked together</span>
+<span class="sd">            - fn (false negatives): Pairs incorrectly not blocked together</span>
+
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">pair_chunk</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">DataFrame</span><span class="p">(</span>
+            <span class="p">[(</span><span class="n">i</span><span class="p">,</span> <span class="n">j</span><span class="p">)</span> <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="n">sub_x</span> <span class="k">for</span> <span class="n">j</span> <span class="ow">in</span> <span class="n">sub_y</span> <span class="k">if</span> <span class="n">i</span> <span class="o">&lt;</span> <span class="n">j</span><span class="p">],</span> <span class="n">columns</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;x&quot;</span><span class="p">,</span> <span class="s2">&quot;y&quot;</span><span class="p">]</span>
+        <span class="p">)</span>
+
+        <span class="n">pair_chunk</span> <span class="o">=</span> <span class="n">pair_chunk</span><span class="o">.</span><span class="n">merge</span><span class="p">(</span><span class="n">true_blocks</span><span class="p">,</span> <span class="n">on</span><span class="o">=</span><span class="s2">&quot;x&quot;</span><span class="p">,</span> <span class="n">how</span><span class="o">=</span><span class="s2">&quot;left&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">rename</span><span class="p">(</span>
+            <span class="n">columns</span><span class="o">=</span><span class="p">{</span><span class="s2">&quot;block&quot;</span><span class="p">:</span> <span class="s2">&quot;true_block_x&quot;</span><span class="p">}</span>
+        <span class="p">)</span>
+        <span class="n">pair_chunk</span> <span class="o">=</span> <span class="n">pair_chunk</span><span class="o">.</span><span class="n">merge</span><span class="p">(</span>
+            <span class="n">true_blocks</span><span class="p">,</span> <span class="n">left_on</span><span class="o">=</span><span class="s2">&quot;y&quot;</span><span class="p">,</span> <span class="n">right_on</span><span class="o">=</span><span class="s2">&quot;x&quot;</span><span class="p">,</span> <span class="n">how</span><span class="o">=</span><span class="s2">&quot;left&quot;</span><span class="p">,</span> <span class="n">suffixes</span><span class="o">=</span><span class="p">(</span><span class="kc">None</span><span class="p">,</span> <span class="s2">&quot;_tb&quot;</span><span class="p">)</span>
+        <span class="p">)</span><span class="o">.</span><span class="n">rename</span><span class="p">(</span><span class="n">columns</span><span class="o">=</span><span class="p">{</span><span class="s2">&quot;block&quot;</span><span class="p">:</span> <span class="s2">&quot;true_block_y&quot;</span><span class="p">})</span>
+        <span class="n">pair_chunk</span> <span class="o">=</span> <span class="n">pair_chunk</span><span class="o">.</span><span class="n">merge</span><span class="p">(</span><span class="n">x_df_long</span><span class="p">,</span> <span class="n">on</span><span class="o">=</span><span class="s2">&quot;x&quot;</span><span class="p">,</span> <span class="n">how</span><span class="o">=</span><span class="s2">&quot;left&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">rename</span><span class="p">(</span>
+            <span class="n">columns</span><span class="o">=</span><span class="p">{</span><span class="s2">&quot;block&quot;</span><span class="p">:</span> <span class="s2">&quot;pred_block_x&quot;</span><span class="p">}</span>
+        <span class="p">)</span>
+        <span class="n">pair_chunk</span> <span class="o">=</span> <span class="n">pair_chunk</span><span class="o">.</span><span class="n">merge</span><span class="p">(</span>
+            <span class="n">x_df_long</span><span class="p">,</span> <span class="n">left_on</span><span class="o">=</span><span class="s2">&quot;y&quot;</span><span class="p">,</span> <span class="n">right_on</span><span class="o">=</span><span class="s2">&quot;x&quot;</span><span class="p">,</span> <span class="n">how</span><span class="o">=</span><span class="s2">&quot;left&quot;</span><span class="p">,</span> <span class="n">suffixes</span><span class="o">=</span><span class="p">(</span><span class="kc">None</span><span class="p">,</span> <span class="s2">&quot;_pred&quot;</span><span class="p">)</span>
+        <span class="p">)</span><span class="o">.</span><span class="n">rename</span><span class="p">(</span><span class="n">columns</span><span class="o">=</span><span class="p">{</span><span class="s2">&quot;block&quot;</span><span class="p">:</span> <span class="s2">&quot;pred_block_y&quot;</span><span class="p">})</span>
+
+        <span class="n">pair_chunk</span><span class="p">[</span><span class="s2">&quot;true_link&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">pair_chunk</span><span class="p">[</span><span class="s2">&quot;true_block_x&quot;</span><span class="p">]</span> <span class="o">==</span> <span class="n">pair_chunk</span><span class="p">[</span><span class="s2">&quot;true_block_y&quot;</span><span class="p">]</span>
+        <span class="n">pair_chunk</span><span class="p">[</span><span class="s2">&quot;pred_link&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">pair_chunk</span><span class="p">[</span><span class="s2">&quot;pred_block_x&quot;</span><span class="p">]</span> <span class="o">==</span> <span class="n">pair_chunk</span><span class="p">[</span><span class="s2">&quot;pred_block_y&quot;</span><span class="p">]</span>
+
+        <span class="n">tp</span> <span class="o">=</span> <span class="p">(</span><span class="n">pair_chunk</span><span class="p">[</span><span class="s2">&quot;true_link&quot;</span><span class="p">]</span> <span class="o">&amp;</span> <span class="n">pair_chunk</span><span class="p">[</span><span class="s2">&quot;pred_link&quot;</span><span class="p">])</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span>
+        <span class="n">fp</span> <span class="o">=</span> <span class="p">(</span><span class="o">~</span><span class="n">pair_chunk</span><span class="p">[</span><span class="s2">&quot;true_link&quot;</span><span class="p">]</span> <span class="o">&amp;</span> <span class="n">pair_chunk</span><span class="p">[</span><span class="s2">&quot;pred_link&quot;</span><span class="p">])</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span>
+        <span class="n">fn</span> <span class="o">=</span> <span class="p">(</span><span class="n">pair_chunk</span><span class="p">[</span><span class="s2">&quot;true_link&quot;</span><span class="p">]</span> <span class="o">&amp;</span> <span class="o">~</span><span class="n">pair_chunk</span><span class="p">[</span><span class="s2">&quot;pred_link&quot;</span><span class="p">])</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span>
+
+        <span class="k">return</span> <span class="n">tp</span><span class="p">,</span> <span class="n">fp</span><span class="p">,</span> <span class="n">fn</span>
+
+    <span class="k">def</span> <span class="nf">_eval_rl_batch</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">sub_x</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span>
+        <span class="n">sub_y</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span>
+        <span class="n">true_blocks</span><span class="p">:</span> <span class="n">pd</span><span class="o">.</span><span class="n">DataFrame</span><span class="p">,</span>
+        <span class="n">x_df</span><span class="p">:</span> <span class="n">pd</span><span class="o">.</span><span class="n">DataFrame</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">tuple</span><span class="p">[</span><span class="nb">int</span><span class="p">,</span> <span class="nb">int</span><span class="p">,</span> <span class="nb">int</span><span class="p">]:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Process a batch of record pairs and compute confusion matrix counts.</span>
+<span class="sd">        This method processes a subset of record pairs for record linkage evaluation.</span>
+
+<span class="sd">        Parameters</span>
+<span class="sd">        ----------</span>
+<span class="sd">        sub_x : numpy.ndarray</span>
+<span class="sd">            Subset of records from dataset X to evaluate</span>
+<span class="sd">        sub_y : numpy.ndarray</span>
+<span class="sd">            Subset of records from dataset Y to evaluate</span>
+<span class="sd">        true_blocks : pandas.DataFrame</span>
+<span class="sd">            DataFrame containing true block assignments with columns [&#39;x&#39;, &#39;y&#39;, &#39;block&#39;]</span>
+<span class="sd">        x_df : pandas.DataFrame</span>
+<span class="sd">            DataFrame containing predicted block assignments with columns [&#39;x&#39;, &#39;y&#39;, &#39;block&#39;]</span>
+
+<span class="sd">        Returns</span>
+<span class="sd">        -------</span>
+<span class="sd">        tuple[int, int, int]</span>
+<span class="sd">            A tuple containing:</span>
+<span class="sd">            - tp (true positives): Number of pairs correctly assigned to same block</span>
+<span class="sd">            - fp (false positives): Number of pairs incorrectly assigned to same block</span>
+<span class="sd">            - fn (false negatives): Number of pairs incorrectly assigned to different blocks</span>
+
+<span class="sd">        Notes</span>
+<span class="sd">        -----</span>
+<span class="sd">        The method creates candidate pairs between records in sub_x and sub_y,</span>
+<span class="sd">        then compares their true and predicted block assignments to compute</span>
+<span class="sd">        confusion matrix counts.</span>
+
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">pair_chunk</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">DataFrame</span><span class="p">(</span><span class="n">itertools</span><span class="o">.</span><span class="n">product</span><span class="p">(</span><span class="n">sub_x</span><span class="p">,</span> <span class="n">sub_y</span><span class="p">),</span> <span class="n">columns</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;x&quot;</span><span class="p">,</span> <span class="s2">&quot;y&quot;</span><span class="p">])</span>
+        <span class="n">pair_chunk</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">pair_chunk</span><span class="o">.</span><span class="n">merge</span><span class="p">(</span><span class="n">true_blocks</span><span class="p">[[</span><span class="s2">&quot;x&quot;</span><span class="p">,</span> <span class="s2">&quot;block&quot;</span><span class="p">]],</span> <span class="n">on</span><span class="o">=</span><span class="s2">&quot;x&quot;</span><span class="p">,</span> <span class="n">how</span><span class="o">=</span><span class="s2">&quot;left&quot;</span><span class="p">)</span>
+            <span class="o">.</span><span class="n">rename</span><span class="p">(</span><span class="n">columns</span><span class="o">=</span><span class="p">{</span><span class="s2">&quot;block&quot;</span><span class="p">:</span> <span class="s2">&quot;true_block_x&quot;</span><span class="p">})</span>
+            <span class="o">.</span><span class="n">merge</span><span class="p">(</span><span class="n">true_blocks</span><span class="p">[[</span><span class="s2">&quot;y&quot;</span><span class="p">,</span> <span class="s2">&quot;block&quot;</span><span class="p">]],</span> <span class="n">on</span><span class="o">=</span><span class="s2">&quot;y&quot;</span><span class="p">,</span> <span class="n">how</span><span class="o">=</span><span class="s2">&quot;left&quot;</span><span class="p">)</span>
+            <span class="o">.</span><span class="n">rename</span><span class="p">(</span><span class="n">columns</span><span class="o">=</span><span class="p">{</span><span class="s2">&quot;block&quot;</span><span class="p">:</span> <span class="s2">&quot;true_block_y&quot;</span><span class="p">})</span>
+            <span class="o">.</span><span class="n">merge</span><span class="p">(</span><span class="n">x_df</span><span class="p">[[</span><span class="s2">&quot;x&quot;</span><span class="p">,</span> <span class="s2">&quot;block&quot;</span><span class="p">]],</span> <span class="n">on</span><span class="o">=</span><span class="s2">&quot;x&quot;</span><span class="p">,</span> <span class="n">how</span><span class="o">=</span><span class="s2">&quot;left&quot;</span><span class="p">)</span>
+            <span class="o">.</span><span class="n">rename</span><span class="p">(</span><span class="n">columns</span><span class="o">=</span><span class="p">{</span><span class="s2">&quot;block&quot;</span><span class="p">:</span> <span class="s2">&quot;pred_block_x&quot;</span><span class="p">})</span>
+            <span class="o">.</span><span class="n">merge</span><span class="p">(</span><span class="n">x_df</span><span class="p">[[</span><span class="s2">&quot;y&quot;</span><span class="p">,</span> <span class="s2">&quot;block&quot;</span><span class="p">]],</span> <span class="n">on</span><span class="o">=</span><span class="s2">&quot;y&quot;</span><span class="p">,</span> <span class="n">how</span><span class="o">=</span><span class="s2">&quot;left&quot;</span><span class="p">)</span>
+            <span class="o">.</span><span class="n">rename</span><span class="p">(</span><span class="n">columns</span><span class="o">=</span><span class="p">{</span><span class="s2">&quot;block&quot;</span><span class="p">:</span> <span class="s2">&quot;pred_block_y&quot;</span><span class="p">})</span>
+        <span class="p">)</span>
+        <span class="n">pair_chunk</span><span class="p">[</span><span class="s2">&quot;true_link&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">pair_chunk</span><span class="p">[</span><span class="s2">&quot;true_block_x&quot;</span><span class="p">]</span> <span class="o">==</span> <span class="n">pair_chunk</span><span class="p">[</span><span class="s2">&quot;true_block_y&quot;</span><span class="p">]</span>
+        <span class="n">pair_chunk</span><span class="p">[</span><span class="s2">&quot;pred_link&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">pair_chunk</span><span class="p">[</span><span class="s2">&quot;pred_block_x&quot;</span><span class="p">]</span> <span class="o">==</span> <span class="n">pair_chunk</span><span class="p">[</span><span class="s2">&quot;pred_block_y&quot;</span><span class="p">]</span>
+
+        <span class="n">tp</span> <span class="o">=</span> <span class="p">(</span><span class="n">pair_chunk</span><span class="p">[</span><span class="s2">&quot;true_link&quot;</span><span class="p">]</span> <span class="o">&amp;</span> <span class="n">pair_chunk</span><span class="p">[</span><span class="s2">&quot;pred_link&quot;</span><span class="p">])</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span>
+        <span class="n">fp</span> <span class="o">=</span> <span class="p">(</span><span class="o">~</span><span class="n">pair_chunk</span><span class="p">[</span><span class="s2">&quot;true_link&quot;</span><span class="p">]</span> <span class="o">&amp;</span> <span class="n">pair_chunk</span><span class="p">[</span><span class="s2">&quot;pred_link&quot;</span><span class="p">])</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span>
+        <span class="n">fn</span> <span class="o">=</span> <span class="p">(</span><span class="n">pair_chunk</span><span class="p">[</span><span class="s2">&quot;true_link&quot;</span><span class="p">]</span> <span class="o">&amp;</span> <span class="o">~</span><span class="n">pair_chunk</span><span class="p">[</span><span class="s2">&quot;pred_link&quot;</span><span class="p">])</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span>
+
+        <span class="k">return</span> <span class="n">tp</span><span class="p">,</span> <span class="n">fp</span><span class="p">,</span> <span class="n">fn</span></div>
 
 </pre></div>
 
diff --git a/docs/_build/html/_modules/blockingpy/blocking_result.html b/docs/_build/html/_modules/blockingpy/blocking_result.html
index 5e55f9b..e58ca84 100644
--- a/docs/_build/html/_modules/blockingpy/blocking_result.html
+++ b/docs/_build/html/_modules/blockingpy/blocking_result.html
@@ -106,8 +106,8 @@ <h1>Source code for blockingpy.blocking_result</h1><div class="highlight"><pre>
 <span class="sd">        Whether the blocking was performed for deduplication</span>
 <span class="sd">    true_blocks : pandas.DataFrame, optional</span>
 <span class="sd">        DataFrame with true blocks to calculate evaluation metrics</span>
-<span class="sd">    len_x : int</span>
-<span class="sd">        Number of records in the original reference dataset</span>
+<span class="sd">    n_original_records : tuple[int, int]</span>
+<span class="sd">        Number of records in the original dataset(s)</span>
 <span class="sd">    eval_metrics : pandas.Series, optional</span>
 <span class="sd">        Evaluation metrics if true blocks were provided</span>
 <span class="sd">    confusion : pandas.DataFrame, optional</span>
@@ -116,6 +116,8 @@ <h1>Source code for blockingpy.blocking_result</h1><div class="highlight"><pre>
 <span class="sd">        Column names used in the blocking process</span>
 <span class="sd">    graph : bool, optional</span>
 <span class="sd">        Whether to create a graph from the blocking results (default False)</span>
+<span class="sd">    reduction_ratio : float, optional</span>
+<span class="sd">        Pre-calculated reduction ratio (default None)</span>
 
 <span class="sd">    Attributes</span>
 <span class="sd">    ----------</span>
@@ -133,8 +135,10 @@ <h1>Source code for blockingpy.blocking_result</h1><div class="highlight"><pre>
 <span class="sd">        Names of columns used in blocking</span>
 <span class="sd">    graph : networkx.Graph or None</span>
 <span class="sd">        Network representation of blocking results if requested</span>
-<span class="sd">    len_x : int</span>
-<span class="sd">        Number of records in the original reference dataset</span>
+<span class="sd">    n_original_records : tuple[int, int]</span>
+<span class="sd">        Number of records in the original dataset(s)</span>
+<span class="sd">    reduction_ratio : float</span>
+<span class="sd">        Reduction ratio calculated for the blocking method</span>
 
 <span class="sd">    Notes</span>
 <span class="sd">    -----</span>
@@ -148,12 +152,13 @@ <h1>Source code for blockingpy.blocking_result</h1><div class="highlight"><pre>
         <span class="n">x_df</span><span class="p">:</span> <span class="n">pd</span><span class="o">.</span><span class="n">DataFrame</span><span class="p">,</span>
         <span class="n">ann</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
         <span class="n">deduplication</span><span class="p">:</span> <span class="nb">bool</span><span class="p">,</span>
-        <span class="n">len_x</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+        <span class="n">n_original_records</span><span class="p">:</span> <span class="nb">tuple</span><span class="p">[</span><span class="nb">int</span><span class="p">,</span> <span class="nb">int</span><span class="p">],</span>
         <span class="n">true_blocks</span><span class="p">:</span> <span class="n">pd</span><span class="o">.</span><span class="n">DataFrame</span> <span class="o">|</span> <span class="kc">None</span><span class="p">,</span>
         <span class="n">eval_metrics</span><span class="p">:</span> <span class="n">pd</span><span class="o">.</span><span class="n">Series</span> <span class="o">|</span> <span class="kc">None</span><span class="p">,</span>
         <span class="n">confusion</span><span class="p">:</span> <span class="n">pd</span><span class="o">.</span><span class="n">DataFrame</span> <span class="o">|</span> <span class="kc">None</span><span class="p">,</span>
         <span class="n">colnames_xy</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span>
         <span class="n">graph</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">reduction_ratio</span><span class="p">:</span> <span class="nb">float</span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
     <span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;Initialize a BlockingResult instance.&quot;&quot;&quot;</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">result</span> <span class="o">=</span> <span class="n">x_df</span><span class="p">[[</span><span class="s2">&quot;x&quot;</span><span class="p">,</span> <span class="s2">&quot;y&quot;</span><span class="p">,</span> <span class="s2">&quot;block&quot;</span><span class="p">,</span> <span class="s2">&quot;dist&quot;</span><span class="p">]]</span>
@@ -165,7 +170,12 @@ <h1>Source code for blockingpy.blocking_result</h1><div class="highlight"><pre>
         <span class="bp">self</span><span class="o">.</span><span class="n">graph</span> <span class="o">=</span> <span class="p">(</span>
             <span class="n">nx</span><span class="o">.</span><span class="n">from_pandas_edgelist</span><span class="p">(</span><span class="n">x_df</span><span class="p">[[</span><span class="s2">&quot;x&quot;</span><span class="p">,</span> <span class="s2">&quot;y&quot;</span><span class="p">]],</span> <span class="n">source</span><span class="o">=</span><span class="s2">&quot;x&quot;</span><span class="p">,</span> <span class="n">target</span><span class="o">=</span><span class="s2">&quot;y&quot;</span><span class="p">)</span> <span class="k">if</span> <span class="n">graph</span> <span class="k">else</span> <span class="kc">None</span>
         <span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">len_x</span> <span class="o">=</span> <span class="n">len_x</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">n_original_records</span> <span class="o">=</span> <span class="n">n_original_records</span>
+
+        <span class="k">if</span> <span class="n">reduction_ratio</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">reduction_ratio</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_calculate_reduction_ratio</span><span class="p">()</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">reduction_ratio</span> <span class="o">=</span> <span class="n">reduction_ratio</span>
 
     <span class="k">def</span> <span class="fm">__repr__</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
@@ -206,14 +216,13 @@ <h1>Source code for blockingpy.blocking_result</h1><div class="highlight"><pre>
                 <span class="bp">self</span><span class="o">.</span><span class="n">result</span><span class="o">.</span><span class="n">groupby</span><span class="p">(</span><span class="s2">&quot;block&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">agg</span><span class="p">({</span><span class="s2">&quot;x&quot;</span><span class="p">:</span> <span class="s2">&quot;nunique&quot;</span><span class="p">,</span> <span class="s2">&quot;y&quot;</span><span class="p">:</span> <span class="s2">&quot;nunique&quot;</span><span class="p">})</span><span class="o">.</span><span class="n">sum</span><span class="p">(</span><span class="n">axis</span><span class="o">=</span><span class="mi">1</span><span class="p">)</span>
             <span class="p">)</span>
         <span class="n">block_size_dist</span> <span class="o">=</span> <span class="n">Counter</span><span class="p">(</span><span class="n">block_sizes</span><span class="o">.</span><span class="n">values</span><span class="p">)</span>
-        <span class="n">reduction_ratio</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_calculate_reduction_ratio</span><span class="p">()</span>
 
         <span class="n">output</span> <span class="o">=</span> <span class="p">[]</span>
         <span class="n">output</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="s2">&quot;=&quot;</span> <span class="o">*</span> <span class="mi">56</span><span class="p">)</span>
         <span class="n">output</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Blocking based on the </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">method</span><span class="si">}</span><span class="s2"> method.&quot;</span><span class="p">)</span>
         <span class="n">output</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Number of blocks: </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">block_sizes</span><span class="p">)</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
         <span class="n">output</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Number of columns used for blocking: </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">colnames</span><span class="p">)</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
-        <span class="n">output</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Reduction ratio: </span><span class="si">{</span><span class="n">reduction_ratio</span><span class="si">:</span><span class="s2">.4f</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+        <span class="n">output</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Reduction ratio: </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">reduction_ratio</span><span class="si">:</span><span class="s2">.6f</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
         <span class="n">output</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="s2">&quot;=&quot;</span> <span class="o">*</span> <span class="mi">56</span><span class="p">)</span>
 
         <span class="n">output</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="s2">&quot;Distribution of the size of the blocks:&quot;</span><span class="p">)</span>
@@ -251,13 +260,13 @@ <h1>Source code for blockingpy.blocking_result</h1><div class="highlight"><pre>
 
 <span class="sd">        &quot;&quot;&quot;</span>
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">deduplication</span><span class="p">:</span>
-            <span class="n">denominator</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">len_x</span> <span class="o">*</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">len_x</span> <span class="o">-</span> <span class="mi">1</span><span class="p">)</span> <span class="o">/</span> <span class="mi">2</span>
+            <span class="n">denominator</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">n_original_records</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">*</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">n_original_records</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">-</span> <span class="mi">1</span><span class="p">)</span> <span class="o">/</span> <span class="mi">2</span>
             <span class="n">block_sizes</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">result</span><span class="o">.</span><span class="n">groupby</span><span class="p">(</span><span class="s2">&quot;block&quot;</span><span class="p">)[[</span><span class="s2">&quot;x&quot;</span><span class="p">,</span> <span class="s2">&quot;y&quot;</span><span class="p">]]</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
                 <span class="k">lambda</span> <span class="n">x</span><span class="p">:</span> <span class="nb">len</span><span class="p">(</span><span class="n">pd</span><span class="o">.</span><span class="n">concat</span><span class="p">([</span><span class="n">x</span><span class="p">[</span><span class="s2">&quot;x&quot;</span><span class="p">],</span> <span class="n">x</span><span class="p">[</span><span class="s2">&quot;y&quot;</span><span class="p">]])</span><span class="o">.</span><span class="n">unique</span><span class="p">())</span>
             <span class="p">)</span>
             <span class="n">numerator</span> <span class="o">=</span> <span class="p">(</span><span class="n">block_sizes</span> <span class="o">*</span> <span class="p">(</span><span class="n">block_sizes</span> <span class="o">-</span> <span class="mi">1</span><span class="p">)</span> <span class="o">/</span> <span class="mi">2</span><span class="p">)</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span> <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">block_sizes</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">0</span> <span class="k">else</span> <span class="mi">0</span>
         <span class="k">else</span><span class="p">:</span>
-            <span class="n">denominator</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">len_x</span> <span class="o">*</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">result</span><span class="p">)</span>
+            <span class="n">denominator</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">n_original_records</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">n_original_records</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
             <span class="n">block_comparisons</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">result</span><span class="o">.</span><span class="n">groupby</span><span class="p">(</span><span class="s2">&quot;block&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">agg</span><span class="p">({</span><span class="s2">&quot;x&quot;</span><span class="p">:</span> <span class="s2">&quot;nunique&quot;</span><span class="p">,</span> <span class="s2">&quot;y&quot;</span><span class="p">:</span> <span class="s2">&quot;nunique&quot;</span><span class="p">})</span>
             <span class="n">numerator</span> <span class="o">=</span> <span class="p">(</span><span class="n">block_comparisons</span><span class="p">[</span><span class="s2">&quot;x&quot;</span><span class="p">]</span> <span class="o">*</span> <span class="n">block_comparisons</span><span class="p">[</span><span class="s2">&quot;y&quot;</span><span class="p">])</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span>
 
diff --git a/docs/_build/html/_sources/changelog.md.txt b/docs/_build/html/_sources/changelog.md.txt
index 72987cb..e57b0c5 100644
--- a/docs/_build/html/_sources/changelog.md.txt
+++ b/docs/_build/html/_sources/changelog.md.txt
@@ -1,5 +1,22 @@
 # Changelog
 
+## v0.1.10
+- evaluation only for records that exist in true blocks.
+- default distance for `faiss` changed to `cosine`
+- code simplification
+- minor changes
+fix docs, fix eval, fix codecov
+
+## v0.1.9
+- optimized evaluation part to allow batch processing
+
+## v0.1.8 
+- added author Maciej Beręsewicz
+- added info about funding
+- added data inside the package
+- added new deduplication example in docs
+- minor changes
+
 ## v0.1.7
 - added CODE_OF_CONDUCT.md
 - documentation update
diff --git a/docs/_build/html/_sources/examples/deduplication.md.txt b/docs/_build/html/_sources/examples/deduplication.md.txt
index 39e45f3..63d558e 100644
--- a/docs/_build/html/_sources/examples/deduplication.md.txt
+++ b/docs/_build/html/_sources/examples/deduplication.md.txt
@@ -236,6 +236,7 @@ eval_result = blocker.block(
 #     true_blocks=true_blocs_dedup
 # ) 
 # The rest stays the same in both cases
+#Note: We recommend using eval() method when evaluating larger datasets since it allows you to set the batch #size for currently evaluated record pairs.
 
 print(eval_result)
 print(eval_result.metrics)
diff --git a/docs/_build/html/_sources/examples/deduplication_2.md.txt b/docs/_build/html/_sources/examples/deduplication_2.md.txt
new file mode 100644
index 0000000..50b5df0
--- /dev/null
+++ b/docs/_build/html/_sources/examples/deduplication_2.md.txt
@@ -0,0 +1,241 @@
+# Deduplication No. 2
+
+In this example we'll use data known as `RLdata10000` taken from [RecordLinkage](https://cran.r-project.org/package=RecordLinkage) R package developed by Murat Sariyar
+and Andreas Borg. It contains 10 000 records in total where some have been duplicated with randomly generated errors. There are 9000 original records and 1000 duplicates.
+
+## Data Preparation
+
+Let's install `blockingpy`
+
+```bash
+pip install blockingpy
+```
+
+Import necessary packages and functions:
+
+```python
+import pandas as pd
+from blockingpy import Blocker
+from blockingpy.datasets import load_deduplication_data()
+```
+
+Let's load the data and take a look at first 5 rows:
+
+```python
+data = load_deduplication_data()
+data.head()
+
+# 	fname_c1	fname_c2	lname_c1	lname_c2   by	bm	bd	id  true_id
+# 0	FRANK	    NaN	        MUELLER	    NaN	       1967	9	27	1	3606
+# 1	MARTIN	    NaN	        SCHWARZ	    NaN	       1967	2	17	2	2560
+# 2	HERBERT	    NaN	        ZIMMERMANN  NaN	       1961	11	6	3	3892
+# 3	HANS	    NaN	        SCHMITT	    NaN	       1945	8	14	4	329
+# 4	UWE	    NaN	        KELLER	    NaN	       2000	7	5	5	1994
+```
+
+Now we need to prepare the `txt` column:
+
+```python
+data = data.fillna('')
+data[['by', 'bm', 'bd']] = data[['by', 'bm', 'bd']].astype('str')
+data['txt'] = (
+    data["fname_c1"] +
+    data["fname_c2"] +
+    data['lname_c1'] +
+    data['lname_c2'] +
+    data['by'] +
+    data['bm'] +
+    data['bd']
+    )   
+data['txt'].head()
+
+# 0         FRANKMUELLER1967927
+# 1        MARTINSCHWARZ1967217
+# 2    HERBERTZIMMERMANN1961116
+# 3          HANSSCHMITT1945814
+# 4             UWEKELLER200075
+# Name: txt, dtype: object
+```
+
+## Basic Deduplication
+
+Let's perfrom basic deduplication using `hnsw` algorithm
+
+```python
+blocker = Blocker()
+dedup_result = blocker.block(
+    x=data['txt'],
+    ann='hnsw',
+    verbose=1,
+)
+
+# ===== creating tokens =====
+# ===== starting search (hnsw, x, y: 10000,10000, t: 674) =====
+# ===== creating graph =====
+```
+
+We can now take a look at the results: 
+
+```python
+print(dedup_result)
+
+# ========================================================
+# Blocking based on the hnsw method.
+# Number of blocks: 2736
+# Number of columns used for blocking: 674
+# Reduction ratio: 0.9996
+# ========================================================
+# Distribution of the size of the blocks:
+# Block Size | Number of Blocks
+#          2 | 962            
+#          3 | 725            
+#          4 | 409            
+#          5 | 263            
+#          6 | 139            
+#          7 | 89             
+#          8 | 52             
+#          9 | 37             
+#         10 | 24             
+#         11 | 14             
+#         12 | 9              
+#         13 | 5              
+#         14 | 2              
+#         15 | 1              
+#         16 | 1              
+#         17 | 2              
+#         20 | 1              
+#         64 | 1   
+```
+
+and:
+
+```python
+print(dedup_result.result)
+#          x     y  block      dist
+# 0     3402     0      0  0.256839
+# 1     1179     1      1  0.331352
+# 2     2457     2      2  0.209737
+# 3     1956     3      3  0.085341
+# 4     4448     4      4  0.375000
+# ...    ...   ...    ...       ...
+# 7259  9206  9994   1981  0.390912
+# 7260  6309  9995   1899  0.268436
+# 7261  5162  9996   1742  0.188893
+# 7262  6501  9997   1293  0.245406
+# 7263  5183  9999   1273  0.209088
+```
+
+Let's see the pair in the `block` no. `3`
+
+```python
+print(data.iloc[[1956, 3], : ])
+#      fname_c1 fname_c2 lname_c1  ...    id true_id                  txt
+# 1956    HRANS           SCHMITT  ...  1957     329  HRANSSCHMITT1945814
+# 3        HANS           SCHMITT  ...     4     329   HANSSCHMITT1945814
+```
+
+## True Blocks Preparation
+
+```python
+df_eval = data.copy()
+df_eval['block'] = df_eval['true_id']
+df_eval['x'] = range(len(df_eval))
+```
+
+```python
+print(df_eval.head())
+#   fname_c1 fname_c2    lname_c1  ...                       txt block  x
+# 0    FRANK              MUELLER  ...       FRANKMUELLER1967927  3606  0
+# 1   MARTIN              SCHWARZ  ...      MARTINSCHWARZ1967217  2560  1
+# 2  HERBERT           ZIMMERMANN  ...  HERBERTZIMMERMANN1961116  3892  2
+# 3     HANS              SCHMITT  ...        HANSSCHMITT1945814   329  3
+# 4      UWE               KELLER  ...           UWEKELLER200075  1994  4
+```
+
+Let's create the final `true_blocks_dedup`:
+
+```python
+true_blocks_dedup = df_eval[['x', 'block']]
+```
+
+## Evaluation
+
+Now we can evaluate our algorithm:
+
+```python
+control_ann = {
+    "faiss":{
+        "distance": "cosine"
+    }
+}
+
+blocker = Blocker()
+eval_result = blocker.block(
+    x=df_eval['txt'], 
+    ann='faiss',
+    true_blocks=true_blocks_dedup, 
+    verbose=1, 
+    control_ann=control_ann
+)
+# ===== creating tokens =====
+# ===== starting search (faiss, x, y: 10000,10000, t: 674) =====
+# ===== creating graph =====
+```
+And the results:
+
+```python
+print(eval_result)
+print(eval_result.metrics)
+# ========================================================
+# Blocking based on the faiss method.
+# Number of blocks: 2737
+# Number of columns used for blocking: 674
+# Reduction ratio: 0.9996
+# ========================================================
+# Distribution of the size of the blocks:
+# Block Size | Number of Blocks
+#          2 | 972            
+#          3 | 721            
+#          4 | 423            
+#          5 | 236            
+#          6 | 138            
+#          7 | 92             
+#          8 | 62             
+#          9 | 29             
+#         10 | 28             
+#         11 | 15             
+#         12 | 8              
+#         13 | 3              
+#         14 | 3              
+#         15 | 1              
+#         16 | 1              
+#         17 | 2              
+#         18 | 1              
+#         20 | 1              
+#         67 | 1              
+# ========================================================
+# Evaluation metrics (standard):
+# recall : 100.0
+# precision : 4.7651
+# fpr : 0.04
+# fnr : 0.0
+# accuracy : 99.96
+# specificity : 99.96
+# f1_score : 9.0967
+# recall         1.000000
+# precision      0.047651
+# fpr            0.000400
+# fnr            0.000000
+# accuracy       0.999600
+# specificity    0.999600
+# f1_score       0.090967
+```
+
+```python
+print(eval_result.confusion)
+# 	                Actual Negative     Actual Positive
+# Predicted Negative	49974014	    0
+# Predicted Positive	19986	            1000
+```
+
+The results show high reduction ratio `0.9996` alongside perfect recall (`1.000`) indicating that our package handled this dataset very well.
\ No newline at end of file
diff --git a/docs/_build/html/_sources/examples/index.md.txt b/docs/_build/html/_sources/examples/index.md.txt
index e628e1f..a8f71d7 100644
--- a/docs/_build/html/_sources/examples/index.md.txt
+++ b/docs/_build/html/_sources/examples/index.md.txt
@@ -5,4 +5,5 @@
 :maxdepth: 1
 
 record_linkage
-deduplication
\ No newline at end of file
+deduplication
+deduplication_2
\ No newline at end of file
diff --git a/docs/_build/html/_sources/examples/record_linkage.md.txt b/docs/_build/html/_sources/examples/record_linkage.md.txt
index 794e1e6..24f0983 100644
--- a/docs/_build/html/_sources/examples/record_linkage.md.txt
+++ b/docs/_build/html/_sources/examples/record_linkage.md.txt
@@ -1,13 +1,17 @@
 (record_linkage)=
 # Record Linkage
 
-This example demonstrates how to use BlockingPy for record linkage between two datasets. We'll use example data from the URos 2021 Conference tutorial which contains:
+This example demonstrates how to use BlockingPy for record linkage between two datasets. We'll use example data created by Paula McLeod, Dick Heasman and Ian Forbes, ONS,
+    for the ESSnet DI on-the-job training course, Southampton,
+    25-28 January 2011:
 
 - Census: A fictional dataset representing observations from a decennial Census
 - CIS: Fictional observations from Customer Information System (combined administrative data from tax and benefit systems)
 
 Some records in the CIS dataset contain Census person IDs, which we'll use to evaluate our blocking performance.
 
+This datasets come with the `BlockingPy` package and can be accesed via `load_census_cis_data` function from `blockingpy.datasets`.
+
 ## Setup
 
 First, install BlockingPy:
@@ -20,6 +24,7 @@ Import required packages:
 
 ```python
 from blockingpy import Blocker
+from blockingpy.datasets import load_census_cis_data
 import pandas as pd
 ```
 
@@ -28,8 +33,14 @@ import pandas as pd
 Download example data:
 
 ```python
-census = pd.read_csv("https://raw.githubusercontent.com/djvanderlaan/tutorial-reclin-uros2021/main/data/census.csv")
-cis = pd.read_csv("https://raw.githubusercontent.com/djvanderlaan/tutorial-reclin-uros2021/main/data/cis.csv")
+census, cis = load_census_cis_data()
+```
+
+Firstly, we need to filter only those columns which we'll need:
+
+```python
+census = census[["PERSON_ID", "PERNAME1", "PERNAME2", "SEX", "DOB_DAY", "DOB_MON", "DOB_YEAR", "ENUMCAP", "ENUMPC"]]
+cis = cis[["PERSON_ID", "PERNAME1", "PERNAME2", "SEX", "DOB_DAY", "DOB_MON", "DOB_YEAR", "ENUMCAP", "ENUMPC"]]
 ```
 
 Let's take a look at the data:
@@ -37,14 +48,14 @@ Let's take a look at the data:
 ```python
 print(census.head())
 
-#       person_id pername1 pername2 sex  dob_day  dob_mon  dob_year  \
+#       PERSON_ID PERNAME1 PERNAME2 SEX  DOB_DAY  DOB_MON  DOB_YEAR  \
 # 0  DE03US001001    COUIE    PRICE   M      1.0        6    1960.0   
 # 1  DE03US001002    ABBIE    PVICE   F      9.0       11    1961.0   
 # 2  DE03US001003    LACEY    PRICE   F      7.0        2    1999.0   
 # 3  DE03US001004   SAMUEL    PRICE   M     13.0        4    1990.0   
 # 4  DE03US001005   JOSEPH    PRICE   M     20.0        4    1986.0   
 
-#           enumcap  enumpc  
+#           ENUMCAP  ENUMPC  
 # 0  1 WINDSOR ROAD  DE03US  
 # 1  1 WINDSOR ROAD  DE03US  
 # 2  1 WINDSOR ROAD  DE03US  
@@ -53,19 +64,19 @@ print(census.head())
 
 print(cis.head())
 
-#   person_id  pername1  pername2 sex  dob_day  dob_mon  dob_year  \
-# 0       NaN    HAYDEN      HALL   M      NaN        1       NaN   
-# 1       NaN     SEREN  ANDERSON   F      1.0        1       NaN   
-# 2       NaN     LEWIS     LEWIS   M      1.0        1       NaN   
-# 3       NaN  HARRISON    POSTER   M      5.0        1       NaN   
-# 4       NaN  MUHAMMED    WATSUN   M      7.0        1       NaN   
+#        PERSON_ID  PERNAME1  PERNAME2 SEX  DOB_DAY  DOB_MON  DOB_YEAR  \
+# 0  PO827ER091001    HAYDEN      HALL   M      NaN        1       NaN   
+# 1  LS992DB024001     SEREN  ANDERSON   F      1.0        1       NaN   
+# 2   M432ZZ053003     LEWIS     LEWIS   M      1.0        1       NaN   
+# 3   SW75TQ018001  HARRISON    POSTER   M      5.0        1       NaN   
+# 4  EX527TR017006  MUHAMMED    WATSUN   M      7.0        1       NaN   
 
-#               enumcap   enumpc  
+#               ENUMCAP   ENUMPC  
 # 0    91 CLARENCE ROAD  PO827ER  
 # 1      24 CHURCH LANE  LS992DB  
 # 2      53 CHURCH ROAD   M432ZZ  
 # 3   19 HIGHFIELD ROAD   SW75TG  
-# 4  17 VICTORIA STREET      NaN 
+# 4  17 VICTORIA STREET      NaN  
 
 print(census.shape)
 # (25343, 9)
@@ -78,21 +89,21 @@ Preprocess data and create column `txt` containing concatenated variables:
 
 ```python
 # Convert numeric fields to strings
-census[['dob_day', 'dob_mon', 'dob_year']] = census[['dob_day', 'dob_mon', 'dob_year']].astype(str)
-cis[['dob_day', 'dob_mon', 'dob_year']] = cis[['dob_day', 'dob_mon', 'dob_year']].astype(str)
+census[['DOB_DAY', 'DOB_MON', 'DOB_YEAR']] = census[['DOB_DAY', 'DOB_MON', 'DOB_YEAR']].astype(str)
+cis[['DOB_DAY', 'DOB_MON', 'DOB_YEAR']] = cis[['DOB_DAY', 'DOB_MON', 'DOB_YEAR']].astype(str)
 
 # Fill NAs with empty strings
 census = census.fillna('')
 cis = cis.fillna('')
 
 # Concatenate fields
-census['txt'] = census['pername1'] + census['pername2'] + census['sex'] + \
-                census['dob_day'] + census['dob_mon'] + census['dob_year'] + \
-                census['enumcap'] + census['enumpc']
+census['txt'] = census['PERNAME1'] + census['PERNAME2'] + census['SEX'] + \
+                census['DOB_DAY'] + census['DOB_MON'] + census['DOB_YEAR'] + \
+                census['ENUMCAP'] + census['ENUMPC']
 
-cis['txt'] = cis['pername1'] + cis['pername2'] + cis['sex'] + \
-             cis['dob_day'] + cis['dob_mon'] + cis['dob_year'] + \
-             cis['enumcap'] + cis['enumpc']
+cis['txt'] = cis['PERNAME1'] + cis['PERNAME2'] + cis['SEX'] + \
+             cis['DOB_DAY'] + cis['DOB_MON'] + cis['DOB_YEAR'] + \
+             cis['ENUMCAP'] + cis['ENUMPC']
 ```
 
 Let's see how the new column looks like:
@@ -159,7 +170,7 @@ print(rec_lin_result)
 # Blocking based on the hnsw method.
 # Number of blocks: 23996
 # Number of columns used for blocking: 1072
-# Reduction ratio: 1.0000
+# Reduction ratio: 0.999961
 # ========================================================
 # Distribution of the size of the blocks:
 # Block Size | Number of Blocks
@@ -182,30 +193,28 @@ Let's take a look at the pair in block `0` :
 print(cis.iloc[0, :])
 print(census.iloc[17339, :])
 
-# person_id                                             
-# pername1                                        HAYDEN
-# pername2                                          HALL
-# sex                                                  M
-# dob_day                                            nan
-# dob_mon                                              1
-# dob_year                                           nan
-# enumcap                               91 CLARENCE ROAD
-# enumpc                                         PO827ER
+# PERSON_ID                                PO827ER091001
+# PERNAME1                                        HAYDEN
+# PERNAME2                                          HALL
+# SEX                                                  M
+# DOB_DAY                                            nan
+# DOB_MON                                              1
+# DOB_YEAR                                           nan
+# ENUMCAP                               91 CLARENCE ROAD
+# ENUMPC                                         PO827ER
 # txt          HAYDENHALLMnan1nan91 CLARENCE ROADPO827ER
-# y                                                    0
 # Name: 0, dtype: object
-
-# person_id                                   PO827ER091001
-# pername1                                           HAYDEM
-# pername2                                             HALL
-# sex                                                     M
-# dob_day                                               1.0
-# dob_mon                                                 1
-# dob_year                                           1957.0
-# enumcap                                  91 CLARENCE ROAD
-# enumpc                                            PO827ER
+# PERSON_ID                                   PO827ER091001
+# PERNAME1                                           HAYDEM
+# PERNAME2                                             HALL
+# SEX                                                     M
+# DOB_DAY                                               1.0
+# DOB_MON                                                 1
+# DOB_YEAR                                           1957.0
+# ENUMCAP                                  91 CLARENCE ROAD
+# ENUMPC                                            PO827ER
 # txt          HAYDEMHALLM1.011957.091 CLARENCE ROADPO827ER
-# x                                                   17339
+# Name: 17339, dtype: object
 
 ```
 
@@ -220,16 +229,20 @@ cis['y'] = range(len(cis))
 
 # Find true matches using person_id
 matches = pd.merge(
-    left=census[['person_id', 'x']],
-    right=cis[['person_id', 'y']],
-    on='person_id'
+    left=census[['PERSON_ID', 'x']],
+    right=cis[['PERSON_ID', 'y']],
+    on='PERSON_ID'
 )
 
 # Add block numbers
 matches['block'] = range(len(matches))
 
 matches.shape
-# (971, 4)
+# (24043, 4)
+```
+Let's sample 1000 pairs for which we will evaluate:
+```python
+matches = matches.sample(1000, random_state=42)
 ```
 
 Now we can evaluate the algorithm:
@@ -260,6 +273,9 @@ eval_result = blocker.block(
 #     true_blocks=matches[['x', 'y', 'block']]
 #)
 # The procedure in both cases stays the same.
+
+# Note: We recommend using eval() method when evaluating larger datasets 
+# since it allows you to set the batch size for currently evaluated record pairs.
 ```
 
 and print results with evaluation metrics:
diff --git a/docs/_build/html/_sources/index.md.txt b/docs/_build/html/_sources/index.md.txt
index 378e675..d207e60 100644
--- a/docs/_build/html/_sources/index.md.txt
+++ b/docs/_build/html/_sources/index.md.txt
@@ -41,21 +41,36 @@ If you're new to BlockingPy, we recommend following these steps:
 4. Explore the {ref}`user-guide` for detailed usage instructions
 5. Obtain more information via {ref}`api`
 
+## Example Datasets
+
+BlockingPy comes with built-in example datasets:
+
+- Census-Cis dataset created by Paula McLeod, Dick Heasman and Ian Forbes, ONS,
+    for the ESSnet DI on-the-job training course, Southampton,
+    25-28 January 2011
+
+- Deduplication dataset taken from [RecordLinkage](https://cran.r-project.org/package=RecordLinkage) R package developed by Murat Sariyar
+    and Andreas Borg. Package is licensed under GPL-3 license. Also known as [RLdata10000](https://www.rdocumentation.org/packages/RecordLinkage/versions/0.4-12.4/topics/RLdata).
+
 ## License
 
-BlockingPy is released under [MIT license](https://github.com/T-Strojny/BlockingPy/blob/main/LICENSE).
+BlockingPy is released under [MIT license](https://github.com/ncn-foreigners/BlockingPy/blob/main/LICENSE).
 
 ## Issues
 
-Feel free to report any issues, bugs, suggestions with github issues [here](https://github.com/T-Strojny/BlockingPy/issues).
+Feel free to report any issues, bugs, suggestions with github issues [here](https://github.com/ncn-foreigners/BlockingPy/issues).
 
 ## Contributing
 
-Please see [CONTRIBUTING.md](https://github.com/T-Strojny/BlockingPy/blob/main/CONTRIBUTING.md) for more information.
+Please see [CONTRIBUTING.md](https://github.com/ncn-foreigners/BlockingPy/blob/main/CONTRIBUTING.md) for more information.
 
 ## Code of Conduct
 You can find it [here](https://github.com/ncn-foreigners/BlockingPy/blob/main/CODE_OF_CONDUCT.md).
 
 ## Acknowledgements
 
-This package is based on the R [blocking](https://github.com/ncn-foreigners/blocking/tree/main) package developed by [BERENZ](https://github.com/BERENZ). Special thanks to the original author for his foundational work in this area.
+This package is based on the R [blocking](https://github.com/ncn-foreigners/blocking/tree/main) package developed by [BERENZ](https://github.com/BERENZ).
+
+## Funding
+
+Work on this package is supported by the National Science Centre, OPUS 20 grant no. 2020/39/B/HS4/00941 (Towards census-like statistics for foreign-born populations -- quality, data integration and estimation)
diff --git a/docs/_build/html/_sources/user_guide/basic_operations.md.txt b/docs/_build/html/_sources/user_guide/basic_operations.md.txt
index ed1d4a9..f4d4e5e 100644
--- a/docs/_build/html/_sources/user_guide/basic_operations.md.txt
+++ b/docs/_build/html/_sources/user_guide/basic_operations.md.txt
@@ -122,11 +122,15 @@ result = blocker.block(
 )
 evals = blocker.eval(
     blocking_result=result,
-    true_blocks=true_blocks
+    true_blocks=true_blocks,
+    batch_size=100 # (default is 10,000)
 )
 print(evals.metrics)
 print(evals.confusion) 
 ```
+
+Note: We recommend using eval() method when evaluating larger datasets since it allows you to set the batch size for currently evaluated record pairs.
+
 ### Example ground truth for record linkage
 
 ```python
diff --git a/docs/_build/html/api/blocker.html b/docs/_build/html/api/blocker.html
index 1ba5a25..a0944cc 100644
--- a/docs/_build/html/api/blocker.html
+++ b/docs/_build/html/api/blocker.html
@@ -233,6 +233,8 @@
 1. Text data (pandas.Series)
 2. Sparse matrices (scipy.sparse.csr_matrix) as a Document-Term Matrix (DTM)
 3. Dense matrices (numpy.ndarray) as a Document-Term Matrix (DTM)</p>
+<p>For evaluation of larger datasets, we recommend using the separate eval() method
+since it allows you to set the batch size for evaluation.</p>
 <p>For text data, additional preprocessing is performed using
 the parameters in control_txt.</p>
 <div class="admonition seealso">
@@ -250,12 +252,13 @@
 
 <dl class="py method">
 <dt class="sig sig-object py" id="blockingpy.blocker.Blocker.eval">
-<span class="sig-name descname"><span class="pre">eval</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">blocking_result</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference internal" href="blocking_result.html#blockingpy.blocking_result.BlockingResult" title="blockingpy.blocking_result.BlockingResult"><span class="pre">BlockingResult</span></a></span></em>, <em class="sig-param"><span class="n"><span class="pre">true_blocks</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">DataFrame</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><a class="reference internal" href="blocking_result.html#blockingpy.blocking_result.BlockingResult" title="blockingpy.blocking_result.BlockingResult"><span class="pre">BlockingResult</span></a></span></span><a class="reference internal" href="../_modules/blockingpy/blocker.html#Blocker.eval"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#blockingpy.blocker.Blocker.eval" title="Link to this definition"></a></dt>
+<span class="sig-name descname"><span class="pre">eval</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">blocking_result</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference internal" href="blocking_result.html#blockingpy.blocking_result.BlockingResult" title="blockingpy.blocking_result.BlockingResult"><span class="pre">BlockingResult</span></a></span></em>, <em class="sig-param"><span class="n"><span class="pre">true_blocks</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">DataFrame</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">batch_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1000</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><a class="reference internal" href="blocking_result.html#blockingpy.blocking_result.BlockingResult" title="blockingpy.blocking_result.BlockingResult"><span class="pre">BlockingResult</span></a></span></span><a class="reference internal" href="../_modules/blockingpy/blocker.html#Blocker.eval"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#blockingpy.blocker.Blocker.eval" title="Link to this definition"></a></dt>
 <dd><p>Evaluate blocking results against true block assignments and return new BlockingResult.</p>
 <p>This method calculates evaluation metrics and confusion matrix
 by comparing predicted blocks with known true blocks and returns
 a new BlockingResult instance containing the evaluation results
-along with the original blocking results.</p>
+along with the original blocking results. It allows you to set
+the batch size for evaluation of larger datasets.</p>
 <dl class="field-list simple">
 <dt class="field-odd">Parameters<span class="colon">:</span></dt>
 <dd class="field-odd"><ul class="simple">
@@ -263,6 +266,8 @@
 <li><p><strong>true_blocks</strong> (<em>pandas.DataFrame</em>) – DataFrame with true block assignments
 For deduplication: columns [‘x’, ‘block’]
 For record linkage: columns [‘x’, ‘y’, ‘block’]</p></li>
+<li><p><strong>batch_size</strong> (<em>int</em>) – Size of the batch for evaluation. This size if applied for both datasets
+for record linkage. Defaults to 1,000.</p></li>
 </ul>
 </dd>
 <dt class="field-even">Returns<span class="colon">:</span></dt>
diff --git a/docs/_build/html/api/blocking_result.html b/docs/_build/html/api/blocking_result.html
index 7e98d67..69245b4 100644
--- a/docs/_build/html/api/blocking_result.html
+++ b/docs/_build/html/api/blocking_result.html
@@ -59,7 +59,8 @@
 <li class="toctree-l4"><a class="reference internal" href="#blockingpy.blocking_result.BlockingResult.confusion"><code class="docutils literal notranslate"><span class="pre">BlockingResult.confusion</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="#blockingpy.blocking_result.BlockingResult.colnames"><code class="docutils literal notranslate"><span class="pre">BlockingResult.colnames</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="#blockingpy.blocking_result.BlockingResult.graph"><code class="docutils literal notranslate"><span class="pre">BlockingResult.graph</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="#blockingpy.blocking_result.BlockingResult.len_x"><code class="docutils literal notranslate"><span class="pre">BlockingResult.len_x</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="#blockingpy.blocking_result.BlockingResult.n_original_records"><code class="docutils literal notranslate"><span class="pre">BlockingResult.n_original_records</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="#blockingpy.blocking_result.BlockingResult.reduction_ratio"><code class="docutils literal notranslate"><span class="pre">BlockingResult.reduction_ratio</span></code></a></li>
 </ul>
 </li>
 </ul>
@@ -100,7 +101,7 @@
 blocking results.</p>
 <dl class="py class">
 <dt class="sig sig-object py" id="blockingpy.blocking_result.BlockingResult">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">blockingpy.blocking_result.</span></span><span class="sig-name descname"><span class="pre">BlockingResult</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">x_df</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">DataFrame</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ann</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">deduplication</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">len_x</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">true_blocks</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">DataFrame</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">eval_metrics</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Series</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">confusion</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">DataFrame</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">colnames_xy</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">ndarray</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">graph</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/blockingpy/blocking_result.html#BlockingResult"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#blockingpy.blocking_result.BlockingResult" title="Link to this definition"></a></dt>
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">blockingpy.blocking_result.</span></span><span class="sig-name descname"><span class="pre">BlockingResult</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">x_df</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">DataFrame</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ann</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">deduplication</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">n_original_records</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">tuple</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">int</span><span class="p"><span class="pre">]</span></span></span></em>, <em class="sig-param"><span class="n"><span class="pre">true_blocks</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">DataFrame</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">eval_metrics</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Series</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">confusion</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">DataFrame</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">colnames_xy</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">ndarray</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">graph</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduction_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/blockingpy/blocking_result.html#BlockingResult"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#blockingpy.blocking_result.BlockingResult" title="Link to this definition"></a></dt>
 <dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
 <p>A class to represent and analyze the results of a blocking operation.</p>
 <p>This class provides functionality to analyze and evaluate blocking results,
@@ -113,11 +114,12 @@
 <li><p><strong>ann</strong> (<em>str</em>) – The blocking method used (e.g., ‘nnd’, ‘hnsw’, ‘annoy’, etc.)</p></li>
 <li><p><strong>deduplication</strong> (<em>bool</em>) – Whether the blocking was performed for deduplication</p></li>
 <li><p><strong>true_blocks</strong> (<em>pandas.DataFrame</em><em>, </em><em>optional</em>) – DataFrame with true blocks to calculate evaluation metrics</p></li>
-<li><p><strong>len_x</strong> (<em>int</em>) – Number of records in the original reference dataset</p></li>
+<li><p><strong>n_original_records</strong> (<em>tuple</em><em>[</em><em>int</em><em>, </em><em>int</em><em>]</em>) – Number of records in the original dataset(s)</p></li>
 <li><p><strong>eval_metrics</strong> (<em>pandas.Series</em><em>, </em><em>optional</em>) – Evaluation metrics if true blocks were provided</p></li>
 <li><p><strong>confusion</strong> (<em>pandas.DataFrame</em><em>, </em><em>optional</em>) – Confusion matrix if true blocks were provided</p></li>
 <li><p><strong>colnames_xy</strong> (<em>numpy.ndarray</em>) – Column names used in the blocking process</p></li>
 <li><p><strong>graph</strong> (<em>bool</em><em>, </em><em>optional</em>) – Whether to create a graph from the blocking results (default False)</p></li>
+<li><p><strong>reduction_ratio</strong> (<em>float</em><em>, </em><em>optional</em>) – Pre-calculated reduction ratio (default None)</p></li>
 </ul>
 </dd>
 </dl>
@@ -199,12 +201,23 @@
 </dd></dl>
 
 <dl class="py attribute">
-<dt class="sig sig-object py" id="blockingpy.blocking_result.BlockingResult.len_x">
-<span class="sig-name descname"><span class="pre">len_x</span></span><a class="headerlink" href="#blockingpy.blocking_result.BlockingResult.len_x" title="Link to this definition"></a></dt>
-<dd><p>Number of records in the original reference dataset</p>
+<dt class="sig sig-object py" id="blockingpy.blocking_result.BlockingResult.n_original_records">
+<span class="sig-name descname"><span class="pre">n_original_records</span></span><a class="headerlink" href="#blockingpy.blocking_result.BlockingResult.n_original_records" title="Link to this definition"></a></dt>
+<dd><p>Number of records in the original dataset(s)</p>
 <dl class="field-list simple">
 <dt class="field-odd">Type<span class="colon">:</span></dt>
-<dd class="field-odd"><p>int</p>
+<dd class="field-odd"><p>tuple[int, int]</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="blockingpy.blocking_result.BlockingResult.reduction_ratio">
+<span class="sig-name descname"><span class="pre">reduction_ratio</span></span><a class="headerlink" href="#blockingpy.blocking_result.BlockingResult.reduction_ratio" title="Link to this definition"></a></dt>
+<dd><p>Reduction ratio calculated for the blocking method</p>
+<dl class="field-list simple">
+<dt class="field-odd">Type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>float</p>
 </dd>
 </dl>
 </dd></dl>
diff --git a/docs/_build/html/api/index.html b/docs/_build/html/api/index.html
index c78ffda..a7c3ef7 100644
--- a/docs/_build/html/api/index.html
+++ b/docs/_build/html/api/index.html
@@ -20,7 +20,7 @@
     <link rel="index" title="Index" href="../genindex.html" />
     <link rel="search" title="Search" href="../search.html" />
     <link rel="next" title="Blocker" href="blocker.html" />
-    <link rel="prev" title="Deduplication" href="../examples/deduplication.html" /> 
+    <link rel="prev" title="Deduplication No. 2" href="../examples/deduplication_2.html" /> 
 </head>
 
 <body class="wy-body-for-nav"> 
@@ -100,7 +100,7 @@
            </div>
           </div>
           <footer><div class="rst-footer-buttons" role="navigation" aria-label="Footer">
-        <a href="../examples/deduplication.html" class="btn btn-neutral float-left" title="Deduplication" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
+        <a href="../examples/deduplication_2.html" class="btn btn-neutral float-left" title="Deduplication No. 2" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
         <a href="blocker.html" class="btn btn-neutral float-right" title="Blocker" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
     </div>
 
diff --git a/docs/_build/html/changelog.html b/docs/_build/html/changelog.html
index 973c1d4..33be644 100644
--- a/docs/_build/html/changelog.html
+++ b/docs/_build/html/changelog.html
@@ -48,6 +48,9 @@
 <li class="toctree-l1"><a class="reference internal" href="examples/index.html">Examples</a></li>
 <li class="toctree-l1"><a class="reference internal" href="api/index.html">BlockingPy API</a></li>
 <li class="toctree-l1 current"><a class="current reference internal" href="#">Changelog</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="#v0-1-10">v0.1.10</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#v0-1-9">v0.1.9</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#v0-1-8">v0.1.8</a></li>
 <li class="toctree-l2"><a class="reference internal" href="#v0-1-7">v0.1.7</a></li>
 <li class="toctree-l2"><a class="reference internal" href="#v0-1-6">v0.1.6</a></li>
 <li class="toctree-l2"><a class="reference internal" href="#v0-1-5">v0.1.5</a></li>
@@ -85,6 +88,32 @@
              
   <section class="tex2jax_ignore mathjax_ignore" id="changelog">
 <h1>Changelog<a class="headerlink" href="#changelog" title="Link to this heading"></a></h1>
+<section id="v0-1-10">
+<h2>v0.1.10<a class="headerlink" href="#v0-1-10" title="Link to this heading"></a></h2>
+<ul class="simple">
+<li><p>evaluation only for records that exist in true blocks.</p></li>
+<li><p>default distance for <code class="docutils literal notranslate"><span class="pre">faiss</span></code> changed to <code class="docutils literal notranslate"><span class="pre">cosine</span></code></p></li>
+<li><p>code simplification</p></li>
+<li><p>minor changes
+fix docs, fix eval, fix codecov</p></li>
+</ul>
+</section>
+<section id="v0-1-9">
+<h2>v0.1.9<a class="headerlink" href="#v0-1-9" title="Link to this heading"></a></h2>
+<ul class="simple">
+<li><p>optimized evaluation part to allow batch processing</p></li>
+</ul>
+</section>
+<section id="v0-1-8">
+<h2>v0.1.8<a class="headerlink" href="#v0-1-8" title="Link to this heading"></a></h2>
+<ul class="simple">
+<li><p>added author Maciej Beręsewicz</p></li>
+<li><p>added info about funding</p></li>
+<li><p>added data inside the package</p></li>
+<li><p>added new deduplication example in docs</p></li>
+<li><p>minor changes</p></li>
+</ul>
+</section>
 <section id="v0-1-7">
 <h2>v0.1.7<a class="headerlink" href="#v0-1-7" title="Link to this heading"></a></h2>
 <ul class="simple">
diff --git a/docs/_build/html/examples/deduplication.html b/docs/_build/html/examples/deduplication.html
index 22c9268..c869c10 100644
--- a/docs/_build/html/examples/deduplication.html
+++ b/docs/_build/html/examples/deduplication.html
@@ -19,7 +19,7 @@
     <script src="../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../genindex.html" />
     <link rel="search" title="Search" href="../search.html" />
-    <link rel="next" title="BlockingPy API" href="../api/index.html" />
+    <link rel="next" title="Deduplication No. 2" href="deduplication_2.html" />
     <link rel="prev" title="Record Linkage" href="record_linkage.html" /> 
 </head>
 
@@ -55,6 +55,7 @@
 <li class="toctree-l3"><a class="reference internal" href="#evaluation-with-true-blocks">Evaluation with True Blocks</a></li>
 </ul>
 </li>
+<li class="toctree-l2"><a class="reference internal" href="deduplication_2.html">Deduplication No. 2</a></li>
 </ul>
 </li>
 <li class="toctree-l1"><a class="reference internal" href="../api/index.html">BlockingPy API</a></li>
@@ -305,6 +306,7 @@ <h2>Evaluation with True Blocks<a class="headerlink" href="#evaluation-with-true
 <span class="c1">#     true_blocks=true_blocs_dedup</span>
 <span class="c1"># ) </span>
 <span class="c1"># The rest stays the same in both cases</span>
+<span class="c1">#Note: We recommend using eval() method when evaluating larger datasets since it allows you to set the batch #size for currently evaluated record pairs.</span>
 
 <span class="nb">print</span><span class="p">(</span><span class="n">eval_result</span><span class="p">)</span>
 <span class="nb">print</span><span class="p">(</span><span class="n">eval_result</span><span class="o">.</span><span class="n">metrics</span><span class="p">)</span>
@@ -361,7 +363,7 @@ <h2>Evaluation with True Blocks<a class="headerlink" href="#evaluation-with-true
           </div>
           <footer><div class="rst-footer-buttons" role="navigation" aria-label="Footer">
         <a href="record_linkage.html" class="btn btn-neutral float-left" title="Record Linkage" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-        <a href="../api/index.html" class="btn btn-neutral float-right" title="BlockingPy API" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
+        <a href="deduplication_2.html" class="btn btn-neutral float-right" title="Deduplication No. 2" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
     </div>
 
   <hr/>
diff --git a/docs/_build/html/examples/deduplication_2.html b/docs/_build/html/examples/deduplication_2.html
new file mode 100644
index 0000000..9ab15ac
--- /dev/null
+++ b/docs/_build/html/examples/deduplication_2.html
@@ -0,0 +1,343 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../">
+<head>
+  <meta charset="utf-8" /><meta name="viewport" content="width=device-width, initial-scale=1" />
+
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>Deduplication No. 2 &mdash; BlockingPy 0.1.7 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../_static/pygments.css?v=80d5e7a1" />
+      <link rel="stylesheet" type="text/css" href="../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../_static/jquery.js?v=5d32c60e"></script>
+      <script src="../_static/_sphinx_javascript_frameworks_compat.js?v=2cd50e6c"></script>
+      <script src="../_static/documentation_options.js?v=ca7ad2ea"></script>
+      <script src="../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../genindex.html" />
+    <link rel="search" title="Search" href="../search.html" />
+    <link rel="next" title="BlockingPy API" href="../api/index.html" />
+    <link rel="prev" title="Deduplication" href="deduplication.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../index.html" class="icon icon-home">
+            BlockingPy
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">Contents</span></p>
+<ul class="current">
+<li class="toctree-l1"><a class="reference internal" href="../getting_started/index.html">Getting Started</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../user_guide/index.html">User Guide</a></li>
+<li class="toctree-l1 current"><a class="reference internal" href="index.html">Examples</a><ul class="current">
+<li class="toctree-l2"><a class="reference internal" href="record_linkage.html">Record Linkage</a></li>
+<li class="toctree-l2"><a class="reference internal" href="deduplication.html">Deduplication</a></li>
+<li class="toctree-l2 current"><a class="current reference internal" href="#">Deduplication No. 2</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="#data-preparation">Data Preparation</a></li>
+<li class="toctree-l3"><a class="reference internal" href="#basic-deduplication">Basic Deduplication</a></li>
+<li class="toctree-l3"><a class="reference internal" href="#true-blocks-preparation">True Blocks Preparation</a></li>
+<li class="toctree-l3"><a class="reference internal" href="#evaluation">Evaluation</a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l1"><a class="reference internal" href="../api/index.html">BlockingPy API</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../changelog.html">Changelog</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../index.html">BlockingPy</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="index.html">Examples</a></li>
+      <li class="breadcrumb-item active">Deduplication No. 2</li>
+      <li class="wy-breadcrumbs-aside">
+            <a href="../_sources/examples/deduplication_2.md.txt" rel="nofollow"> View page source</a>
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <section class="tex2jax_ignore mathjax_ignore" id="deduplication-no-2">
+<h1>Deduplication No. 2<a class="headerlink" href="#deduplication-no-2" title="Link to this heading"></a></h1>
+<p>In this example we’ll use data known as <code class="docutils literal notranslate"><span class="pre">RLdata10000</span></code> taken from <a class="reference external" href="https://cran.r-project.org/package=RecordLinkage">RecordLinkage</a> R package developed by Murat Sariyar
+and Andreas Borg. It contains 10 000 records in total where some have been duplicated with randomly generated errors. There are 9000 original records and 1000 duplicates.</p>
+<section id="data-preparation">
+<h2>Data Preparation<a class="headerlink" href="#data-preparation" title="Link to this heading"></a></h2>
+<p>Let’s install <code class="docutils literal notranslate"><span class="pre">blockingpy</span></code></p>
+<div class="highlight-bash notranslate"><div class="highlight"><pre><span></span>pip<span class="w"> </span>install<span class="w"> </span>blockingpy
+</pre></div>
+</div>
+<p>Import necessary packages and functions:</p>
+<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="kn">import</span> <span class="nn">pandas</span> <span class="k">as</span> <span class="nn">pd</span>
+<span class="kn">from</span> <span class="nn">blockingpy</span> <span class="kn">import</span> <span class="n">Blocker</span>
+<span class="kn">from</span> <span class="nn">blockingpy.datasets</span> <span class="kn">import</span> <span class="n">load_deduplication_data</span><span class="p">()</span>
+</pre></div>
+</div>
+<p>Let’s load the data and take a look at first 5 rows:</p>
+<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="n">data</span> <span class="o">=</span> <span class="n">load_deduplication_data</span><span class="p">()</span>
+<span class="n">data</span><span class="o">.</span><span class="n">head</span><span class="p">()</span>
+
+<span class="c1"># 	fname_c1	fname_c2	lname_c1	lname_c2   by	bm	bd	id  true_id</span>
+<span class="c1"># 0	FRANK	    NaN	        MUELLER	    NaN	       1967	9	27	1	3606</span>
+<span class="c1"># 1	MARTIN	    NaN	        SCHWARZ	    NaN	       1967	2	17	2	2560</span>
+<span class="c1"># 2	HERBERT	    NaN	        ZIMMERMANN  NaN	       1961	11	6	3	3892</span>
+<span class="c1"># 3	HANS	    NaN	        SCHMITT	    NaN	       1945	8	14	4	329</span>
+<span class="c1"># 4	UWE	    NaN	        KELLER	    NaN	       2000	7	5	5	1994</span>
+</pre></div>
+</div>
+<p>Now we need to prepare the <code class="docutils literal notranslate"><span class="pre">txt</span></code> column:</p>
+<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="n">data</span> <span class="o">=</span> <span class="n">data</span><span class="o">.</span><span class="n">fillna</span><span class="p">(</span><span class="s1">&#39;&#39;</span><span class="p">)</span>
+<span class="n">data</span><span class="p">[[</span><span class="s1">&#39;by&#39;</span><span class="p">,</span> <span class="s1">&#39;bm&#39;</span><span class="p">,</span> <span class="s1">&#39;bd&#39;</span><span class="p">]]</span> <span class="o">=</span> <span class="n">data</span><span class="p">[[</span><span class="s1">&#39;by&#39;</span><span class="p">,</span> <span class="s1">&#39;bm&#39;</span><span class="p">,</span> <span class="s1">&#39;bd&#39;</span><span class="p">]]</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="s1">&#39;str&#39;</span><span class="p">)</span>
+<span class="n">data</span><span class="p">[</span><span class="s1">&#39;txt&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span>
+    <span class="n">data</span><span class="p">[</span><span class="s2">&quot;fname_c1&quot;</span><span class="p">]</span> <span class="o">+</span>
+    <span class="n">data</span><span class="p">[</span><span class="s2">&quot;fname_c2&quot;</span><span class="p">]</span> <span class="o">+</span>
+    <span class="n">data</span><span class="p">[</span><span class="s1">&#39;lname_c1&#39;</span><span class="p">]</span> <span class="o">+</span>
+    <span class="n">data</span><span class="p">[</span><span class="s1">&#39;lname_c2&#39;</span><span class="p">]</span> <span class="o">+</span>
+    <span class="n">data</span><span class="p">[</span><span class="s1">&#39;by&#39;</span><span class="p">]</span> <span class="o">+</span>
+    <span class="n">data</span><span class="p">[</span><span class="s1">&#39;bm&#39;</span><span class="p">]</span> <span class="o">+</span>
+    <span class="n">data</span><span class="p">[</span><span class="s1">&#39;bd&#39;</span><span class="p">]</span>
+    <span class="p">)</span>   
+<span class="n">data</span><span class="p">[</span><span class="s1">&#39;txt&#39;</span><span class="p">]</span><span class="o">.</span><span class="n">head</span><span class="p">()</span>
+
+<span class="c1"># 0         FRANKMUELLER1967927</span>
+<span class="c1"># 1        MARTINSCHWARZ1967217</span>
+<span class="c1"># 2    HERBERTZIMMERMANN1961116</span>
+<span class="c1"># 3          HANSSCHMITT1945814</span>
+<span class="c1"># 4             UWEKELLER200075</span>
+<span class="c1"># Name: txt, dtype: object</span>
+</pre></div>
+</div>
+</section>
+<section id="basic-deduplication">
+<h2>Basic Deduplication<a class="headerlink" href="#basic-deduplication" title="Link to this heading"></a></h2>
+<p>Let’s perfrom basic deduplication using <code class="docutils literal notranslate"><span class="pre">hnsw</span></code> algorithm</p>
+<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="n">blocker</span> <span class="o">=</span> <span class="n">Blocker</span><span class="p">()</span>
+<span class="n">dedup_result</span> <span class="o">=</span> <span class="n">blocker</span><span class="o">.</span><span class="n">block</span><span class="p">(</span>
+    <span class="n">x</span><span class="o">=</span><span class="n">data</span><span class="p">[</span><span class="s1">&#39;txt&#39;</span><span class="p">],</span>
+    <span class="n">ann</span><span class="o">=</span><span class="s1">&#39;hnsw&#39;</span><span class="p">,</span>
+    <span class="n">verbose</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
+<span class="p">)</span>
+
+<span class="c1"># ===== creating tokens =====</span>
+<span class="c1"># ===== starting search (hnsw, x, y: 10000,10000, t: 674) =====</span>
+<span class="c1"># ===== creating graph =====</span>
+</pre></div>
+</div>
+<p>We can now take a look at the results:</p>
+<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="nb">print</span><span class="p">(</span><span class="n">dedup_result</span><span class="p">)</span>
+
+<span class="c1"># ========================================================</span>
+<span class="c1"># Blocking based on the hnsw method.</span>
+<span class="c1"># Number of blocks: 2736</span>
+<span class="c1"># Number of columns used for blocking: 674</span>
+<span class="c1"># Reduction ratio: 0.9996</span>
+<span class="c1"># ========================================================</span>
+<span class="c1"># Distribution of the size of the blocks:</span>
+<span class="c1"># Block Size | Number of Blocks</span>
+<span class="c1">#          2 | 962            </span>
+<span class="c1">#          3 | 725            </span>
+<span class="c1">#          4 | 409            </span>
+<span class="c1">#          5 | 263            </span>
+<span class="c1">#          6 | 139            </span>
+<span class="c1">#          7 | 89             </span>
+<span class="c1">#          8 | 52             </span>
+<span class="c1">#          9 | 37             </span>
+<span class="c1">#         10 | 24             </span>
+<span class="c1">#         11 | 14             </span>
+<span class="c1">#         12 | 9              </span>
+<span class="c1">#         13 | 5              </span>
+<span class="c1">#         14 | 2              </span>
+<span class="c1">#         15 | 1              </span>
+<span class="c1">#         16 | 1              </span>
+<span class="c1">#         17 | 2              </span>
+<span class="c1">#         20 | 1              </span>
+<span class="c1">#         64 | 1   </span>
+</pre></div>
+</div>
+<p>and:</p>
+<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="nb">print</span><span class="p">(</span><span class="n">dedup_result</span><span class="o">.</span><span class="n">result</span><span class="p">)</span>
+<span class="c1">#          x     y  block      dist</span>
+<span class="c1"># 0     3402     0      0  0.256839</span>
+<span class="c1"># 1     1179     1      1  0.331352</span>
+<span class="c1"># 2     2457     2      2  0.209737</span>
+<span class="c1"># 3     1956     3      3  0.085341</span>
+<span class="c1"># 4     4448     4      4  0.375000</span>
+<span class="c1"># ...    ...   ...    ...       ...</span>
+<span class="c1"># 7259  9206  9994   1981  0.390912</span>
+<span class="c1"># 7260  6309  9995   1899  0.268436</span>
+<span class="c1"># 7261  5162  9996   1742  0.188893</span>
+<span class="c1"># 7262  6501  9997   1293  0.245406</span>
+<span class="c1"># 7263  5183  9999   1273  0.209088</span>
+</pre></div>
+</div>
+<p>Let’s see the pair in the <code class="docutils literal notranslate"><span class="pre">block</span></code> no. <code class="docutils literal notranslate"><span class="pre">3</span></code></p>
+<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="nb">print</span><span class="p">(</span><span class="n">data</span><span class="o">.</span><span class="n">iloc</span><span class="p">[[</span><span class="mi">1956</span><span class="p">,</span> <span class="mi">3</span><span class="p">],</span> <span class="p">:</span> <span class="p">])</span>
+<span class="c1">#      fname_c1 fname_c2 lname_c1  ...    id true_id                  txt</span>
+<span class="c1"># 1956    HRANS           SCHMITT  ...  1957     329  HRANSSCHMITT1945814</span>
+<span class="c1"># 3        HANS           SCHMITT  ...     4     329   HANSSCHMITT1945814</span>
+</pre></div>
+</div>
+</section>
+<section id="true-blocks-preparation">
+<h2>True Blocks Preparation<a class="headerlink" href="#true-blocks-preparation" title="Link to this heading"></a></h2>
+<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="n">df_eval</span> <span class="o">=</span> <span class="n">data</span><span class="o">.</span><span class="n">copy</span><span class="p">()</span>
+<span class="n">df_eval</span><span class="p">[</span><span class="s1">&#39;block&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">df_eval</span><span class="p">[</span><span class="s1">&#39;true_id&#39;</span><span class="p">]</span>
+<span class="n">df_eval</span><span class="p">[</span><span class="s1">&#39;x&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">df_eval</span><span class="p">))</span>
+</pre></div>
+</div>
+<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="nb">print</span><span class="p">(</span><span class="n">df_eval</span><span class="o">.</span><span class="n">head</span><span class="p">())</span>
+<span class="c1">#   fname_c1 fname_c2    lname_c1  ...                       txt block  x</span>
+<span class="c1"># 0    FRANK              MUELLER  ...       FRANKMUELLER1967927  3606  0</span>
+<span class="c1"># 1   MARTIN              SCHWARZ  ...      MARTINSCHWARZ1967217  2560  1</span>
+<span class="c1"># 2  HERBERT           ZIMMERMANN  ...  HERBERTZIMMERMANN1961116  3892  2</span>
+<span class="c1"># 3     HANS              SCHMITT  ...        HANSSCHMITT1945814   329  3</span>
+<span class="c1"># 4      UWE               KELLER  ...           UWEKELLER200075  1994  4</span>
+</pre></div>
+</div>
+<p>Let’s create the final <code class="docutils literal notranslate"><span class="pre">true_blocks_dedup</span></code>:</p>
+<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="n">true_blocks_dedup</span> <span class="o">=</span> <span class="n">df_eval</span><span class="p">[[</span><span class="s1">&#39;x&#39;</span><span class="p">,</span> <span class="s1">&#39;block&#39;</span><span class="p">]]</span>
+</pre></div>
+</div>
+</section>
+<section id="evaluation">
+<h2>Evaluation<a class="headerlink" href="#evaluation" title="Link to this heading"></a></h2>
+<p>Now we can evaluate our algorithm:</p>
+<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="n">control_ann</span> <span class="o">=</span> <span class="p">{</span>
+    <span class="s2">&quot;faiss&quot;</span><span class="p">:{</span>
+        <span class="s2">&quot;distance&quot;</span><span class="p">:</span> <span class="s2">&quot;cosine&quot;</span>
+    <span class="p">}</span>
+<span class="p">}</span>
+
+<span class="n">blocker</span> <span class="o">=</span> <span class="n">Blocker</span><span class="p">()</span>
+<span class="n">eval_result</span> <span class="o">=</span> <span class="n">blocker</span><span class="o">.</span><span class="n">block</span><span class="p">(</span>
+    <span class="n">x</span><span class="o">=</span><span class="n">df_eval</span><span class="p">[</span><span class="s1">&#39;txt&#39;</span><span class="p">],</span> 
+    <span class="n">ann</span><span class="o">=</span><span class="s1">&#39;faiss&#39;</span><span class="p">,</span>
+    <span class="n">true_blocks</span><span class="o">=</span><span class="n">true_blocks_dedup</span><span class="p">,</span> 
+    <span class="n">verbose</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> 
+    <span class="n">control_ann</span><span class="o">=</span><span class="n">control_ann</span>
+<span class="p">)</span>
+<span class="c1"># ===== creating tokens =====</span>
+<span class="c1"># ===== starting search (faiss, x, y: 10000,10000, t: 674) =====</span>
+<span class="c1"># ===== creating graph =====</span>
+</pre></div>
+</div>
+<p>And the results:</p>
+<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="nb">print</span><span class="p">(</span><span class="n">eval_result</span><span class="p">)</span>
+<span class="nb">print</span><span class="p">(</span><span class="n">eval_result</span><span class="o">.</span><span class="n">metrics</span><span class="p">)</span>
+<span class="c1"># ========================================================</span>
+<span class="c1"># Blocking based on the faiss method.</span>
+<span class="c1"># Number of blocks: 2737</span>
+<span class="c1"># Number of columns used for blocking: 674</span>
+<span class="c1"># Reduction ratio: 0.9996</span>
+<span class="c1"># ========================================================</span>
+<span class="c1"># Distribution of the size of the blocks:</span>
+<span class="c1"># Block Size | Number of Blocks</span>
+<span class="c1">#          2 | 972            </span>
+<span class="c1">#          3 | 721            </span>
+<span class="c1">#          4 | 423            </span>
+<span class="c1">#          5 | 236            </span>
+<span class="c1">#          6 | 138            </span>
+<span class="c1">#          7 | 92             </span>
+<span class="c1">#          8 | 62             </span>
+<span class="c1">#          9 | 29             </span>
+<span class="c1">#         10 | 28             </span>
+<span class="c1">#         11 | 15             </span>
+<span class="c1">#         12 | 8              </span>
+<span class="c1">#         13 | 3              </span>
+<span class="c1">#         14 | 3              </span>
+<span class="c1">#         15 | 1              </span>
+<span class="c1">#         16 | 1              </span>
+<span class="c1">#         17 | 2              </span>
+<span class="c1">#         18 | 1              </span>
+<span class="c1">#         20 | 1              </span>
+<span class="c1">#         67 | 1              </span>
+<span class="c1"># ========================================================</span>
+<span class="c1"># Evaluation metrics (standard):</span>
+<span class="c1"># recall : 100.0</span>
+<span class="c1"># precision : 4.7651</span>
+<span class="c1"># fpr : 0.04</span>
+<span class="c1"># fnr : 0.0</span>
+<span class="c1"># accuracy : 99.96</span>
+<span class="c1"># specificity : 99.96</span>
+<span class="c1"># f1_score : 9.0967</span>
+<span class="c1"># recall         1.000000</span>
+<span class="c1"># precision      0.047651</span>
+<span class="c1"># fpr            0.000400</span>
+<span class="c1"># fnr            0.000000</span>
+<span class="c1"># accuracy       0.999600</span>
+<span class="c1"># specificity    0.999600</span>
+<span class="c1"># f1_score       0.090967</span>
+</pre></div>
+</div>
+<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="nb">print</span><span class="p">(</span><span class="n">eval_result</span><span class="o">.</span><span class="n">confusion</span><span class="p">)</span>
+<span class="c1"># 	                Actual Negative     Actual Positive</span>
+<span class="c1"># Predicted Negative	49974014	    0</span>
+<span class="c1"># Predicted Positive	19986	            1000</span>
+</pre></div>
+</div>
+<p>The results show high reduction ratio <code class="docutils literal notranslate"><span class="pre">0.9996</span></code> alongside perfect recall (<code class="docutils literal notranslate"><span class="pre">1.000</span></code>) indicating that our package handled this dataset very well.</p>
+</section>
+</section>
+
+
+           </div>
+          </div>
+          <footer><div class="rst-footer-buttons" role="navigation" aria-label="Footer">
+        <a href="deduplication.html" class="btn btn-neutral float-left" title="Deduplication" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
+        <a href="../api/index.html" class="btn btn-neutral float-right" title="BlockingPy API" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
+    </div>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2025, Tymoteusz Strojny and Maciej Beręsewicz.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/docs/_build/html/examples/index.html b/docs/_build/html/examples/index.html
index ab84028..ddabf64 100644
--- a/docs/_build/html/examples/index.html
+++ b/docs/_build/html/examples/index.html
@@ -49,6 +49,7 @@
 <li class="toctree-l1 current"><a class="current reference internal" href="#">Examples</a><ul>
 <li class="toctree-l2"><a class="reference internal" href="record_linkage.html">Record Linkage</a></li>
 <li class="toctree-l2"><a class="reference internal" href="deduplication.html">Deduplication</a></li>
+<li class="toctree-l2"><a class="reference internal" href="deduplication_2.html">Deduplication No. 2</a></li>
 </ul>
 </li>
 <li class="toctree-l1"><a class="reference internal" href="../api/index.html">BlockingPy API</a></li>
@@ -85,6 +86,7 @@
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="record_linkage.html">Record Linkage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="deduplication.html">Deduplication</a></li>
+<li class="toctree-l1"><a class="reference internal" href="deduplication_2.html">Deduplication No. 2</a></li>
 </ul>
 </div>
 </section>
diff --git a/docs/_build/html/examples/record_linkage.html b/docs/_build/html/examples/record_linkage.html
index 9a65e8b..ca3706e 100644
--- a/docs/_build/html/examples/record_linkage.html
+++ b/docs/_build/html/examples/record_linkage.html
@@ -55,6 +55,7 @@
 </ul>
 </li>
 <li class="toctree-l2"><a class="reference internal" href="deduplication.html">Deduplication</a></li>
+<li class="toctree-l2"><a class="reference internal" href="deduplication_2.html">Deduplication No. 2</a></li>
 </ul>
 </li>
 <li class="toctree-l1"><a class="reference internal" href="../api/index.html">BlockingPy API</a></li>
@@ -88,12 +89,15 @@
              
   <section class="tex2jax_ignore mathjax_ignore" id="record-linkage">
 <span id="id1"></span><h1>Record Linkage<a class="headerlink" href="#record-linkage" title="Link to this heading"></a></h1>
-<p>This example demonstrates how to use BlockingPy for record linkage between two datasets. We’ll use example data from the URos 2021 Conference tutorial which contains:</p>
+<p>This example demonstrates how to use BlockingPy for record linkage between two datasets. We’ll use example data created by Paula McLeod, Dick Heasman and Ian Forbes, ONS,
+for the ESSnet DI on-the-job training course, Southampton,
+25-28 January 2011:</p>
 <ul class="simple">
 <li><p>Census: A fictional dataset representing observations from a decennial Census</p></li>
 <li><p>CIS: Fictional observations from Customer Information System (combined administrative data from tax and benefit systems)</p></li>
 </ul>
 <p>Some records in the CIS dataset contain Census person IDs, which we’ll use to evaluate our blocking performance.</p>
+<p>This datasets come with the <code class="docutils literal notranslate"><span class="pre">BlockingPy</span></code> package and can be accesed via <code class="docutils literal notranslate"><span class="pre">load_census_cis_data</span></code> function from <code class="docutils literal notranslate"><span class="pre">blockingpy.datasets</span></code>.</p>
 <section id="setup">
 <h2>Setup<a class="headerlink" href="#setup" title="Link to this heading"></a></h2>
 <p>First, install BlockingPy:</p>
@@ -102,6 +106,7 @@ <h2>Setup<a class="headerlink" href="#setup" title="Link to this heading"></a
 </div>
 <p>Import required packages:</p>
 <div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="kn">from</span> <span class="nn">blockingpy</span> <span class="kn">import</span> <span class="n">Blocker</span>
+<span class="kn">from</span> <span class="nn">blockingpy.datasets</span> <span class="kn">import</span> <span class="n">load_census_cis_data</span>
 <span class="kn">import</span> <span class="nn">pandas</span> <span class="k">as</span> <span class="nn">pd</span>
 </pre></div>
 </div>
@@ -109,21 +114,25 @@ <h2>Setup<a class="headerlink" href="#setup" title="Link to this heading"></a
 <section id="data-preparation">
 <h2>Data Preparation<a class="headerlink" href="#data-preparation" title="Link to this heading"></a></h2>
 <p>Download example data:</p>
-<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="n">census</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">read_csv</span><span class="p">(</span><span class="s2">&quot;https://raw.githubusercontent.com/djvanderlaan/tutorial-reclin-uros2021/main/data/census.csv&quot;</span><span class="p">)</span>
-<span class="n">cis</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">read_csv</span><span class="p">(</span><span class="s2">&quot;https://raw.githubusercontent.com/djvanderlaan/tutorial-reclin-uros2021/main/data/cis.csv&quot;</span><span class="p">)</span>
+<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="n">census</span><span class="p">,</span> <span class="n">cis</span> <span class="o">=</span> <span class="n">load_census_cis_data</span><span class="p">()</span>
+</pre></div>
+</div>
+<p>Firstly, we need to filter only those columns which we’ll need:</p>
+<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="n">census</span> <span class="o">=</span> <span class="n">census</span><span class="p">[[</span><span class="s2">&quot;PERSON_ID&quot;</span><span class="p">,</span> <span class="s2">&quot;PERNAME1&quot;</span><span class="p">,</span> <span class="s2">&quot;PERNAME2&quot;</span><span class="p">,</span> <span class="s2">&quot;SEX&quot;</span><span class="p">,</span> <span class="s2">&quot;DOB_DAY&quot;</span><span class="p">,</span> <span class="s2">&quot;DOB_MON&quot;</span><span class="p">,</span> <span class="s2">&quot;DOB_YEAR&quot;</span><span class="p">,</span> <span class="s2">&quot;ENUMCAP&quot;</span><span class="p">,</span> <span class="s2">&quot;ENUMPC&quot;</span><span class="p">]]</span>
+<span class="n">cis</span> <span class="o">=</span> <span class="n">cis</span><span class="p">[[</span><span class="s2">&quot;PERSON_ID&quot;</span><span class="p">,</span> <span class="s2">&quot;PERNAME1&quot;</span><span class="p">,</span> <span class="s2">&quot;PERNAME2&quot;</span><span class="p">,</span> <span class="s2">&quot;SEX&quot;</span><span class="p">,</span> <span class="s2">&quot;DOB_DAY&quot;</span><span class="p">,</span> <span class="s2">&quot;DOB_MON&quot;</span><span class="p">,</span> <span class="s2">&quot;DOB_YEAR&quot;</span><span class="p">,</span> <span class="s2">&quot;ENUMCAP&quot;</span><span class="p">,</span> <span class="s2">&quot;ENUMPC&quot;</span><span class="p">]]</span>
 </pre></div>
 </div>
 <p>Let’s take a look at the data:</p>
 <div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="nb">print</span><span class="p">(</span><span class="n">census</span><span class="o">.</span><span class="n">head</span><span class="p">())</span>
 
-<span class="c1">#       person_id pername1 pername2 sex  dob_day  dob_mon  dob_year  \</span>
+<span class="c1">#       PERSON_ID PERNAME1 PERNAME2 SEX  DOB_DAY  DOB_MON  DOB_YEAR  \</span>
 <span class="c1"># 0  DE03US001001    COUIE    PRICE   M      1.0        6    1960.0   </span>
 <span class="c1"># 1  DE03US001002    ABBIE    PVICE   F      9.0       11    1961.0   </span>
 <span class="c1"># 2  DE03US001003    LACEY    PRICE   F      7.0        2    1999.0   </span>
 <span class="c1"># 3  DE03US001004   SAMUEL    PRICE   M     13.0        4    1990.0   </span>
 <span class="c1"># 4  DE03US001005   JOSEPH    PRICE   M     20.0        4    1986.0   </span>
 
-<span class="c1">#           enumcap  enumpc  </span>
+<span class="c1">#           ENUMCAP  ENUMPC  </span>
 <span class="c1"># 0  1 WINDSOR ROAD  DE03US  </span>
 <span class="c1"># 1  1 WINDSOR ROAD  DE03US  </span>
 <span class="c1"># 2  1 WINDSOR ROAD  DE03US  </span>
@@ -132,19 +141,19 @@ <h2>Data Preparation<a class="headerlink" href="#data-preparation" title="Link t
 
 <span class="nb">print</span><span class="p">(</span><span class="n">cis</span><span class="o">.</span><span class="n">head</span><span class="p">())</span>
 
-<span class="c1">#   person_id  pername1  pername2 sex  dob_day  dob_mon  dob_year  \</span>
-<span class="c1"># 0       NaN    HAYDEN      HALL   M      NaN        1       NaN   </span>
-<span class="c1"># 1       NaN     SEREN  ANDERSON   F      1.0        1       NaN   </span>
-<span class="c1"># 2       NaN     LEWIS     LEWIS   M      1.0        1       NaN   </span>
-<span class="c1"># 3       NaN  HARRISON    POSTER   M      5.0        1       NaN   </span>
-<span class="c1"># 4       NaN  MUHAMMED    WATSUN   M      7.0        1       NaN   </span>
+<span class="c1">#        PERSON_ID  PERNAME1  PERNAME2 SEX  DOB_DAY  DOB_MON  DOB_YEAR  \</span>
+<span class="c1"># 0  PO827ER091001    HAYDEN      HALL   M      NaN        1       NaN   </span>
+<span class="c1"># 1  LS992DB024001     SEREN  ANDERSON   F      1.0        1       NaN   </span>
+<span class="c1"># 2   M432ZZ053003     LEWIS     LEWIS   M      1.0        1       NaN   </span>
+<span class="c1"># 3   SW75TQ018001  HARRISON    POSTER   M      5.0        1       NaN   </span>
+<span class="c1"># 4  EX527TR017006  MUHAMMED    WATSUN   M      7.0        1       NaN   </span>
 
-<span class="c1">#               enumcap   enumpc  </span>
+<span class="c1">#               ENUMCAP   ENUMPC  </span>
 <span class="c1"># 0    91 CLARENCE ROAD  PO827ER  </span>
 <span class="c1"># 1      24 CHURCH LANE  LS992DB  </span>
 <span class="c1"># 2      53 CHURCH ROAD   M432ZZ  </span>
 <span class="c1"># 3   19 HIGHFIELD ROAD   SW75TG  </span>
-<span class="c1"># 4  17 VICTORIA STREET      NaN </span>
+<span class="c1"># 4  17 VICTORIA STREET      NaN  </span>
 
 <span class="nb">print</span><span class="p">(</span><span class="n">census</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
 <span class="c1"># (25343, 9)</span>
@@ -155,21 +164,21 @@ <h2>Data Preparation<a class="headerlink" href="#data-preparation" title="Link t
 </div>
 <p>Preprocess data and create column <code class="docutils literal notranslate"><span class="pre">txt</span></code> containing concatenated variables:</p>
 <div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="c1"># Convert numeric fields to strings</span>
-<span class="n">census</span><span class="p">[[</span><span class="s1">&#39;dob_day&#39;</span><span class="p">,</span> <span class="s1">&#39;dob_mon&#39;</span><span class="p">,</span> <span class="s1">&#39;dob_year&#39;</span><span class="p">]]</span> <span class="o">=</span> <span class="n">census</span><span class="p">[[</span><span class="s1">&#39;dob_day&#39;</span><span class="p">,</span> <span class="s1">&#39;dob_mon&#39;</span><span class="p">,</span> <span class="s1">&#39;dob_year&#39;</span><span class="p">]]</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="nb">str</span><span class="p">)</span>
-<span class="n">cis</span><span class="p">[[</span><span class="s1">&#39;dob_day&#39;</span><span class="p">,</span> <span class="s1">&#39;dob_mon&#39;</span><span class="p">,</span> <span class="s1">&#39;dob_year&#39;</span><span class="p">]]</span> <span class="o">=</span> <span class="n">cis</span><span class="p">[[</span><span class="s1">&#39;dob_day&#39;</span><span class="p">,</span> <span class="s1">&#39;dob_mon&#39;</span><span class="p">,</span> <span class="s1">&#39;dob_year&#39;</span><span class="p">]]</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="nb">str</span><span class="p">)</span>
+<span class="n">census</span><span class="p">[[</span><span class="s1">&#39;DOB_DAY&#39;</span><span class="p">,</span> <span class="s1">&#39;DOB_MON&#39;</span><span class="p">,</span> <span class="s1">&#39;DOB_YEAR&#39;</span><span class="p">]]</span> <span class="o">=</span> <span class="n">census</span><span class="p">[[</span><span class="s1">&#39;DOB_DAY&#39;</span><span class="p">,</span> <span class="s1">&#39;DOB_MON&#39;</span><span class="p">,</span> <span class="s1">&#39;DOB_YEAR&#39;</span><span class="p">]]</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="nb">str</span><span class="p">)</span>
+<span class="n">cis</span><span class="p">[[</span><span class="s1">&#39;DOB_DAY&#39;</span><span class="p">,</span> <span class="s1">&#39;DOB_MON&#39;</span><span class="p">,</span> <span class="s1">&#39;DOB_YEAR&#39;</span><span class="p">]]</span> <span class="o">=</span> <span class="n">cis</span><span class="p">[[</span><span class="s1">&#39;DOB_DAY&#39;</span><span class="p">,</span> <span class="s1">&#39;DOB_MON&#39;</span><span class="p">,</span> <span class="s1">&#39;DOB_YEAR&#39;</span><span class="p">]]</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="nb">str</span><span class="p">)</span>
 
 <span class="c1"># Fill NAs with empty strings</span>
 <span class="n">census</span> <span class="o">=</span> <span class="n">census</span><span class="o">.</span><span class="n">fillna</span><span class="p">(</span><span class="s1">&#39;&#39;</span><span class="p">)</span>
 <span class="n">cis</span> <span class="o">=</span> <span class="n">cis</span><span class="o">.</span><span class="n">fillna</span><span class="p">(</span><span class="s1">&#39;&#39;</span><span class="p">)</span>
 
 <span class="c1"># Concatenate fields</span>
-<span class="n">census</span><span class="p">[</span><span class="s1">&#39;txt&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">census</span><span class="p">[</span><span class="s1">&#39;pername1&#39;</span><span class="p">]</span> <span class="o">+</span> <span class="n">census</span><span class="p">[</span><span class="s1">&#39;pername2&#39;</span><span class="p">]</span> <span class="o">+</span> <span class="n">census</span><span class="p">[</span><span class="s1">&#39;sex&#39;</span><span class="p">]</span> <span class="o">+</span> \
-                <span class="n">census</span><span class="p">[</span><span class="s1">&#39;dob_day&#39;</span><span class="p">]</span> <span class="o">+</span> <span class="n">census</span><span class="p">[</span><span class="s1">&#39;dob_mon&#39;</span><span class="p">]</span> <span class="o">+</span> <span class="n">census</span><span class="p">[</span><span class="s1">&#39;dob_year&#39;</span><span class="p">]</span> <span class="o">+</span> \
-                <span class="n">census</span><span class="p">[</span><span class="s1">&#39;enumcap&#39;</span><span class="p">]</span> <span class="o">+</span> <span class="n">census</span><span class="p">[</span><span class="s1">&#39;enumpc&#39;</span><span class="p">]</span>
+<span class="n">census</span><span class="p">[</span><span class="s1">&#39;txt&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">census</span><span class="p">[</span><span class="s1">&#39;PERNAME1&#39;</span><span class="p">]</span> <span class="o">+</span> <span class="n">census</span><span class="p">[</span><span class="s1">&#39;PERNAME2&#39;</span><span class="p">]</span> <span class="o">+</span> <span class="n">census</span><span class="p">[</span><span class="s1">&#39;SEX&#39;</span><span class="p">]</span> <span class="o">+</span> \
+                <span class="n">census</span><span class="p">[</span><span class="s1">&#39;DOB_DAY&#39;</span><span class="p">]</span> <span class="o">+</span> <span class="n">census</span><span class="p">[</span><span class="s1">&#39;DOB_MON&#39;</span><span class="p">]</span> <span class="o">+</span> <span class="n">census</span><span class="p">[</span><span class="s1">&#39;DOB_YEAR&#39;</span><span class="p">]</span> <span class="o">+</span> \
+                <span class="n">census</span><span class="p">[</span><span class="s1">&#39;ENUMCAP&#39;</span><span class="p">]</span> <span class="o">+</span> <span class="n">census</span><span class="p">[</span><span class="s1">&#39;ENUMPC&#39;</span><span class="p">]</span>
 
-<span class="n">cis</span><span class="p">[</span><span class="s1">&#39;txt&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">cis</span><span class="p">[</span><span class="s1">&#39;pername1&#39;</span><span class="p">]</span> <span class="o">+</span> <span class="n">cis</span><span class="p">[</span><span class="s1">&#39;pername2&#39;</span><span class="p">]</span> <span class="o">+</span> <span class="n">cis</span><span class="p">[</span><span class="s1">&#39;sex&#39;</span><span class="p">]</span> <span class="o">+</span> \
-             <span class="n">cis</span><span class="p">[</span><span class="s1">&#39;dob_day&#39;</span><span class="p">]</span> <span class="o">+</span> <span class="n">cis</span><span class="p">[</span><span class="s1">&#39;dob_mon&#39;</span><span class="p">]</span> <span class="o">+</span> <span class="n">cis</span><span class="p">[</span><span class="s1">&#39;dob_year&#39;</span><span class="p">]</span> <span class="o">+</span> \
-             <span class="n">cis</span><span class="p">[</span><span class="s1">&#39;enumcap&#39;</span><span class="p">]</span> <span class="o">+</span> <span class="n">cis</span><span class="p">[</span><span class="s1">&#39;enumpc&#39;</span><span class="p">]</span>
+<span class="n">cis</span><span class="p">[</span><span class="s1">&#39;txt&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">cis</span><span class="p">[</span><span class="s1">&#39;PERNAME1&#39;</span><span class="p">]</span> <span class="o">+</span> <span class="n">cis</span><span class="p">[</span><span class="s1">&#39;PERNAME2&#39;</span><span class="p">]</span> <span class="o">+</span> <span class="n">cis</span><span class="p">[</span><span class="s1">&#39;SEX&#39;</span><span class="p">]</span> <span class="o">+</span> \
+             <span class="n">cis</span><span class="p">[</span><span class="s1">&#39;DOB_DAY&#39;</span><span class="p">]</span> <span class="o">+</span> <span class="n">cis</span><span class="p">[</span><span class="s1">&#39;DOB_MON&#39;</span><span class="p">]</span> <span class="o">+</span> <span class="n">cis</span><span class="p">[</span><span class="s1">&#39;DOB_YEAR&#39;</span><span class="p">]</span> <span class="o">+</span> \
+             <span class="n">cis</span><span class="p">[</span><span class="s1">&#39;ENUMCAP&#39;</span><span class="p">]</span> <span class="o">+</span> <span class="n">cis</span><span class="p">[</span><span class="s1">&#39;ENUMPC&#39;</span><span class="p">]</span>
 </pre></div>
 </div>
 <p>Let’s see how the new column looks like:</p>
@@ -231,7 +240,7 @@ <h2>Perform record linkage<a class="headerlink" href="#perform-record-linkage" t
 <span class="c1"># Blocking based on the hnsw method.</span>
 <span class="c1"># Number of blocks: 23996</span>
 <span class="c1"># Number of columns used for blocking: 1072</span>
-<span class="c1"># Reduction ratio: 1.0000</span>
+<span class="c1"># Reduction ratio: 0.999961</span>
 <span class="c1"># ========================================================</span>
 <span class="c1"># Distribution of the size of the blocks:</span>
 <span class="c1"># Block Size | Number of Blocks</span>
@@ -254,30 +263,28 @@ <h2>Perform record linkage<a class="headerlink" href="#perform-record-linkage" t
 <div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="nb">print</span><span class="p">(</span><span class="n">cis</span><span class="o">.</span><span class="n">iloc</span><span class="p">[</span><span class="mi">0</span><span class="p">,</span> <span class="p">:])</span>
 <span class="nb">print</span><span class="p">(</span><span class="n">census</span><span class="o">.</span><span class="n">iloc</span><span class="p">[</span><span class="mi">17339</span><span class="p">,</span> <span class="p">:])</span>
 
-<span class="c1"># person_id                                             </span>
-<span class="c1"># pername1                                        HAYDEN</span>
-<span class="c1"># pername2                                          HALL</span>
-<span class="c1"># sex                                                  M</span>
-<span class="c1"># dob_day                                            nan</span>
-<span class="c1"># dob_mon                                              1</span>
-<span class="c1"># dob_year                                           nan</span>
-<span class="c1"># enumcap                               91 CLARENCE ROAD</span>
-<span class="c1"># enumpc                                         PO827ER</span>
+<span class="c1"># PERSON_ID                                PO827ER091001</span>
+<span class="c1"># PERNAME1                                        HAYDEN</span>
+<span class="c1"># PERNAME2                                          HALL</span>
+<span class="c1"># SEX                                                  M</span>
+<span class="c1"># DOB_DAY                                            nan</span>
+<span class="c1"># DOB_MON                                              1</span>
+<span class="c1"># DOB_YEAR                                           nan</span>
+<span class="c1"># ENUMCAP                               91 CLARENCE ROAD</span>
+<span class="c1"># ENUMPC                                         PO827ER</span>
 <span class="c1"># txt          HAYDENHALLMnan1nan91 CLARENCE ROADPO827ER</span>
-<span class="c1"># y                                                    0</span>
 <span class="c1"># Name: 0, dtype: object</span>
-
-<span class="c1"># person_id                                   PO827ER091001</span>
-<span class="c1"># pername1                                           HAYDEM</span>
-<span class="c1"># pername2                                             HALL</span>
-<span class="c1"># sex                                                     M</span>
-<span class="c1"># dob_day                                               1.0</span>
-<span class="c1"># dob_mon                                                 1</span>
-<span class="c1"># dob_year                                           1957.0</span>
-<span class="c1"># enumcap                                  91 CLARENCE ROAD</span>
-<span class="c1"># enumpc                                            PO827ER</span>
+<span class="c1"># PERSON_ID                                   PO827ER091001</span>
+<span class="c1"># PERNAME1                                           HAYDEM</span>
+<span class="c1"># PERNAME2                                             HALL</span>
+<span class="c1"># SEX                                                     M</span>
+<span class="c1"># DOB_DAY                                               1.0</span>
+<span class="c1"># DOB_MON                                                 1</span>
+<span class="c1"># DOB_YEAR                                           1957.0</span>
+<span class="c1"># ENUMCAP                                  91 CLARENCE ROAD</span>
+<span class="c1"># ENUMPC                                            PO827ER</span>
 <span class="c1"># txt          HAYDEMHALLM1.011957.091 CLARENCE ROADPO827ER</span>
-<span class="c1"># x                                                   17339</span>
+<span class="c1"># Name: 17339, dtype: object</span>
 
 </pre></div>
 </div>
@@ -291,16 +298,20 @@ <h2>Evaluate Results<a class="headerlink" href="#evaluate-results" title="Link t
 
 <span class="c1"># Find true matches using person_id</span>
 <span class="n">matches</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">merge</span><span class="p">(</span>
-    <span class="n">left</span><span class="o">=</span><span class="n">census</span><span class="p">[[</span><span class="s1">&#39;person_id&#39;</span><span class="p">,</span> <span class="s1">&#39;x&#39;</span><span class="p">]],</span>
-    <span class="n">right</span><span class="o">=</span><span class="n">cis</span><span class="p">[[</span><span class="s1">&#39;person_id&#39;</span><span class="p">,</span> <span class="s1">&#39;y&#39;</span><span class="p">]],</span>
-    <span class="n">on</span><span class="o">=</span><span class="s1">&#39;person_id&#39;</span>
+    <span class="n">left</span><span class="o">=</span><span class="n">census</span><span class="p">[[</span><span class="s1">&#39;PERSON_ID&#39;</span><span class="p">,</span> <span class="s1">&#39;x&#39;</span><span class="p">]],</span>
+    <span class="n">right</span><span class="o">=</span><span class="n">cis</span><span class="p">[[</span><span class="s1">&#39;PERSON_ID&#39;</span><span class="p">,</span> <span class="s1">&#39;y&#39;</span><span class="p">]],</span>
+    <span class="n">on</span><span class="o">=</span><span class="s1">&#39;PERSON_ID&#39;</span>
 <span class="p">)</span>
 
 <span class="c1"># Add block numbers</span>
 <span class="n">matches</span><span class="p">[</span><span class="s1">&#39;block&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">matches</span><span class="p">))</span>
 
 <span class="n">matches</span><span class="o">.</span><span class="n">shape</span>
-<span class="c1"># (971, 4)</span>
+<span class="c1"># (24043, 4)</span>
+</pre></div>
+</div>
+<p>Let’s sample 1000 pairs for which we will evaluate:</p>
+<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="n">matches</span> <span class="o">=</span> <span class="n">matches</span><span class="o">.</span><span class="n">sample</span><span class="p">(</span><span class="mi">1000</span><span class="p">,</span> <span class="n">random_state</span><span class="o">=</span><span class="mi">42</span><span class="p">)</span>
 </pre></div>
 </div>
 <p>Now we can evaluate the algorithm:</p>
@@ -329,6 +340,9 @@ <h2>Evaluate Results<a class="headerlink" href="#evaluate-results" title="Link t
 <span class="c1">#     true_blocks=matches[[&#39;x&#39;, &#39;y&#39;, &#39;block&#39;]]</span>
 <span class="c1">#)</span>
 <span class="c1"># The procedure in both cases stays the same.</span>
+
+<span class="c1"># Note: We recommend using eval() method when evaluating larger datasets </span>
+<span class="c1"># since it allows you to set the batch size for currently evaluated record pairs.</span>
 </pre></div>
 </div>
 <p>and print results with evaluation metrics:</p>
diff --git a/docs/_build/html/genindex.html b/docs/_build/html/genindex.html
index eddac8c..613fb6d 100644
--- a/docs/_build/html/genindex.html
+++ b/docs/_build/html/genindex.html
@@ -80,8 +80,8 @@ <h1 id="index">Index</h1>
  | <a href="#D"><strong>D</strong></a>
  | <a href="#E"><strong>E</strong></a>
  | <a href="#G"><strong>G</strong></a>
- | <a href="#L"><strong>L</strong></a>
  | <a href="#M"><strong>M</strong></a>
+ | <a href="#N"><strong>N</strong></a>
  | <a href="#R"><strong>R</strong></a>
  | <a href="#X"><strong>X</strong></a>
  | <a href="#Y"><strong>Y</strong></a>
@@ -165,14 +165,6 @@ <h2 id="G">G</h2>
   </ul></td>
 </tr></table>
 
-<h2 id="L">L</h2>
-<table style="width: 100%" class="indextable genindextable"><tr>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="api/blocking_result.html#blockingpy.blocking_result.BlockingResult.len_x">len_x (blockingpy.blocking_result.BlockingResult attribute)</a>
-</li>
-  </ul></td>
-</tr></table>
-
 <h2 id="M">M</h2>
 <table style="width: 100%" class="indextable genindextable"><tr>
   <td style="width: 33%; vertical-align: top;"><ul>
@@ -194,8 +186,20 @@ <h2 id="M">M</h2>
   </ul></td>
 </tr></table>
 
+<h2 id="N">N</h2>
+<table style="width: 100%" class="indextable genindextable"><tr>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="api/blocking_result.html#blockingpy.blocking_result.BlockingResult.n_original_records">n_original_records (blockingpy.blocking_result.BlockingResult attribute)</a>
+</li>
+  </ul></td>
+</tr></table>
+
 <h2 id="R">R</h2>
 <table style="width: 100%" class="indextable genindextable"><tr>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="api/blocking_result.html#blockingpy.blocking_result.BlockingResult.reduction_ratio">reduction_ratio (blockingpy.blocking_result.BlockingResult attribute)</a>
+</li>
+  </ul></td>
   <td style="width: 33%; vertical-align: top;"><ul>
       <li><a href="api/blocking_result.html#blockingpy.blocking_result.BlockingResult.result">result (blockingpy.blocking_result.BlockingResult attribute)</a>
 </li>
diff --git a/docs/_build/html/index.html b/docs/_build/html/index.html
index 5363228..a69d17d 100644
--- a/docs/_build/html/index.html
+++ b/docs/_build/html/index.html
@@ -105,6 +105,7 @@ <h1>Welcome to BlockingPy’s Documentation<a class="headerlink" href="#welcome-
 <li class="toctree-l1"><a class="reference internal" href="examples/index.html">Examples</a><ul>
 <li class="toctree-l2"><a class="reference internal" href="examples/record_linkage.html">Record Linkage</a></li>
 <li class="toctree-l2"><a class="reference internal" href="examples/deduplication.html">Deduplication</a></li>
+<li class="toctree-l2"><a class="reference internal" href="examples/deduplication_2.html">Deduplication No. 2</a></li>
 </ul>
 </li>
 <li class="toctree-l1"><a class="reference internal" href="api/index.html">BlockingPy API</a><ul>
@@ -114,6 +115,9 @@ <h1>Welcome to BlockingPy’s Documentation<a class="headerlink" href="#welcome-
 </ul>
 </li>
 <li class="toctree-l1"><a class="reference internal" href="changelog.html">Changelog</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="changelog.html#v0-1-10">v0.1.10</a></li>
+<li class="toctree-l2"><a class="reference internal" href="changelog.html#v0-1-9">v0.1.9</a></li>
+<li class="toctree-l2"><a class="reference internal" href="changelog.html#v0-1-8">v0.1.8</a></li>
 <li class="toctree-l2"><a class="reference internal" href="changelog.html#v0-1-7">v0.1.7</a></li>
 <li class="toctree-l2"><a class="reference internal" href="changelog.html#v0-1-6">v0.1.6</a></li>
 <li class="toctree-l2"><a class="reference internal" href="changelog.html#v0-1-5">v0.1.5</a></li>
@@ -149,17 +153,28 @@ <h2>Key Features<a class="headerlink" href="#key-features" title="Link to this h
 <li><p>Obtain more information via <a class="reference internal" href="api/index.html#api"><span class="std std-ref">BlockingPy API</span></a></p></li>
 </ol>
 </section>
+<section id="example-datasets">
+<h2>Example Datasets<a class="headerlink" href="#example-datasets" title="Link to this heading"></a></h2>
+<p>BlockingPy comes with built-in example datasets:</p>
+<ul class="simple">
+<li><p>Census-Cis dataset created by Paula McLeod, Dick Heasman and Ian Forbes, ONS,
+for the ESSnet DI on-the-job training course, Southampton,
+25-28 January 2011</p></li>
+<li><p>Deduplication dataset taken from <a class="reference external" href="https://cran.r-project.org/package=RecordLinkage">RecordLinkage</a> R package developed by Murat Sariyar
+and Andreas Borg. Package is licensed under GPL-3 license. Also known as <a class="reference external" href="https://www.rdocumentation.org/packages/RecordLinkage/versions/0.4-12.4/topics/RLdata">RLdata10000</a>.</p></li>
+</ul>
+</section>
 <section id="license">
 <h2>License<a class="headerlink" href="#license" title="Link to this heading"></a></h2>
-<p>BlockingPy is released under <a class="reference external" href="https://github.com/T-Strojny/BlockingPy/blob/main/LICENSE">MIT license</a>.</p>
+<p>BlockingPy is released under <a class="reference external" href="https://github.com/ncn-foreigners/BlockingPy/blob/main/LICENSE">MIT license</a>.</p>
 </section>
 <section id="issues">
 <h2>Issues<a class="headerlink" href="#issues" title="Link to this heading"></a></h2>
-<p>Feel free to report any issues, bugs, suggestions with github issues <a class="reference external" href="https://github.com/T-Strojny/BlockingPy/issues">here</a>.</p>
+<p>Feel free to report any issues, bugs, suggestions with github issues <a class="reference external" href="https://github.com/ncn-foreigners/BlockingPy/issues">here</a>.</p>
 </section>
 <section id="contributing">
 <h2>Contributing<a class="headerlink" href="#contributing" title="Link to this heading"></a></h2>
-<p>Please see <a class="reference external" href="https://github.com/T-Strojny/BlockingPy/blob/main/CONTRIBUTING.md">CONTRIBUTING.md</a> for more information.</p>
+<p>Please see <a class="reference external" href="https://github.com/ncn-foreigners/BlockingPy/blob/main/CONTRIBUTING.md">CONTRIBUTING.md</a> for more information.</p>
 </section>
 <section id="code-of-conduct">
 <h2>Code of Conduct<a class="headerlink" href="#code-of-conduct" title="Link to this heading"></a></h2>
@@ -167,7 +182,11 @@ <h2>Code of Conduct<a class="headerlink" href="#code-of-conduct" title="Link to
 </section>
 <section id="acknowledgements">
 <h2>Acknowledgements<a class="headerlink" href="#acknowledgements" title="Link to this heading"></a></h2>
-<p>This package is based on the R <a class="reference external" href="https://github.com/ncn-foreigners/blocking/tree/main">blocking</a> package developed by <a class="reference external" href="https://github.com/BERENZ">BERENZ</a>. Special thanks to the original author for his foundational work in this area.</p>
+<p>This package is based on the R <a class="reference external" href="https://github.com/ncn-foreigners/blocking/tree/main">blocking</a> package developed by <a class="reference external" href="https://github.com/BERENZ">BERENZ</a>.</p>
+</section>
+<section id="funding">
+<h2>Funding<a class="headerlink" href="#funding" title="Link to this heading"></a></h2>
+<p>Work on this package is supported by the National Science Centre, OPUS 20 grant no. 2020/39/B/HS4/00941 (Towards census-like statistics for foreign-born populations – quality, data integration and estimation)</p>
 </section>
 </section>
 
diff --git a/docs/_build/html/objects.inv b/docs/_build/html/objects.inv
index 06cfa0b..d8d4265 100644
Binary files a/docs/_build/html/objects.inv and b/docs/_build/html/objects.inv differ
diff --git a/docs/_build/html/searchindex.js b/docs/_build/html/searchindex.js
index da825ca..f6bffc9 100644
--- a/docs/_build/html/searchindex.js
+++ b/docs/_build/html/searchindex.js
@@ -1 +1 @@
-Search.setIndex({"alltitles": {"ANN Algorithm Configuration (control_ann)": [[12, "ann-algorithm-configuration-control-ann"]], "Accuracy": [[14, "accuracy"]], "Acknowledgements": [[10, "acknowledgements"]], "Annoy Configuration": [[12, "annoy-configuration"]], "Basic Counts": [[14, "basic-counts"]], "Basic Deduplication": [[4, "basic-deduplication"], [9, "basic-deduplication"]], "Basic Operations": [[11, null]], "Basic Record Linkage": [[9, "basic-record-linkage"]], "Basic Usage": [[11, "id2"]], "Basic usage": [[11, "basic-usage"]], "Block-Related Notation": [[14, "block-related-notation"]], "Blocker": [[0, null]], "Blocking Efficiency Metrics": [[14, "blocking-efficiency-metrics"]], "BlockingPy API": [[2, null]], "BlockingResult": [[1, null]], "Changelog": [[3, null]], "Choosing an ANN Algorithm": [[11, "choosing-an-ann-algorithm"]], "Classification Metrics": [[14, "classification-metrics"]], "Code of Conduct": [[10, "code-of-conduct"]], "Configuration and Tuning": [[12, null]], "Contents": [[10, null]], "Contributing": [[10, "contributing"]], "Core Concepts": [[13, null]], "Data Preparation": [[4, "data-preparation"], [6, "data-preparation"]], "Dataframes": [[16, "dataframes"]], "Deduplication": [[4, null], [11, "deduplication"]], "Dense Numeric Arrays": [[16, "dense-numeric-arrays"]], "Evaluate Results": [[6, "evaluate-results"]], "Evaluating Blocking Quality": [[11, "evaluating-blocking-quality"]], "Evaluation Metrics": [[14, null], [14, "id2"]], "Evaluation with True Blocks": [[4, "evaluation-with-true-blocks"]], "Example ground truth for deduplication": [[11, "example-ground-truth-for-deduplication"]], "Example ground truth for record linkage": [[11, "example-ground-truth-for-record-linkage"]], "Examples": [[5, null]], "F1 Score": [[14, "f1-score"]], "FAISS Configuration": [[12, "faiss-configuration"]], "False Negative Rate (FNR)": [[14, "false-negative-rate-fnr"]], "False Positive Rate (FPR)": [[14, "false-positive-rate-fpr"]], "Getting Started": [[7, null]], "HNSW Configuration": [[12, "hnsw-configuration"]], "Important Considerations": [[14, "important-considerations"]], "Input Data Handling": [[16, null]], "Input Validation": [[16, "input-validation"]], "Installation": [[8, null]], "Installing with pip": [[8, "installing-with-pip"]], "Issues": [[10, "issues"]], "K-d Tree Configuration": [[12, "k-d-tree-configuration"]], "Key Components": [[13, "key-components"]], "Key Features": [[10, "key-features"]], "LSH Configuration": [[12, "lsh-configuration"]], "License": [[10, "license"]], "More information": [[0, "more-information"]], "NND Configuration": [[12, "nnd-configuration"]], "Next Steps": [[9, "next-steps"]], "Notation and Terminology": [[14, "notation-and-terminology"]], "Overview": [[11, "overview"], [12, "overview"]], "Parameter Details": [[12, "parameter-details"]], "Perform record linkage": [[6, "perform-record-linkage"]], "Pre-computed Document-Term Matrices": [[16, "pre-computed-document-term-matrices"]], "Precision": [[14, "precision"]], "Prerequisites": [[8, "prerequisites"]], "Purpose": [[10, "purpose"]], "Quick Start": [[9, null]], "Recall": [[14, "recall"]], "Record Linkage": [[6, null], [11, "record-linkage"]], "Reduction Ratio (RR)": [[14, "reduction-ratio-rr"]], "Results": [[11, "results"]], "Setup": [[4, "setup"], [6, "setup"]], "Specificity": [[14, "specificity"]], "Text Processing Configuration (control_txt)": [[12, "text-processing-configuration-control-txt"]], "Text Processing Options": [[16, "text-processing-options"]], "The ANN Solution": [[13, "the-ann-solution"]], "Understanding the Results": [[9, "understanding-the-results"]], "User Guide": [[15, null]], "Voyager Configuration": [[12, "voyager-configuration"]], "Welcome to BlockingPy\u2019s Documentation": [[10, null]], "What is Blocking?": [[13, "what-is-blocking"]], "Working with lsh or kd algorithm": [[11, "working-with-lsh-or-kd-algorithm"]], "v0.1.1": [[3, "v0-1-1"]], "v0.1.2": [[3, "v0-1-2"]], "v0.1.3": [[3, "v0-1-3"]], "v0.1.4": [[3, "v0-1-4"]], "v0.1.5": [[3, "v0-1-5"]], "v0.1.6": [[3, "v0-1-6"]], "v0.1.7": [[3, "v0-1-7"]]}, "docnames": ["api/blocker", "api/blocking_result", "api/index", "changelog", "examples/deduplication", "examples/index", "examples/record_linkage", "getting_started/index", "getting_started/installation", "getting_started/quickstart", "index", "user_guide/basic_operations", "user_guide/configuration_tuning", "user_guide/core_concepts", "user_guide/evaluation_metrics", "user_guide/index", "user_guide/input_data_handling"], "envversion": {"sphinx": 64, "sphinx.domains.c": 3, "sphinx.domains.changeset": 1, "sphinx.domains.citation": 1, "sphinx.domains.cpp": 9, "sphinx.domains.index": 1, "sphinx.domains.javascript": 3, "sphinx.domains.math": 2, "sphinx.domains.python": 4, "sphinx.domains.rst": 2, "sphinx.domains.std": 2, "sphinx.ext.viewcode": 1}, "filenames": ["api\\blocker.md", "api\\blocking_result.md", "api\\index.md", "changelog.md", "examples\\deduplication.md", "examples\\index.md", "examples\\record_linkage.md", "getting_started\\index.md", "getting_started\\installation.md", "getting_started\\quickstart.md", "index.md", "user_guide\\basic_operations.md", "user_guide\\configuration_tuning.md", "user_guide\\core_concepts.md", "user_guide\\evaluation_metrics.md", "user_guide\\index.md", "user_guide\\input_data_handling.md"], "indexentries": {"block() (blockingpy.blocker.blocker method)": [[0, "blockingpy.blocker.Blocker.block", false]], "blocker (class in blockingpy.blocker)": [[0, "blockingpy.blocker.Blocker", false]], "blocker_map (blockingpy.blocker.blocker attribute)": [[0, "blockingpy.blocker.Blocker.BLOCKER_MAP", false]], "blockingpy.blocker": [[0, "module-blockingpy.blocker", false]], "blockingpy.blocking_result": [[1, "module-blockingpy.blocking_result", false]], "blockingresult (class in blockingpy.blocking_result)": [[1, "blockingpy.blocking_result.BlockingResult", false]], "colnames (blockingpy.blocking_result.blockingresult attribute)": [[1, "blockingpy.blocking_result.BlockingResult.colnames", false]], "confusion (blockingpy.blocker.blocker attribute)": [[0, "blockingpy.blocker.Blocker.confusion", false]], "confusion (blockingpy.blocking_result.blockingresult attribute)": [[1, "blockingpy.blocking_result.BlockingResult.confusion", false]], "control_ann (blockingpy.blocker.blocker attribute)": [[0, "blockingpy.blocker.Blocker.control_ann", false]], "control_txt (blockingpy.blocker.blocker attribute)": [[0, "blockingpy.blocker.Blocker.control_txt", false]], "deduplication (blockingpy.blocking_result.blockingresult attribute)": [[1, "blockingpy.blocking_result.BlockingResult.deduplication", false]], "eval() (blockingpy.blocker.blocker method)": [[0, "blockingpy.blocker.Blocker.eval", false]], "eval_metrics (blockingpy.blocker.blocker attribute)": [[0, "blockingpy.blocker.Blocker.eval_metrics", false]], "graph (blockingpy.blocking_result.blockingresult attribute)": [[1, "blockingpy.blocking_result.BlockingResult.graph", false]], "len_x (blockingpy.blocking_result.blockingresult attribute)": [[1, "blockingpy.blocking_result.BlockingResult.len_x", false]], "method (blockingpy.blocking_result.blockingresult attribute)": [[1, "blockingpy.blocking_result.BlockingResult.method", false]], "metrics (blockingpy.blocking_result.blockingresult attribute)": [[1, "blockingpy.blocking_result.BlockingResult.metrics", false]], "module": [[0, "module-blockingpy.blocker", false], [1, "module-blockingpy.blocking_result", false]], "result (blockingpy.blocking_result.blockingresult attribute)": [[1, "blockingpy.blocking_result.BlockingResult.result", false]], "x_colnames (blockingpy.blocker.blocker attribute)": [[0, "blockingpy.blocker.Blocker.x_colnames", false]], "y_colnames (blockingpy.blocker.blocker attribute)": [[0, "blockingpy.blocker.Blocker.y_colnames", false]]}, "objects": {"blockingpy": [[0, 0, 0, "-", "blocker"], [1, 0, 0, "-", "blocking_result"]], "blockingpy.blocker": [[0, 1, 1, "", "Blocker"]], "blockingpy.blocker.Blocker": [[0, 2, 1, "", "BLOCKER_MAP"], [0, 3, 1, "", "block"], [0, 2, 1, "", "confusion"], [0, 2, 1, "", "control_ann"], [0, 2, 1, "", "control_txt"], [0, 3, 1, "", "eval"], [0, 2, 1, "", "eval_metrics"], [0, 2, 1, "", "x_colnames"], [0, 2, 1, "", "y_colnames"]], "blockingpy.blocking_result": [[1, 1, 1, "", "BlockingResult"]], "blockingpy.blocking_result.BlockingResult": [[1, 2, 1, "", "colnames"], [1, 2, 1, "", "confusion"], [1, 2, 1, "", "deduplication"], [1, 2, 1, "", "graph"], [1, 2, 1, "", "len_x"], [1, 2, 1, "", "method"], [1, 2, 1, "", "metrics"], [1, 2, 1, "", "result"]]}, "objnames": {"0": ["py", "module", "Python module"], "1": ["py", "class", "Python class"], "2": ["py", "attribute", "Python attribute"], "3": ["py", "method", "Python method"]}, "objtypes": {"0": "py:module", "1": "py:class", "2": "py:attribute", "3": "py:method"}, "terms": {"": [4, 6, 9, 14], "0": [0, 4, 6, 9, 11, 12, 14, 16], "000": 4, "0000": 6, "01": [4, 6], "0111961": 6, "011957": 6, "0151": 4, "01nan17": 6, "01nan19": 6, "01nan24": 6, "01nan53": 6, "02": 4, "021999": 6, "024": 4, "0248": 4, "025": 4, "026": 4, "027": 4, "028": 4, "029": 4, "03": 4, "04": 4, "041986": 6, "041990": 6, "05": 4, "061960": 6, "07": 4, "09": 4, "091": 6, "1": [0, 4, 6, 9, 10, 11, 12, 14, 16], "10": [4, 8, 12], "100": 6, "10000": 4, "102041": 4, "103388": 6, "10389": 6, "105": 4, "1072": 6, "107852": 6, "11": [4, 6], "1113": 4, "1169": 4, "12": [4, 6, 12], "128579": 4, "13": [4, 6], "135667": 4, "1389": 4, "14": [4, 9], "140395": 4, "142": 4, "15": 4, "1549": 4, "16": 4, "17": [4, 6, 9], "17339": 6, "18": 4, "19": [4, 6], "1935": 4, "1944tls812403": 4, "1950tjh243280": 4, "1956": 4, "1957": 6, "1960": 6, "1961": 6, "1978": 4, "1982": 4, "1984": 4, "1986": 6, "1990": 6, "1991mtn763673": 4, "1992": 4, "1999": 6, "2": [0, 4, 6, 9, 10, 11, 12, 14, 16], "20": [6, 12], "200": [4, 12], "2001sg": 4, "2010": 4, "2021": 6, "204": 4, "21": 4, "211039": 6, "22": 4, "23369": 6, "23392": 6, "2353": 4, "23984": 6, "23996": 6, "24": [4, 6], "241895": 4, "24258": 6, "24613": 6, "25": [4, 9, 12], "250": 12, "25343": 6, "26": 4, "27": 4, "2710": 4, "2711": 4, "273628": 6, "29": 4, "294986": 6, "2972": 4, "3": [0, 4, 6, 8, 9, 10, 11], "30": [4, 12], "300": 4, "309": 6, "34": 4, "367": 4, "3714": 6, "386845": 4, "39": 4, "390295": 4, "391": 4, "396494": 4, "4": [4, 6, 9, 10, 11, 12], "40": [4, 6], "4029": 4, "41": 4, "42": 4, "425410": 4, "43": 4, "44": 4, "45": 4, "46": 4, "461184": 4, "47": 4, "48": 4, "49": 4, "5": [4, 6, 9, 10], "50": 4, "500": [4, 6, 12], "5000": [12, 16], "53": 6, "5562": 4, "57": 9, "5714": 9, "592": 6, "5974": 4, "6": [4, 6, 9, 10], "602": 6, "65": 4, "66": 4, "69": 6, "691": 6, "7": [4, 6, 9, 10, 12], "7298": 4, "7299": 4, "7300": 4, "7301": 4, "7302": 4, "7378": 4, "77": 4, "8": 4, "87": 9, "8750": 9, "877": 4, "88": 4, "9": [4, 6], "91": 6, "917": 4, "9567": 6, "971": 6, "9751": 4, "9752": 4, "9849": 4, "99": [4, 6], "997": 4, "999": 4, "9993": 4, "9994": 4, "9995": 4, "9996": 4, "9997": 4, "9998": 4, "9999": 4, "A": [0, 1, 6, 13, 14], "As": 14, "Be": 13, "By": 9, "For": [0, 2, 6, 8, 9, 12, 14, 16], "If": [0, 6, 10, 11, 16], "In": 14, "It": 10, "Near": 6, "The": [0, 1, 4, 6, 9, 11, 12, 14, 16], "_": 14, "abbi": 6, "abbiepvicef9": 6, "abil": 14, "about": [0, 2, 9, 10, 12], "abov": 14, "accept": [14, 16], "access": 11, "accuraci": [4, 6, 9, 10, 11, 12, 13], "achiev": [6, 14], "actual": 14, "ad": [0, 3], "add": [4, 6], "addit": [0, 2, 9], "address": 16, "adjust": [12, 16], "administr": 6, "adress": 14, "advantag": 13, "after": 14, "afterward": 4, "against": 0, "ai": 0, "aleksandra": 4, "algo": [11, 12], "algorithm": [0, 3, 4, 6, 9, 10, 13], "all": [4, 10, 14], "allow": [3, 4], "along": 0, "alphanumer": [12, 16], "alreadi": [12, 16], "also": [4, 14, 16], "altern": [6, 11], "among": 14, "analyz": [0, 1], "anderson": 6, "angular": 12, "ani": [0, 10, 14], "ann": [0, 1, 3, 4, 6, 9, 10], "annoi": [0, 1, 9, 10, 11], "api": 10, "approach": 13, "appropri": 16, "approxim": [0, 9, 10, 12, 13], "apt": 8, "ar": [0, 4, 9, 10, 11, 12, 13, 14, 16], "area": 10, "assess": [1, 10, 14], "assign": [0, 11, 13], "astyp": [4, 6], "attribut": [4, 11], "author": 10, "auto": 12, "avail": 12, "axi": 4, "b_": 14, "b_i": 14, "base": [0, 1, 4, 6, 9, 10, 12, 16], "basi": 12, "basic": [10, 15], "becom": 10, "befor": [8, 12, 16], "being": 14, "benefit": 6, "berenz": 10, "better": 12, "between": [6, 9, 11, 13, 14, 16], "binom": 14, "birth_dat": 4, "block": [0, 1, 3, 6, 9, 10, 12, 16], "blocker": [2, 3, 4, 6, 9, 10, 11, 13, 16], "blocker_map": 0, "blocking_kei": 16, "blocking_result": [0, 1, 4, 6, 9, 11], "blockingpi": [0, 1, 3, 4, 6, 8, 9, 11, 12, 13, 14, 16], "blockingresult": [0, 2, 10, 11, 13], "bool": [0, 1], "boston": [11, 16], "both": [4, 6, 9, 10, 11, 13, 14], "bray_curti": 12, "brew": 8, "bronis\u0142awa": 4, "brow": 11, "brown": 11, "bucket": 12, "bucket_s": 12, "bug": 10, "build": 12, "build_on_disk": 12, "built": 10, "burden": 14, "calcul": [0, 1, 3], "can": [4, 6, 8, 9, 10, 11, 12, 14, 16], "canberra": 12, "candid": [10, 12], "cannot": 14, "captur": 12, "carri": 14, "case": [4, 6, 12], "categori": 14, "cdot": 14, "censu": 6, "chang": 3, "changelog": 10, "charact": [9, 12, 16], "check": [9, 16], "chicago": 11, "chicagoo": 11, "choic": 11, "church": 6, "ci": 6, "citi": 16, "clarenc": 6, "class": [0, 1, 9, 13], "cleaner": 12, "clear": 16, "close": 6, "closer": 14, "code_of_conduct": 3, "colnam": [1, 11], "colnames_xi": 1, "column": [0, 1, 4, 6, 9, 11, 16], "com": 6, "combin": [6, 16], "common": 12, "compar": [0, 10, 13, 14], "comparison": [4, 6, 9, 10, 11, 13, 14], "compat": 16, "complex": 14, "comput": [10, 14], "computation": [10, 13], "concaten": [4, 6], "concept": [10, 15], "confer": 6, "configur": [0, 2, 9, 10, 13, 15, 16], "configuratino": 12, "confus": [0, 1, 3, 11, 14], "connect": 12, "consid": 14, "construct": 12, "contain": [0, 1, 4, 6, 9, 13, 16], "context": [12, 14], "control": [0, 12, 13], "control_ann": [0, 2, 4, 6, 11], "control_txt": [0, 2, 6, 16], "controls_ann": 0, "controls_txt": 0, "convert": [6, 12, 13, 16], "copi": 4, "core": [10, 15], "correct": 14, "correctli": 14, "corrupt": 4, "cosin": [4, 6, 12], "couie": 6, "couiepricem1": 6, "could": 4, "cover": [9, 11], "creat": [0, 1, 4, 6, 9, 11], "critic": 14, "crucial": 14, "csr_matrix": [0, 16], "csv": [4, 6], "custom": [6, 9], "customiz": 10, "d": [0, 4], "dat770499": 4, "dat77p499": 4, "data": [0, 10, 11, 12, 13, 15], "data_1": 11, "data_2": 11, "datafram": [0, 1, 4, 6, 9, 10, 11], "dataset": [0, 1, 4, 6, 9, 10, 11, 12, 13, 14, 16], "dataset1": [9, 11], "dataset2": [9, 11], "de03u": 6, "de03us001001": 6, "de03us001002": 6, "de03us001003": 6, "de03us001004": 6, "de03us001005": 6, "decenni": 6, "dedup": 14, "dedup_result": [4, 9], "dedupl": [0, 1, 3, 5, 10, 14], "default": [0, 1, 6, 9, 11, 12], "degre": 16, "demonstr": [4, 6, 9], "dens": [0, 10], "descent": 0, "design": 14, "detail": [0, 2, 9, 10, 11], "dev": 8, "develop": 10, "df": 16, "df_eval": 4, "dict": [0, 12], "dictionari": 12, "differ": [4, 6, 13, 14], "dimens": 16, "dimension": 12, "directli": 14, "disk": 12, "dist": [1, 4, 6, 9, 11], "distanc": [4, 6, 9, 12, 13], "distribut": [3, 4, 6, 9, 11], "divers": 12, "diversify_prob": 12, "djvanderlaan": 6, "dkk423341": 4, "dob_dai": 6, "dob_mon": 6, "dob_year": 6, "doctor": 16, "document": [0, 3, 12], "doe": [11, 16], "dolno\u015bl\u0105ski": 4, "dot": 12, "download": 6, "drastic": [4, 6, 13], "dtm": [0, 9, 16], "dtm_1": 16, "dtm_2": 16, "dtype": 6, "dual_tre": 12, "due": [4, 14], "dup": 4, "duplic": [4, 9, 11], "dure": 14, "dynam": 12, "e": [1, 9], "each": [11, 12], "earli": 12, "easi": 10, "ef_": [4, 6, 12], "ef_c": [4, 6, 12], "ef_construct": [4, 12], "effect": [4, 6, 14], "effici": [9, 10, 11, 13], "either": 11, "element": 12, "elimin": [9, 14], "empti": 6, "engin": 16, "ensur": 16, "entiti": 14, "enumcap": 6, "enumpc": 6, "epsilon": 12, "equal": 14, "errmontypython": 9, "error": 16, "essenti": 14, "etc": [1, 11, 16], "euclidean": 12, "eval": [0, 3, 4, 6, 9, 11], "eval_metr": [0, 1], "eval_result": [4, 6], "evalu": [0, 1, 3, 10, 15], "even": [4, 14], "examin": 4, "exampl": [0, 4, 6, 9, 10, 16], "exclud": 13, "expans": 12, "explain": 14, "explor": 10, "extract": 4, "f": [6, 16], "f1": [6, 11], "f1_score": [4, 6], "facebook": 0, "fact": 4, "factor": 12, "fail": [0, 16], "faiss": [0, 6, 9, 10, 11], "fall": 14, "fals": [0, 1, 6, 12], "feat_1": 16, "feat_2": 16, "feat_3": 16, "featur": [9, 11, 12, 16], "feature_": 16, "feature_nam": 16, "feature_names_1": 16, "feature_names_2": 16, "feel": 10, "few": 4, "fiction": 6, "field": [4, 6, 16], "file": 4, "fill": 6, "fillna": [4, 6], "filter": 3, "final": 14, "find": [6, 9, 10, 11, 13, 14], "first": [4, 6, 9], "first_nam": 4, "firstli": [6, 9], "fix": 3, "flexibl": [10, 16], "fn": 14, "fnr": [4, 6], "focu": 14, "focus": 10, "follow": [8, 10, 12, 14], "format": [1, 16], "formula": 14, "found": 4, "foundat": 10, "fp": 14, "fpr": [4, 6], "frac": 14, "fraction": 14, "free": 10, "from": [1, 3, 4, 6, 9, 11, 14, 16], "function": [0, 1, 4, 12], "g": 1, "geco3": 4, "geco_2_dup_per_rec_3_mod": 4, "gener": [4, 11, 13], "get": [4, 8, 9, 10], "github": 10, "githubusercont": 6, "give": 11, "good": [11, 13, 14], "gram": [9, 12, 16], "graph": [0, 1, 4, 6], "greater": 14, "greatli": 9, "group": [4, 9, 13], "guid": [0, 2, 9, 10, 11], "g\u00f3rkakar\u00f3linamelaniia\u015bwi\u0119tokrzyskie25": 4, "ha": [12, 13], "hall": 6, "ham": 12, "handl": [9, 10, 13, 15], "hannaklaralipskama\u0142opolskie28": 4, "harmon": 14, "harrison": 6, "harrisonposterm5": 6, "hash": 12, "hash_width": 12, "have": [4, 9, 11, 16], "haydem": 6, "haydemhallm1": 6, "hayden": 6, "haydenhallmnan1nan91": 6, "head": [4, 6], "heh671979": 4, "heh671989": 4, "help": [9, 10], "here": [9, 10, 11, 12], "hi": 10, "hierarch": 0, "high": [4, 11, 13, 14], "higher": 12, "highfield": 6, "hnsw": [0, 1, 4, 6, 9, 10, 11], "how": [4, 6, 9, 11, 12, 14], "http": 6, "i": [0, 4, 9, 10, 11, 12, 14, 16], "id": [4, 6, 9], "identifi": [4, 10, 14], "iloc": [4, 6], "impact": 12, "implement": [0, 10, 13], "import": [3, 4, 6, 9, 11, 12, 16], "improv": [9, 12], "includ": [0, 1, 12, 13], "incorrectli": 14, "increas": [0, 12], "index": [4, 9, 12], "indic": [1, 4, 6, 11, 14, 16], "infeas": 10, "info": 0, "inform": [2, 4, 6, 9, 10, 12], "initi": [3, 4, 6, 9, 11], "inner": [3, 12], "inner_product": 12, "input": [0, 10, 12, 15], "insid": 11, "instal": [4, 6, 7, 10], "instanc": [0, 4, 6, 9], "instead": [0, 3], "instruct": 10, "int": [0, 1, 4], "integr": 10, "interfac": [0, 12], "ip": 12, "issu": [3, 16], "its": [11, 12], "j": 11, "jagie\u0142\u0142o": 4, "jagye\u0142\u0142o": 4, "jane": [11, 16], "jensen_shannon": 12, "jkr103426": 4, "joanna": 4, "john": [11, 16], "johnsmith": 9, "joseph": 6, "josephpricem20": 6, "just": 6, "k": 0, "k_search": 12, "kajapatrycjadrozddolno\u015bl\u0105skie05": 4, "kd": 12, "keep": [12, 16], "kei": 14, "knowledg": 2, "known": [0, 4, 6, 9, 10, 11, 14], "koza": 4, "kujawsko": 4, "l1": 12, "l2": 12, "lacei": 6, "laceypricef7": 6, "lane": 6, "lanels992db": 6, "larg": [9, 10, 13], "larger": [4, 12], "last_nam": 4, "later": [8, 14], "laura": 4, "la\u00f3ra": 4, "leaf": 12, "leaf_siz": 12, "leav": 6, "left": 6, "len": [4, 6], "len_x": 1, "leokadia": 4, "less": 14, "let": [4, 6, 9], "level": 0, "lewi": 6, "lewicka": 4, "lewislewism1": 6, "libmlpack": 8, "librari": 8, "like": [6, 10, 16], "lilianna": 4, "liliannama\u0142gorzatareszkawarmi\u0144sko": 4, "linf": 12, "link": 14, "linkag": [0, 3, 5, 10, 14], "linux": 8, "list": [0, 12], "ljl907920": 4, "ll": [4, 6, 9], "lnr657399": 4, "lnrt57399": 4, "load": 4, "log": 0, "look": [4, 6, 9, 10], "lookup": 4, "lot": 4, "low": [12, 14], "low_memori": 12, "lower": 14, "lowercas": [12, 16], "ls992db": 6, "lsh": 0, "m": [4, 6, 12, 14], "m432zz": 6, "ma": 11, "maco": 8, "mai": [8, 12, 14], "main": [0, 6, 9, 11, 12, 13, 16], "maintain": [9, 13, 14], "maja": 4, "manag": 4, "manhattan": 12, "map": 0, "maria": 4, "martamartynamusia\u0142podkarpackie23": 4, "match": [4, 6, 9, 10, 11, 12, 13, 14], "matric": [0, 10], "matrix": [0, 1, 3, 11, 12, 14, 16], "max_el": 12, "max_featur": [12, 16], "maximum": [12, 16], "mazurski": 4, "mazurskie12": 4, "ma\u0142gorzata": 4, "ma\u0142g\u00f3rzata": 4, "md": [3, 10], "mean": [9, 14], "meaning": 12, "measur": [13, 14], "melaniakarolinag\u00f3rka\u015bwi\u0119tokrzyskie25": 4, "memori": [11, 12], "merg": 6, "messag": 16, "method": [0, 1, 3, 4, 6, 9, 10, 11, 14], "metric": [0, 1, 4, 6, 9, 10, 11, 12, 13, 15], "minor": 3, "miss": [13, 14], "mit": 10, "mlpack": [0, 8, 9, 10], "mode": 12, "modifi": 4, "monti": 9, "montypython": 9, "more": [2, 9, 10, 12], "most": [4, 6, 14], "much": [6, 9, 11], "muham": 6, "muhammedwatsunm7": 6, "multipl": [0, 9, 10, 11, 16], "n": [9, 12, 14, 16], "n_doc": 16, "n_docs_2": 16, "n_featur": 16, "n_features_2": 16, "n_shingl": [12, 16], "n_thread": 12, "n_tree": 12, "na": 6, "name": [0, 1, 6, 9, 16], "nan": [4, 6], "natur": 14, "navig": 0, "ndarrai": [0, 1, 16], "nearest": [0, 9, 10, 13], "need": [6, 8, 13, 14, 16], "neg": 6, "neighbor": [0, 9, 10, 12, 13], "network": 1, "networkx": 1, "new": [0, 3, 6, 10, 11, 16], "nikola": 4, "nnd": [0, 1, 9, 10, 11], "non": [12, 14, 16], "none": [0, 1, 12], "note": [0, 1, 12], "now": [4, 6, 8, 9], "np": [0, 16], "num_prob": 12, "num_thread": 12, "number": [1, 4, 6, 9, 11, 12, 13, 14, 16], "numer": 6, "numpi": [0, 1, 16], "ny": 11, "nyc": 16, "object": [0, 1, 6, 11], "observ": 6, "obtain": [9, 10], "occup": 16, "occur": 4, "off": 13, "offer": 9, "olga": 4, "one": [0, 4, 9, 14], "onli": [12, 13], "oper": [1, 10, 15], "optim": 10, "option": [0, 1, 9, 11, 12], "org": 4, "origin": [0, 1, 4, 10, 14], "other": [0, 2, 9, 11, 12, 14], "our": [4, 6, 9], "out": 9, "outcom": 14, "output": [6, 9], "over": 9, "overal": 12, "overlap": 12, "own": 12, "packag": [4, 6, 10, 16], "pair": [4, 6, 9, 10, 14], "panda": [0, 1, 4, 6, 9, 10, 11, 16], "paramet": [0, 1, 6, 9, 10, 11, 13, 16], "part": 4, "pass": 16, "path": 12, "pattern": 11, "pd": [4, 6, 9, 11, 12, 16], "per": 12, "perfect": 6, "perform": [0, 1, 3, 4, 9, 10, 11, 14, 16], "pername1": 6, "pername2": 6, "person": 6, "person_id": 6, "personal_id": 4, "pip": [4, 6], "pipelin": 14, "pleas": 10, "po827er": 6, "po827er091001": 6, "pola": 4, "pomorski": 4, "poor": 14, "posit": 6, "possibl": [9, 10, 14], "poster": 6, "potenti": 4, "precis": [4, 6, 11, 12], "predict": [0, 14], "preliminari": 14, "preprocess": [0, 4, 6, 13, 16], "presenc": 16, "price": 6, "print": [0, 1, 4, 6, 9, 11], "priorit": 14, "prioriti": 14, "probabl": 12, "probe": 12, "problem": 4, "procedur": [6, 14], "process": [0, 1, 9, 10, 13, 14], "product": 12, "project": 12, "provid": [0, 1, 6, 11, 12, 13, 16], "purpos": 11, "pvice": 6, "python": [8, 10], "pythonmonti": 9, "qualiti": [1, 10, 13, 14], "queri": [0, 11, 12], "query_ef": 12, "quick": [7, 10], "r": [4, 10], "rais": 0, "random": 12, "random_basi": 12, "random_se": [4, 12], "rang": [4, 6, 16], "rate": 6, "ratio": [1, 3, 4, 6, 9, 11], "raw": [6, 16], "re": 10, "read_csv": [4, 6], "readm": 3, "reason": 14, "rec": 4, "rec_lin_result": 6, "recal": [4, 6, 11, 13], "reclin": 6, "recommend": [10, 16], "record": [0, 1, 3, 4, 5, 10, 13, 14], "recov": 14, "reduc": [4, 6, 9, 10, 11, 13, 14], "reduct": [1, 3, 4, 6, 9, 11], "refer": [0, 1, 11], "region": 4, "releas": [3, 10], "relev": 16, "remov": [12, 16], "report": 10, "repres": [1, 6, 14], "represent": [0, 1, 13], "request": 1, "requir": [4, 6, 8, 9, 16], "reset_index": 4, "rest": 4, "result": [0, 1, 4, 13, 14, 16], "reszka": 4, "res\u017cka": 4, "res\u017ckaliliannama\u0142g\u00f3rzatawarmi\u0144sko": 4, "return": [0, 11], "revamp": 3, "rho": 12, "right": [4, 6], "road": 6, "roadde03u": 6, "roadm432zz": 6, "roadpo827": 6, "roadsw75tg": 6, "rob": 11, "robert": 11, "run": 8, "rutkowska": 4, "rybak": 4, "same": [4, 6, 12, 13, 14], "samuel": 6, "samuelpricem13": 6, "save": 12, "scale": 13, "scenario": 14, "scipi": [0, 16], "score": [6, 11], "search": [0, 4, 6, 10, 12], "second": 9, "second_nam": 4, "section": [3, 14], "see": [0, 2, 6, 9, 10, 12], "seed": 12, "select": [11, 13], "sensibl": 9, "separ": [3, 4, 6, 11, 16], "sequenti": 4, "seren": 6, "serenandersonf1": 6, "seri": [0, 1, 11, 12, 16], "serv": 14, "set": [9, 10, 12], "sever": [9, 11, 13, 16], "sex": 6, "shape": 6, "should": [11, 12, 13, 14], "show": [4, 6, 9, 11, 14], "signific": 4, "similar": [0, 9, 11, 13], "simpl": [9, 10], "sinc": [4, 14], "singl": [4, 9, 11, 16], "size": [3, 4, 6, 9, 11, 12, 14, 16], "slight": 9, "slower": 12, "small": 0, "smaller": 9, "smiithhjohn": 9, "smith": [11, 16], "smithjohn": 9, "smithjohnni": 9, "some": [6, 9], "sort_valu": 4, "sourc": [0, 1], "space": [4, 6, 10, 11, 14], "spars": [0, 10, 16], "special": [10, 12], "specif": [4, 6], "specifi": [0, 11, 12], "speed": [12, 13], "spotifi": 0, "stage": 14, "stai": [4, 6], "standard": [4, 6], "start": [4, 6, 10], "step": [10, 14], "str": [0, 1, 4, 6], "strategi": 13, "street": 6, "strength": 11, "strictli": 3, "string": 6, "strip_non_alphanum": [12, 16], "structur": [1, 12, 13], "subsequ": 14, "sudo": 8, "suggest": 10, "sum_": 14, "support": [0, 10, 11, 12, 16], "sw75tg": 6, "system": [3, 6, 13], "t": [4, 6], "tabl": 12, "take": [4, 6, 9], "task": 0, "tau": 12, "tax": 6, "tcx847483": 4, "techniqu": 13, "term": [0, 12], "termin": 12, "text": [0, 4, 9, 10, 13, 14], "th": 14, "thank": 10, "therefor": 14, "thi": [0, 1, 4, 6, 9, 10, 11, 13, 14], "those": [4, 14], "though": 4, "thread": 12, "three": [0, 11, 16], "through": 9, "tn": 14, "togeth": 9, "token": [4, 6], "total": 14, "tp": 14, "trade": 13, "tree": 0, "tree_typ": 12, "true": [0, 1, 6, 9, 10, 11, 12, 13, 14, 16], "true_block": [0, 1, 4, 6, 11], "true_blocks_dedup": 4, "true_blocs_dedup": 4, "try": [6, 9, 10], "tunabl": 13, "tune": [0, 2, 9, 10, 15], "tutori": 6, "two": [6, 9, 11, 12, 14], "txt": [4, 6, 9], "type": [0, 1, 12, 16], "under": 10, "understand": [10, 14], "unifi": 0, "uniqu": 14, "up": 10, "updat": 3, "uro": 6, "uros2021": 6, "us": [0, 1, 4, 6, 9, 10, 11, 12, 13, 14, 16], "usag": [10, 12], "user": [0, 2, 9, 10], "usual": [12, 14], "v0": 10, "valid": 0, "valu": [12, 14], "valueerror": 0, "variabl": 6, "variat": 9, "variou": [0, 9], "vector": [10, 13, 16], "verbos": [0, 4, 6], "verifi": 16, "via": 10, "victoria": 6, "voyag": [0, 4, 9, 10, 11], "wa": [1, 6, 11], "walk": 9, "warmi\u0144sko": 4, "warn": 0, "watsun": 6, "we": [4, 6, 9, 10, 14, 16], "well": 13, "were": [1, 6, 9, 12, 14], "when": [0, 3, 4, 9, 10, 11, 14, 16], "where": 14, "whether": [0, 1, 12], "which": [4, 6, 9], "while": [4, 6, 9, 14], "width": 12, "wielkopolski": 4, "wiktoria": 4, "wikt\u00f3ria": 4, "windsor": 6, "within": [9, 11, 13, 14], "without": [4, 14], "wi\u0119ckowska": 4, "work": [10, 13, 16], "world": 0, "would": [4, 14], "x": [0, 1, 4, 6, 9, 11, 14, 16], "x_colnam": [0, 16], "x_df": 1, "y": [0, 1, 4, 6, 8, 9, 11, 14, 16], "y_colnam": [0, 16], "york": [11, 16], "you": [8, 9, 10, 11, 12, 16], "your": [11, 12, 16], "zachodniopomorski": 4, "zofia": 4, "z\u00f3fia": 4, "\u015bl\u0105skie": 4}, "titles": ["Blocker", "BlockingResult", "BlockingPy API", "Changelog", "Deduplication", "Examples", "Record Linkage", "Getting Started", "Installation", "Quick Start", "Welcome to BlockingPy\u2019s Documentation", "Basic Operations", "Configuration and Tuning", "Core Concepts", "Evaluation Metrics", "User Guide", "Input Data Handling"], "titleterms": {"": 10, "1": 3, "2": 3, "3": 3, "4": 3, "5": 3, "6": 3, "7": 3, "The": 13, "accuraci": 14, "acknowledg": 10, "algorithm": [11, 12], "an": 11, "ann": [11, 12, 13], "annoi": 12, "api": 2, "arrai": 16, "basic": [4, 9, 11, 14], "block": [4, 11, 13, 14], "blocker": 0, "blockingpi": [2, 10], "blockingresult": 1, "changelog": 3, "choos": 11, "classif": 14, "code": 10, "compon": 13, "comput": 16, "concept": 13, "conduct": 10, "configur": 12, "consider": 14, "content": 10, "contribut": 10, "control_ann": 12, "control_txt": 12, "core": 13, "count": 14, "d": 12, "data": [4, 6, 16], "datafram": 16, "dedupl": [4, 9, 11], "dens": 16, "detail": 12, "document": [10, 16], "effici": 14, "evalu": [4, 6, 11, 14], "exampl": [5, 11], "f1": 14, "faiss": 12, "fals": 14, "featur": 10, "fnr": 14, "fpr": 14, "get": 7, "ground": 11, "guid": 15, "handl": 16, "hnsw": 12, "i": 13, "import": 14, "inform": 0, "input": 16, "instal": 8, "issu": 10, "k": 12, "kd": 11, "kei": [10, 13], "licens": 10, "linkag": [6, 9, 11], "lsh": [11, 12], "matric": 16, "metric": 14, "more": 0, "neg": 14, "next": 9, "nnd": 12, "notat": 14, "numer": 16, "oper": 11, "option": 16, "overview": [11, 12], "paramet": 12, "perform": 6, "pip": 8, "posit": 14, "pre": 16, "precis": 14, "prepar": [4, 6], "prerequisit": 8, "process": [12, 16], "purpos": 10, "qualiti": 11, "quick": 9, "rate": 14, "ratio": 14, "recal": 14, "record": [6, 9, 11], "reduct": 14, "relat": 14, "result": [6, 9, 11], "rr": 14, "score": 14, "setup": [4, 6], "solut": 13, "specif": 14, "start": [7, 9], "step": 9, "term": 16, "terminologi": 14, "text": [12, 16], "tree": 12, "true": 4, "truth": 11, "tune": 12, "understand": 9, "usag": 11, "user": 15, "v0": 3, "valid": 16, "voyag": 12, "welcom": 10, "what": 13, "work": 11}})
\ No newline at end of file
+Search.setIndex({"alltitles": {"ANN Algorithm Configuration (control_ann)": [[13, "ann-algorithm-configuration-control-ann"]], "Accuracy": [[15, "accuracy"]], "Acknowledgements": [[11, "acknowledgements"]], "Annoy Configuration": [[13, "annoy-configuration"]], "Basic Counts": [[15, "basic-counts"]], "Basic Deduplication": [[4, "basic-deduplication"], [5, "basic-deduplication"], [10, "basic-deduplication"]], "Basic Operations": [[12, null]], "Basic Record Linkage": [[10, "basic-record-linkage"]], "Basic Usage": [[12, "id2"]], "Basic usage": [[12, "basic-usage"]], "Block-Related Notation": [[15, "block-related-notation"]], "Blocker": [[0, null]], "Blocking Efficiency Metrics": [[15, "blocking-efficiency-metrics"]], "BlockingPy API": [[2, null]], "BlockingResult": [[1, null]], "Changelog": [[3, null]], "Choosing an ANN Algorithm": [[12, "choosing-an-ann-algorithm"]], "Classification Metrics": [[15, "classification-metrics"]], "Code of Conduct": [[11, "code-of-conduct"]], "Configuration and Tuning": [[13, null]], "Contents": [[11, null]], "Contributing": [[11, "contributing"]], "Core Concepts": [[14, null]], "Data Preparation": [[4, "data-preparation"], [5, "data-preparation"], [7, "data-preparation"]], "Dataframes": [[17, "dataframes"]], "Deduplication": [[4, null], [12, "deduplication"]], "Deduplication No. 2": [[5, null]], "Dense Numeric Arrays": [[17, "dense-numeric-arrays"]], "Evaluate Results": [[7, "evaluate-results"]], "Evaluating Blocking Quality": [[12, "evaluating-blocking-quality"]], "Evaluation": [[5, "evaluation"]], "Evaluation Metrics": [[15, null], [15, "id2"]], "Evaluation with True Blocks": [[4, "evaluation-with-true-blocks"]], "Example Datasets": [[11, "example-datasets"]], "Example ground truth for deduplication": [[12, "example-ground-truth-for-deduplication"]], "Example ground truth for record linkage": [[12, "example-ground-truth-for-record-linkage"]], "Examples": [[6, null]], "F1 Score": [[15, "f1-score"]], "FAISS Configuration": [[13, "faiss-configuration"]], "False Negative Rate (FNR)": [[15, "false-negative-rate-fnr"]], "False Positive Rate (FPR)": [[15, "false-positive-rate-fpr"]], "Funding": [[11, "funding"]], "Getting Started": [[8, null]], "HNSW Configuration": [[13, "hnsw-configuration"]], "Important Considerations": [[15, "important-considerations"]], "Input Data Handling": [[17, null]], "Input Validation": [[17, "input-validation"]], "Installation": [[9, null]], "Installing with pip": [[9, "installing-with-pip"]], "Issues": [[11, "issues"]], "K-d Tree Configuration": [[13, "k-d-tree-configuration"]], "Key Components": [[14, "key-components"]], "Key Features": [[11, "key-features"]], "LSH Configuration": [[13, "lsh-configuration"]], "License": [[11, "license"]], "More information": [[0, "more-information"]], "NND Configuration": [[13, "nnd-configuration"]], "Next Steps": [[10, "next-steps"]], "Notation and Terminology": [[15, "notation-and-terminology"]], "Overview": [[12, "overview"], [13, "overview"]], "Parameter Details": [[13, "parameter-details"]], "Perform record linkage": [[7, "perform-record-linkage"]], "Pre-computed Document-Term Matrices": [[17, "pre-computed-document-term-matrices"]], "Precision": [[15, "precision"]], "Prerequisites": [[9, "prerequisites"]], "Purpose": [[11, "purpose"]], "Quick Start": [[10, null]], "Recall": [[15, "recall"]], "Record Linkage": [[7, null], [12, "record-linkage"]], "Reduction Ratio (RR)": [[15, "reduction-ratio-rr"]], "Results": [[12, "results"]], "Setup": [[4, "setup"], [7, "setup"]], "Specificity": [[15, "specificity"]], "Text Processing Configuration (control_txt)": [[13, "text-processing-configuration-control-txt"]], "Text Processing Options": [[17, "text-processing-options"]], "The ANN Solution": [[14, "the-ann-solution"]], "True Blocks Preparation": [[5, "true-blocks-preparation"]], "Understanding the Results": [[10, "understanding-the-results"]], "User Guide": [[16, null]], "Voyager Configuration": [[13, "voyager-configuration"]], "Welcome to BlockingPy\u2019s Documentation": [[11, null]], "What is Blocking?": [[14, "what-is-blocking"]], "Working with lsh or kd algorithm": [[12, "working-with-lsh-or-kd-algorithm"]], "v0.1.1": [[3, "v0-1-1"]], "v0.1.10": [[3, "v0-1-10"]], "v0.1.2": [[3, "v0-1-2"]], "v0.1.3": [[3, "v0-1-3"]], "v0.1.4": [[3, "v0-1-4"]], "v0.1.5": [[3, "v0-1-5"]], "v0.1.6": [[3, "v0-1-6"]], "v0.1.7": [[3, "v0-1-7"]], "v0.1.8": [[3, "v0-1-8"]], "v0.1.9": [[3, "v0-1-9"]]}, "docnames": ["api/blocker", "api/blocking_result", "api/index", "changelog", "examples/deduplication", "examples/deduplication_2", "examples/index", "examples/record_linkage", "getting_started/index", "getting_started/installation", "getting_started/quickstart", "index", "user_guide/basic_operations", "user_guide/configuration_tuning", "user_guide/core_concepts", "user_guide/evaluation_metrics", "user_guide/index", "user_guide/input_data_handling"], "envversion": {"sphinx": 64, "sphinx.domains.c": 3, "sphinx.domains.changeset": 1, "sphinx.domains.citation": 1, "sphinx.domains.cpp": 9, "sphinx.domains.index": 1, "sphinx.domains.javascript": 3, "sphinx.domains.math": 2, "sphinx.domains.python": 4, "sphinx.domains.rst": 2, "sphinx.domains.std": 2, "sphinx.ext.viewcode": 1}, "filenames": ["api\\blocker.md", "api\\blocking_result.md", "api\\index.md", "changelog.md", "examples\\deduplication.md", "examples\\deduplication_2.md", "examples\\index.md", "examples\\record_linkage.md", "getting_started\\index.md", "getting_started\\installation.md", "getting_started\\quickstart.md", "index.md", "user_guide\\basic_operations.md", "user_guide\\configuration_tuning.md", "user_guide\\core_concepts.md", "user_guide\\evaluation_metrics.md", "user_guide\\index.md", "user_guide\\input_data_handling.md"], "indexentries": {}, "objects": {"blockingpy": [[0, 0, 0, "-", "blocker"], [1, 0, 0, "-", "blocking_result"]], "blockingpy.blocker": [[0, 1, 1, "", "Blocker"]], "blockingpy.blocker.Blocker": [[0, 2, 1, "", "BLOCKER_MAP"], [0, 3, 1, "", "block"], [0, 2, 1, "", "confusion"], [0, 2, 1, "", "control_ann"], [0, 2, 1, "", "control_txt"], [0, 3, 1, "", "eval"], [0, 2, 1, "", "eval_metrics"], [0, 2, 1, "", "x_colnames"], [0, 2, 1, "", "y_colnames"]], "blockingpy.blocking_result": [[1, 1, 1, "", "BlockingResult"]], "blockingpy.blocking_result.BlockingResult": [[1, 2, 1, "", "colnames"], [1, 2, 1, "", "confusion"], [1, 2, 1, "", "deduplication"], [1, 2, 1, "", "graph"], [1, 2, 1, "", "method"], [1, 2, 1, "", "metrics"], [1, 2, 1, "", "n_original_records"], [1, 2, 1, "", "reduction_ratio"], [1, 2, 1, "", "result"]]}, "objnames": {"0": ["py", "module", "Python module"], "1": ["py", "class", "Python class"], "2": ["py", "attribute", "Python attribute"], "3": ["py", "method", "Python method"]}, "objtypes": {"0": "py:module", "1": "py:class", "2": "py:attribute", "3": "py:method"}, "terms": {"": [1, 4, 5, 7, 10, 15], "0": [0, 4, 5, 7, 10, 12, 13, 15, 17], "000": [0, 4, 5, 12], "0000": 7, "000000": 5, "000400": 5, "00941": 11, "01": [4, 7], "0111961": 7, "011957": 7, "0151": 4, "01nan17": 7, "01nan19": 7, "01nan24": 7, "01nan53": 7, "02": 4, "021999": 7, "024": 4, "0248": 4, "025": 4, "026": 4, "027": 4, "028": 4, "029": 4, "03": 4, "04": [4, 5], "041986": 7, "041990": 7, "047651": 5, "05": 4, "061960": 7, "07": 4, "085341": 5, "09": 4, "090967": 5, "091": 7, "0967": 5, "1": [0, 4, 5, 7, 10, 11, 12, 13, 15, 17], "10": [4, 5, 9, 11, 12, 13], "100": [5, 7, 12], "1000": [0, 5, 7], "10000": [4, 5], "102041": 4, "103388": 7, "10389": 7, "105": 4, "1072": 7, "107852": 7, "11": [4, 5, 7], "1113": 4, "1169": 4, "1179": 5, "12": [4, 5, 7, 13], "1273": 5, "128579": 4, "1293": 5, "13": [4, 5, 7], "135667": 4, "138": 5, "1389": 4, "139": 5, "14": [4, 5, 10], "140395": 4, "142": 4, "15": [4, 5], "1549": 4, "16": [4, 5], "17": [4, 5, 7, 10], "17339": 7, "1742": 5, "18": [4, 5], "188893": 5, "1899": 5, "19": [4, 7], "1935": 4, "1944tls812403": 4, "1945": 5, "1950tjh243280": 4, "1956": [4, 5], "1957": [5, 7], "1960": 7, "1961": [5, 7], "1967": 5, "1978": 4, "1981": 5, "1982": 4, "1984": 4, "1986": 7, "1990": 7, "1991mtn763673": 4, "1992": 4, "1994": 5, "19986": 5, "1999": 7, "2": [0, 4, 6, 7, 10, 11, 12, 13, 15, 17], "20": [5, 7, 11, 13], "200": [4, 13], "2000": 5, "2001sg": 4, "2010": 4, "2011": [7, 11], "2020": 11, "2021": [], "204": 4, "209088": 5, "209737": 5, "21": 4, "211039": 7, "22": 4, "23369": 7, "23392": 7, "2353": 4, "236": 5, "23984": 7, "23996": 7, "24": [4, 5, 7], "24043": 7, "241895": 4, "24258": 7, "245406": 5, "2457": 5, "24613": 7, "25": [4, 7, 10, 11, 13], "250": 13, "25343": 7, "2560": 5, "256839": 5, "26": 4, "263": 5, "268436": 5, "27": [4, 5], "2710": 4, "2711": 4, "2736": 5, "273628": 7, "2737": 5, "28": [5, 7, 11], "29": [4, 5], "294986": 7, "2972": 4, "3": [0, 4, 5, 7, 9, 10, 11, 12], "30": [4, 13], "300": 4, "309": 7, "329": 5, "331352": 5, "34": 4, "3402": 5, "3606": 5, "367": 4, "37": 5, "3714": 7, "375000": 5, "386845": 4, "3892": 5, "39": [4, 11], "390295": 4, "390912": 5, "391": 4, "396494": 4, "4": [4, 5, 7, 10, 11, 12, 13], "40": [4, 7], "4029": 4, "409": 5, "41": 4, "42": [4, 7], "423": 5, "425410": 4, "43": 4, "44": 4, "4448": 5, "45": 4, "46": 4, "461184": 4, "47": 4, "48": 4, "49": 4, "49974014": 5, "5": [4, 5, 7, 10, 11], "50": 4, "500": [4, 7, 13], "5000": [13, 17], "5162": 5, "5183": 5, "52": 5, "53": 7, "5562": 4, "57": 10, "5714": 10, "592": 7, "5974": 4, "6": [4, 5, 7, 10, 11], "602": 7, "62": 5, "6309": 5, "64": 5, "65": 4, "6501": 5, "66": 4, "67": 5, "674": 5, "69": 7, "691": 7, "7": [4, 5, 7, 10, 11, 13], "721": 5, "725": 5, "7259": 5, "7260": 5, "7261": 5, "7262": 5, "7263": 5, "7298": 4, "7299": 4, "7300": 4, "7301": 4, "7302": 4, "7378": 4, "7651": 5, "77": 4, "8": [4, 5, 11], "87": 10, "8750": 10, "877": 4, "88": 4, "89": 5, "9": [4, 5, 7, 11], "9000": 5, "91": 7, "917": 4, "92": 5, "9206": 5, "9567": 7, "96": 5, "962": 5, "971": [], "972": 5, "9751": 4, "9752": 4, "9849": 4, "99": [4, 5, 7], "997": 4, "999": 4, "9993": 4, "9994": [4, 5], "9995": [4, 5], "9996": [4, 5], "999600": 5, "9997": [4, 5], "9998": 4, "9999": [4, 5], "999961": 7, "A": [0, 1, 7, 14, 15], "And": 5, "As": 15, "Be": 14, "By": 10, "For": [0, 2, 7, 9, 10, 13, 15, 17], "If": [0, 7, 11, 12, 17], "In": [5, 15], "It": [0, 5, 11], "Near": 7, "No": [6, 11], "ONS": [7, 11], "The": [0, 1, 4, 5, 7, 10, 12, 13, 15, 17], "There": 5, "_": 15, "abbi": 7, "abbiepvicef9": 7, "abil": 15, "about": [0, 2, 3, 10, 11, 13], "abov": 15, "accept": [15, 17], "acces": 7, "access": 12, "accuraci": [4, 5, 7, 10, 11, 12, 13, 14], "achiev": [7, 15], "actual": [5, 15], "ad": [0, 3], "add": [4, 7], "addit": [0, 2, 10], "address": 17, "adjust": [13, 17], "administr": 7, "adress": 15, "advantag": 14, "after": 15, "afterward": 4, "against": 0, "ai": 0, "aleksandra": 4, "algo": [12, 13], "algorithm": [0, 3, 4, 5, 7, 10, 11, 14], "all": [4, 11, 15], "allow": [0, 3, 4, 7, 12], "along": 0, "alongsid": 5, "alphanumer": [13, 17], "alreadi": [13, 17], "also": [4, 11, 15, 17], "altern": [7, 12], "among": 15, "analyz": [0, 1], "anderson": 7, "andrea": [5, 11], "angular": 13, "ani": [0, 11, 15], "ann": [0, 1, 3, 4, 5, 7, 10, 11], "annoi": [0, 1, 10, 11, 12], "api": 11, "appli": 0, "approach": 14, "appropri": 17, "approxim": [0, 10, 11, 13, 14], "apt": 9, "ar": [0, 4, 5, 10, 11, 12, 13, 14, 15, 17], "area": [], "assess": [1, 11, 15], "assign": [0, 12, 14], "astyp": [4, 5, 7], "attribut": [4, 12], "author": 3, "auto": 13, "avail": 13, "axi": 4, "b": 11, "b_": 15, "b_i": 15, "base": [0, 1, 4, 5, 7, 10, 11, 13, 17], "basi": 13, "basic": [11, 16], "batch": [0, 3, 4, 7, 12], "batch_siz": [0, 12], "bd": 5, "becom": 11, "been": 5, "befor": [9, 13, 17], "being": 15, "benefit": 7, "berenz": 11, "ber\u0119sewicz": 3, "better": 13, "between": [7, 10, 12, 14, 15, 17], "binom": 15, "birth_dat": 4, "block": [0, 1, 3, 7, 10, 11, 13, 17], "blocker": [2, 3, 4, 5, 7, 10, 11, 12, 14, 17], "blocker_map": 0, "blocking_kei": 17, "blocking_result": [0, 1, 4, 7, 10, 12], "blockingpi": [0, 1, 3, 4, 5, 7, 9, 10, 12, 13, 14, 15, 17], "blockingresult": [0, 2, 11, 12, 14], "bm": 5, "bool": [0, 1], "borg": [5, 11], "born": 11, "boston": [12, 17], "both": [0, 4, 7, 10, 11, 12, 14, 15], "bray_curti": 13, "brew": 9, "bronis\u0142awa": 4, "brow": 12, "brown": 12, "bucket": 13, "bucket_s": 13, "bug": 11, "build": 13, "build_on_disk": 13, "built": 11, "burden": 15, "calcul": [0, 1, 3], "can": [4, 5, 7, 9, 10, 11, 12, 13, 15, 17], "canberra": 13, "candid": [11, 13], "cannot": 15, "captur": 13, "carri": 15, "case": [4, 7, 13], "categori": 15, "cdot": 15, "censu": [7, 11], "centr": 11, "chang": 3, "changelog": 11, "charact": [10, 13, 17], "check": [10, 17], "chicago": 12, "chicagoo": 12, "choic": 12, "church": 7, "ci": [7, 11], "citi": 17, "clarenc": 7, "class": [0, 1, 10, 14], "cleaner": 13, "clear": 17, "close": 7, "closer": 15, "code": 3, "code_of_conduct": 3, "codecov": 3, "colnam": [1, 12], "colnames_xi": 1, "column": [0, 1, 4, 5, 7, 10, 12, 17], "com": [], "combin": [7, 17], "come": [7, 11], "common": 13, "compar": [0, 11, 14, 15], "comparison": [4, 7, 10, 11, 12, 14, 15], "compat": 17, "complex": 15, "comput": [11, 15], "computation": [11, 14], "concaten": [4, 7], "concept": [11, 16], "confer": [], "configur": [0, 2, 10, 11, 14, 16, 17], "configuratino": 13, "confus": [0, 1, 3, 5, 12, 15], "connect": 13, "consid": 15, "construct": 13, "contain": [0, 1, 4, 5, 7, 10, 14, 17], "context": [13, 15], "control": [0, 13, 14], "control_ann": [0, 2, 4, 5, 7, 12], "control_txt": [0, 2, 7, 17], "controls_ann": 0, "controls_txt": 0, "convert": [7, 13, 14, 17], "copi": [4, 5], "core": [11, 16], "correct": 15, "correctli": 15, "corrupt": 4, "cosin": [3, 4, 5, 7, 13], "couie": 7, "couiepricem1": 7, "could": 4, "cours": [7, 11], "cover": [10, 12], "creat": [0, 1, 4, 5, 7, 10, 11, 12], "critic": 15, "crucial": 15, "csr_matrix": [0, 17], "csv": 4, "current": [4, 7, 12], "custom": [7, 10], "customiz": 11, "d": [0, 4], "dat770499": 4, "dat77p499": 4, "data": [0, 3, 11, 12, 13, 14, 16], "data_1": 12, "data_2": 12, "datafram": [0, 1, 4, 7, 10, 11, 12], "dataset": [0, 1, 4, 5, 7, 10, 12, 13, 14, 15, 17], "dataset1": [10, 12], "dataset2": [10, 12], "de03u": 7, "de03us001001": 7, "de03us001002": 7, "de03us001003": 7, "de03us001004": 7, "de03us001005": 7, "decenni": 7, "dedup": 15, "dedup_result": [4, 5, 10], "dedupl": [0, 1, 3, 6, 11, 15], "default": [0, 1, 3, 7, 10, 12, 13], "degre": 17, "demonstr": [4, 7, 10], "dens": [0, 11], "descent": 0, "design": 15, "detail": [0, 2, 10, 11, 12], "dev": 9, "develop": [5, 11], "df": 17, "df_eval": [4, 5], "di": [7, 11], "dick": [7, 11], "dict": [0, 13], "dictionari": 13, "differ": [4, 7, 14, 15], "dimens": 17, "dimension": 13, "directli": 15, "disk": 13, "dist": [1, 4, 5, 7, 10, 12], "distanc": [3, 4, 5, 7, 10, 13, 14], "distribut": [3, 4, 5, 7, 10, 12], "divers": 13, "diversify_prob": 13, "djvanderlaan": [], "dkk423341": 4, "dob_dai": 7, "dob_mon": 7, "dob_year": 7, "doc": 3, "doctor": 17, "document": [0, 3, 13], "doe": [12, 17], "dolno\u015bl\u0105ski": 4, "dot": 13, "download": 7, "drastic": [4, 7, 14], "dtm": [0, 10, 17], "dtm_1": 17, "dtm_2": 17, "dtype": [5, 7], "dual_tre": 13, "due": [4, 15], "dup": 4, "duplic": [4, 5, 10, 12], "dure": 15, "dynam": 13, "e": [1, 10], "each": [12, 13], "earli": 13, "easi": 11, "ef_": [4, 7, 13], "ef_c": [4, 7, 13], "ef_construct": [4, 13], "effect": [4, 7, 15], "effici": [10, 11, 12, 14], "either": 12, "element": 13, "elimin": [10, 15], "empti": 7, "engin": 17, "ensur": 17, "entiti": 15, "enumcap": 7, "enumpc": 7, "epsilon": 13, "equal": 15, "errmontypython": 10, "error": [5, 17], "essenti": 15, "essnet": [7, 11], "estim": 11, "etc": [1, 12, 17], "euclidean": 13, "eval": [0, 3, 4, 7, 10, 12], "eval_metr": [0, 1], "eval_result": [4, 5, 7], "evalu": [0, 1, 3, 11, 16], "even": [4, 15], "ex527tr017006": 7, "examin": 4, "exampl": [0, 3, 4, 5, 7, 10, 17], "exclud": 14, "exist": 3, "expans": 13, "explain": 15, "explor": 11, "extract": 4, "f": [7, 17], "f1": [7, 12], "f1_score": [4, 5, 7], "facebook": 0, "fact": 4, "factor": 13, "fail": [0, 17], "faiss": [0, 3, 5, 7, 10, 11, 12], "fall": 15, "fals": [0, 1, 7, 13], "feat_1": 17, "feat_2": 17, "feat_3": 17, "featur": [10, 12, 13, 17], "feature_": 17, "feature_nam": 17, "feature_names_1": 17, "feature_names_2": 17, "feel": 11, "few": 4, "fiction": 7, "field": [4, 7, 17], "file": 4, "fill": 7, "fillna": [4, 5, 7], "filter": [3, 7], "final": [5, 15], "find": [7, 10, 11, 12, 14, 15], "first": [4, 5, 7, 10], "first_nam": 4, "firstli": [7, 10], "fix": 3, "flexibl": [11, 17], "float": 1, "fn": 15, "fname_c1": 5, "fname_c2": 5, "fnr": [4, 5, 7], "focu": 15, "focus": 11, "follow": [9, 11, 13, 15], "forb": [7, 11], "foreign": 11, "format": [1, 17], "formula": 15, "found": 4, "foundat": [], "fp": 15, "fpr": [4, 5, 7], "frac": 15, "fraction": 15, "frank": 5, "frankmueller1967927": 5, "free": 11, "from": [1, 3, 4, 5, 7, 10, 11, 12, 15, 17], "function": [0, 1, 4, 5, 7, 13], "fund": 3, "g": 1, "geco3": 4, "geco_2_dup_per_rec_3_mod": 4, "gener": [4, 5, 12, 14], "get": [4, 9, 10, 11], "github": 11, "githubusercont": [], "give": 12, "good": [12, 14, 15], "gpl": 11, "gram": [10, 13, 17], "grant": 11, "graph": [0, 1, 4, 5, 7], "greater": 15, "greatli": 10, "group": [4, 10, 14], "guid": [0, 2, 10, 11, 12], "g\u00f3rkakar\u00f3linamelaniia\u015bwi\u0119tokrzyskie25": 4, "ha": [13, 14], "hall": 7, "ham": 13, "han": 5, "handl": [5, 10, 11, 14, 16], "hannaklaralipskama\u0142opolskie28": 4, "hansschmitt1945814": 5, "harmon": 15, "harrison": 7, "harrisonposterm5": 7, "hash": 13, "hash_width": 13, "have": [4, 5, 10, 12, 17], "haydem": 7, "haydemhallm1": 7, "hayden": 7, "haydenhallmnan1nan91": 7, "head": [4, 5, 7], "heasman": [7, 11], "heh671979": 4, "heh671989": 4, "help": [10, 11], "herbert": 5, "herbertzimmermann1961116": 5, "here": [10, 11, 12, 13], "hi": [], "hierarch": 0, "high": [4, 5, 12, 14, 15], "higher": 13, "highfield": 7, "hnsw": [0, 1, 4, 5, 7, 10, 11, 12], "how": [4, 7, 10, 12, 13, 15], "hran": 5, "hransschmitt1945814": 5, "hs4": 11, "http": [], "i": [0, 4, 10, 11, 12, 13, 15, 17], "ian": [7, 11], "id": [4, 5, 7, 10], "identifi": [4, 11, 15], "iloc": [4, 5, 7], "impact": 13, "implement": [0, 11, 14], "import": [3, 4, 5, 7, 10, 12, 13, 17], "improv": [10, 13], "includ": [0, 1, 13, 14], "incorrectli": 15, "increas": [0, 13], "index": [4, 10, 13], "indic": [1, 4, 5, 7, 12, 15, 17], "infeas": 11, "info": [0, 3], "inform": [2, 4, 7, 10, 11, 13], "initi": [3, 4, 7, 10, 12], "inner": [3, 13], "inner_product": 13, "input": [0, 11, 13, 16], "insid": [3, 12], "instal": [4, 5, 7, 8, 11], "instanc": [0, 4, 7, 10], "instead": [0, 3], "instruct": 11, "int": [0, 1, 4], "integr": 11, "interfac": [0, 13], "ip": 13, "issu": [3, 17], "its": [12, 13], "j": 12, "jagie\u0142\u0142o": 4, "jagye\u0142\u0142o": 4, "jane": [12, 17], "januari": [7, 11], "jensen_shannon": 13, "jkr103426": 4, "joanna": 4, "job": [7, 11], "john": [12, 17], "johnsmith": 10, "joseph": 7, "josephpricem20": 7, "just": 7, "k": 0, "k_search": 13, "kajapatrycjadrozddolno\u015bl\u0105skie05": 4, "kd": 13, "keep": [13, 17], "kei": 15, "keller": 5, "knowledg": 2, "known": [0, 4, 5, 7, 10, 11, 12, 15], "koza": 4, "kujawsko": 4, "l1": 13, "l2": 13, "lacei": 7, "laceypricef7": 7, "lane": 7, "lanels992db": 7, "larg": [10, 11, 14], "larger": [0, 4, 7, 12, 13], "last_nam": 4, "later": [9, 15], "laura": 4, "la\u00f3ra": 4, "leaf": 13, "leaf_siz": 13, "leav": 7, "left": 7, "len": [4, 5, 7], "len_x": [], "leokadia": 4, "less": 15, "let": [4, 5, 7, 10], "level": 0, "lewi": 7, "lewicka": 4, "lewislewism1": 7, "libmlpack": 9, "librari": 9, "like": [7, 11, 17], "lilianna": 4, "liliannama\u0142gorzatareszkawarmi\u0144sko": 4, "linf": 13, "link": 15, "linkag": [0, 3, 6, 11, 15], "linux": 9, "list": [0, 13], "ljl907920": 4, "ll": [4, 5, 7, 10], "lname_c1": 5, "lname_c2": 5, "lnr657399": 4, "lnrt57399": 4, "load": [4, 5], "load_census_cis_data": 7, "load_deduplication_data": 5, "log": 0, "look": [4, 5, 7, 10, 11], "lookup": 4, "lot": 4, "low": [13, 15], "low_memori": 13, "lower": 15, "lowercas": [13, 17], "ls992db": 7, "ls992db024001": 7, "lsh": 0, "m": [4, 7, 13, 15], "m432zz": 7, "m432zz053003": 7, "ma": 12, "maciej": 3, "maco": 9, "mai": [9, 13, 15], "main": [0, 10, 12, 13, 14, 17], "maintain": [10, 14, 15], "maja": 4, "manag": 4, "manhattan": 13, "map": 0, "maria": 4, "martamartynamusia\u0142podkarpackie23": 4, "martin": 5, "martinschwarz1967217": 5, "match": [4, 7, 10, 11, 12, 13, 14, 15], "matric": [0, 11], "matrix": [0, 1, 3, 12, 13, 15, 17], "max_el": 13, "max_featur": [13, 17], "maximum": [13, 17], "mazurski": 4, "mazurskie12": 4, "ma\u0142gorzata": 4, "ma\u0142g\u00f3rzata": 4, "mcleod": [7, 11], "md": [3, 11], "mean": [10, 15], "meaning": 13, "measur": [14, 15], "melaniakarolinag\u00f3rka\u015bwi\u0119tokrzyskie25": 4, "memori": [12, 13], "merg": 7, "messag": 17, "method": [0, 1, 3, 4, 5, 7, 10, 11, 12, 15], "metric": [0, 1, 4, 5, 7, 10, 11, 12, 13, 14, 16], "minor": 3, "miss": [14, 15], "mit": 11, "mlpack": [0, 9, 10, 11], "mode": 13, "modifi": 4, "monti": 10, "montypython": 10, "more": [2, 10, 11, 13], "most": [4, 7, 15], "much": [7, 10, 12], "mueller": 5, "muham": 7, "muhammedwatsunm7": 7, "multipl": [0, 10, 11, 12, 17], "murat": [5, 11], "n": [10, 13, 15, 17], "n_doc": 17, "n_docs_2": 17, "n_featur": 17, "n_features_2": 17, "n_original_record": 1, "n_shingl": [13, 17], "n_thread": 13, "n_tree": 13, "na": 7, "name": [0, 1, 5, 7, 10, 17], "nan": [4, 5, 7], "nation": 11, "natur": 15, "navig": 0, "ndarrai": [0, 1, 17], "nearest": [0, 10, 11, 14], "necessari": 5, "need": [5, 7, 9, 14, 15, 17], "neg": [5, 7], "neighbor": [0, 10, 11, 13, 14], "network": 1, "networkx": 1, "new": [0, 3, 7, 11, 12, 17], "nikola": 4, "nnd": [0, 1, 10, 11, 12], "non": [13, 15, 17], "none": [0, 1, 13], "note": [0, 1, 4, 7, 12, 13], "now": [4, 5, 7, 9, 10], "np": [0, 17], "num_prob": 13, "num_thread": 13, "number": [1, 4, 5, 7, 10, 12, 13, 14, 15, 17], "numer": 7, "numpi": [0, 1, 17], "ny": 12, "nyc": 17, "object": [0, 1, 5, 7, 12], "observ": 7, "obtain": [10, 11], "occup": 17, "occur": 4, "off": 14, "offer": 10, "olga": 4, "one": [0, 4, 10, 15], "onli": [3, 7, 13, 14], "oper": [1, 11, 16], "optim": [3, 11], "option": [0, 1, 10, 12, 13], "opu": 11, "org": 4, "origin": [0, 1, 4, 5, 15], "other": [0, 2, 10, 12, 13, 15], "our": [4, 5, 7, 10], "out": 10, "outcom": 15, "output": [7, 10], "over": 10, "overal": 13, "overlap": 13, "own": 13, "packag": [3, 4, 5, 7, 11, 17], "pair": [4, 5, 7, 10, 11, 12, 15], "panda": [0, 1, 4, 5, 7, 10, 11, 12, 17], "paramet": [0, 1, 7, 10, 11, 12, 14, 17], "part": [3, 4], "pass": 17, "path": 13, "pattern": 12, "paula": [7, 11], "pd": [4, 5, 7, 10, 12, 13, 17], "per": 13, "perfect": [5, 7], "perform": [0, 1, 3, 4, 10, 11, 12, 15, 17], "perfrom": 5, "pername1": 7, "pername2": 7, "person": 7, "person_id": 7, "personal_id": 4, "pip": [4, 5, 7], "pipelin": 15, "pleas": 11, "po827er": 7, "po827er091001": 7, "pola": 4, "pomorski": 4, "poor": 15, "popul": 11, "posit": [5, 7], "possibl": [10, 11, 15], "poster": 7, "potenti": 4, "pre": 1, "precis": [4, 5, 7, 12, 13], "predict": [0, 5, 15], "preliminari": 15, "preprocess": [0, 4, 7, 14, 17], "presenc": 17, "price": 7, "print": [0, 1, 4, 5, 7, 10, 12], "priorit": 15, "prioriti": 15, "probabl": 13, "probe": 13, "problem": 4, "procedur": [7, 15], "process": [0, 1, 3, 10, 11, 14, 15], "product": 13, "project": 13, "provid": [0, 1, 7, 12, 13, 14, 17], "purpos": 12, "pvice": 7, "python": [9, 11], "pythonmonti": 10, "qualiti": [1, 11, 14, 15], "queri": [0, 12, 13], "query_ef": 13, "quick": [8, 11], "r": [4, 5, 11], "rais": 0, "random": 13, "random_basi": 13, "random_se": [4, 13], "random_st": 7, "randomli": 5, "rang": [4, 5, 7, 17], "rate": 7, "ratio": [1, 3, 4, 5, 7, 10, 12], "raw": 17, "re": 11, "read_csv": 4, "readm": 3, "reason": 15, "rec": 4, "rec_lin_result": 7, "recal": [4, 5, 7, 12, 14], "reclin": [], "recommend": [0, 4, 7, 11, 12, 17], "record": [0, 1, 3, 4, 5, 6, 11, 14, 15], "recordlinkag": [5, 11], "recov": 15, "reduc": [4, 7, 10, 11, 12, 14, 15], "reduct": [1, 3, 4, 5, 7, 10, 12], "reduction_ratio": 1, "refer": [0, 12], "region": 4, "releas": [3, 11], "relev": 17, "remov": [13, 17], "report": 11, "repres": [1, 7, 15], "represent": [0, 1, 14], "request": 1, "requir": [4, 7, 9, 10, 17], "reset_index": 4, "rest": 4, "result": [0, 1, 4, 5, 14, 15, 17], "reszka": 4, "res\u017cka": 4, "res\u017ckaliliannama\u0142g\u00f3rzatawarmi\u0144sko": 4, "return": [0, 12], "revamp": 3, "rho": 13, "right": [4, 7], "rldata10000": [5, 11], "road": 7, "roadde03u": 7, "roadm432zz": 7, "roadpo827": 7, "roadsw75tg": 7, "rob": 12, "robert": 12, "row": 5, "run": 9, "rutkowska": 4, "rybak": 4, "same": [4, 7, 13, 14, 15], "sampl": 7, "samuel": 7, "samuelpricem13": 7, "sariyar": [5, 11], "save": 13, "scale": 14, "scenario": 15, "schmitt": 5, "schwarz": 5, "scienc": 11, "scipi": [0, 17], "score": [7, 12], "search": [0, 4, 5, 7, 11, 13], "second": 10, "second_nam": 4, "section": [3, 15], "see": [0, 2, 5, 7, 10, 11, 13], "seed": 13, "select": [12, 14], "sensibl": 10, "separ": [0, 3, 4, 7, 12, 17], "sequenti": 4, "seren": 7, "serenandersonf1": 7, "seri": [0, 1, 12, 13, 17], "serv": 15, "set": [0, 4, 7, 10, 11, 12, 13], "sever": [10, 12, 14, 17], "sex": 7, "shape": 7, "should": [12, 13, 14, 15], "show": [4, 5, 7, 10, 12, 15], "signific": 4, "similar": [0, 10, 12, 14], "simpl": [10, 11], "simplif": 3, "sinc": [0, 4, 7, 12, 15], "singl": [4, 10, 12, 17], "size": [0, 3, 4, 5, 7, 10, 12, 13, 15, 17], "slight": 10, "slower": 13, "small": 0, "smaller": 10, "smiithhjohn": 10, "smith": [12, 17], "smithjohn": 10, "smithjohnni": 10, "some": [5, 7, 10], "sort_valu": 4, "sourc": [0, 1], "southampton": [7, 11], "space": [4, 7, 11, 12, 15], "spars": [0, 11, 17], "special": 13, "specif": [4, 5, 7], "specifi": [0, 12, 13], "speed": [13, 14], "spotifi": 0, "stage": 15, "stai": [4, 7], "standard": [4, 5, 7], "start": [4, 5, 7, 11], "statist": 11, "step": [11, 15], "str": [0, 1, 4, 5, 7], "strategi": 14, "street": 7, "strength": 12, "strictli": 3, "string": 7, "strip_non_alphanum": [13, 17], "structur": [1, 13, 14], "subsequ": 15, "sudo": 9, "suggest": 11, "sum_": 15, "support": [0, 11, 12, 13, 17], "sw75tg": 7, "sw75tq018001": 7, "system": [3, 7, 14], "t": [4, 5, 7], "tabl": 13, "take": [4, 5, 7, 10], "taken": [5, 11], "task": 0, "tau": 13, "tax": 7, "tcx847483": 4, "techniqu": 14, "term": [0, 13], "termin": 13, "text": [0, 4, 10, 11, 14, 15], "th": 15, "thank": [], "therefor": 15, "thi": [0, 1, 4, 5, 7, 10, 11, 12, 14, 15], "those": [4, 7, 15], "though": 4, "thread": 13, "three": [0, 12, 17], "through": 10, "tn": 15, "togeth": 10, "token": [4, 5, 7], "total": [5, 15], "toward": 11, "tp": 15, "trade": 14, "train": [7, 11], "tree": 0, "tree_typ": 13, "true": [0, 1, 3, 7, 10, 11, 12, 13, 14, 15, 17], "true_block": [0, 1, 4, 5, 7, 12], "true_blocks_dedup": [4, 5], "true_blocs_dedup": 4, "true_id": 5, "try": [7, 10, 11], "tunabl": 14, "tune": [0, 2, 10, 11, 16], "tupl": 1, "tutori": [], "two": [7, 10, 12, 13, 15], "txt": [4, 5, 7, 10], "type": [0, 1, 13, 17], "under": 11, "understand": [11, 15], "unifi": 0, "uniqu": 15, "up": 11, "updat": 3, "uro": [], "uros2021": [], "us": [0, 1, 4, 5, 7, 10, 11, 12, 13, 14, 15, 17], "usag": [11, 13], "user": [0, 2, 10, 11], "usual": [13, 15], "uw": 5, "uwekeller200075": 5, "v0": 11, "valid": 0, "valu": [13, 15], "valueerror": 0, "variabl": 7, "variat": 10, "variou": [0, 10], "vector": [11, 14, 17], "verbos": [0, 4, 5, 7], "veri": 5, "verifi": 17, "via": [7, 11], "victoria": 7, "voyag": [0, 4, 10, 11, 12], "wa": [1, 7, 12], "walk": 10, "warmi\u0144sko": 4, "warn": 0, "watsun": 7, "we": [0, 4, 5, 7, 10, 11, 12, 15, 17], "well": [5, 14], "were": [1, 7, 10, 13, 15], "when": [0, 3, 4, 7, 10, 11, 12, 15, 17], "where": [5, 15], "whether": [0, 1, 13], "which": [4, 7, 10], "while": [4, 7, 10, 15], "width": 13, "wielkopolski": 4, "wiktoria": 4, "wikt\u00f3ria": 4, "windsor": 7, "within": [10, 12, 14, 15], "without": [4, 15], "wi\u0119ckowska": 4, "work": [11, 14, 17], "world": 0, "would": [4, 15], "x": [0, 1, 4, 5, 7, 10, 12, 15, 17], "x_colnam": [0, 17], "x_df": 1, "y": [0, 1, 4, 5, 7, 9, 10, 12, 15, 17], "y_colnam": [0, 17], "york": [12, 17], "you": [0, 4, 7, 9, 10, 11, 12, 13, 17], "your": [12, 13, 17], "zachodniopomorski": 4, "zimmermann": 5, "zofia": 4, "z\u00f3fia": 4, "\u015bl\u0105skie": 4}, "titles": ["Blocker", "BlockingResult", "BlockingPy API", "Changelog", "Deduplication", "Deduplication No. 2", "Examples", "Record Linkage", "Getting Started", "Installation", "Quick Start", "Welcome to BlockingPy\u2019s Documentation", "Basic Operations", "Configuration and Tuning", "Core Concepts", "Evaluation Metrics", "User Guide", "Input Data Handling"], "titleterms": {"": 11, "1": 3, "10": 3, "2": [3, 5], "3": 3, "4": 3, "5": 3, "6": 3, "7": 3, "8": 3, "9": 3, "No": 5, "The": 14, "accuraci": 15, "acknowledg": 11, "algorithm": [12, 13], "an": 12, "ann": [12, 13, 14], "annoi": 13, "api": 2, "arrai": 17, "basic": [4, 5, 10, 12, 15], "block": [4, 5, 12, 14, 15], "blocker": 0, "blockingpi": [2, 11], "blockingresult": 1, "changelog": 3, "choos": 12, "classif": 15, "code": 11, "compon": 14, "comput": 17, "concept": 14, "conduct": 11, "configur": 13, "consider": 15, "content": 11, "contribut": 11, "control_ann": 13, "control_txt": 13, "core": 14, "count": 15, "d": 13, "data": [4, 5, 7, 17], "datafram": 17, "dataset": 11, "dedupl": [4, 5, 10, 12], "dens": 17, "detail": 13, "document": [11, 17], "effici": 15, "evalu": [4, 5, 7, 12, 15], "exampl": [6, 11, 12], "f1": 15, "faiss": 13, "fals": 15, "featur": 11, "fnr": 15, "fpr": 15, "fund": 11, "get": 8, "ground": 12, "guid": 16, "handl": 17, "hnsw": 13, "i": 14, "import": 15, "inform": 0, "input": 17, "instal": 9, "issu": 11, "k": 13, "kd": 12, "kei": [11, 14], "licens": 11, "linkag": [7, 10, 12], "lsh": [12, 13], "matric": 17, "metric": 15, "more": 0, "neg": 15, "next": 10, "nnd": 13, "notat": 15, "numer": 17, "oper": 12, "option": 17, "overview": [12, 13], "paramet": 13, "perform": 7, "pip": 9, "posit": 15, "pre": 17, "precis": 15, "prepar": [4, 5, 7], "prerequisit": 9, "process": [13, 17], "purpos": 11, "qualiti": 12, "quick": 10, "rate": 15, "ratio": 15, "recal": 15, "record": [7, 10, 12], "reduct": 15, "relat": 15, "result": [7, 10, 12], "rr": 15, "score": 15, "setup": [4, 7], "solut": 14, "specif": 15, "start": [8, 10], "step": 10, "term": 17, "terminologi": 15, "text": [13, 17], "tree": 13, "true": [4, 5], "truth": 12, "tune": 13, "understand": 10, "usag": 12, "user": 16, "v0": 3, "valid": 17, "voyag": 13, "welcom": 11, "what": 14, "work": 12}})
\ No newline at end of file
diff --git a/docs/_build/html/user_guide/basic_operations.html b/docs/_build/html/user_guide/basic_operations.html
index 9ad5c27..24ed091 100644
--- a/docs/_build/html/user_guide/basic_operations.html
+++ b/docs/_build/html/user_guide/basic_operations.html
@@ -222,12 +222,14 @@ <h3>Example ground truth for deduplication<a class="headerlink" href="#example-g
 <span class="p">)</span>
 <span class="n">evals</span> <span class="o">=</span> <span class="n">blocker</span><span class="o">.</span><span class="n">eval</span><span class="p">(</span>
     <span class="n">blocking_result</span><span class="o">=</span><span class="n">result</span><span class="p">,</span>
-    <span class="n">true_blocks</span><span class="o">=</span><span class="n">true_blocks</span>
+    <span class="n">true_blocks</span><span class="o">=</span><span class="n">true_blocks</span><span class="p">,</span>
+    <span class="n">batch_size</span><span class="o">=</span><span class="mi">100</span> <span class="c1"># (default is 10,000)</span>
 <span class="p">)</span>
 <span class="nb">print</span><span class="p">(</span><span class="n">evals</span><span class="o">.</span><span class="n">metrics</span><span class="p">)</span>
 <span class="nb">print</span><span class="p">(</span><span class="n">evals</span><span class="o">.</span><span class="n">confusion</span><span class="p">)</span> 
 </pre></div>
 </div>
+<p>Note: We recommend using eval() method when evaluating larger datasets since it allows you to set the batch size for currently evaluated record pairs.</p>
 </section>
 <section id="example-ground-truth-for-record-linkage">
 <h3>Example ground truth for record linkage<a class="headerlink" href="#example-ground-truth-for-record-linkage" title="Link to this heading"></a></h3>
diff --git a/docs/changelog.md b/docs/changelog.md
index fa1f265..53abdcd 100644
--- a/docs/changelog.md
+++ b/docs/changelog.md
@@ -1,5 +1,11 @@
 # Changelog
 
+## v0.1.10
+- evaluation only for records that exist in true blocks.
+- default distance for `faiss` changed to `cosine`
+- code simplification
+- minor changes
+
 ## v0.1.9
 - optimized evaluation part to allow batch processing
 
diff --git a/docs/examples/record_linkage.md b/docs/examples/record_linkage.md
index 27b8f32..24f0983 100644
--- a/docs/examples/record_linkage.md
+++ b/docs/examples/record_linkage.md
@@ -64,19 +64,19 @@ print(census.head())
 
 print(cis.head())
 
-#   PERSON_ID  PERNAME1  PERNAME2 SEX  DOB_DAY  DOB_MON  DOB_YEAR  \
-# 0       NaN    HAYDEN      HALL   M      NaN        1       NaN   
-# 1       NaN     SEREN  ANDERSON   F      1.0        1       NaN   
-# 2       NaN     LEWIS     LEWIS   M      1.0        1       NaN   
-# 3       NaN  HARRISON    POSTER   M      5.0        1       NaN   
-# 4       NaN  MUHAMMED    WATSUN   M      7.0        1       NaN   
+#        PERSON_ID  PERNAME1  PERNAME2 SEX  DOB_DAY  DOB_MON  DOB_YEAR  \
+# 0  PO827ER091001    HAYDEN      HALL   M      NaN        1       NaN   
+# 1  LS992DB024001     SEREN  ANDERSON   F      1.0        1       NaN   
+# 2   M432ZZ053003     LEWIS     LEWIS   M      1.0        1       NaN   
+# 3   SW75TQ018001  HARRISON    POSTER   M      5.0        1       NaN   
+# 4  EX527TR017006  MUHAMMED    WATSUN   M      7.0        1       NaN   
 
 #               ENUMCAP   ENUMPC  
 # 0    91 CLARENCE ROAD  PO827ER  
 # 1      24 CHURCH LANE  LS992DB  
 # 2      53 CHURCH ROAD   M432ZZ  
 # 3   19 HIGHFIELD ROAD   SW75TG  
-# 4  17 VICTORIA STREET      NaN 
+# 4  17 VICTORIA STREET      NaN  
 
 print(census.shape)
 # (25343, 9)
@@ -170,7 +170,7 @@ print(rec_lin_result)
 # Blocking based on the hnsw method.
 # Number of blocks: 23996
 # Number of columns used for blocking: 1072
-# Reduction ratio: 1.0000
+# Reduction ratio: 0.999961
 # ========================================================
 # Distribution of the size of the blocks:
 # Block Size | Number of Blocks
@@ -193,7 +193,7 @@ Let's take a look at the pair in block `0` :
 print(cis.iloc[0, :])
 print(census.iloc[17339, :])
 
-# PERSON_ID                                             
+# PERSON_ID                                PO827ER091001
 # PERNAME1                                        HAYDEN
 # PERNAME2                                          HALL
 # SEX                                                  M
@@ -203,9 +203,7 @@ print(census.iloc[17339, :])
 # ENUMCAP                               91 CLARENCE ROAD
 # ENUMPC                                         PO827ER
 # txt          HAYDENHALLMnan1nan91 CLARENCE ROADPO827ER
-# y                                                    0
 # Name: 0, dtype: object
-
 # PERSON_ID                                   PO827ER091001
 # PERNAME1                                           HAYDEM
 # PERNAME2                                             HALL
@@ -216,7 +214,7 @@ print(census.iloc[17339, :])
 # ENUMCAP                                  91 CLARENCE ROAD
 # ENUMPC                                            PO827ER
 # txt          HAYDEMHALLM1.011957.091 CLARENCE ROADPO827ER
-# x                                                   17339
+# Name: 17339, dtype: object
 
 ```
 
@@ -240,7 +238,11 @@ matches = pd.merge(
 matches['block'] = range(len(matches))
 
 matches.shape
-# (971, 4)
+# (24043, 4)
+```
+Let's sample 1000 pairs for which we will evaluate:
+```python
+matches = matches.sample(1000, random_state=42)
 ```
 
 Now we can evaluate the algorithm:
diff --git a/tests/test_blocking.py b/tests/test_blocking.py
index 13224c4..21e46c1 100644
--- a/tests/test_blocking.py
+++ b/tests/test_blocking.py
@@ -280,7 +280,7 @@ def test_eval_basic_functionality(small_named_txt_data):
 
     assert eval_result.method == result_no_eval.method
     assert eval_result.deduplication == result_no_eval.deduplication
-    assert eval_result.len_x == result_no_eval.len_x
+    assert eval_result.n_original_records == result_no_eval.n_original_records
     pd.testing.assert_frame_equal(eval_result.result, result_no_eval.result)