Refactor: extract bencode tokenizer #14

josecelano · 2024-12-03T18:54:09Z

This refactoring changes the current implementation to extract the tokenizer. It splits parser logic into two types:

Tokenizer: It returns bencoded tokens.
Generator: It iterates over bencoded tokens to generate the JSON.

NOTES

It keeps the custom recursivity (with explicit stack) for the time being, instead of using explicit recursivity like @da2ce7 did here. I guess that could be changed later if we think it increases readability and maintainability.

SUBTASKS

Separate logic for tokenizer.
Extract tokenizer.
Remove Writer from the tokenizer. It's not needed.

PERFORMANCE

In the current version, bencoded strings are cached in memory before starting writing to the output (because we nned the whole string to check if it's a valid UTF-8). In this PR, bencoded integers are also cached in memory because the whole integer value is a token. This should not be a problem since integers are short, unlike strings.

FUTURE PRs

We could:

Implement the Iterator trait for the tokenizer.
Use recursion for the generator like @da2ce7's proposal here.
Implement another generator for TOML, for example. Check if this design can be easily extended to other output formats.

Split parser logic into two types: - Tokenizer: It returns bencoded tokens. - Generator: It iterator over bencoded tokens to generate the JSON.

codecov · 2024-12-03T19:14:15Z

Codecov Report

Attention: Patch coverage is 93.89671% with 13 lines in your changes missing coverage. Please review.

Project coverage is 99.15%. Comparing base (a2eb63c) to head (ec6cc56).
Report is 14 commits behind head on develop.

Files with missing lines	Patch %	Lines
src/tokenizer/mod.rs	80.88%	13 Missing ⚠️

Additional details and impacted files

@@             Coverage Diff             @@
##           develop      #14      +/-   ##
===========================================
- Coverage    99.23%   99.15%   -0.08%     
===========================================
  Files           11       12       +1     
  Lines         2749     2610     -139     
===========================================
- Hits          2728     2588     -140     
- Misses          21       22       +1

☔ View full report in Codecov by Sentry.
📢 Have feedback on the report? Share it here.

Remove the writer without affecting other parts of the code.

josecelano · 2024-12-04T11:11:20Z

ACK ec6cc56

da2ce7 · 2024-12-04T12:07:52Z

@josecelano Looks good.

Just wondering, should we really tolerate line brakes in a Bencode Input?

josecelano · 2024-12-04T12:16:03Z

@josecelano Looks good.

Just wondering, should we really tolerate line brakes in a Bencode Input?

Hi @da2ce7 I think I only added it to tolerate the line break at the end of the bencode value because it makes more flexible to run the application like this:

echo "4:spam" | cargo run

If we don't tolerate line breaks you only can use this:

printf "4:spam" | cargo run

I don't like it either. Maybe we can "clean" the input stream only in the main app.

josecelano · 2024-12-04T12:20:43Z

@josecelano Looks good.

Just wondering, should we really tolerate line brakes in a Bencode Input?

I've opened an issue: #19

josecelano requested review from da2ce7 and magecnion December 3, 2024 18:54

josecelano temporarily deployed to coverage December 3, 2024 18:54 — with GitHub Actions Inactive

josecelano force-pushed the refactor-extract-tokenizer branch from 3bf1c2f to 619467f Compare December 3, 2024 18:58

josecelano temporarily deployed to coverage December 3, 2024 18:59 — with GitHub Actions Inactive

josecelano force-pushed the refactor-extract-tokenizer branch from 619467f to f179b66 Compare December 3, 2024 19:00

josecelano temporarily deployed to coverage December 3, 2024 19:00 — with GitHub Actions Inactive

josecelano force-pushed the refactor-extract-tokenizer branch from f179b66 to bdca6f3 Compare December 3, 2024 19:01

josecelano temporarily deployed to coverage December 3, 2024 19:01 — with GitHub Actions Inactive

refactor: extract bencode tokenizer

83eeefd

Split parser logic into two types: - Tokenizer: It returns bencoded tokens. - Generator: It iterator over bencoded tokens to generate the JSON.

josecelano force-pushed the refactor-extract-tokenizer branch from bdca6f3 to 83eeefd Compare December 4, 2024 07:36

josecelano temporarily deployed to coverage December 4, 2024 07:36 — with GitHub Actions Inactive

refactor: extract struct BencodeTokenizer

63b9b73

josecelano temporarily deployed to coverage December 4, 2024 09:13 — with GitHub Actions Inactive

refactor: extract mod tokenizer

3a7ea5d

josecelano temporarily deployed to coverage December 4, 2024 09:23 — with GitHub Actions Inactive

josecelano added 5 commits December 4, 2024 09:35

refactor: duplicate integer and strig parser before removing writer

f6a0584

Remove the writer without affecting other parts of the code.

refactor: remove writer from main tokenizer

77ad5af

refactor: remove writer from tokenizer integer parser

75ffdb4

refactor: remove old int and str parsers with writers

0a05544

refactor: remove writer from tokenizer string parser

9e0db6c

josecelano temporarily deployed to coverage December 4, 2024 10:10 — with GitHub Actions Inactive

refactor: reorganize modules

331c76e

josecelano temporarily deployed to coverage December 4, 2024 10:37 — with GitHub Actions Inactive

josecelano added 3 commits December 4, 2024 10:39

refactor: rename BencodeTOkenizer to Tokenizer

3052d6a

refactor: remove parent parser mod

a3c7c4b

refactor: rename json::BencodeParser to json::Generator

68d9915

josecelano temporarily deployed to coverage December 4, 2024 10:56 — with GitHub Actions Inactive

docs: update README

ec6cc56

josecelano temporarily deployed to coverage December 4, 2024 11:00 — with GitHub Actions Inactive

josecelano marked this pull request as ready for review December 4, 2024 11:11

josecelano linked an issue Dec 4, 2024 that may be closed by this pull request

Find a better name for BencodeParser type #12

Closed

josecelano merged commit 9634037 into torrust:develop Dec 4, 2024
8 of 10 checks passed

josecelano mentioned this pull request Dec 4, 2024

Find a better name for BencodeParser type #12

Closed

josecelano mentioned this pull request Dec 4, 2024

Consider not to tolerate line breaks in bencoded data #19

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Refactor: extract bencode tokenizer #14

Refactor: extract bencode tokenizer #14

josecelano commented Dec 3, 2024 •

edited

Loading

codecov bot commented Dec 3, 2024 •

edited

Loading

josecelano commented Dec 4, 2024

da2ce7 commented Dec 4, 2024

josecelano commented Dec 4, 2024

josecelano commented Dec 4, 2024

Refactor: extract bencode tokenizer #14

Refactor: extract bencode tokenizer #14

Conversation

josecelano commented Dec 3, 2024 • edited Loading

codecov bot commented Dec 3, 2024 • edited Loading

Codecov Report

josecelano commented Dec 4, 2024

da2ce7 commented Dec 4, 2024

josecelano commented Dec 4, 2024

josecelano commented Dec 4, 2024

josecelano commented Dec 3, 2024 •

edited

Loading

codecov bot commented Dec 3, 2024 •

edited

Loading