ArabicTokenzier

This tokenizer was trained using the arabic dataset of Wikipedia ,it's based on the wordpiece algorithm

Citations

1] Fast WordPiece Tokenization [arXiv.2012.15524]
2] @ONLINE{wikidump,
author = "Wikimedia Foundation",
title = "Wikimedia Downloads",
url = "https://dumps.wikimedia.org"
}

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
.github/workflows		.github/workflows
ArabicTokenizer		ArabicTokenizer
ArabicTokenizer-WordPiece-Training.py		ArabicTokenizer-WordPiece-Training.py
Inference.ipynb		Inference.ipynb
LICENSE		LICENSE
README.md		README.md