Open Source Kazakh Language Corpus

We have build corpus for Kazakh language from Wikipedia dump (https://dumps.wikimedia.org/kkwiki/). Using a WikiExtractor (https://github.com/attardi/wikiextractor) to parse data, and nltk to build n-grams.

A total of 21 million words were collected. With almost 600 thousand words of different derivations.

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
LICENSE		LICENSE
README.md		README.md
kk_ngrams.py		kk_ngrams.py
spell_checker.py		spell_checker.py

Provide feedback