continue-pretraining

This repository contains code for continuing the pretraining of language models. The project is structured to facilitate dataset preparation, model preprocessing, and training. It also includes utilities for handling different types of tokenizers.

Features

Dataset Processing

Dataset Combination: Merge multiple datasets into a unified format.
Sampling: Extract samples from large datasets for testing or validation purposes.
Tokenization: Efficient tokenization of datasets with support for various tokenizers.

Tokenizer Management

Training New Tokenizers: Train SentencePiece or Huggingface tokenizers from scratch.
Combining Tokenizers: Merge multiple tokenizers to handle diverse input formats.

Model Training

Vocabulary Expansion: Extend the vocabulary size of a pre-trained model to incorporate new tokens.
Continued Pretraining: continue pretraining language models with DeepSpeed to optimize memory and computation.

Setup

Clone the Repository

git clone https://github.com/OpenThaiGPT/continue-pretraining.git
cd continue-pretraining

Create and Activate an Environment

conda create -n continue_pretraining python=3.11 -y
conda activate continue_pretraining

Install Dependencies

pip install 'torch' 'torchvision' 'torchaudio' --index-url https://download.pytorch.org/whl/cu118
pip install 'ninja' 'packaging>=20.0'
pip install -e .

Name		Name	Last commit message	Last commit date
Latest commit History 67 Commits
scripts		scripts
src/continue_pretraining		src/continue_pretraining
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
README_TH.md		README_TH.md
pyproject.toml		pyproject.toml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

continue-pretraining

Features

Dataset Processing

Tokenizer Management

Model Training

Setup

About

Releases

Packages

Contributors 2

Languages

License

OpenThaiGPT/continue-pretraining

Folders and files

Latest commit

History

Repository files navigation

continue-pretraining

Features

Dataset Processing

Tokenizer Management

Model Training

Setup

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages