这个项目旨在为训练 MITIE 中文语料库提供工具和指南. 通常情况下,训练这个模型,需要一台高配置、高网速的服务器大约运行三天,才能训练完毕,为了节约时间,本项目也将提供预训练好的模型。
见项目 chinese-wikipedia-corpus-creator,维基百科的语料库的最终数据目录为 third-party/chinese-wikipedia-corpus-creator/token_cleaned_plain_files
。可以使用两种方式获得数据:直接下载已经预处理好的语料库 或者 从零开始处理语料库
直接下载 chinese-wikipedia-corpus-creator
已经处理好的文件,下载地址在 Release of chinese-wikipedia-corpus-creator,下载后放置到 third-party/chinese-wikipedia-corpus-creator/token_cleaned_plain_files
将 chinese-wikipedia-corpus-creator
源代码下载或者克隆至 third-party/chinese-wikipedia-corpus-creator
,按照该项目文档的说明,运行相关代码,产生中文维基百科语料库。确保最后的输出文件位于 third-party/chinese-wikipedia-corpus-creator/token_cleaned_plain_files
这里选择将 MITIE
clone 至本项目的 third-party
目录:
$ git clone https://github.com/mit-nlp/MITIE.git
MITIE 是一个工具的集合包,本项目所需的只是其中的 wordrep
工具
$ cd third-party/MITIE/tools/wordrep
$ mkdir build
$ cd build
$ cmake ..
$ cmake --build . --config Release
$ ./third-party/MITIE/tools/wordrep/build/wordrep --count-words 800000 --word-vects --basic-morph --cca-morph ./third-party/chinese-wikipedia-corpus-creator/token_cleaned_plain_files
可下载的模型列表见 releases (已提供针对中国用户的快速下载链接)
请阅读 CONTRIBUTING.md 并向我们发送 pull requests.
使用 SemVer 的标准方案. 访问 tags on this repository 可了解所有版本信息.
- Xiaoquan Kong - Initial work - howl-anderson
全体贡献者信息在 contributors 处可见。
本项目采用 MIT License - 详情请见 LICENSE.md
MITIE
软件编译的部分,参考了 WANG Guan 的博文 用Rasa NLU构建自己的中文NLU系统