Skip to content

中英文语料数据清洗及分布式分句分词预处理工作

Notifications You must be signed in to change notification settings

BarryZM/dataProcessor

Folders and files

NameName
Last commit message
Last commit date

Latest commit

30ff8f6 · Mar 28, 2020

History

10 Commits
Mar 28, 2020
Mar 28, 2020
Dec 25, 2019
Oct 26, 2019
Jan 10, 2020
Dec 25, 2019
Oct 25, 2019
Dec 25, 2019
Dec 25, 2019
Oct 25, 2019

Repository files navigation

代码主要是对较大型语料(约14G的语料)进行分布式清洗和分句分词操作

代码包括:

如何批量读取文件夹及子文件夹下的数据
如何将批量整合文件夹及子文件下的数据
匹配中英文里可能出现的所有特殊字符
匹配各类网址及网页标签
匹配希腊字母汉语拼音及繁体字等
利用PyLTP模块进行分句
去掉文本空行函数
计时装饰器以及代码进度条
添加分布式分词处理类文件

欢迎star和fork

About

中英文语料数据清洗及分布式分句分词预处理工作

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published