Skip to content

使用多种方法做中文命名实体识别(NER),代码包含详细注释

Notifications You must be signed in to change notification settings

ZejunCao/NER_baseline

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

28 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

任务

CRF.py:使用sklearn_crfsuite的CRF工具做中文命名实体识别(NER), 获取中文原始数据集, 处理成sklearn_crfsuite所需要的格式,代码有详细注释,若有遗漏或不详细可issues补充。

HMM.py:使用HMM做中文命名实体识别(NER), 获取中文原始数据集,对其进行训练、验证、预测,代码有详细注释,若有遗漏或不详细可issues补充。

BiLSTM_CRF:使用BiLSTM+CRF做中文命名实体识别(NER),数据处理、建立词表、模型构建、训练过程书写等,代码有详细注释,若有遗漏或不详细可issues补充。

数据集

注:本数据是在清华大学开源的文本分类数据集THUCTC基础上,选出部分数据进行细粒度命名实体标注,原数据来源于Sina News RSS.

数据集详情介绍:https://www.cluebenchmarks.com/introduce.html

数据集下载链接:https://storage.googleapis.com/cluebenchmark/tasks/cluener_public.zip

CRF代码参考:https://sklearn-crfsuite.readthedocs.io/en/latest/tutorial.html

BiLSTM+CRF代码参考:https://pytorch.org/tutorials/beginner/nlp/advanced_tutorial.html

拓展讲解

CRF代码详细介绍可见博客:https://blog.csdn.net/qq_41496421/article/details/126765444?spm=1001.2014.3001.5501

HMM代码详细介绍可见博客:https://blog.csdn.net/qq_41496421/article/details/127623738?spm=1001.2014.3001.5502

BiLSTM+CRF代码详细介绍可见博客:https://blog.csdn.net/qq_41496421/article/details/128644335?spm=1001.2014.3001.5501

About

使用多种方法做中文命名实体识别(NER),代码包含详细注释

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages