本项目主要针对有机器学习基础、想入门自然语言处理的朋友,主要基于https://github.com/FudanNLP/nlp-beginner进行拓展补充。
主要涵盖了自然语言处理中比较基础的文本分类、文本匹配、序列标注等问题以及相关基础模型,可按照顺序进行学习。
直接运行代码可能会因为数据存储文件路径不同而报错,要根据你的实际情况修改路径,部分数据太大这里没有提供源文件。
在学习本项目之前,需掌握:
- python基础:包括numpy、pandas、matplotlib等package,pytorch和tensorflow这两个深度学习框架。
- 机器学习和深度模型:最起码要深入了解线性回归、logistic回归、CNN、RNN、LSTM
-
基于logistic回归的文本分类:
-
基于深度学习的文本分类:
-
基于注意力机制的文本匹配
-
基于LSTM+CRF的命名实体识别
-
构建一个Transformer
最后放一张自然语言领域目前的学习路线图,当然其实每年都有很多新技术新模型出现,知识永远都是学不完的,祝愿各位、也希望自己能保持热爱,在这个领域能做出一点贡献。