PaddleNLP v2.3.4
New Features
Taskflow
- 新增三个UIE小模型:UIE-Mini(6-layer, 384-hidden)、UIE-Micro(4-layer, 384-hidden)、UIE-Nano(4-layer, 312-hidden)。#2604
- 新增基于中文词类知识的信息抽取工具WordTag-IE。 #2540
更多预训练模型
- 开源 ERNIE Tiny 预训练模型,效果、精度领先于HFL、UER、Huawei-Noah 同等规模下开源中文模型。
- 新增CodeGen代码生成模型。#2641
基础体验优化
- Trainer 支持 constant、cosine、linear三种学习率调度策略。 #2511
- FasterBART支持动转静和推理。#2519
- FasterGeneration 支持使用带有 onnx 的预测库的编译。#2463
CLUE Benchmark
- 支持 CLUE 10 个任务的训练、评估、预测,支持用户产出预测结果提交至 CLUE 榜单,并提供 Grid Search 工具供用户一键训练,最终获取最优评估结果。
文本分类
生态模型
- 新增XLM模型。#2080
Bug Fix
- 修复UIE同类别嵌套的评估问题。 #2558
- 修复UIE prompt为英文时,prompt与文本的offset重叠的问题。#2453
- 修复BERT Tokenizer调用get_offset_mapping出错的问题。 #2508
- 修复FasterGeneration部分模型Sampling解码出core的问题。#2561
- 修复PretrainedTokenizer和PretrainedModel 中from_pretrained中的潜在问题。 #2521 #2578 #2424
- 修复LukeTokenizer当中的字段缺失导致保存时报错的问题。 #2631
- 修复ChineseBertTokenizer由于Tokenizer机制更新导致expect parameter的问题。 #2625
- 修复 PretrainedTokenizer special token 设置被覆盖及遗漏的问题 #2534 #2629
- 修复 albert pad token id 缺失问题 #2495
- 修复 ERNIE-1.0 预训练使用amp 02时,加载checkpoint错误问题 #2479
- 移除RandomGenerator的is_init_py属性 #2658
其他
- BERT 支持 fused_ffn、fused_attention进行fuse #2523
Full Changelog: v2.3.3...v2.3.4