Skip to content

PaddleNLP v2.3.4

Compare
Choose a tag to compare
@linjieccc linjieccc released this 28 Jun 11:22
2710b7d

New Features

Taskflow

  • 新增三个UIE小模型:UIE-Mini(6-layer, 384-hidden)、UIE-Micro(4-layer, 384-hidden)、UIE-Nano(4-layer, 312-hidden)。#2604
  • 新增基于中文词类知识的信息抽取工具WordTag-IE。 #2540

更多预训练模型

  • 开源 ERNIE Tiny 预训练模型,效果、精度领先于HFL、UER、Huawei-Noah 同等规模下开源中文模型。
  • 新增CodeGen代码生成模型。#2641

基础体验优化

  • Trainer 支持 constant、cosine、linear三种学习率调度策略。 #2511
  • FasterBART支持动转静和推理。#2519
  • FasterGeneration 支持使用带有 onnx 的预测库的编译。#2463

CLUE Benchmark

  • 支持 CLUE 10 个任务的训练、评估、预测,支持用户产出预测结果提交至 CLUE 榜单,并提供 Grid Search 工具供用户一键训练,最终获取最优评估结果。

文本分类

  • 新增多标签层次分类。 #2501
  • ERNIE-DOC模型在分类任务上添加预测部署流程。#1845

生态模型

  • 新增XLM模型。#2080

Bug Fix

  • 修复UIE同类别嵌套的评估问题。 #2558
  • 修复UIE prompt为英文时,prompt与文本的offset重叠的问题。#2453
  • 修复BERT Tokenizer调用get_offset_mapping出错的问题。 #2508
  • 修复FasterGeneration部分模型Sampling解码出core的问题。#2561
  • 修复PretrainedTokenizer和PretrainedModel 中from_pretrained中的潜在问题。 #2521 #2578 #2424
  • 修复LukeTokenizer当中的字段缺失导致保存时报错的问题。 #2631
  • 修复ChineseBertTokenizer由于Tokenizer机制更新导致expect parameter的问题。 #2625
  • 修复 PretrainedTokenizer special token 设置被覆盖及遗漏的问题 #2534 #2629
  • 修复 albert pad token id 缺失问题 #2495
  • 修复 ERNIE-1.0 预训练使用amp 02时,加载checkpoint错误问题 #2479
  • 移除RandomGenerator的is_init_py属性 #2658

其他

  • BERT 支持 fused_ffn、fused_attention进行fuse #2523

Full Changelog: v2.3.3...v2.3.4