Skip to content

Latest commit

 

History

History
9 lines (9 loc) · 1.9 KB

文本长度扩展.md

File metadata and controls

9 lines (9 loc) · 1.9 KB
名称 来源 说明 状态 备注
NULL NULL NULL NULL NULL
NULL NULL NULL NULL NULL
NULL NULL NULL NULL NULL
《Advancing Transformer Architecture in Long-Context Large Language Models:A Comprehensive Survey》 arxiv 2024 南京大学和百度的Transformer架构模型长文本综述:
核心内容:
-Efficient Attention
-Long-Term Memory
-Extrapolative PEs
-Context Processing
-Miscellaneous
-Evaluation Necessity & Optimization
NULL https://mp.weixin.qq.com/s/BYENxdip0J3MJ27gCLiaVg
https://zhuanlan.zhihu.com/p/662790439?utm_medium=social&utm_psn=1755721082173456384&utm_source=wechat_session&utm_id=0
《EXTENDING CONTEXT WINDOW OF LARGE LANGUAGE MODELS VIA POSITION INTERPOLATION》 arxiv2023 Meta对RoPE的优化,扩展大模型的输入窗口:
1 应用在LLaMA上,输入窗口从2k扩展到32k;
2 核心是优化了之前RoPE的f(x,m)
NULL https://zhuanlan.zhihu.com/p/640696998
https://zhuanlan.zhihu.com/p/640722266
《ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING》 arxiv2021 苏剑林提出的RoPE:RoFormer
1 核心是引入了旋转矩阵f(xi)=RWxi,其中,R是旋转矩阵,W是QKV变换权重,xi是之前的token嵌入;
2 之前的方案(绝对位置编码,相对位置编码),f(xi)=W(xi+pi),其中,W、xi同上,pi是位置编码;
NULL NULL
《Unlimiformer: Long-Range Transformers with Unlimited Length Input》 arxiv2023 解决长文本输入的Unlimiformer:
1 主要应用于Encoder-Decoder场景;
2 先从长文本中检索相关信息,然后,再进行生成生成,过程是动态的;
3 在测试集效果提升上不明显,主要原因是传统的评估手段不能很好的体现出优势(用Entity mentions等方法就比较明显了);
NULL NULL