名称	来源	说明	状态	备注
NULL	NULL	NULL	NULL	NULL
NULL	NULL	NULL	NULL	NULL
NULL	NULL	NULL	NULL	NULL
《Advancing Transformer Architecture in Long-Context Large Language Models:A Comprehensive Survey》	arxiv 2024	南京大学和百度的Transformer架构模型长文本综述：核心内容： -Efficient Attention -Long-Term Memory -Extrapolative PEs -Context Processing -Miscellaneous -Evaluation Necessity & Optimization	NULL	https://mp.weixin.qq.com/s/BYENxdip0J3MJ27gCLiaVg https://zhuanlan.zhihu.com/p/662790439?utm_medium=social&utm_psn=1755721082173456384&utm_source=wechat_session&utm_id=0
《EXTENDING CONTEXT WINDOW OF LARGE LANGUAGE MODELS VIA POSITION INTERPOLATION》	arxiv2023	Meta对RoPE的优化，扩展大模型的输入窗口： 1 应用在LLaMA上，输入窗口从2k扩展到32k； 2 核心是优化了之前RoPE的f（x,m）	NULL	https://zhuanlan.zhihu.com/p/640696998 https://zhuanlan.zhihu.com/p/640722266
《ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING》	arxiv2021	苏剑林提出的RoPE：RoFormer 1 核心是引入了旋转矩阵f(xi)=RWxi，其中，R是旋转矩阵，W是QKV变换权重，xi是之前的token嵌入； 2 之前的方案（绝对位置编码，相对位置编码），f(xi)=W(xi+pi)，其中，W、xi同上，pi是位置编码；	NULL	NULL
《Unlimiformer: Long-Range Transformers with Unlimited Length Input》	arxiv2023	解决长文本输入的Unlimiformer： 1 主要应用于Encoder-Decoder场景； 2 先从长文本中检索相关信息，然后，再进行生成生成，过程是动态的； 3 在测试集效果提升上不明显，主要原因是传统的评估手段不能很好的体现出优势（用Entity mentions等方法就比较明显了）；	NULL	NULL

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

文本长度扩展.md

文本长度扩展.md

Files

文本长度扩展.md

Latest commit

History

文本长度扩展.md

File metadata and controls