名称 | 来源 | 说明 | 状态 | 备注 |
---|---|---|---|---|
NULL | NULL | NULL | NULL | NULL |
NULL | NULL | NULL | NULL | NULL |
《Octopus v2: On-device language model for super agent》 | arxiv2024 | 斯坦福的Octopus v2:好像没见过v1 1 基于Google Gemma-2B微调(全量微调,LoRa微调),用于移动设备的本地模型; 2 主要在20个Android相关的API上做验证实验; 3 考虑到了单API、无依赖多API和有依赖多API等场景; 4 设计了特殊的Token,用来代表API(不用专门生成全部的API名称); |
NULL | 超越GPT-4,斯坦福团队手机可跑的大模型火了,一夜下载量超2k |
《NexusRaven: a Commercially-Permissive Language Model for Function Calling》 | NeurIPS 2023 | 创业公司Nexusflow的Function Call模型: 1 基于基于CodeLama-13B 微调; 2 检索增强效果显著(每个API有16个示例,推理时使用four-shot),成功率从72%提升到94%; 3 为了能够商用,文中专门规避了使用GPT-4生成训练语料(OpenAI要求GPT的使用者不能用于和OpenAI竞争的场景); |
NULL | NULL |
《KwaiAgents: Generalized Information-seeking Agent System with Large Language Models》 | arxiv2024 | 快手RAG Agent设计: 1 核心工作 -设计了KAgentSys框架 -提出Meta-Agent微调框架 -构建KAgentBench评测方案 2 相比其他框架的创新点 -更丰富的RAG工具箱 -META-AGENT TUNING机制:用GPT4构造prompt,然后,再对比开源的prompt用GPT4挑选好的prompt 3 整体上是一套prompt模版,端到端的完成任务 4 几个注意事项(4.4 消融实验): -实验证明了Meta-Agent步骤的有效性(去除开源的模版效果会下降) -为了使agent更具有通用性(不限于志做RAG场景),Meta-Agent步骤产生了多样的prompt模版 -如果再加一个只在RAG场景没有多样性的微调,和现在具备多样性的微调对比,会更全面 |
NULL | 快手Agents系统、模型、数据全部开源! |
《ReALM: Reference Resolution As Language Modeling》 | arxiv2024 | 苹果基于语言模型的指代消解系统: 1 核心是将用户上下文和候选指代(屏幕信息需要通过OCR等手段获取?再进行进一步处理),然后,使用语言模型完成指代消解; 2 文中提到了对比基准MARRS,是苹果2023年的工作,作者有重叠,整体思路和本篇比较像(虽然号称Multimodal,但核心还是做了预处理,把多模信息变成文本信息),但最终是经典的深度学习方式实现,而不是基于语言模型的范式; 3 整体感觉涉及应用价值有限,真实场景,完全转化成文本描述,信息的准确性和全面性,应该会损失很大 |
NULL | 苹果AI放大招?新设备端模型超过GPT-4,有望拯救Siri |
《AIOS: LLM Agent Operating System》 | Arxi 2024 | 以大模型为核心的操作系统架构设计: 1 核心是新增了一个LLM Kernel和OS Kernel并行(应用层有个前置判断,判断最终需要哪个Kernel进行处理) 2 AIOS核心组件 -Agent Scheduler(重要) -Context Manager(重要) -Memory Manager -Storage Manager -Tool Manager -Access Manager -LLM System Call -AIOS SDK 3 整体上就是仿照传统的OS,打造了一个针对LLM场景的OS:经典的OS是为了解决多个App同时运行的情况(共享同一个CPU),这里是让多个Agent同时运行(共享同一个LLM); |
NULL | 【LLM-agent】LLM agent操作系统 |
《Confucius: Iterative Tool Learning from Introspection Feedback by Easy-to-Difficult Curriculum》 | arxiv2023 | Agent能力提升的孔子训练方法: 1 核心方法: -根据难度进行课程学习(Warm-Up Stage、In-Category Stage、Cross-Category Stage); -通过Self-Instruc的方式进行数据扩充 2 注意点: -Alation Study中warm-up、in、cross、ISIF的消融实验,是直接把整个环节和对应的数据都去掉,还是只去掉环境,然后数据合并到下一个环节中? |
NULL | https://mp.weixin.qq.com/s/0B3GEXmloEEZgi-0J0Lrvw |
《AGENTTUNING: ENABLING GENERALIZED AGENT ABILITIES FOR LLMS》 | arxiv2023 | 智谱提升大模型通用Agent能力方法: 1 核心就是添加Agent相关的数据: -直接使用现有训练集 -Task Derivation:大模型辅助 -Self-Instruct:大模型模拟执行 2 主要工作:构造数据+数据过滤+评测对比; 3 重要结论: -数据过滤后效果更好; -通用数据和agent时间混合效果更好(注意loss函数); -数据主要针对特定场景更有效; -提出了专门的loss函数(general+agent),但好像没做消融实验; |
NULL | NULL |
《ToolRerank: Adaptive and Hierarchy-Aware Reranking for Tool Retrieval》 | arxiv2024 | 小米的工具检索框架: 1 行业工具检索三种方案: -BM25-based; -LLM-based; -dual-encoder-based; 2 核心创新点主要是对没有看过API(unseen)的召回: -Adaptive Truncation:召回阶段,针对Seen和Unseen设置不同的阈值; -Hierarchy-Aware Reranking:排序阶段,通过同一个工具类别和工具间的相似度,更多的召回unseen的工具; 3 整体pipeline比较长,特别是还需要对singal-tool和Multi-tool做区分; |
NULL | https://mp.weixin.qq.com/s/DEeXGvjPo6rpt0wo8NbLXg |
《InfLLM: Unveiling the Intrinsic Capacity of LLMs for Understanding Extremely Long Sequences with Training-Free Memory》 | arxiv2024 | 基于检索增强的方式,作为大模型的记忆解决方案: 1 大模型记忆方案: -Context Length Extrapolation -Efficient Context Computation -Memory-based Models(本文属于此种方案) 2 相比于RAG感觉没有特别的创新点 3 需要的注意点 -Attn是如何实现的(在模型结构上) -rm计算的意义 -Cache Management是如何实现的 |
NULL | https://mp.weixin.qq.com/s/6H9hvYrxCYVuW_g1F8EXCg |
《ModelScope-Agent: Building Your Customizable Agent System with Open-source Large Language Models》 | arxiv 2023 | 阿里的智能体框架ModelScope-Agent: 1 核心组件: -Tool Retrieval -Memory Control -Task Planning -Tool Use -API Execution -Response Generation 2 评测指标 -ROUGE-L:最终回复结果是否满足预期 -Action EM:API选择是否满足预期 -Argument F1:参数选择是否满足预期 3 参考点: -大模型处理前,统一进行了API和知识的检索 -没有做专门的任务规划,直接融合在工具使用的过程中了 -训练策略Weighted LM:更专注在API选择和参数填充上 |
NULL | NULL |
《RestGPT: Connecting Large Language Models with Real-World RESTful APIs》 | arxiv2023 | 北大和华为的大模型使用工具尝试: 1 核心组件: -Planner:任务拆解。在多步场景下,每次拆解一步。最后完成时,会输出“end”标识(否则,会一直接收Caller的结果); -API Selector:API选择。prompt只包括API的定义,这样能够装载更多的API定义; -Caller:API的参数填充,同时,将Parser的结果再加工一下(可能是能在出错的时候,把信息描述的更全面?)。把API Selector和Caller拆开,能够让prompt中装载更多的API; -Parser:解析API调用后的结果。生成进行信息抽取的python代码,然后,通过执行代码获得最终的结果(没看懂,为啥不直接用大模型直接抽取结果?); 2 亮点:能够进行复杂任务的拆解和规划 |
NULL | https://mp.weixin.qq.com/s/cdkezgE31ozGPiLZBU9Cxw |
《OpenAgents: AN OPEN PLATFORM FOR LANGUAGE AGENTS IN THE WILD》 | arxiv2023 | 大模型的应用框架: 1 核心能力:Data Agent、Plugins Agent、Web Agent 2 主要基于三方大模型实现 |
NULL | https://mp.weixin.qq.com/s/iDzOA4YwHfTL0pRY_AiWOA |
《SELF-RAG: LEARNING TO RETRIEVE, GENERATE, AND CRITIQUE THROUGH SELF-REFLECTION》 | arxiv2023 | 检索增强方案: 1 核心步骤: -判断是否需要进行检索增强[Retrieve/No Retrieve]; -如果需要检索增强,进行检索,并对每个候选检索结果用LM做结果生成,并评价(IsRel/IsSup/IsUse+打分); -从候选中选择最好的结果,继续回到第一步循环往复; 2 专门定制了Retrieve/IsRel/IsSup/IsUse等专用Tokens; 3 借助GPT-4构建数据; 4 使用Lama2进行实验验证; 5 整体方案比较重(每个query要多次调用LLM); 6 是否需要检索靠数据驱动学习(没有特别的场景梳理,感觉整体比较粗糙,可靠性难以保证); |
NULL | https://mp.weixin.qq.com/s/B-q8K_M2AS4dNaVkpDVokg |
《A Survey on Large Language Model based Autonomous Agents》 | arxiv2023 | 人大高领人工智能学院发布的AI Agent综述: 1 提出统一Agent框架:Profile、Memory、Planning、Action 2 整体上和OpenAI研究院的那篇综述有些像,涵盖面比较全,但各个部分感觉比较割裂; 3 Planning和Action的核心边界是什么?在实际应用场景中是如何协同的? |
NULL | https://mp.weixin.qq.com/s/ZlX-U9OByMBou1JPrhG3Xw |
《Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models》 | arxiv2023 | 工具使用描述的探索: 1 中心思想就是直接对API定义,比给API的使用示例效果更好; 2 在有API定义的情况下,再做Demo的示例效果不明显; |
NULL | NULL |
《ToolkenGPT: Augmenting Frozen Language Models with Massive Tools via Tool Embeddings》 | arxiv2023 | 解决工具较多场景下的工具使用问题: 1 将工具指定成特殊的Token,然后,在生成阶段预测这些工具(特殊的Token); 2 主干的大模型是Frozen的,只会微调这些特殊工具Token的嵌入; 3 在数学、问答和任务编排场景进行了验证; 4 看题目以为是用于工具的选择,实际上是直接的工具使用; 5 总体上,感觉可用性并不高。主要是单纯的工具Token嵌入部分的微调,很难真正的理解并记忆工具信息。同时,因为模型不是整体训练的,语义上应该也不是一个整体; |
NULL | NULL |
《Making Language Models Better Tool Learners with Execution Feedback》 | arxiv2023 | 基于结果反馈训练语言模型的工具使用能力: 1 基于Alpaca-7B实现; 2 使用了结果反馈信息,但没有用强化学习,但使用了RM模型; 3 基于单工具实现,验证场景是解数学问题(这个场景的反馈奖励好收集); 4 核心原理是一个请求,同时跑多个模型(ChatGPT、Alpaca、LLaMA等),然后,将不同模型的结果和GoldAnser计算一个归一的Score,最后把不同模型的结果Score的两两对比作为Loss信息; 5 总体上,效果有提升,但也不是很大(对比SFT,3个点以内),而且,工作主要集中在解决数据题上,Score相对好收集,真实的业务场景结果比较多样,Score不一定好收集,复用到其他场景不是很容易; |
NULL | NULL |
《Android in the Wild: A Large-Scale Dataset for Android Device Control》 | arxiv2023 | Google+DeepMind联合构造的手机控制数据集AITW: 1 数据集构成: -用户的prompt(目标); -手机的操作:操作动作、坐标、输入内容; -手机当前的信息:屏幕画面、图标位置和文本信息(OCR); 2 两个baseline实现: -基于行为克隆(BC)的实现:多模输入+BERT -基于大模型:PALM2的ZeroShot和5-shot Chain-of-Though 3 这个工作为后续端到端的多模态操控Android设备做了很好的准备,期待后续工作; |
NULL | NULL |
《TOOLLLM: FACILITATING LARGE LANGUAGE MODELS TO MASTER 16000+ REAL-WORLD APIS》 | arxiv2023 | 基于LLM的工具使用方案TOOLLLM: 1 核心工作: -真实API收集:16464个真实的API(RapidAPI); -基于ChatGPT构建用户prompt和solution; -引入了API检索方案; -在solution构建和推理步骤引入了DFSDT机制; 2 整体设计和实践非常接近实际可用状态了; |
NULL | https://mp.weixin.qq.com/s/-31Em7J-4dDN6a5tc_sGKg |
《ToolAlpaca: Generalized Tool Learning for Language Models with 3000 Simulated Cases》 | arxiv2023 | 中科院软件所的ToolAlpaca: 1 对API做了统一的格式描述; 2 通过ChatGPT扮演三个角色(userAgent、assistantAgent、toolExecutor)来构建训练数据集; 3 基于Alpaca-7B和Alpaca-13B实现; 4 能力覆盖50个大类,400个API; |
NULL | NULL |
《TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs》 | arxiv2023 | 微软的大模型扩展能力框架TaskMatrix: 1 核心组件:Multimodal Conversational Foundation Model (MCFM)、API Platform、API Selector、Action Executor; 2 API选择部分没特别介绍,但对API分组是值得借鉴的; 3 整体设计和ToolAlpaca类似,最核心的就一个模块(原始的上下文、候选API作为输入,直接输出接口编排[参数填充+调用顺序]); |
NULL | NULL |
《Gorilla: Large Language Model Connected with Massive APIs》 | arxiv2023 | 能够调用外部工具API的模型Gorilla: 1 基于LLaMA微调实现; 2 基于self-instruct生成训练指令; 3 基于检索使用候选API(候选API噪声过大,会影响结果); 4 基于AST做测试集验证; 5 对API限制场景做了研究(很少有这方面的研究); |
NULL | NULL |
《OpenAGI: When LLM Meets Domain Experts》 | arxiv2023 | 罗格斯大学的OpenAGI平台: 1 开源了一个致力于大模型使用工具研究的平台; 2 使用CLIP、BERT、ViT自动打分来评估结果; 3 微调了Vicuna-7B和Flan-T5-Large(770M),小参数的T5效果反而更好(怀疑是训练数据少,同时,RLTF在小模型上更容易训练); 4 引入了RLTF(a Reinforcement Learning from Task Feedback),过程对结果有影响(刚好利用了平台的自动打分能力); 5 在生成过程中做了限制(缓解错误生成); 6 主要偏研究,工具是直接提供的,而且,只生成工具的编排,并没有参数的填充; |
NULL | NULL |
《Reflexion: Language Agents with Verbal Reinforcement Learning》 | arxiv2023 | Reflexion:通过反思,提升语言模型执行任务的能力: 1 核心模型: -Actor(LM):产生行动 -Evaluator(LM):对行动进行评价 -SelfReflection(LM):基于Evaluator的评价,给出对Actor的指导建议 2 整个设计中并不包括经典的强化学习,只是类别了Actor和Evaluator; 3 用了三个LM,主要能够更好的应对失败处理。但SelfReflection并不是对每一步的执行实时反馈,需要完成一个完整的Trial后发现失败,然后,再进行SelfReflection,Actor重新规划并执行新的Trial; |
NULL | NULL |
《LLM Powered Autonomous Agents》 | Blog2023 | OpenAI研究员Lilian Weng针对LLM Agents的综述: 1 主要针对三个核心方面展开: -Planning; -Memory; -Tool Use; |
NULL | https://lilianweng.github.io/posts/2023-06-23-agent/ |
《MRKL Systems:A modular, neuro-symbolic architecture that combines large language models, external knowledge sources and discrete reasoning》 | arxiv2022 | AI21使用LLM提升扩展能力的设计:MRKL 1 有效信息不多,主要是将问题分发到其他的处理单元,在分发时会对传参做格式化处理; 2 基于Jurassic-X实现,主要聚焦在简单数学计算的分析上; |
NULL | NULL |
《TALM: Tool Augmented Language Models》 | arxiv2022 | 调用外部工具,辅助回答的方案TALM(机构不明,Google?): 1 基本过程: -生成使用工具和参数(工具是text-text的); -通过BM25检索工具,并使用工具; -结合工具执行结果,给出最终答案; 2 基于T5(base、large、XL,参数从220M~3B)finetune实现; 3 Self-Play的原理没看懂(如何计算Loss?和强化学习是如何产生联系的?) |
NULL | NULL |
《ReWOO: Decoupling Reasoning from Observations for Efficient Augmented Language Models》 | arxiv2023 | ReWOO:一种大模型使用工具的优化框架 1 对标ReAct框架,先整体规划执行步骤,然后,再分别调用外部接口,通过调用LLM两次就能获得最终结果; 2 基于LLaMa-7B进行微调,在部分场景效果超过GPT-3.5 3 随着工具变多,效果下降明显; 4 整体的最终结果一般,最好的ACC也只有70%; |
NULL | https://mp.weixin.qq.com/s/8cEBOwUyG0zGlC74IuFNeg |
《Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models》 | arxiv2022 | 清华的Open Delta: 1 关于Delta tuning的综述(大多数预训练参数不变,进行少量参数优化); 2 解决大模型低成本适配下游任务问题; 3 讲方法总结为三类,Addition-based Methods、Specification-based Methods、Reparameterization-based Methods ; |
NULL | GitHub - thunlp/OpenDelta: A plug-and-play library for parameter-efficient-tuning (Delta Tuning) |
《OpenPrompt: An Open-source Framework for Prompt-learning》 | arxiv2021 | 清华的OpenPrompt: 1 Prompt Learning的工具包; 2 和OpenDelta是一个团队(OpenPrompt更早)。OpenPrompt主要聚焦在prompt上,而OpenDelta主要聚焦在Delta-Tuning(大模型适配层或者中间层优化); |
NULL | https://zhuanlan.zhihu.com/p/607206925 |
《Augmented Language Models: a Survey》 | arxiv2023 | ALM: 1 Yann LeCun参与的关于“增强语言模型”的综述; 2 主要聚焦在Reason、Tools、Act;; |
NULL | https://mp.weixin.qq.com/s/oCs4R-xYGS42iXIvgnDCCg |
《Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback》 | arxiv2023 | 微软的大模型增强框架: 1 核心组成部分: -working memory:对话状态记录; -policy:执行动作生成,通过规则或则模型实现(文中用了基于强化学习的T5); -utility:打分或者反馈,通过规则或者模型实现(文中没有特别声明这部分具体的实现); -action executor:执行器,调用外部接口; 2 整体设计感觉比较理想,特别是如果是模型实现policy和utility,不管是性能还是效果,感觉都难以保障; |
NULL | NULL |
《LARGE LANGUAGE MODELS ARE HUMAN-LEVEL PROMPT ENGINEERS》 | arxiv2022 | APE方法:使用大模型来生成prompt 1 在实践中可能速度比较慢,成本比较高(要多次调用大模型才能实现) |
NULL | NULL |
《Learning by Distilling Context》 | arxiv2022 | 上下文蒸馏: 1 给大模型更多的输入提示,同时,要求大模型的输出理由和结果; 2 给小模型输入较少的提示,直接输出最终结果; 3 感觉核心就是通过提示让大模型输出的结果更置信,效果肯定没有纯人工构造的数据好(但机器的效率高); |
NULL | NULL |
《HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face》 | arXiv2023 | 基于ChatGPT和HuggingFace模型接口实现多模型中控(基于gpt-3.5-turbo 和 text-davinci-003模型): 1 核心目标,将用户原始query通过LLM转变成执行的任务,并最终汇总任务结果,产生回复; 2 核心步骤,Task Planning、Model Selection、Task Execution、Response Generation; 3 整体感觉和之前微软用语言模型控制机器人的设计思路是基本一致的; 4 感觉过于理想,应用在工业场景不一定可靠(Limitations部分提到了不稳定,但感觉表述的还是有些轻描淡写了); |
NULL | NULL |
《REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS》 | ICLR2023 | 谷歌的ReAct:使用大模型作为控制中心(主要是基于3~6个few-shot的示例prompt引导后续的模型行为): 1 主要基于PaLM-540B进行的实验(也部分对比了GPT-3,text-davinci-002); 2 虽然摘要里提到相比模拟和强化学习的方案有34%和10%的提升,但最的结果也挺一般的; 3 做了基于PaLM-8/62B的Finetuning,这个效果整体感觉还不错; |
NULL | NULL |
《WebGPT: Browser-assisted question-answering with human feedback》 | arxiv2022 | OpenAI的WebGPT: 1 基于GPT-3,借助搜索工具,提升模型的问答能力; 2 核心方法:Behavior cloning(BC)、Reward modeling(RM)、Reinforcement learning(RL)、Reject sampling(best-of-n); 3 生成结果的引用是直接生成的,没有特别的处理(比如xxxx[1],其中xxx来自文章1) |
NULL | NULL |
《Tool Learning with Foundation Models》 | arxiv2023 | 大模型使用工具的综述文章: 1 提出Tool Learning; 2 主要聚焦在Tool-augmented Learning和Tool-oriented Learning两个方面; 3 对比了text-davinci-003和ChatGPT工具使用的情况; |
NULL | NULL |
《Toolformer: Language Models Can Teach Themselves to Use Tools》 | arxiv2023 | Meta的ToolFormer: 1 模型自动选择API和填充API的输入,结合API结果获得最终的答案; 2 主要完成类似完形填空的任务,对真实场景的任务感觉借鉴意义不大; 3 结合语言模型的能力自动构建训练集,并实现模型的FineTuning(设计比较巧妙); 4 主要基于GPT-J进行试验(124M、355M、775M、1.6B),同时,对比了OPT-66B和GPT-3-175B的结果; |
NULL | NULL |
《LLMs for Knowledge Graph Construction and Reasoning: Recent Capabilities and Future Opportunities》 | arxiv2023 | 大模型在图谱领域的探索: 1 对比评测大模型对图谱中基础任务的表现(理解类能力不如经典方法,推理能力更强。但文中也说了理解能力的评测不严谨); 2 评估大模型能力的来源,来自记忆,还是来自真正的理解能力?专门构造了一个大模型之前没见过的虚拟数据集,结论是大模型有真正的理解能力; 3 提出了AutoKG框架,能够自动构建KG和进行推理(整体很模糊); 4 总体上感觉这篇文章太水了,没什么真正有价值的结论; |
NULL | https://mp.weixin.qq.com/s/7DQfUUjCrMRMiPv13CYCpA |