名称	来源	说明	状态	备注
NULL	NULL	NULL	NULL	NULL
《ChatGPT for Robotics:Design Principles and Model Abilities》	微软研究院2023	通过ChatGPT进行机器人控制： 1 借助ChatGPT，通过人机对话的方式生成控制机器人的代码； 2 目前还缺少实时的反馈机制（论文的结论和未来规划中也提到了，后续的工作可以进行尝试）；	NULL	https://mp.weixin.qq.com/s/ahWFcsq9lurPbKi0-8705g
《Do As I Can, Not As I Say:Grounding Language in Robotic Affordances》	arxiv2022	Google的SayCan：使用语言模型控制机器人 1 预设一些操作指令（7个families，101个instructions）； 2 基于PaLM-540B作为LLM； 3 接收用户的指令后，LLM通过Decoder预测所有操作指令（101个）的概率值P-llm； 4 价值函数计算出所有操作指令（101个）的价值Q-pi(s,a)，其中价值函数基于RL和BC两种方式实现（附录中有实现细节），通过最终episode完成得分1，否则得分0，来进行模型训练； 5 最终取P-llmxQ-pi(s,a)的最大值指令，进行执行； 6 LLM和价值函数部分因为要遍历所有的操作指令进行打分，整体的执行效率比较低；	NULL	NULL
《VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models》	arxiv2023	李飞飞的具身智能VoxPoser： 1 基于GPT-4实现机器手臂控制； 2 先讲用户的指令拆解成子任务，然后，在基于子任务进行执行（整个框架是预设好的，调用的API也是确定的几个）； 3 整个过程中没有实时反馈； 4 子任务执行过程中设计到机器臂控制的细节（比如，先目标检测，再语义分割，以及先识别出感兴趣的目标和需要规避的目标），这些细节导致整个paper理解起来有些困难（需要机器人的背景？）；	NULL	NULL
《PaLM-E: An Embodied Multimodal Language Model》	arxiv2023	Goolge的具身语言模型PaLM-E： 1 模型实现：PaLM（540B，Decoder）+ViT（22B） 2 支持文本、图像等多种模态信息（输入信息感觉有些复杂） -State estimation vectors -Vision Transformer (ViT) -Object-centric representations -Object Scene Representation Transformer (OSRT) -Entity referrals 3 主要聚焦在多模的输入、融合训练上和多场景评测上，并没有特别介绍模型是如何对机器人进行控制的（主要参考SayCan的工作）；	NULL	NULL
《RoboCat: A Self-Improving Foundation Agent for Robotic Manipulation》	arxiv2023	DeepMind的具身智能大模型RoboCat： 1 和Google的PaLM-E一样，主要聚焦在大模型本身，并没有具体介绍任务编排相关的架构设计（具体的细节是怎样的？有哪些API？具体的实现是对齐之前的某项工作？）； 2 核心思想是： -先有一个通用的基础模型； -基于通用基础模型finetune训练一个特殊场景的模型； -使用特殊场景的模型自动生成数据； -将特殊场景模型生成的数据，和之前的所有数据放在一起，重新训练通用基础模型，形成迭代； 3 主干模型基于Gato，视觉编码器基于VQ-CAN（参数是冻住的，但针对现在的控制场景做了预训练）；	NULL	NULL
《RT-1: ROBOTICS TRANSFORMER FOR REAL-WORLD CONTROL AT SCALE》	arxiv2022	Google的具身智能机器人RT-1：SayCan和Gato之后的工作 1 机器人平台：Everyday Robots 2 模型实现： -通过EfficientNet-B3完成图片的嵌入（连续6张图片）； -通过Sentence Encoder完成用户输入文本指令的嵌入； -通过FiLM完成图片+指令文本的嵌入； -通过TokenLearner将图片+文本融合后的嵌入压缩到只有8个token； -通过Transfer输出最终的结果； -最终结果由mode、arm、base三部分组成（不是API，而是基本的运动参数）； 3 整个机器的最终控制，并不是由API编排实现，而是直接操控最基本的机器人控制元素（比如，movement (x, y, z, roll, pitch, yaw, opening of the gripper)）； 4 没太能力理解，机器人是如何感知空间信息的，是因为“记忆”了空间信息？这样换个房间应该就不行了（训练的房间和测试的房间不一致）？	NULL	NULL
《TOWARDS A UNIFIED AGENT WITH FOUNDATION MODELS》	ICLR2023	DeepMind提出的用于训练多模态智能体的范式： 1 核心并不是介绍智能体是如何构建的，主要聚焦在训练数据的构建； -在模拟环境中进行实验：MuJoCo physics simulator -通过语言模型（FLAN-T5）把任务拆解成多个步骤； -通过CLIP做步骤文本和场景图片的匹配，生成过程中的奖励，从而解决稀疏奖励的问题； 2 创新点总结： -有效地探索稀疏奖励环境； -重新使用收集到的数据启动新任务的顺序学习； -安排学习技能来解决新任务；	NULL	https://mp.weixin.qq.com/s/WbGSo0Xys4Zy17yrkhZEvg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

具身智能.md

具身智能.md

Files

具身智能.md

Latest commit

History

具身智能.md

File metadata and controls