research steps #8

lezhang-thu · 2017-07-13T14:25:41Z

终于发现了程序的bug了。
其设置了太大的replay buffer的size.
如果它是有16个进程的话，每一个都是11G的要求，
那么，即使是用np.memnp, 其的空间需求也是惊人的！
反正，这个就是它的原因，解释了为什么到了一定的时候，就直接exit, 也不报错。

lezhang-thu · 2017-08-23T09:59:18Z

目前可以考虑的点： 1. dueling的思想，分离V和A【模型网络方面】 2. policy+q-learning 【需要算法理论推导】 3. 课程学习【trick】 4. 栓到阶梯训练【trick + 网络模型】 5. 通过添加记忆模型，判断agent是否陷入局部地图，从而改变奖励，强制agent进入新状态【trick】 6. 两个网络，类似于CMU，判断agent是否进入已知、安全地图，从而可以再一段时间内减少动作个数，加快训练【网络模型】 7. 利用人的经验提升性能，借鉴DQFD、 from human preference（论文题目忘了，你百度能查到）【网络模型】上述几个小点， 56可以结合， 47 可以结合，有想法的话12可以看看怎么结合， 3就真的是个trick，谁都能用。。。。

lezhang-thu · 2017-08-23T10:18:12Z

LEARNING TO ACT BY PREDICTING THE FUTURE

lezhang-thu · 2017-08-23T10:18:24Z

大半年前还在做围棋的时候，有位前辈在开会时问我，找个数据集画个网络图训练模型大家都会，作为一个研究员，你的核心技能是什么？我当时无言以对，心里虽早有答案，可无法说出口。因为我知道，梦想在未成时一文不值。而让它变得有价值，是自己的责任。

现在回想起来，“失败是成功之母”并不对，“不历风雨如何见彩虹”也不对，因为喊着这些口号的时候，依然认为失败或者风雨是世上的稀罕事物，而成功则是要追求的目标。殊不知这些观念，正是阻碍前进的最大原因。当失败到习以为常，当每时每刻都在风雨中穿行，当不再存有失败的概念，而只留下不停尝试的好奇心和不停总结的习惯，成功才可能悄然现身。而伴随而来的，也不是那种梦寐以求的”我也终于牛了一次”的狂喜，而只是“啊，原来如此”的平静。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

research steps #8

research steps #8

lezhang-thu commented Jul 13, 2017

lezhang-thu commented Aug 23, 2017

lezhang-thu commented Aug 23, 2017

lezhang-thu commented Aug 23, 2017

research steps #8

research steps #8

Comments

lezhang-thu commented Jul 13, 2017

lezhang-thu commented Aug 23, 2017

lezhang-thu commented Aug 23, 2017

lezhang-thu commented Aug 23, 2017