We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
终于发现了程序的bug了。 其设置了太大的replay buffer的size. 如果它是有16个进程的话,每一个都是11G的要求, 那么,即使是用np.memnp, 其的空间需求也是惊人的! 反正,这个就是它的原因,解释了为什么到了一定的时候,就直接exit, 也不报错。
The text was updated successfully, but these errors were encountered:
目前可以考虑的点: 1. dueling的思想, 分离V和A【模型网络方面】 2. policy+q-learning 【需要算法理论推导】 3. 课程学习 【trick】 4. 栓到阶梯训练【trick + 网络模型】 5. 通过添加记忆模型,判断agent是否陷入局部地图,从而改变奖励,强制agent进入新状态【trick】 6. 两个网络,类似于CMU,判断agent是否进入已知、安全地图,从而可以再一段时间内减少动作个数,加快训练【网络模型】 7. 利用人的经验提升性能, 借鉴DQFD、 from human preference(论文题目忘了,你百度能查到)【网络模型】 上述几个小点, 56可以结合, 47 可以结合, 有想法的话12可以看看怎么结合, 3就真的是个trick, 谁都能用。。。。
Sorry, something went wrong.
LEARNING TO ACT BY PREDICTING THE FUTURE
大半年前还在做围棋的时候,有位前辈在开会时问我,找个数据集画个网络图训练模型大家都会,作为一个研究员,你的核心技能是什么?我当时无言以对,心里虽早有答案,可无法说出口。因为我知道,梦想在未成时一文不值。而让它变得有价值,是自己的责任。
现在回想起来,“失败是成功之母”并不对,“不历风雨如何见彩虹”也不对,因为喊着这些口号的时候,依然认为失败或者风雨是世上的稀罕事物,而成功则是要追求的目标。殊不知这些观念,正是阻碍前进的最大原因。当失败到习以为常,当每时每刻都在风雨中穿行,当不再存有失败的概念,而只留下不停尝试的好奇心和不停总结的习惯,成功才可能悄然现身。而伴随而来的,也不是那种梦寐以求的”我也终于牛了一次”的狂喜,而只是“啊,原来如此”的平静。
No branches or pull requests
终于发现了程序的bug了。
其设置了太大的replay buffer的size.
如果它是有16个进程的话,每一个都是11G的要求,
那么,即使是用np.memnp, 其的空间需求也是惊人的!
反正,这个就是它的原因,解释了为什么到了一定的时候,就直接exit, 也不报错。
The text was updated successfully, but these errors were encountered: