CreateAMind

RSS订阅
微信公众号:createamind
功能介绍:
CreateAMind.ai 通用人工智能第一号;每天踏实前进一步!视觉无监督语义级特征的生成模型技术交流.自动驾驶技术交流.
分享到:


Predicting the Future  V2更新

Predicting the Future with Multi-scale Successor Representations

发布时间: 2019-10-06 17:28:51点击量: 303

Successor representations 强化学习表示的生物学启发

​model base model free 相互关系的生物学解读   前额叶 多巴胺  Goal-directed habits  sensory prediction error (SPE) similar to the TD RPE

发布时间: 2019-10-06 17:28:41点击量: 695

最新文章分类、推荐文章整理

进展效果:Google Research Football (scenario 2) 实验RL解决'Bipe

发布时间: 2019-10-06 17:28:38点击量: 713

事非经过不知难(三)如何处理问题的分析

虽然架构设计完成,但是期间出了很多问题,最严重的就是数据分布的改变,在此分享对问题的分析处理,希望有值得借鉴的地方。

发布时间: 2019-10-06 17:28:36点击量: 540

RL解决'BipedalWalkerHardcore-v2' (SOTA) 更新

RL解决'BipedalWalkerHardcore-v2' (SOTA) 更新

发布时间: 2019-10-06 17:28:33点击量: 791

事非经过不知难(一)阅读笔记分享

分享最近的阅读笔记

发布时间: 2019-10-06 17:28:29点击量: 538

Google Research Football (scenario 2) 实验

Google Research Football (scenario 2) 实验

发布时间: 2019-10-06 17:28:28点击量: 197

A quick introduction to Deep info max

A quick introduction to Deep info max

发布时间: 2019-10-06 17:26:02点击量: 257

RL Foundation: Dynamic Programming

Reference:Reinforcement Learning An Introductionhttp:\/

发布时间: 2019-10-06 17:26:00点击量: 624

事非经过不知难(二)架构分析

对近期在推进的模型的架构分析

发布时间: 2019-10-06 17:25:58点击量: 382

解耦强化学习的值函数学习

现在AI学习规则还很困难,虽然alphago取得了很大的进展,但是迁移能力很弱,规则一般都涉及到奖励和惩罚,也就是对应到了强化学习的reward函数,人学习规则都比较快,在儿童玩游戏中规则还会经常调整,儿童都能很快的适应,现在强化学习...

发布时间: 2019-10-06 17:25:52点击量: 458

最新文章分类、推荐文章整理

进展效果:RL解决'BipedalWalkerHardcore-v2' (SOTA)效率效果均第一 及完整源

发布时间: 2019-09-04 16:31:50点击量: 462

Successor representations 强化学习表示的生物学启发

​model base model free 相互关系的生物学解读   前额叶 多巴胺  Goal-directed habits  sensory prediction error (SPE) similar to the TD RPE

发布时间: 2019-09-04 16:31:49点击量: 797

最新文章分类、推荐文章整理

进展效果:RL解决'BipedalWalkerHardcore-v2' (SOTA)效率效果均第一 及完整源

发布时间: 2019-09-04 16:31:33点击量: 887

RL Terminology Cheatsheet

Reference:https:\/\/spinningup.openai.com\/en\/latest\/spin

发布时间: 2019-09-04 16:31:32点击量: 131

互信息相关公式整理

从一些论文整理的互信息相关公式infobot  soft q MI  infobot appendix:和下面公式

发布时间: 2019-09-04 16:31:31点击量: 112

RL中的default policy和decision states及options(skill)是什么关系?

最近几篇论文都提出了学习一个默认的减轻认知负担的default policy;就像人默认情况直走即可,特殊情况才需要调整:有人,有车,有拐弯等;特殊情况就是decision states,这些情况下面需要重新决策切换行动的方式,要停下还是?

发布时间: 2019-09-04 16:31:29点击量: 547

Predicting the Future

Predicting the Future with Multi-scale Successor Representations

发布时间: 2019-09-04 16:31:29点击量: 629

RL中的default policy 和 decision states 及 options(skill)是什么关系?

最近几篇论文都提出了学习一个默认的减轻认知负担的default policy;就像人默认情况直走即可,特殊情况才需要调整:有人,有车,有拐弯等;特殊情况就是decision states,这些情况下面需要重新决策切换行动的方式,要停下还是?

发布时间: 2019-08-26 01:44:23点击量: 153

The introduction of distributed reinforcement learning framework

The introduction of distributed reinforcement learning

发布时间: 2019-08-26 01:44:21点击量: 645