您现在的位置: 主页 > 资讯 > 人工智能AI > 强化学习(RL)是否是人工智能的关键之处,能够给人工智能带来质
本文所属标签:
为本文创立个标签吧:

强化学习(RL)是否是人工智能的关键之处,能够给人工智能带来质

来源:网络整理 网络用户发布,如有版权联系网管删除 2018-07-19 

直接回答: RL 就是一种普通的机器学习研究框架,已经有几十年的历史。并不能给AI带来什么质变。 RL可以和监督学习,统计方法等组合套用解决实际的问题。包括围棋。

借用老板的话 “人类观察鸟受到启发而发明飞机,然而飞机的原理和鸟玩完全不一样”

人的学习,是社会推动,社会意识,家庭教育,小中大学教育共同结果,而不是由生理化学主导。否则你我就酗酒吸毒去啦,因为根据Reforcement Learning理论,嗑药才是最优解。


关于遗传得到的不是知识,而是奖励函数(reward function)
RL里有一个奖励函数(reward function) 对应我们人大脑和神经系统其他部分的的反应。比如吃糖,这个是能量物质,通过多巴胺等生理过程给予快乐的感觉,鼓励你多吃糖。另外一个例子是对冷热的感知,如果外接过冷或者过热,人接受到惩罚信号。

例子: 一个小猴子,冷了,它偶钻到地上被子里,发现暖和。这个时候它得到知识,这是reinforcement learning得到的。讨论到人。 如果妈妈说不能用手碰壁炉,你听话,这就是后天知识Taught Knowledge(TK) ,是人类经验的体现。 如果妈妈没教,你自己小时候被壁炉烫伤过,知道远离壁炉,这是Reinforcement Learning知识(RLK)。很显然,除非你是狼人,否则前者(TK)的知识远远比(RLK)多。

Taught Knowledge(TK)是理性的,社会监督导向,更高级的知识。 RL学到的,只是让你身体爽而已,可能让你无节制的吃,懒惰,嗑药
所以人之所以智能,主要得益于我们的文明。人类社会发展是复杂的,不是一两个AI方法就能表达。我自己学习和研究AI,随着时间增加,反而陷入不可知论的思想里。


===============跑题 科普一下 增强学习reinforcement learning===========
图片来源:【2】Sutton Reinforcement learning: An introduction


如上题。 人工智能体Agent 和环境(Environment)发生交互而学习到知识。 以自动打吃豆豆游戏(Pac-man)为例。

1.人工智能体Agent(下文简称 Agent)观察环境,记录特征。 比如到最近豆豆的距离,
到最近鬼的距离。
2.采取行动,前后左右四个行动,选择一个走一格。
3. 得到一个反馈。 比如撞到鬼输了游戏减去100分,或者吃完所有豆豆,赢了游戏加 100分。
4.再次观察环境。 这个时候环境特征变化(和鬼的距离,和最近豆豆的距离)

增强学习目标: 总的反馈分数最大。

RL本质: 环境-行动 树的搜索。
一开始Agent在一个初始状态。比如停在停车每个状态下可以采取多个行动(前,后,左,右)转移到不同的状态(和鬼距离,和豆豆距离)

图片来源 【1】 BerkeleyX's CS188x PPT


S 三角形代表状态, <s,a>圆点代表选着的行动。RL本质和其他决策类AI并无不同,搜索上面这颗树。剩下的就是各种算法啦,可见并没有什么高深玄虚之处。
========================干货===============================
推荐 加州大学伯克利分校的 AI课程 ,免费世界上最好的AI课程。可以学习怎么自己设计RL智能。完成吃豆豆游戏哦
https://courses.edx.org/courses/BerkeleyX/CS188x_1/1T2013/info

=====================笑话==============================
前段时间有公司找我做技术合伙人,CEO安利了一堆情怀,并且组建了一个情怀团队,现在就缺一个码农。


感谢cousera ,edx, Stanford online,MIT open,清华学堂在线 等等资源,因为你们的无私,前言科学的学习曲线已近平缓很多。给了务实的人免费的上升渠道。


参考文献:
[1]BerkeleyX's CS188x PPT
[2]Sutton, R. S., & Barto, A. G. (1998). Reinforcement learning: An introduction. MIT press.

              查看评论 回复



嵌入式交流网主页 > 资讯 > 人工智能AI > 强化学习(RL)是否是人工智能的关键之处,能够给人工智能带来质
 学习 一个 知识

"强化学习(RL)是否是人工智能的关键之处,能够给人工智能带来质"的相关文章

网站地图

围观()