半全场app|竞彩足球半全场投注技巧

强化学习中,如何从稀疏和不明确的反馈中学习泛化

admin 科技 2019-03-02

雷锋网 AI 科技评论按,强化学习(RL)为优化面向目标的行为提供了一个统一而灵活的框架,在解决诸如玩电子游戏、连续控制和机器人学习等具有挑战性的任务方面取得了显著的成功。在这些应用领域中,RL 算法的成功通常取决于高质量和高密?#30830;?#39304;的可用性。然而,将 RL 算法的适用范围扩大到稀疏?#22836;?#39304;不明确的环境是一个?#20013;?#30340;挑?#20581;?/p>

近日,谷歌 AI 发?#23478;?#19968;篇博文讨论了这个问题,雷锋网 AI 科技评论编译整理如下。

研究此类问题中 RL 算法性能的一种常用方法是通过语言理解任务,在该任务中,代理接收自然语言输入,并且生成复杂的响应以实现输入中指定的目标,同时它只接收二进制?#38382;?#30340;成功或者失败反馈。

例如一个?#35813;ぁ?#20195;理,通过遵循一系列自然语言命令(例如,「right,up,up,right」)来获得迷宫中目标的位置。给定输入文本,代理(绿圈)需要解释命令,并根据这些解释采取措施来生成操作序列(a)。如果达到目标(红星),代理将获得 1 次奖励,否则没有奖励。由于代理无法访问任何可?#26377;?#24687;,因此代理完成此任务并归纳出新指令的唯一方法是正确理解指令。

强化学习中,如何从稀疏和不明确的反馈中学习泛化

可以看到,按照轨迹 a1、a2 和 a3 可以达到目标。

在这些任务中,RL 代理需要从稀疏(只有一些轨迹会产生反馈)和未指定(没?#26143;?#20998;有意义的成功和偶然的成功)反馈中学习泛化。重要的是,由于未指定反馈,代理可能会收到虚假的正反馈。这可能导致奖励黑客行为,使得部署实际系统时出现意外和有害行为。

在「从稀疏和不确定的反馈中学习泛化」时,我们通过开发元奖励学习(MeRL)来解决反馈不确定的问题,该方法通过优化辅助奖励函数向代理提供更精细的反馈。MERL 使用一?#20013;?#30340;探索策?#26434;?#25104;功轨迹的?#19988;?#32531;冲区相结合,并从稀疏反馈中学习。我们方法的?#34892;?#24615;在语义分析上得到了证明,语义分析的目标是学习从自然语言到逻辑?#38382;?#30340;?#25104;洌?#20363;如,将问题?#25104;?#21040; SQL 程序)。本文研究了弱监督问题的设置,其目的是在没有任何?#38382;?#30340;程序监督的情况下,自动从问答对中发现逻辑程序。例如,给定问题「哪个国家获得的银牌最多?」以及与之相关的维基百科表格,代理需要生成一个类似 SQL 的程序,从而得到正确的答案(例如,「尼日利亚」)。

强化学习中,如何从稀疏和不明确的反馈中学习泛化

该方法在 WikiTableQuestions 和 WikiSQL 达到了最先进成果的基?#36857;?#30456;比于之前的方法,其效果分别提高了 1.2% 和 2.4%。不同于以前的学习方法,MeRL 自动学习辅助奖励函数而不需要任何专家演示,这使其应用更加广泛。下?#38469;?#25105;们方法的概述:

版权声明

本文仅代表作者观点,不代表华奇网立场。
本文系作者授权华奇网发表,未经许可,不得转载。

?#19981;?span id="diggnum">发?#35745;?#35770;
留言与评论(共有 条评论)
   
验证码:
半全场app 20173d新的公式定胆 江西多乐彩开奖公告 贵州十一选五遗漏 丰禾棋牌官方下载 2017杀一头精准公式 黄金棋牌游戏官网下载 重装时时彩开奖网站 安徽十一选五前三值走势图带连线 中国中铁股票行情 老11选5图表