中文核心期刊
中国科技论文统计源期刊
国际刊号:1005-2615
国内刊号:32-1429/V
用户登录
  E-mail:  
  密  码:  
  作者 审稿  
  编辑 读者  
期刊向导
联系方式ʽ
  • 主管:工业和信息化部
  • 主办:南京航空航天大学
  • 国际刊号:1005-2615
  • 国内刊号:32-1429/V
  • 地址:南京市御道街29号
  • 电话:025-84892726
  • 传真:025-84892726
  • E-mail:tnc01@nuaa.edu.cn
  • 邮编:210016
黄文宇,黄圣君.基于示范主动采样的行为克隆方法[J].南京航空航天大学学报,2021,53(5):766-771
基于示范主动采样的行为克隆方法
Behavioral Cloning with Active Sampling of Demonstration
投稿时间:2020-11-10  修订日期:2021-01-06
DOI:10.16356/j.1005-2615.2021.05.014
中文关键词:  强化学习  模仿学习  行为克隆  逆强化学习  主动学习
英文关键词:reinforcement learning  imitation learning  behavioral cloning  inverse reinforcement learning  active learning
基金项目:航空动力基金(6141B09050342)资助项目。
作者单位邮编
黄文宇 南京航空航天大学计算机科学与技术学院/人工智能学院 南京 211106 211106
黄圣君 南京航空航天大学计算机科学与技术学院/人工智能学院 南京 211106 211106
摘要点击次数: 68
全文下载次数: 197
中文摘要:
      深度强化学习在学习过程中需要与环境进行大量的交互,训练效率低下。模仿学习通过从专家示范中学习,可以有效地应对这一挑战,但是需要收集大量的专家示范轨迹,在复杂任务中往往导致高昂的示范代价。本文提出一种基于主动学习的行为克隆算法,通过主动挑选示范起始状态来减小示范代价。该方法基于不确定性采样和不相似性采样两种策略,从状态候选集中挑选最有价值的状态作为起始状态,然后向专家查询固定长度的示范轨迹,希望从尽可能少的示范中学习出有效策略。在多个不同任务上的实验表明,本文方法可以用更少的示范轨迹进行行为克隆,降低了强化学习中的专家示范代价。
英文摘要:
      Deep reinforcement learning has achieved great success in many applications. However, it usually needs large amount of interactions with the environment to learn the policy, which leads to inefficient training. Imitation learning is an important approach to tackle this challenge by learning from demonstrations, but it instead requires a large set of demonstrations provided by experts, which could be rather costly in many complex tasks. In this paper, we propose an active learning method to reduce the demonstration cost by actively selecting starting state for demonstration. The method is based on uncertainty sampling and dissimilarity sampling. It selects the best state from the candidate set and then queries expert for fixed length of trajectory, in order to train effective policy with fewer demonstrations. Experimental results in multiple environments demonstrate that the proposed method can achieve effective performance with significant lower demonstration cost.
[HTML]  查看全文  查看/发表评论  下载PDF阅读器
关闭

Copyright @2010-2015《南京航空航天大学学报》编辑部

地址:南京市御道街29号        邮编:210016

电话:025-84892726      传真:025-84892726       E-mail:tnc01@nuaa.edu.cn

您是本站第3865001位访问者 本站今日一共被访问1866

技术支持:北京勤云科技发展有限公司

敬请关注《南航学报》官方微信