当前位置: 首页 -> 科学研究 -> 科研成果 -> 正文

科学研究

硕士研究生陈祺航在机器学习国际重要会议PAKDD发表论文并做口头报告

信息来源: 发布日期:2022-10-07

近日,十大免费货源网站自动化系硕士研究生陈祺航在机器学习、数据挖掘领域国际重要会议PAKDD:《Pacific-Asia Conference on Knowledge Discovery and Data Mining》发表题为“Hard Negative Sample Mining for Contrastive Representation in Reinforcement Learning”的研究论文并做出了相应的口头汇报。PAKDD 2022是第26届会议,作为CCF-C类会议,其今年的接受率仅为19.30% (121/627)。

研究背景:

强化学习算法落地应用的一大难点是其低下的样本效率。近年来,辅助任务的引入帮助强化学习智能体在复杂环境中学习到有效的表征,并以此缓解了算法的效率危机问题。对比学习作为一种新兴且热门的辅助任务在强化学习中大显身手,但已有的方法往往以完全随机的方式选取用于对比方法的正负样例。然而,正确且合适的正负对样本划分,尤其是困难负样本,在对比学习相关领域的研究中被发现是至关重要的。因此,本项工作以强化学习任务相关信号为指引,研究在强化学习背景下,合适的用于对比学习表征的困难负样本挖掘问题。

研究内容:

本项工作主要研究了如何在采用对比学习表征的强化学习算法中,高效地采集划分困难负样本以进一步提升智能体效率的问题。

所谓困难负样本即被定义为与锚样本点具有相似表征-Hard,但具有截然不同的任务信息-Negative的样本。首先,给定锚样本点,对于难样本,文章使用高斯随机投影与KD树实现了相关的挖掘,避免了直接在高维空间中进行状态比对所带来的计算负担。另一方面,为了进一步寻找困难负样本,文章则通过比对各个难样本的历史轨迹累积折扣回报,结合K均值聚类算法进行样本的划分,从而挑选出于锚样本具有相似表征但具有完全不同语义(奖励)的样本作为困难负样本,并用于后期的对比学习训练。该困难负样本挖掘策略相比随机选取的方法,进一步结合了任务奖励信号进行筛选,降低了用于对比学习的样本的“假阴性率”,同时其在低维随机投影空间中的查找可以有效减缓因查找带来的计算负担,实现快速部署与训练。

相较于已有的基于随机正负样例的对比表征强化学习算法等研究结果而言,文章中所给出的方法在强化学习著名的基准环境-DeepMind Control Suite的多个任务中,具有更快的学习效率以及更好的最终策略性能。

图1. 本文方法困难负样本的挖掘流程

图2. 在部分控制任务中的算法对比结果

研究相关:

十大免费货源网站自动化系为该项工作的唯一署名单位和通讯单位。研究生陈祺航为本文的第一作者,刘云龙副教授为本文通讯作者。该项工作得到了国家自然科学基金项目(No. 61772438 和 No. 61375077)的资助。

论文链接: https://link.springer.com/chapter/10.1007/978-3-031-05936-0_22