薛怡然 陈大浩 吴禹杉 高德鹏 肖婷 张智 杜飞

强化学习
SLAM

Meta

Learning

迁移学习 迁移学习 目标检测 目标跟踪







白辰甲 赵英男 赵东方 管红娇 刘畅 李功 范苍宁

强化学习 强化学习 强化学习 不平衡分类 目标跟踪 目标跟踪 迁移学习












薛怡然


研究课题高维连续状态-动作空间深度强化学习问题


机器学习是人工智能领域核心问题之一,其中强化学习是一种以环境反馈作为输入,学习从环境状态到动作的映射,通过试错发现最优行为策略,以使从环境获得的积累奖赏最大的学习方法。其主要特点是试错和延迟回报。

强化学习方法在小规模问题中具有良好的性能,但随着问题规模增大,传统算法面临复杂度指数增长的维度灾难问题。近年来深度神经网络取得了较大发展,感知、降维性能突出。与其结合出现了深度强化学习方法,提高了对高维状态空间的感知能力,然而对于高维且连续的动作空间,仍缺乏有效的决策方法。本课题目标是利用深度网络,改进高维连续状态-动作空间中强化学习方法的学习决策能力。



陈大浩


研究课题机器人同时定位与建图问题(SLAM)


机器人同时定位与建图问题(SLAM)是指如何让机器人在未知环境中从一个未知位置开始移动,并在移动过程中根据位置估计和传感器数据进行自身定位,同时建造增量式地图的问题。

随着机器人在各个领域的运用增多,对于机器人的自主能力的要求也在不断增加。在日常生活中,总有一些危险性高、放射性强、污染严重的未知环境中,需要机器人替代人类去完成一些探索和检查任务,如核电站泄露后的内部勘探,在发生火灾的大楼里进行救援任务等。在这些应用中,无论是小到家用的室内清洁机器人,还是大到探索其他星球的地外探测装置,都要求其具备同时定位与建图能力。




吴禹杉


研究课题:Meta Learning(元学习)


深度学习在图像、语言等领域得了突破性进展,但仍存在很多限制,比如模型训练过程需要大量的样本,模型超参数的设置会影响模型的性能,深度网络在小样本数据集上易出现过拟合。元学习(meta learning)是从目标任务的相似任务集中提取先验知识,以此提高模型的泛化能力与精度,避免了过拟合。元学习又称为学习学习(learn to learn),可以有效地学习先验任务的学习过程及超参数的设置。 目前针对元学习的研究大多数是针对监督学习的,即利用标签样本完成分类识别等任务。样本标注成本较高,如何利用无标签样本,提高模型精度,并使其能够应用到更广泛的任务中是一个有趣的课题。





高德鹏


研究课题迁移学习


迁移学习是一种特殊的机器学习方法。传统的机器学习方法,例如SVM,神经网络等都有一个潜在的假设:训练数据和测试数据服从独立同分布。然而,在实际工作中,为每一个目标任务收集足够多的、来自同一分布的训练数据是相当困难、甚至是不可能的,特别是在深度学习领域,由于其需要大量的训练样本,这一问题尤其严重。迁移学习正是在这种情况下应运而生,其主要目的是利用不同领域/任务的知识,帮助完成目标任务。例如,骑自行的经验可以帮助骑摩托车、会弹吉他的人更容易学习弹钢琴。迁移学习目前主要应用于跨视角的动作识别、目标识别、跨语言的文本分类。本人目前的研究关注于RGB图像和RGB-D图像之间的知识迁移。

[1] Depeng Gao,Jiafeng Liu, Rui Wu, Xianglong Tang. RGB-D Object Recognition using the knowledge transferred from relevant RGB images. ICONIP 2017

[2]Depeng Gao,Jiafeng Liu,Rui Wu, Xianglong Tang. Fully semisupervised framework for visual domain adaptation. Journal of Electronic Imaging 28.1 (2019): 013040. (SCI收录,IF=0.78)






肖婷


研究课题迁移学习


传统的机器学习都基于一个共同的假设,训练数据和未来将要处理的数据都处在相同的特征空间,并且有着相同的分布。然而在实际应用中,这个假设往往不成立。迁移学习可以解决这个问题,运用已有的知识来学习新的知识,核心是找到已有知识和新知识之间的相似性。迁移学研究如何把源域的知识迁移到目标域上。迁移学习按照学习方式可以分为基于样本的迁移,基于特征的迁移,基于模型的迁移,以及基于关系的迁移。随着多年的发展,域适应,深度迁移学习,异构迁移,负迁移等子领域已成为迁移学习的火热研究领域。


[1]Ting Xiao, Peng Liu, Wei Zhao, Xianglong Tang: Iterative landmark selection and subspace alignment for unsupervised domain adaptation [J]. Journal of Electronic Imaging, 2018,27(03).(SCI,IF = 0.78)

[2] Wei Zhao,Ting Xiao, Peng Liu *, Lei Sun, Jiangchuan Huang, XianglongTang, Radar Model Fusion of Asteroid Toutatis via Optical Images Observed by Chang’e-2 Probe, Planetary and space science, 2016.6, Vol.125,SCI IF1.942.

[3]Ting Xiao, Peng Liu, Wei Zhao, Xianglong Tang, Hongwei Liu: Structure Preservation and Distribution Alignment in Discriminative Transfer Subspace Learning [J]. Neurocomputing, 2019




杜飞


研究课题:目标跟踪


目标跟踪解决的问题是在给定图像序列中第一帧目标位置的条件下,持续跟踪每一帧的目标。它在很多领域都有应用,比如说视频监控、人机交互,无人控制系统等。目标跟踪方法一般分为两类,一个是生成式的,一个是判别式的。生成式方法将目标跟踪看作是一个匹配问题,在每一帧找到与模板最匹配的位置。判别式方法通过训练分类器来区分目标和背景,从而达到定位目标的目的。目前判别式方法的效果较好。其通常涉及到提取目标特征以及训练分类器。目前常用的方法为基于相关滤波和深度学习的方法。每年有一个目标跟踪的比赛,比赛的结果会以一篇会议论文的形式公布。目前我的成果是完成论文一篇,在投状态。论文主要在相关滤波框架中引入时空自适应的特征权重,并推导出高效的优化方法。

[1]杜飞,刘鹏,赵巍,唐降龙.一种大气湍流环境下的运动目标自适应检测方法.自动化学报.2018(已录用,EI).

[2]Du F, Liu P, Zhao W, et al. Spatial-temporal adaptive feature weighted correlation filter for visual tracking[J]. Signal Processing: Image Communication, 2018.

[3] Fei Du, Peng Liu, Wei Zhao, and Xianglong Tang. Joint Channel Reliability and Correlation Filters Learning for Visual Tracking.IEEE Transactions on Circuits and Systems for Video Technology. 2019






白辰甲


研究课题强化学习


强化学习是一种处理复杂的序列决策任务的方法,可用于机器人控制、神经翻译、图像识别等多个领域。在强化学习中,智能体面临稀疏奖励、长时序决策和复杂控制等任务时会存在困难,难以有效的进行时间序列抽象,从而导致数据效率低下,甚至无法挖掘奖励信息而发散。层次化强化学习(HRL)方法通过对任务层次化和策略层次化,寻找序列决策中的抽象信息来引导智能体发现局部的决策单元,提高数据利用效率并加速探索。层次化的决策控制模块可以用于在高级特征空间中进行长期规划和元学习。层次化学习模仿人类认知准则,目前已经成为强化学习中独立的研究分支,在与深度神经网络相结合的强化学习算法中有广阔的研究前景。强化学习方法的主要测试平台包括OpenAI GymDeepMind LabMujocoPR2机器人等。

[1]白辰甲,刘鹏,赵巍,唐降龙.基于TD-error自适应校正的深度Q学习主动采样方法.计算机研究与发展.2019, 56(2): 262-280(EIlink

[2]Chenjia Bai, Peng Liu, Wei Zhao, Xianglong Tang. Guided goal generation for hindsight multi-goal reinforcement learning. Neurocomputing, 2019. (JCR-1,CCF-C,IF=3,2).link

[3]Chenjia Bai,Peng Liu, Wei Zhao, Xianglong Tang. Generating attentive goals for prioritized hindsight reinforcement learning. preprint. 2019



赵英男


研究课题:强化学习


深度强化学习被认为是实现人工智能的重要途径,利用深度强化学习技术,智能体可以像人类一样通过试错来找到最优策略,完成复杂的任务。深度强化学习的研究在近几年取得了重大突破,解决了一些复杂的问题,比如教会计算机玩视频游戏,使机器人能够完成十分复杂的动作等。这个领域仍然存在许多问题,我目前针对如下两个问题研究比较多:训练过程中样本利用率低,训练时间长。要想让智能体学会玩视频游戏,往往需要几天的时间,还有成百上千万的样本量,这在实际应用中是不可接受的。探索与利用平衡问题。探索指的是尝试新的动作,利用指的是在已知范围内做出最好的动作。过多的探索或者利用都会导致学不到好的策略。如何平衡这两者成了一个重要的研究方向。


[1]赵英男,刘鹏,赵巍,唐降龙. 深度Q学习的二次主动采样方法. 自动化学报. 2018(已录用, EI

[2] Peng Liu,Yingnan Zhao, Wei Zhao, et al.An exploratory rollout policy for imagination-augmented agents. Applied Intelligence. 2019 (CCF-C, IF=1.7)

[3]Yingnan Zhao, Peng Liu, Chenjia Bai, and Xianglong Tang. Obtaining Accurate Estimated Action Values in Categorical Distributional Reinforcement Learning. Knowledge-based Systems. 2020 (SCI收录,JCR-1,IF=5.1)






赵东方


研究课题:强化学习


强化学习是近年来机器学习领域研究热点之一,在机器人规划和控制、人工智能问题求解、组合优化和调度、通讯和数字信号处理、多智能体系统、和自动驾驶等领域取得了若干成功应用。强化学习是一种极其接近人类思维的人工智能方法,受到生物能够有效适应环境的启发,强化学习智能体通过试错不断与环境交互来学习从环境状态到行为动作的映射,以改善自身的行为。强化学习对智能体与环境的交互次数要求高,这种数据低效性限制了强化学习在状态数庞大的复杂场景中的应用。目前实现样本高效性主要基于有模型方法,基于该方法的强化学习智能体对新任务的泛化性能较好,但也存在模型学习困难的问题,目前的研究成果主要集中于低维状态模型,如果能学习到精确的图像模型,强化学习将有更广泛的应用价值。


[1]Dongfang Zhao, Jiafeng Liu, Rui Wu, Dansong Cheng, Xianglong Tang, Data-Efficient Reinforcement learning using Active Exploration Method 25th International Conference on Neural Information Processing (ICONIP). 2018

[2]赵东方,赵巍,刘鹏,黄长宁,张宏伟,唐降龙.基于空间光学成像的4179号小行星表面反射特性研究,天文学报, 2016.2

[3]Dongfang Zhao, Jiafeng Liu, Rui Wu, Dansong Cheng and Xianglong Tang, Optimistic Sampling Strategy for Data-Efficient Reinforcement Learning, in IEEE Access, vol. 7, pp. 55763-55769, 2019.(SCI收录,IF=2.7)





刘畅


研究课题:目标跟踪


目标跟踪是计算机视觉领域地一个热点之一,广泛应用于视频监控、导航、军事、人机交互等等。目标跟踪指的是已知目标初始状态,预测其在后续视频或图像序列中的位置等状态。需要考虑的问题有鲁棒性、自适应性和实时性,主要难点包括光照变化、形变、尺度变化、背景干扰、遮挡、快速运动等等。过去几十年来,目标跟踪从均值漂移,粒子滤波等经典方法发展到基于检测的方法;最近基于相关滤波和深度学习的方法成为主流。最近常用的数据集包括OTBVOT

1. Chang Liu, Peng Liu, Wei Zhao, and Xianglong Tang. Visual Tracking by Structurally Optimizing Pre-trained CNN. IEEE Transactions on Circuits and Systems for Video Technology. 2019 (SCI收录,JCR-1,CCF-B,IF=3.5)

2. Peng Liu,Chang Liu,Wei Zhao*, Xianglong Tang Multi-level Context-Adaptive Correlation Tracking, [J]. Pattern Recognition, 2018-10, DOI: 10.1016/j.patcog.2018.10.013(SCI收录,IF=3.962)

3.Chang Liu,Peng Liu, Wei Zhao, Xianglong Tang. Robust Tracking and Re-detection: Collaboratively Modeling the Target and Its Context. IEEE Transactions on Multimedia, 2018, vol. 20, no.4, pp. 889-902. ( SCI & EI, IF: 3.509, DOI: 10.1109/TMM.2017.2760633).

4.刘畅,赵巍,刘鹏,唐降龙.目标跟踪中辅助目标的选择、跟踪与更新.自动化学报. 2017. (已录用, EI,IF:1.012).

5.Peng Liu,Chang Liu, Wei Zhao, Xianglong Tang. Extended Kernelized Correlation Tracking with Target Enhancement and Sample Selection. In Proc. ICTAI 2017. ( CCF排名C,口头论文,录取率=38%).




管红娇


研究课题:不平衡分类


不同领域普遍存在不平衡分类的问题,尤其是在大数据领域中,数据集呈现出不同类别样本数量分布不均衡的特点。传统统计学习方法主要基于不同类别样本数量均衡和不同类别错分代价相同两个假设,来优化总体评价指标,如最大化准确率或最小化错误率。用这些算法对不平衡数据建立分类模型时,分类性能大打折扣,表现为分类器偏向于多数类,造成少数类的识别率较低,而通常少数类的错分代价高于多数类的错分代价,因此少数类的正确识别是非常重要的,少数类是我们更为关注的更感兴趣的概念。可以从数据层面和算法层面解决不平衡分类问题,前者通过上采样增加小类样本或下采样减少大类样本来平衡类分布,后者通过设计针对不平衡数据的算法或引入不同类别代价信息对不平衡集进行分类。


[1]Guan H, Zhang Y, Xian M, et al. WENN for individualized cleaning in imbalanced data[C]//Pattern Recognition (ICPR), 2016 23rd International Conference on. IEEE, 2016: 456-461.

[2]Hongjiao Guan, Yingtao Zhang, Hengda Cheng, and Xianglong Tang: A Novel Imbalanced Classification Method based on Decision Tree and Bagging [J]. International Journal of Performability Engineering (IJPE), 2018, 6(14): 1140-1148. (EI收录)

[3]Hongjiao Guan,Yingtao Zhang, H.D. Cheng, Min Xian, Xianglong Tang, BA2Cs: Bounded Abstaining with Two Constraints of Reject Rates in Binary Classification, Neurocomputing (2019), doi: https://doi.org/10.1016/j.neucom.2019.04.047




李 功


研究课题:目标跟踪


目标跟踪是传统的计算机视觉领域的任务,该领域曾经产生过许多经典的算法,随着深度学习在各个领域的日益成熟的广泛应用,在目标跟踪任务上也不例外。目前基于深度神经网络和相关滤波的方法在目标跟踪的速度以及准确率上都已经取得了显著的提升和进步。目前仍然有待攻克的难题抑或存在很大改进的空间是被跟踪目标的形变剧烈,快速移动以及被大面积遮挡时发生的目标跟踪偏移问题。





张 智


研究课题:目标检测


目标检测是要在一张给定的图像中,找出图像中所有存在的感兴趣的物体,并且找出它所在的具体位置和大小,是机器视觉领域中的核心问题之一。它与视频分析和图像理解紧密相关,这些年来,它受到了研究者的广泛关注。由于各类物体有不同的外观,形状,姿态,加上成像时的光照、遮挡等因素的干扰,目标可能出现在图像的任何位置,目标有各种不同的大小,目标可能有各种不同的形状,目标检测一直是机器视觉领域中最具有挑战性的问题之一。如果用矩形框来定义目标,则矩形有不同的宽高比,由于目标的宽高比不同,因此采用经典的滑动窗口+图像缩放的方案解决通用目标检测问题的成本太高。近年来,随着深度学习在图像识别领域的巨大成功,目标检测领域也出现了众多基于深度学习的算法,例如rcnnfast rcnn, faster rcnn, yolo等。常用的数据集包括VOC等。



范苍宁

研究课题:迁移学习


机器学习技术已经在诸多领域,如计算机视觉,自然语言处理,语音识别等取得了巨大的成功。然而只有当测试集与训练集服从相同分布时,机器学习才会取得令人满意的效果。当分布发生变化时,需要重新获取训练数据用以重建机器学习模型。由于某些领域的训练数据获取十分困难,人们希望出现一种可以减少训练数据的需求的方法。基于此,迁移学习受到了越来越多的重视。迁移学习是一种通过使用源域中的知识来改善目标域中学习任务性能的一种方法。目前,迁移学习的研究重点在于寻找到一个公共隐式空间,在这个空间内源域与目标域的数据分布能够对齐。随着深度学习的发展与进步,涌现出了越来越多的使用深度学习技术迁移知识的方法。可以预见,深度学习与迁移学习相结合的研究方向将成为新的研究热点。


Baidu
map