在刚刚召开的2021年的机器人会议IEEEInternational Conference on Robotics and Biomimetics(ROBIO)上,武汉大学工业科学研究院李淼老师团队的论文“Learning Robotic Ultrasound Scanning Skills via Human Demonstrationsand Guided Explorations”提名“T.J. Tarn Best Paper Award”奖项。该团队以实现自主机器人超声检查为最终目标,提出了基于模仿学习的机器人多模态操作技能学习框架。通过示教学习(Learning from Demonstration)超声医生的操作手法,建立多模态的任务建模,为超声机器人的运动预测提供了一种通用策略。通过与武汉协和医院,武汉库柏特科技、华南理工大学以及香港中文大学的紧密合作,该团队共同合作近期在机器人自主超声研究取得了一系列的突破进展,并希望在未来围绕机器人模仿学习,让更多的机器人具备超声医生专家的灵巧操作技能。(https://mp.weixin.qq.com/s/OVs4x_gzV_uFc2MgTJYPrw)
作为临床检查的重要手段之一,传统医疗超声成像技术面临的主要问题为:长期重复性工作造成超声医师的肌体劳损;较长的培训周期导致专业超声医师的缺口持续增大;面对新冠疫情等传染性疾病,医患隔离的需求难以满足。随着人工智能和机器人的不断发展与成熟,医疗超声机器人成为克服传统医学超声中普遍性问题的必然趋势,如图1所示。
图1
常见的超声机器人系统如图2(a)所示,该系统包括:(a)超声仪器,(b)笔记本电脑,(c)协作机械臂,(d)六维力传感器,(e)超声探头,(f)仿体皮肤,(g)视频采集设备。自主式超声机器人系统的任务为:如何使机器人自动完成高质量超声图像的采集任务。该任务的难点与挑战在于,对超声探头的灵巧控制属于多模态问题,涵盖了包括超声图像、探头位置与姿态、探头与皮肤接触力等关键因素,如图2(b)所示。与此同时,人机交互中的诸多不确定性因素也是系统鲁棒控制与自主决策过程中所面临的障碍。因此,自主式超声机器人是全球机器人与人工智能团队所面临的一项困难且有意义的挑战。
(a)
(b)
图2
如图3所示,现有的超声机器人运动预测策略可以分为三类:人为决策引导,图像信号引导,多模态信息融合。其中,人为决策引导的策略主要包括遥操作、场景模型、预成像模型等方法;图像信号引导的策略主要包括超声置信图、深度学习、强化学习等方法。受限于信息感知维度和模型智能程度,上述的运动预测策略均难以实现对真实超声机器人的鲁棒控制和智能引导。因此,综合考虑超声任务的复杂性,多模态信息融合的运动引导策略具备更完整的认知能力和更复杂的决策能力,从而保证了任务模型的现实意义和临床意义。
图3
在此背景下,武汉大学李淼老师的科研团队尝试从对象模型入手,将临床超声检查中的关键因素概括为多模态超声技能模型,具体包括:超声图像,探头位置与姿态,探头与人体皮肤接触力。如图4所示,利用卷积神经网络和全连接神经网络对多模态信号做编码处理,并拼接成为超声任务中的状态特征向量。任务模型中的动作网络最终根据特征向量完成对超声机器人系统的实时运动引导。
图4
在多模态信息融合的任务场景下,实现超声探头运动预测的神经网络结构如图5所示。前置网络为并行信息融合通道,其输入信号为超声图像、探头姿态以及接触力。值得注意的是,在输入信号中刻意隐去超声探头的位置信号,由此指导神经网络学习从超声图像中提取位置信息的能力,以增强任务模型的泛化能力。后置网络接收状态特征向量,并输出超声探头的动作值,包括位置和姿态的调整差值。
图5
但是,图5所示的神经网络只能根据当前系统状态给出预测的动作值,却缺乏任务认知能力,即无法感知动作的优劣程度。上述问题进一步限制了模型在真实系统中的可行性,也完全摒除了模型顺应环境而优化策略的能力。这也是其他机器学习方法所面临的普遍性问题:若要获得具有高维决策能力的策略模型,常用的方法包括模仿学习和强化学习。一方面,端对端的模仿学习通常不具备后优化能力,即模型在学习了示教数据后,很难在环境交互任务中继续完成策略的优化;另一方面,强化学习虽然可以在环境交互任务中继续优化策略,以逐渐顺应不断变化的动态环境,但由于缺乏兼具超声多模态成像原理的仿真环境,使得现有的相关工作距离真实系统还有一段距离。此外,虽然逆强化学习和生成对抗模仿学习等方法能够保证模型从示教任务中学习,并在交互任务中优化,但是在真实系统下的可行性与稳定性仍需要更深入的研究与探索。
为了解决上述问题,可在神经网络具备任务认知能力的基础上,结合引导探索完成预训练模型的后优化。如图6所示,保留预训练模型对多模态信号的编码过程,并引入状态评价网络以弥补任务的认知能力。具体做法为,在完成任务示教后增加适当的二分类标签,其中正、负标签表示“可接受”或“不能接受”的状态,在超声任务中则依据“当前图像是否为目标超声图像”进行划分。当状态评价网络能够完成状态分类任务后,可由当前状态的置信度(正标签的概率)作为模型在真实系统中表现的判断依据,并结合引导探索完成模型的策略优化。
图6
如图7所示为基于引导探索的策略优化方式。在真实的人机交互场景中,由预训练模型自主完成整个超声检查流程,而对于部分低奖励动作,模型可以结合专家在线示教的动作,以不断优化自身策略。其关键之处在于,预训练模型对于置信度计算可以作为奖励函数,由此比较人类动作与模型动作的奖励值,并进一步学习高奖励动作以在线更新模型策略,最终完成模型的后续优化。
图7
图8
图8展示了模仿学习中的示教过程。在示教任务中,专业超声医师以超声仪器的图像为主要参考,结合探头的位置、姿态、接触力做出适当的调整,最终获取目标器官居中且呈像清晰的高质量超声图像,如图9所示。采用马尔可夫过程对每一条示教轨迹进行离散记录,并在每一条轨迹完成后由专业超声医师补充二分类标签。
图9
模仿学习的预训练过程如图10所示。在测试集的动作回归任务中,预训练模型的表现较好,不仅能够预测出各种状态下的位置差值和姿态差值,而且依时序输出的动作值更加平滑,避免了示教数据记录过程中由均匀采样引起的数值突变,如图10(b-h)所示。但是,图10(a)所示的损失曲线也说明模型在预训练过程中有过拟合趋势,即预训练模型的任务理解能力和泛化能力不足,最终导致该模型在实际场景中的表现欠佳。上述问题将由结合引导探索的模型后优化方式解决。
图10
将预训练模型部署到真实超声机器人系统中,并在真实场景的交互实验中完成引导探索,以验证引导探索优化方式的可行性与有效性。如图11所示,预训练模型(a)在真实系统中存在过度运动的趋势,对任务的理解能力与决策能力不足;在引导探索的过程中,对模型的参数进行了100次更新,优化模型(b)在实机实验中能够以平滑的动作获取高质量超声图像。两次任务中的置信度变化曲线如图12所示,优化模型的启动时间和动作平滑度均明显优于预训练模型,而且能够更快速地定位并保持在目标状态。由此证明,所提出的引导探索优化策略能够以少量数据而显著改善预训练模型的任务表现能力。
图11
图12
武汉大学李淼老师团队为自主式超声机器人的运动预测提供了一种泛用框架。首次对超声扫查过程中的多模态问题进行分析归纳,提出了现阶段最为完备的超声技能学习模型。在此基础上,提出用模仿学习的方式使得模型学习专家示教数据以快速掌握部分任务策略。最后,针对现阶段强化学习和模仿学习均未解决的模型后优化问题,提出由引导探索的完成模型的在线优化。实验证明,上述方法聚焦于超声任务的本质特征而不依赖于某一具体机器人系统,模型即能够快速掌握部分示教任务技能,同时也能凭借少量的引导探索而获得显著的改善。该团队表示,未来将更加深入地完善现有的模型与方法,推荐自主式超声向着临床方向发展。
https://arxiv.org/abs/2111.09739;https://arxiv.org/abs/2111.01625
miaoli@whu.edu.cn; dengxutian@whu.edu.cn
https://www.bilibili.com/video/BV1tb4y1B7x1;https://www.bilibili.com/video/BV15a411677P