智能机器人与应用的现状与发展趋势
1
2009
... 机器人的研发、制造和应用是衡量一个国家科技创新、高端制造水平以及综合国力的重要标志.现阶段,美国、日本、德国等国家已将机器人作为一个战略高新技术并给予支持,旨在大力发展颠覆性机器人技术和系统,确保其在机器人领域的领导地位,如美国于 2011 年正式推出《国家机器人计划》,日本于 2015 年公布了《机器人新战略》,欧盟于 2016 年启动了《欧盟机器人研究计划》.与此同时,我国于2015年部署了《中国制造2025》,明确指出需加快下一代机器人技术研发,抢占机器人技术及产业发展的下一个制高点.机器人技术最早被应用于工业领域.随着人工智能、物联网、传感器以及5G通信技术的迅猛发展,当今机器人的用途越来越广泛,其开始从传统的工业领域向军事、医疗、服务等领域渗透,同时在城市安全、国防和公共服务等领域扮演着越来越重要的角色[1,2,3,4]. ...
智能机器人与应用的现状与发展趋势
1
2009
... 机器人的研发、制造和应用是衡量一个国家科技创新、高端制造水平以及综合国力的重要标志.现阶段,美国、日本、德国等国家已将机器人作为一个战略高新技术并给予支持,旨在大力发展颠覆性机器人技术和系统,确保其在机器人领域的领导地位,如美国于 2011 年正式推出《国家机器人计划》,日本于 2015 年公布了《机器人新战略》,欧盟于 2016 年启动了《欧盟机器人研究计划》.与此同时,我国于2015年部署了《中国制造2025》,明确指出需加快下一代机器人技术研发,抢占机器人技术及产业发展的下一个制高点.机器人技术最早被应用于工业领域.随着人工智能、物联网、传感器以及5G通信技术的迅猛发展,当今机器人的用途越来越广泛,其开始从传统的工业领域向军事、医疗、服务等领域渗透,同时在城市安全、国防和公共服务等领域扮演着越来越重要的角色[1,2,3,4]. ...
智能机器人引领高新技术发展
1
2010
... 机器人的研发、制造和应用是衡量一个国家科技创新、高端制造水平以及综合国力的重要标志.现阶段,美国、日本、德国等国家已将机器人作为一个战略高新技术并给予支持,旨在大力发展颠覆性机器人技术和系统,确保其在机器人领域的领导地位,如美国于 2011 年正式推出《国家机器人计划》,日本于 2015 年公布了《机器人新战略》,欧盟于 2016 年启动了《欧盟机器人研究计划》.与此同时,我国于2015年部署了《中国制造2025》,明确指出需加快下一代机器人技术研发,抢占机器人技术及产业发展的下一个制高点.机器人技术最早被应用于工业领域.随着人工智能、物联网、传感器以及5G通信技术的迅猛发展,当今机器人的用途越来越广泛,其开始从传统的工业领域向军事、医疗、服务等领域渗透,同时在城市安全、国防和公共服务等领域扮演着越来越重要的角色[1,2,3,4]. ...
智能机器人引领高新技术发展
1
2010
... 机器人的研发、制造和应用是衡量一个国家科技创新、高端制造水平以及综合国力的重要标志.现阶段,美国、日本、德国等国家已将机器人作为一个战略高新技术并给予支持,旨在大力发展颠覆性机器人技术和系统,确保其在机器人领域的领导地位,如美国于 2011 年正式推出《国家机器人计划》,日本于 2015 年公布了《机器人新战略》,欧盟于 2016 年启动了《欧盟机器人研究计划》.与此同时,我国于2015年部署了《中国制造2025》,明确指出需加快下一代机器人技术研发,抢占机器人技术及产业发展的下一个制高点.机器人技术最早被应用于工业领域.随着人工智能、物联网、传感器以及5G通信技术的迅猛发展,当今机器人的用途越来越广泛,其开始从传统的工业领域向军事、医疗、服务等领域渗透,同时在城市安全、国防和公共服务等领域扮演着越来越重要的角色[1,2,3,4]. ...
机器人技术研究进展
1
2013
... 机器人的研发、制造和应用是衡量一个国家科技创新、高端制造水平以及综合国力的重要标志.现阶段,美国、日本、德国等国家已将机器人作为一个战略高新技术并给予支持,旨在大力发展颠覆性机器人技术和系统,确保其在机器人领域的领导地位,如美国于 2011 年正式推出《国家机器人计划》,日本于 2015 年公布了《机器人新战略》,欧盟于 2016 年启动了《欧盟机器人研究计划》.与此同时,我国于2015年部署了《中国制造2025》,明确指出需加快下一代机器人技术研发,抢占机器人技术及产业发展的下一个制高点.机器人技术最早被应用于工业领域.随着人工智能、物联网、传感器以及5G通信技术的迅猛发展,当今机器人的用途越来越广泛,其开始从传统的工业领域向军事、医疗、服务等领域渗透,同时在城市安全、国防和公共服务等领域扮演着越来越重要的角色[1,2,3,4]. ...
机器人技术研究进展
1
2013
... 机器人的研发、制造和应用是衡量一个国家科技创新、高端制造水平以及综合国力的重要标志.现阶段,美国、日本、德国等国家已将机器人作为一个战略高新技术并给予支持,旨在大力发展颠覆性机器人技术和系统,确保其在机器人领域的领导地位,如美国于 2011 年正式推出《国家机器人计划》,日本于 2015 年公布了《机器人新战略》,欧盟于 2016 年启动了《欧盟机器人研究计划》.与此同时,我国于2015年部署了《中国制造2025》,明确指出需加快下一代机器人技术研发,抢占机器人技术及产业发展的下一个制高点.机器人技术最早被应用于工业领域.随着人工智能、物联网、传感器以及5G通信技术的迅猛发展,当今机器人的用途越来越广泛,其开始从传统的工业领域向军事、医疗、服务等领域渗透,同时在城市安全、国防和公共服务等领域扮演着越来越重要的角色[1,2,3,4]. ...
The practical implementation of artificial intelligence technologies in medicine
1
2019
... 机器人的研发、制造和应用是衡量一个国家科技创新、高端制造水平以及综合国力的重要标志.现阶段,美国、日本、德国等国家已将机器人作为一个战略高新技术并给予支持,旨在大力发展颠覆性机器人技术和系统,确保其在机器人领域的领导地位,如美国于 2011 年正式推出《国家机器人计划》,日本于 2015 年公布了《机器人新战略》,欧盟于 2016 年启动了《欧盟机器人研究计划》.与此同时,我国于2015年部署了《中国制造2025》,明确指出需加快下一代机器人技术研发,抢占机器人技术及产业发展的下一个制高点.机器人技术最早被应用于工业领域.随着人工智能、物联网、传感器以及5G通信技术的迅猛发展,当今机器人的用途越来越广泛,其开始从传统的工业领域向军事、医疗、服务等领域渗透,同时在城市安全、国防和公共服务等领域扮演着越来越重要的角色[1,2,3,4]. ...
DeepFace:closing the gap to human-level performance in face verification
2
2014
... 人脸识别是智能导诊机器人对患者进行身份认证的关键技术.人脸识别的本质是设计鲁棒的人脸特征描述,将待识别的人脸特征与大规模数据库进行比对,实现实时验证.现实生活中,光照、姿态、表情、年龄的变化,遮挡、伪装及图像成像质量等问题给人脸识别带来了很大的挑战,如图1所示.对人脸特征进行显性描述非常困难,而神经网络可通过学习的方式获得特征的隐性表达,适应性更强.因此,现阶段大量文献采用深度学习技术来学习鲁棒的多层次人脸特征.目前基于深度学习的人脸识别主要围绕神经网络结构设计及损失函数设计两方面展开研究[5,6,7,8,9,10,11,12,13,14].与传统算法相比,上述基于深度学习的人脸识别算法在公开数据集上的检测精度得到了很大提升. ...
... 但是值得一提的是,疫情期间,行人在公共场所需佩戴口罩来防止交叉感染.佩戴口罩导致人脸的大部分关键点受到遮挡,如图1(e)所示,使得现阶段基于深度学习的人脸识别算法精度大幅度下降.针对上述挑战,国内外多家科研机构进行了深入研究,在识别算法及数据集生成策略方面提出了一系列有效的解决方案.针对人脸识别算法,百度采用空间注意力机制进行特征学习,使算法着重关注未被遮挡且包含更多身份信息的眼部区域特征;北京旷视科技有限公司单独训练了一个人眼识别网络,并通过将人眼识别模型与原有的人脸识别模型进行融合来减小佩戴口罩所产生的影响;京东在胶囊网络框架下[15],通过引入注意力机制,使人脸识别集中在眼睛和眉毛等未被遮挡部分;华为提出一种影像重构技术,可通过图像重构网络将佩戴装饰(如眼镜、口罩、帽子等)的人脸图像重构为未佩戴装饰的人脸图像,并利用常规人脸识别算法对重构后的图像进行识别;北京的卢深视科技有限公司采用全局特征与局部特征相结合的方法,充分利用未被遮挡部分的三维信息进行三维人脸识别;南京大学工程管理学院针对面部遮挡,提出了非凸范数约束下的鲁棒回归分析方法,在遮挡环境下的人脸识别问题上取得了显著成果[16];布拉德福德大学采用最新的卷积神经网络结构以及预先训练的VGG-Face[5]模型来提取遮挡下的人脸特征,在此基础上使用余弦相似度和支持向量机两类分类器完成人脸识别[17].在数据集方面,百度提出基于人脸关键点的 3D 图像融合技术,使得生成的图片更加符合真实场景;北京旷视科技有限公司采用生成对抗网络来生成佩戴口罩的人脸图像;京东利用自研的 106关键点模型提取人脸关键点,并根据关键点确定口罩区域,在此基础上为人脸添加随机颜色的虚拟口罩来生成人脸数据;北京的卢深视科技有限公司首先重构三维人脸模型,继而将口罩的三维模板模型与三维人脸模型做非刚性对齐,从而完成模拟佩戴口罩的操作. ...
Deep learning face representation from predicting 10000 classes
1
2014
... 人脸识别是智能导诊机器人对患者进行身份认证的关键技术.人脸识别的本质是设计鲁棒的人脸特征描述,将待识别的人脸特征与大规模数据库进行比对,实现实时验证.现实生活中,光照、姿态、表情、年龄的变化,遮挡、伪装及图像成像质量等问题给人脸识别带来了很大的挑战,如图1所示.对人脸特征进行显性描述非常困难,而神经网络可通过学习的方式获得特征的隐性表达,适应性更强.因此,现阶段大量文献采用深度学习技术来学习鲁棒的多层次人脸特征.目前基于深度学习的人脸识别主要围绕神经网络结构设计及损失函数设计两方面展开研究[5,6,7,8,9,10,11,12,13,14].与传统算法相比,上述基于深度学习的人脸识别算法在公开数据集上的检测精度得到了很大提升. ...
Deep face recognition
1
2015
... 人脸识别是智能导诊机器人对患者进行身份认证的关键技术.人脸识别的本质是设计鲁棒的人脸特征描述,将待识别的人脸特征与大规模数据库进行比对,实现实时验证.现实生活中,光照、姿态、表情、年龄的变化,遮挡、伪装及图像成像质量等问题给人脸识别带来了很大的挑战,如图1所示.对人脸特征进行显性描述非常困难,而神经网络可通过学习的方式获得特征的隐性表达,适应性更强.因此,现阶段大量文献采用深度学习技术来学习鲁棒的多层次人脸特征.目前基于深度学习的人脸识别主要围绕神经网络结构设计及损失函数设计两方面展开研究[5,6,7,8,9,10,11,12,13,14].与传统算法相比,上述基于深度学习的人脸识别算法在公开数据集上的检测精度得到了很大提升. ...
FaceNet:a unified embedding for face recognition and clustering
1
2015
... 人脸识别是智能导诊机器人对患者进行身份认证的关键技术.人脸识别的本质是设计鲁棒的人脸特征描述,将待识别的人脸特征与大规模数据库进行比对,实现实时验证.现实生活中,光照、姿态、表情、年龄的变化,遮挡、伪装及图像成像质量等问题给人脸识别带来了很大的挑战,如图1所示.对人脸特征进行显性描述非常困难,而神经网络可通过学习的方式获得特征的隐性表达,适应性更强.因此,现阶段大量文献采用深度学习技术来学习鲁棒的多层次人脸特征.目前基于深度学习的人脸识别主要围绕神经网络结构设计及损失函数设计两方面展开研究[5,6,7,8,9,10,11,12,13,14].与传统算法相比,上述基于深度学习的人脸识别算法在公开数据集上的检测精度得到了很大提升. ...
ArcFace:additive angular margin loss for deep face recognition
1
... 人脸识别是智能导诊机器人对患者进行身份认证的关键技术.人脸识别的本质是设计鲁棒的人脸特征描述,将待识别的人脸特征与大规模数据库进行比对,实现实时验证.现实生活中,光照、姿态、表情、年龄的变化,遮挡、伪装及图像成像质量等问题给人脸识别带来了很大的挑战,如图1所示.对人脸特征进行显性描述非常困难,而神经网络可通过学习的方式获得特征的隐性表达,适应性更强.因此,现阶段大量文献采用深度学习技术来学习鲁棒的多层次人脸特征.目前基于深度学习的人脸识别主要围绕神经网络结构设计及损失函数设计两方面展开研究[5,6,7,8,9,10,11,12,13,14].与传统算法相比,上述基于深度学习的人脸识别算法在公开数据集上的检测精度得到了很大提升. ...
Bayesian face revisited:a joint formulation
1
2012
... 人脸识别是智能导诊机器人对患者进行身份认证的关键技术.人脸识别的本质是设计鲁棒的人脸特征描述,将待识别的人脸特征与大规模数据库进行比对,实现实时验证.现实生活中,光照、姿态、表情、年龄的变化,遮挡、伪装及图像成像质量等问题给人脸识别带来了很大的挑战,如图1所示.对人脸特征进行显性描述非常困难,而神经网络可通过学习的方式获得特征的隐性表达,适应性更强.因此,现阶段大量文献采用深度学习技术来学习鲁棒的多层次人脸特征.目前基于深度学习的人脸识别主要围绕神经网络结构设计及损失函数设计两方面展开研究[5,6,7,8,9,10,11,12,13,14].与传统算法相比,上述基于深度学习的人脸识别算法在公开数据集上的检测精度得到了很大提升. ...
Triplet similarity embedding for face verification
1
... 人脸识别是智能导诊机器人对患者进行身份认证的关键技术.人脸识别的本质是设计鲁棒的人脸特征描述,将待识别的人脸特征与大规模数据库进行比对,实现实时验证.现实生活中,光照、姿态、表情、年龄的变化,遮挡、伪装及图像成像质量等问题给人脸识别带来了很大的挑战,如图1所示.对人脸特征进行显性描述非常困难,而神经网络可通过学习的方式获得特征的隐性表达,适应性更强.因此,现阶段大量文献采用深度学习技术来学习鲁棒的多层次人脸特征.目前基于深度学习的人脸识别主要围绕神经网络结构设计及损失函数设计两方面展开研究[5,6,7,8,9,10,11,12,13,14].与传统算法相比,上述基于深度学习的人脸识别算法在公开数据集上的检测精度得到了很大提升. ...
Triplet probabilistic embedding for face verification and clustering
1
2016
... 人脸识别是智能导诊机器人对患者进行身份认证的关键技术.人脸识别的本质是设计鲁棒的人脸特征描述,将待识别的人脸特征与大规模数据库进行比对,实现实时验证.现实生活中,光照、姿态、表情、年龄的变化,遮挡、伪装及图像成像质量等问题给人脸识别带来了很大的挑战,如图1所示.对人脸特征进行显性描述非常困难,而神经网络可通过学习的方式获得特征的隐性表达,适应性更强.因此,现阶段大量文献采用深度学习技术来学习鲁棒的多层次人脸特征.目前基于深度学习的人脸识别主要围绕神经网络结构设计及损失函数设计两方面展开研究[5,6,7,8,9,10,11,12,13,14].与传统算法相比,上述基于深度学习的人脸识别算法在公开数据集上的检测精度得到了很大提升. ...
Learning local image descriptors with deep Siamese and triplet convolutional networks by minimizing global loss functions
1
2016
... 人脸识别是智能导诊机器人对患者进行身份认证的关键技术.人脸识别的本质是设计鲁棒的人脸特征描述,将待识别的人脸特征与大规模数据库进行比对,实现实时验证.现实生活中,光照、姿态、表情、年龄的变化,遮挡、伪装及图像成像质量等问题给人脸识别带来了很大的挑战,如图1所示.对人脸特征进行显性描述非常困难,而神经网络可通过学习的方式获得特征的隐性表达,适应性更强.因此,现阶段大量文献采用深度学习技术来学习鲁棒的多层次人脸特征.目前基于深度学习的人脸识别主要围绕神经网络结构设计及损失函数设计两方面展开研究[5,6,7,8,9,10,11,12,13,14].与传统算法相比,上述基于深度学习的人脸识别算法在公开数据集上的检测精度得到了很大提升. ...
Enhancing convolutional neural networks for face recognition with occlusion maps and batch triplet loss
1
2017
... 人脸识别是智能导诊机器人对患者进行身份认证的关键技术.人脸识别的本质是设计鲁棒的人脸特征描述,将待识别的人脸特征与大规模数据库进行比对,实现实时验证.现实生活中,光照、姿态、表情、年龄的变化,遮挡、伪装及图像成像质量等问题给人脸识别带来了很大的挑战,如图1所示.对人脸特征进行显性描述非常困难,而神经网络可通过学习的方式获得特征的隐性表达,适应性更强.因此,现阶段大量文献采用深度学习技术来学习鲁棒的多层次人脸特征.目前基于深度学习的人脸识别主要围绕神经网络结构设计及损失函数设计两方面展开研究[5,6,7,8,9,10,11,12,13,14].与传统算法相比,上述基于深度学习的人脸识别算法在公开数据集上的检测精度得到了很大提升. ...
Dynamic routing between capsules
1
2017
... 但是值得一提的是,疫情期间,行人在公共场所需佩戴口罩来防止交叉感染.佩戴口罩导致人脸的大部分关键点受到遮挡,如图1(e)所示,使得现阶段基于深度学习的人脸识别算法精度大幅度下降.针对上述挑战,国内外多家科研机构进行了深入研究,在识别算法及数据集生成策略方面提出了一系列有效的解决方案.针对人脸识别算法,百度采用空间注意力机制进行特征学习,使算法着重关注未被遮挡且包含更多身份信息的眼部区域特征;北京旷视科技有限公司单独训练了一个人眼识别网络,并通过将人眼识别模型与原有的人脸识别模型进行融合来减小佩戴口罩所产生的影响;京东在胶囊网络框架下[15],通过引入注意力机制,使人脸识别集中在眼睛和眉毛等未被遮挡部分;华为提出一种影像重构技术,可通过图像重构网络将佩戴装饰(如眼镜、口罩、帽子等)的人脸图像重构为未佩戴装饰的人脸图像,并利用常规人脸识别算法对重构后的图像进行识别;北京的卢深视科技有限公司采用全局特征与局部特征相结合的方法,充分利用未被遮挡部分的三维信息进行三维人脸识别;南京大学工程管理学院针对面部遮挡,提出了非凸范数约束下的鲁棒回归分析方法,在遮挡环境下的人脸识别问题上取得了显著成果[16];布拉德福德大学采用最新的卷积神经网络结构以及预先训练的VGG-Face[5]模型来提取遮挡下的人脸特征,在此基础上使用余弦相似度和支持向量机两类分类器完成人脸识别[17].在数据集方面,百度提出基于人脸关键点的 3D 图像融合技术,使得生成的图片更加符合真实场景;北京旷视科技有限公司采用生成对抗网络来生成佩戴口罩的人脸图像;京东利用自研的 106关键点模型提取人脸关键点,并根据关键点确定口罩区域,在此基础上为人脸添加随机颜色的虚拟口罩来生成人脸数据;北京的卢深视科技有限公司首先重构三维人脸模型,继而将口罩的三维模板模型与三维人脸模型做非刚性对齐,从而完成模拟佩戴口罩的操作. ...
Enhanced group sparse regularized nonconvex regression for face recognition
1
2020
... 但是值得一提的是,疫情期间,行人在公共场所需佩戴口罩来防止交叉感染.佩戴口罩导致人脸的大部分关键点受到遮挡,如图1(e)所示,使得现阶段基于深度学习的人脸识别算法精度大幅度下降.针对上述挑战,国内外多家科研机构进行了深入研究,在识别算法及数据集生成策略方面提出了一系列有效的解决方案.针对人脸识别算法,百度采用空间注意力机制进行特征学习,使算法着重关注未被遮挡且包含更多身份信息的眼部区域特征;北京旷视科技有限公司单独训练了一个人眼识别网络,并通过将人眼识别模型与原有的人脸识别模型进行融合来减小佩戴口罩所产生的影响;京东在胶囊网络框架下[15],通过引入注意力机制,使人脸识别集中在眼睛和眉毛等未被遮挡部分;华为提出一种影像重构技术,可通过图像重构网络将佩戴装饰(如眼镜、口罩、帽子等)的人脸图像重构为未佩戴装饰的人脸图像,并利用常规人脸识别算法对重构后的图像进行识别;北京的卢深视科技有限公司采用全局特征与局部特征相结合的方法,充分利用未被遮挡部分的三维信息进行三维人脸识别;南京大学工程管理学院针对面部遮挡,提出了非凸范数约束下的鲁棒回归分析方法,在遮挡环境下的人脸识别问题上取得了显著成果[16];布拉德福德大学采用最新的卷积神经网络结构以及预先训练的VGG-Face[5]模型来提取遮挡下的人脸特征,在此基础上使用余弦相似度和支持向量机两类分类器完成人脸识别[17].在数据集方面,百度提出基于人脸关键点的 3D 图像融合技术,使得生成的图片更加符合真实场景;北京旷视科技有限公司采用生成对抗网络来生成佩戴口罩的人脸图像;京东利用自研的 106关键点模型提取人脸关键点,并根据关键点确定口罩区域,在此基础上为人脸添加随机颜色的虚拟口罩来生成人脸数据;北京的卢深视科技有限公司首先重构三维人脸模型,继而将口罩的三维模板模型与三维人脸模型做非刚性对齐,从而完成模拟佩戴口罩的操作. ...
Deep face recognition using imperfect facial data
1
2019
... 但是值得一提的是,疫情期间,行人在公共场所需佩戴口罩来防止交叉感染.佩戴口罩导致人脸的大部分关键点受到遮挡,如图1(e)所示,使得现阶段基于深度学习的人脸识别算法精度大幅度下降.针对上述挑战,国内外多家科研机构进行了深入研究,在识别算法及数据集生成策略方面提出了一系列有效的解决方案.针对人脸识别算法,百度采用空间注意力机制进行特征学习,使算法着重关注未被遮挡且包含更多身份信息的眼部区域特征;北京旷视科技有限公司单独训练了一个人眼识别网络,并通过将人眼识别模型与原有的人脸识别模型进行融合来减小佩戴口罩所产生的影响;京东在胶囊网络框架下[15],通过引入注意力机制,使人脸识别集中在眼睛和眉毛等未被遮挡部分;华为提出一种影像重构技术,可通过图像重构网络将佩戴装饰(如眼镜、口罩、帽子等)的人脸图像重构为未佩戴装饰的人脸图像,并利用常规人脸识别算法对重构后的图像进行识别;北京的卢深视科技有限公司采用全局特征与局部特征相结合的方法,充分利用未被遮挡部分的三维信息进行三维人脸识别;南京大学工程管理学院针对面部遮挡,提出了非凸范数约束下的鲁棒回归分析方法,在遮挡环境下的人脸识别问题上取得了显著成果[16];布拉德福德大学采用最新的卷积神经网络结构以及预先训练的VGG-Face[5]模型来提取遮挡下的人脸特征,在此基础上使用余弦相似度和支持向量机两类分类器完成人脸识别[17].在数据集方面,百度提出基于人脸关键点的 3D 图像融合技术,使得生成的图片更加符合真实场景;北京旷视科技有限公司采用生成对抗网络来生成佩戴口罩的人脸图像;京东利用自研的 106关键点模型提取人脸关键点,并根据关键点确定口罩区域,在此基础上为人脸添加随机颜色的虚拟口罩来生成人脸数据;北京的卢深视科技有限公司首先重构三维人脸模型,继而将口罩的三维模板模型与三维人脸模型做非刚性对齐,从而完成模拟佩戴口罩的操作. ...
Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition
1
2011
... 防疫期间,智能导诊机器人肩负着相关医疗咨询服务的责任,通过人工智能解答,借助语音交互技术,快速应对网络问诊和信息上报的需求.智能导诊机器人中的语音交互主要涉及语音识别与语音合成,用于实现语音片段与文本之间的转换.相较于一般的自然语言处理任务,语音识别的特殊之处在于声学模型.因此,与语音识别相关的研究主要围绕声学模型展开.经典的声学模型GMM-HMM 分别采用广义矩估计(generalized method of moment,GMM)和隐马尔可夫模型(hidden Markov model,HMM)对语音的观察概率及语音的时序进行建模,导致无法学习深层非线性特征变换.微软于 2012 年率先将前馈神经网络(feedforward neural network,FNN)引入声学模型建模[18],大大降低了语音识别的错误率,引领了DNN-HMM 混合声学模型的风潮,并衍生出RNN-HMM、LSTM-HMM、CNN-HMM 等混合声学模型[19,20,21,22,23].上述基于 DNN-HMM 的声学模型要求训练特征序列和标注特征序列必须是等长的,即训练数据中每一帧都要预先确定对应的标注.针对上述问题,谷歌 Graves A 等人[24]将连接时序分类(connectionist temporal classification,CTC)技术引入语音识别,通过前向后向算法自动学习语音特征中的模型边界,解决训练特征序列与标注特征序列不等长的问题,实现了端到端语音识别.至此,业界开始在语音识别系统中大量使用 CTC 技术,如百度的Deep Speech[25]和Deep Speech 2[26]、谷歌的NSR[27]等,均取得了比传统混合识别系统更好的性能.但是,CTC技术无法对输出之间的依赖关系进行建模,对上下文信息利用不充分.针对 CTC 技术的不足,谷歌Graves A[28]提出了RNN-T模型,巧妙地将语言模型与声学模型整合在一起进行联合优化.考虑到语音识别的本质是两个序列之间的转换,谷歌将机器翻译中广泛使用的基于注意力机制的Seq2Seq模型引入语音识别,提出了一种新颖的端到端的语音识别框架LAS[29-30].尽管当前语音识别精度取得了较大的提升,但是重口音、方言、嘈杂环境、多人同时说话等场景下的语音识别仍表现不佳,这是当前语音交互面临的重要挑战. ...
Revisiting recurrent neural network for robust ASR
1
2012
... 防疫期间,智能导诊机器人肩负着相关医疗咨询服务的责任,通过人工智能解答,借助语音交互技术,快速应对网络问诊和信息上报的需求.智能导诊机器人中的语音交互主要涉及语音识别与语音合成,用于实现语音片段与文本之间的转换.相较于一般的自然语言处理任务,语音识别的特殊之处在于声学模型.因此,与语音识别相关的研究主要围绕声学模型展开.经典的声学模型GMM-HMM 分别采用广义矩估计(generalized method of moment,GMM)和隐马尔可夫模型(hidden Markov model,HMM)对语音的观察概率及语音的时序进行建模,导致无法学习深层非线性特征变换.微软于 2012 年率先将前馈神经网络(feedforward neural network,FNN)引入声学模型建模[18],大大降低了语音识别的错误率,引领了DNN-HMM 混合声学模型的风潮,并衍生出RNN-HMM、LSTM-HMM、CNN-HMM 等混合声学模型[19,20,21,22,23].上述基于 DNN-HMM 的声学模型要求训练特征序列和标注特征序列必须是等长的,即训练数据中每一帧都要预先确定对应的标注.针对上述问题,谷歌 Graves A 等人[24]将连接时序分类(connectionist temporal classification,CTC)技术引入语音识别,通过前向后向算法自动学习语音特征中的模型边界,解决训练特征序列与标注特征序列不等长的问题,实现了端到端语音识别.至此,业界开始在语音识别系统中大量使用 CTC 技术,如百度的Deep Speech[25]和Deep Speech 2[26]、谷歌的NSR[27]等,均取得了比传统混合识别系统更好的性能.但是,CTC技术无法对输出之间的依赖关系进行建模,对上下文信息利用不充分.针对 CTC 技术的不足,谷歌Graves A[28]提出了RNN-T模型,巧妙地将语言模型与声学模型整合在一起进行联合优化.考虑到语音识别的本质是两个序列之间的转换,谷歌将机器翻译中广泛使用的基于注意力机制的Seq2Seq模型引入语音识别,提出了一种新颖的端到端的语音识别框架LAS[29-30].尽管当前语音识别精度取得了较大的提升,但是重口音、方言、嘈杂环境、多人同时说话等场景下的语音识别仍表现不佳,这是当前语音交互面临的重要挑战. ...
Recurrent neural networks for noise reduction in robust ASR
1
2012
... 防疫期间,智能导诊机器人肩负着相关医疗咨询服务的责任,通过人工智能解答,借助语音交互技术,快速应对网络问诊和信息上报的需求.智能导诊机器人中的语音交互主要涉及语音识别与语音合成,用于实现语音片段与文本之间的转换.相较于一般的自然语言处理任务,语音识别的特殊之处在于声学模型.因此,与语音识别相关的研究主要围绕声学模型展开.经典的声学模型GMM-HMM 分别采用广义矩估计(generalized method of moment,GMM)和隐马尔可夫模型(hidden Markov model,HMM)对语音的观察概率及语音的时序进行建模,导致无法学习深层非线性特征变换.微软于 2012 年率先将前馈神经网络(feedforward neural network,FNN)引入声学模型建模[18],大大降低了语音识别的错误率,引领了DNN-HMM 混合声学模型的风潮,并衍生出RNN-HMM、LSTM-HMM、CNN-HMM 等混合声学模型[19,20,21,22,23].上述基于 DNN-HMM 的声学模型要求训练特征序列和标注特征序列必须是等长的,即训练数据中每一帧都要预先确定对应的标注.针对上述问题,谷歌 Graves A 等人[24]将连接时序分类(connectionist temporal classification,CTC)技术引入语音识别,通过前向后向算法自动学习语音特征中的模型边界,解决训练特征序列与标注特征序列不等长的问题,实现了端到端语音识别.至此,业界开始在语音识别系统中大量使用 CTC 技术,如百度的Deep Speech[25]和Deep Speech 2[26]、谷歌的NSR[27]等,均取得了比传统混合识别系统更好的性能.但是,CTC技术无法对输出之间的依赖关系进行建模,对上下文信息利用不充分.针对 CTC 技术的不足,谷歌Graves A[28]提出了RNN-T模型,巧妙地将语言模型与声学模型整合在一起进行联合优化.考虑到语音识别的本质是两个序列之间的转换,谷歌将机器翻译中广泛使用的基于注意力机制的Seq2Seq模型引入语音识别,提出了一种新颖的端到端的语音识别框架LAS[29-30].尽管当前语音识别精度取得了较大的提升,但是重口音、方言、嘈杂环境、多人同时说话等场景下的语音识别仍表现不佳,这是当前语音交互面临的重要挑战. ...
Hybrid speech recognition with deep bidirectional LSTM
1
2013
... 防疫期间,智能导诊机器人肩负着相关医疗咨询服务的责任,通过人工智能解答,借助语音交互技术,快速应对网络问诊和信息上报的需求.智能导诊机器人中的语音交互主要涉及语音识别与语音合成,用于实现语音片段与文本之间的转换.相较于一般的自然语言处理任务,语音识别的特殊之处在于声学模型.因此,与语音识别相关的研究主要围绕声学模型展开.经典的声学模型GMM-HMM 分别采用广义矩估计(generalized method of moment,GMM)和隐马尔可夫模型(hidden Markov model,HMM)对语音的观察概率及语音的时序进行建模,导致无法学习深层非线性特征变换.微软于 2012 年率先将前馈神经网络(feedforward neural network,FNN)引入声学模型建模[18],大大降低了语音识别的错误率,引领了DNN-HMM 混合声学模型的风潮,并衍生出RNN-HMM、LSTM-HMM、CNN-HMM 等混合声学模型[19,20,21,22,23].上述基于 DNN-HMM 的声学模型要求训练特征序列和标注特征序列必须是等长的,即训练数据中每一帧都要预先确定对应的标注.针对上述问题,谷歌 Graves A 等人[24]将连接时序分类(connectionist temporal classification,CTC)技术引入语音识别,通过前向后向算法自动学习语音特征中的模型边界,解决训练特征序列与标注特征序列不等长的问题,实现了端到端语音识别.至此,业界开始在语音识别系统中大量使用 CTC 技术,如百度的Deep Speech[25]和Deep Speech 2[26]、谷歌的NSR[27]等,均取得了比传统混合识别系统更好的性能.但是,CTC技术无法对输出之间的依赖关系进行建模,对上下文信息利用不充分.针对 CTC 技术的不足,谷歌Graves A[28]提出了RNN-T模型,巧妙地将语言模型与声学模型整合在一起进行联合优化.考虑到语音识别的本质是两个序列之间的转换,谷歌将机器翻译中广泛使用的基于注意力机制的Seq2Seq模型引入语音识别,提出了一种新颖的端到端的语音识别框架LAS[29-30].尽管当前语音识别精度取得了较大的提升,但是重口音、方言、嘈杂环境、多人同时说话等场景下的语音识别仍表现不佳,这是当前语音交互面临的重要挑战. ...
Convolutional neural networks for speech recognition
1
2014
... 防疫期间,智能导诊机器人肩负着相关医疗咨询服务的责任,通过人工智能解答,借助语音交互技术,快速应对网络问诊和信息上报的需求.智能导诊机器人中的语音交互主要涉及语音识别与语音合成,用于实现语音片段与文本之间的转换.相较于一般的自然语言处理任务,语音识别的特殊之处在于声学模型.因此,与语音识别相关的研究主要围绕声学模型展开.经典的声学模型GMM-HMM 分别采用广义矩估计(generalized method of moment,GMM)和隐马尔可夫模型(hidden Markov model,HMM)对语音的观察概率及语音的时序进行建模,导致无法学习深层非线性特征变换.微软于 2012 年率先将前馈神经网络(feedforward neural network,FNN)引入声学模型建模[18],大大降低了语音识别的错误率,引领了DNN-HMM 混合声学模型的风潮,并衍生出RNN-HMM、LSTM-HMM、CNN-HMM 等混合声学模型[19,20,21,22,23].上述基于 DNN-HMM 的声学模型要求训练特征序列和标注特征序列必须是等长的,即训练数据中每一帧都要预先确定对应的标注.针对上述问题,谷歌 Graves A 等人[24]将连接时序分类(connectionist temporal classification,CTC)技术引入语音识别,通过前向后向算法自动学习语音特征中的模型边界,解决训练特征序列与标注特征序列不等长的问题,实现了端到端语音识别.至此,业界开始在语音识别系统中大量使用 CTC 技术,如百度的Deep Speech[25]和Deep Speech 2[26]、谷歌的NSR[27]等,均取得了比传统混合识别系统更好的性能.但是,CTC技术无法对输出之间的依赖关系进行建模,对上下文信息利用不充分.针对 CTC 技术的不足,谷歌Graves A[28]提出了RNN-T模型,巧妙地将语言模型与声学模型整合在一起进行联合优化.考虑到语音识别的本质是两个序列之间的转换,谷歌将机器翻译中广泛使用的基于注意力机制的Seq2Seq模型引入语音识别,提出了一种新颖的端到端的语音识别框架LAS[29-30].尽管当前语音识别精度取得了较大的提升,但是重口音、方言、嘈杂环境、多人同时说话等场景下的语音识别仍表现不佳,这是当前语音交互面临的重要挑战. ...
Convolutional,long short-term memory,fully connected deep neural networks
1
2015
... 防疫期间,智能导诊机器人肩负着相关医疗咨询服务的责任,通过人工智能解答,借助语音交互技术,快速应对网络问诊和信息上报的需求.智能导诊机器人中的语音交互主要涉及语音识别与语音合成,用于实现语音片段与文本之间的转换.相较于一般的自然语言处理任务,语音识别的特殊之处在于声学模型.因此,与语音识别相关的研究主要围绕声学模型展开.经典的声学模型GMM-HMM 分别采用广义矩估计(generalized method of moment,GMM)和隐马尔可夫模型(hidden Markov model,HMM)对语音的观察概率及语音的时序进行建模,导致无法学习深层非线性特征变换.微软于 2012 年率先将前馈神经网络(feedforward neural network,FNN)引入声学模型建模[18],大大降低了语音识别的错误率,引领了DNN-HMM 混合声学模型的风潮,并衍生出RNN-HMM、LSTM-HMM、CNN-HMM 等混合声学模型[19,20,21,22,23].上述基于 DNN-HMM 的声学模型要求训练特征序列和标注特征序列必须是等长的,即训练数据中每一帧都要预先确定对应的标注.针对上述问题,谷歌 Graves A 等人[24]将连接时序分类(connectionist temporal classification,CTC)技术引入语音识别,通过前向后向算法自动学习语音特征中的模型边界,解决训练特征序列与标注特征序列不等长的问题,实现了端到端语音识别.至此,业界开始在语音识别系统中大量使用 CTC 技术,如百度的Deep Speech[25]和Deep Speech 2[26]、谷歌的NSR[27]等,均取得了比传统混合识别系统更好的性能.但是,CTC技术无法对输出之间的依赖关系进行建模,对上下文信息利用不充分.针对 CTC 技术的不足,谷歌Graves A[28]提出了RNN-T模型,巧妙地将语言模型与声学模型整合在一起进行联合优化.考虑到语音识别的本质是两个序列之间的转换,谷歌将机器翻译中广泛使用的基于注意力机制的Seq2Seq模型引入语音识别,提出了一种新颖的端到端的语音识别框架LAS[29-30].尽管当前语音识别精度取得了较大的提升,但是重口音、方言、嘈杂环境、多人同时说话等场景下的语音识别仍表现不佳,这是当前语音交互面临的重要挑战. ...
Connectionist temporal classification:labelling unsegmented sequence data with recurrent neural networks
1
2006
... 防疫期间,智能导诊机器人肩负着相关医疗咨询服务的责任,通过人工智能解答,借助语音交互技术,快速应对网络问诊和信息上报的需求.智能导诊机器人中的语音交互主要涉及语音识别与语音合成,用于实现语音片段与文本之间的转换.相较于一般的自然语言处理任务,语音识别的特殊之处在于声学模型.因此,与语音识别相关的研究主要围绕声学模型展开.经典的声学模型GMM-HMM 分别采用广义矩估计(generalized method of moment,GMM)和隐马尔可夫模型(hidden Markov model,HMM)对语音的观察概率及语音的时序进行建模,导致无法学习深层非线性特征变换.微软于 2012 年率先将前馈神经网络(feedforward neural network,FNN)引入声学模型建模[18],大大降低了语音识别的错误率,引领了DNN-HMM 混合声学模型的风潮,并衍生出RNN-HMM、LSTM-HMM、CNN-HMM 等混合声学模型[19,20,21,22,23].上述基于 DNN-HMM 的声学模型要求训练特征序列和标注特征序列必须是等长的,即训练数据中每一帧都要预先确定对应的标注.针对上述问题,谷歌 Graves A 等人[24]将连接时序分类(connectionist temporal classification,CTC)技术引入语音识别,通过前向后向算法自动学习语音特征中的模型边界,解决训练特征序列与标注特征序列不等长的问题,实现了端到端语音识别.至此,业界开始在语音识别系统中大量使用 CTC 技术,如百度的Deep Speech[25]和Deep Speech 2[26]、谷歌的NSR[27]等,均取得了比传统混合识别系统更好的性能.但是,CTC技术无法对输出之间的依赖关系进行建模,对上下文信息利用不充分.针对 CTC 技术的不足,谷歌Graves A[28]提出了RNN-T模型,巧妙地将语言模型与声学模型整合在一起进行联合优化.考虑到语音识别的本质是两个序列之间的转换,谷歌将机器翻译中广泛使用的基于注意力机制的Seq2Seq模型引入语音识别,提出了一种新颖的端到端的语音识别框架LAS[29-30].尽管当前语音识别精度取得了较大的提升,但是重口音、方言、嘈杂环境、多人同时说话等场景下的语音识别仍表现不佳,这是当前语音交互面临的重要挑战. ...
Deep Speech:scaling up end-to-end speech recognition
1
... 防疫期间,智能导诊机器人肩负着相关医疗咨询服务的责任,通过人工智能解答,借助语音交互技术,快速应对网络问诊和信息上报的需求.智能导诊机器人中的语音交互主要涉及语音识别与语音合成,用于实现语音片段与文本之间的转换.相较于一般的自然语言处理任务,语音识别的特殊之处在于声学模型.因此,与语音识别相关的研究主要围绕声学模型展开.经典的声学模型GMM-HMM 分别采用广义矩估计(generalized method of moment,GMM)和隐马尔可夫模型(hidden Markov model,HMM)对语音的观察概率及语音的时序进行建模,导致无法学习深层非线性特征变换.微软于 2012 年率先将前馈神经网络(feedforward neural network,FNN)引入声学模型建模[18],大大降低了语音识别的错误率,引领了DNN-HMM 混合声学模型的风潮,并衍生出RNN-HMM、LSTM-HMM、CNN-HMM 等混合声学模型[19,20,21,22,23].上述基于 DNN-HMM 的声学模型要求训练特征序列和标注特征序列必须是等长的,即训练数据中每一帧都要预先确定对应的标注.针对上述问题,谷歌 Graves A 等人[24]将连接时序分类(connectionist temporal classification,CTC)技术引入语音识别,通过前向后向算法自动学习语音特征中的模型边界,解决训练特征序列与标注特征序列不等长的问题,实现了端到端语音识别.至此,业界开始在语音识别系统中大量使用 CTC 技术,如百度的Deep Speech[25]和Deep Speech 2[26]、谷歌的NSR[27]等,均取得了比传统混合识别系统更好的性能.但是,CTC技术无法对输出之间的依赖关系进行建模,对上下文信息利用不充分.针对 CTC 技术的不足,谷歌Graves A[28]提出了RNN-T模型,巧妙地将语言模型与声学模型整合在一起进行联合优化.考虑到语音识别的本质是两个序列之间的转换,谷歌将机器翻译中广泛使用的基于注意力机制的Seq2Seq模型引入语音识别,提出了一种新颖的端到端的语音识别框架LAS[29-30].尽管当前语音识别精度取得了较大的提升,但是重口音、方言、嘈杂环境、多人同时说话等场景下的语音识别仍表现不佳,这是当前语音交互面临的重要挑战. ...
Deep Speech 2:end-to-end speech recognition in English and Mandarin
1
2016
... 防疫期间,智能导诊机器人肩负着相关医疗咨询服务的责任,通过人工智能解答,借助语音交互技术,快速应对网络问诊和信息上报的需求.智能导诊机器人中的语音交互主要涉及语音识别与语音合成,用于实现语音片段与文本之间的转换.相较于一般的自然语言处理任务,语音识别的特殊之处在于声学模型.因此,与语音识别相关的研究主要围绕声学模型展开.经典的声学模型GMM-HMM 分别采用广义矩估计(generalized method of moment,GMM)和隐马尔可夫模型(hidden Markov model,HMM)对语音的观察概率及语音的时序进行建模,导致无法学习深层非线性特征变换.微软于 2012 年率先将前馈神经网络(feedforward neural network,FNN)引入声学模型建模[18],大大降低了语音识别的错误率,引领了DNN-HMM 混合声学模型的风潮,并衍生出RNN-HMM、LSTM-HMM、CNN-HMM 等混合声学模型[19,20,21,22,23].上述基于 DNN-HMM 的声学模型要求训练特征序列和标注特征序列必须是等长的,即训练数据中每一帧都要预先确定对应的标注.针对上述问题,谷歌 Graves A 等人[24]将连接时序分类(connectionist temporal classification,CTC)技术引入语音识别,通过前向后向算法自动学习语音特征中的模型边界,解决训练特征序列与标注特征序列不等长的问题,实现了端到端语音识别.至此,业界开始在语音识别系统中大量使用 CTC 技术,如百度的Deep Speech[25]和Deep Speech 2[26]、谷歌的NSR[27]等,均取得了比传统混合识别系统更好的性能.但是,CTC技术无法对输出之间的依赖关系进行建模,对上下文信息利用不充分.针对 CTC 技术的不足,谷歌Graves A[28]提出了RNN-T模型,巧妙地将语言模型与声学模型整合在一起进行联合优化.考虑到语音识别的本质是两个序列之间的转换,谷歌将机器翻译中广泛使用的基于注意力机制的Seq2Seq模型引入语音识别,提出了一种新颖的端到端的语音识别框架LAS[29-30].尽管当前语音识别精度取得了较大的提升,但是重口音、方言、嘈杂环境、多人同时说话等场景下的语音识别仍表现不佳,这是当前语音交互面临的重要挑战. ...
Neural speech recognizer:acoustic-to-word LSTM model for large vocabulary speech recognition
1
2017
... 防疫期间,智能导诊机器人肩负着相关医疗咨询服务的责任,通过人工智能解答,借助语音交互技术,快速应对网络问诊和信息上报的需求.智能导诊机器人中的语音交互主要涉及语音识别与语音合成,用于实现语音片段与文本之间的转换.相较于一般的自然语言处理任务,语音识别的特殊之处在于声学模型.因此,与语音识别相关的研究主要围绕声学模型展开.经典的声学模型GMM-HMM 分别采用广义矩估计(generalized method of moment,GMM)和隐马尔可夫模型(hidden Markov model,HMM)对语音的观察概率及语音的时序进行建模,导致无法学习深层非线性特征变换.微软于 2012 年率先将前馈神经网络(feedforward neural network,FNN)引入声学模型建模[18],大大降低了语音识别的错误率,引领了DNN-HMM 混合声学模型的风潮,并衍生出RNN-HMM、LSTM-HMM、CNN-HMM 等混合声学模型[19,20,21,22,23].上述基于 DNN-HMM 的声学模型要求训练特征序列和标注特征序列必须是等长的,即训练数据中每一帧都要预先确定对应的标注.针对上述问题,谷歌 Graves A 等人[24]将连接时序分类(connectionist temporal classification,CTC)技术引入语音识别,通过前向后向算法自动学习语音特征中的模型边界,解决训练特征序列与标注特征序列不等长的问题,实现了端到端语音识别.至此,业界开始在语音识别系统中大量使用 CTC 技术,如百度的Deep Speech[25]和Deep Speech 2[26]、谷歌的NSR[27]等,均取得了比传统混合识别系统更好的性能.但是,CTC技术无法对输出之间的依赖关系进行建模,对上下文信息利用不充分.针对 CTC 技术的不足,谷歌Graves A[28]提出了RNN-T模型,巧妙地将语言模型与声学模型整合在一起进行联合优化.考虑到语音识别的本质是两个序列之间的转换,谷歌将机器翻译中广泛使用的基于注意力机制的Seq2Seq模型引入语音识别,提出了一种新颖的端到端的语音识别框架LAS[29-30].尽管当前语音识别精度取得了较大的提升,但是重口音、方言、嘈杂环境、多人同时说话等场景下的语音识别仍表现不佳,这是当前语音交互面临的重要挑战. ...
Sequence transduction with recurrent neural networks
1
2012
... 防疫期间,智能导诊机器人肩负着相关医疗咨询服务的责任,通过人工智能解答,借助语音交互技术,快速应对网络问诊和信息上报的需求.智能导诊机器人中的语音交互主要涉及语音识别与语音合成,用于实现语音片段与文本之间的转换.相较于一般的自然语言处理任务,语音识别的特殊之处在于声学模型.因此,与语音识别相关的研究主要围绕声学模型展开.经典的声学模型GMM-HMM 分别采用广义矩估计(generalized method of moment,GMM)和隐马尔可夫模型(hidden Markov model,HMM)对语音的观察概率及语音的时序进行建模,导致无法学习深层非线性特征变换.微软于 2012 年率先将前馈神经网络(feedforward neural network,FNN)引入声学模型建模[18],大大降低了语音识别的错误率,引领了DNN-HMM 混合声学模型的风潮,并衍生出RNN-HMM、LSTM-HMM、CNN-HMM 等混合声学模型[19,20,21,22,23].上述基于 DNN-HMM 的声学模型要求训练特征序列和标注特征序列必须是等长的,即训练数据中每一帧都要预先确定对应的标注.针对上述问题,谷歌 Graves A 等人[24]将连接时序分类(connectionist temporal classification,CTC)技术引入语音识别,通过前向后向算法自动学习语音特征中的模型边界,解决训练特征序列与标注特征序列不等长的问题,实现了端到端语音识别.至此,业界开始在语音识别系统中大量使用 CTC 技术,如百度的Deep Speech[25]和Deep Speech 2[26]、谷歌的NSR[27]等,均取得了比传统混合识别系统更好的性能.但是,CTC技术无法对输出之间的依赖关系进行建模,对上下文信息利用不充分.针对 CTC 技术的不足,谷歌Graves A[28]提出了RNN-T模型,巧妙地将语言模型与声学模型整合在一起进行联合优化.考虑到语音识别的本质是两个序列之间的转换,谷歌将机器翻译中广泛使用的基于注意力机制的Seq2Seq模型引入语音识别,提出了一种新颖的端到端的语音识别框架LAS[29-30].尽管当前语音识别精度取得了较大的提升,但是重口音、方言、嘈杂环境、多人同时说话等场景下的语音识别仍表现不佳,这是当前语音交互面临的重要挑战. ...
Listen,attend and spell:a neural network for large vocabulary conversation
1
2016
... 防疫期间,智能导诊机器人肩负着相关医疗咨询服务的责任,通过人工智能解答,借助语音交互技术,快速应对网络问诊和信息上报的需求.智能导诊机器人中的语音交互主要涉及语音识别与语音合成,用于实现语音片段与文本之间的转换.相较于一般的自然语言处理任务,语音识别的特殊之处在于声学模型.因此,与语音识别相关的研究主要围绕声学模型展开.经典的声学模型GMM-HMM 分别采用广义矩估计(generalized method of moment,GMM)和隐马尔可夫模型(hidden Markov model,HMM)对语音的观察概率及语音的时序进行建模,导致无法学习深层非线性特征变换.微软于 2012 年率先将前馈神经网络(feedforward neural network,FNN)引入声学模型建模[18],大大降低了语音识别的错误率,引领了DNN-HMM 混合声学模型的风潮,并衍生出RNN-HMM、LSTM-HMM、CNN-HMM 等混合声学模型[19,20,21,22,23].上述基于 DNN-HMM 的声学模型要求训练特征序列和标注特征序列必须是等长的,即训练数据中每一帧都要预先确定对应的标注.针对上述问题,谷歌 Graves A 等人[24]将连接时序分类(connectionist temporal classification,CTC)技术引入语音识别,通过前向后向算法自动学习语音特征中的模型边界,解决训练特征序列与标注特征序列不等长的问题,实现了端到端语音识别.至此,业界开始在语音识别系统中大量使用 CTC 技术,如百度的Deep Speech[25]和Deep Speech 2[26]、谷歌的NSR[27]等,均取得了比传统混合识别系统更好的性能.但是,CTC技术无法对输出之间的依赖关系进行建模,对上下文信息利用不充分.针对 CTC 技术的不足,谷歌Graves A[28]提出了RNN-T模型,巧妙地将语言模型与声学模型整合在一起进行联合优化.考虑到语音识别的本质是两个序列之间的转换,谷歌将机器翻译中广泛使用的基于注意力机制的Seq2Seq模型引入语音识别,提出了一种新颖的端到端的语音识别框架LAS[29-30].尽管当前语音识别精度取得了较大的提升,但是重口音、方言、嘈杂环境、多人同时说话等场景下的语音识别仍表现不佳,这是当前语音交互面临的重要挑战. ...
State-of-the-art speech recognition with sequence-to-sequence models
1
2018
... 防疫期间,智能导诊机器人肩负着相关医疗咨询服务的责任,通过人工智能解答,借助语音交互技术,快速应对网络问诊和信息上报的需求.智能导诊机器人中的语音交互主要涉及语音识别与语音合成,用于实现语音片段与文本之间的转换.相较于一般的自然语言处理任务,语音识别的特殊之处在于声学模型.因此,与语音识别相关的研究主要围绕声学模型展开.经典的声学模型GMM-HMM 分别采用广义矩估计(generalized method of moment,GMM)和隐马尔可夫模型(hidden Markov model,HMM)对语音的观察概率及语音的时序进行建模,导致无法学习深层非线性特征变换.微软于 2012 年率先将前馈神经网络(feedforward neural network,FNN)引入声学模型建模[18],大大降低了语音识别的错误率,引领了DNN-HMM 混合声学模型的风潮,并衍生出RNN-HMM、LSTM-HMM、CNN-HMM 等混合声学模型[19,20,21,22,23].上述基于 DNN-HMM 的声学模型要求训练特征序列和标注特征序列必须是等长的,即训练数据中每一帧都要预先确定对应的标注.针对上述问题,谷歌 Graves A 等人[24]将连接时序分类(connectionist temporal classification,CTC)技术引入语音识别,通过前向后向算法自动学习语音特征中的模型边界,解决训练特征序列与标注特征序列不等长的问题,实现了端到端语音识别.至此,业界开始在语音识别系统中大量使用 CTC 技术,如百度的Deep Speech[25]和Deep Speech 2[26]、谷歌的NSR[27]等,均取得了比传统混合识别系统更好的性能.但是,CTC技术无法对输出之间的依赖关系进行建模,对上下文信息利用不充分.针对 CTC 技术的不足,谷歌Graves A[28]提出了RNN-T模型,巧妙地将语言模型与声学模型整合在一起进行联合优化.考虑到语音识别的本质是两个序列之间的转换,谷歌将机器翻译中广泛使用的基于注意力机制的Seq2Seq模型引入语音识别,提出了一种新颖的端到端的语音识别框架LAS[29-30].尽管当前语音识别精度取得了较大的提升,但是重口音、方言、嘈杂环境、多人同时说话等场景下的语音识别仍表现不佳,这是当前语音交互面临的重要挑战. ...
WaveNet:a generative model for raw audio
1
... 针对语音合成,基于深度学习的语音合成逐渐成为主流方法,旨在利用深层神经网络的非线性建模能力,提升语音建模精度.谷歌于 2016 年提出一种基于完全概率和自回归的神经网络模型WaveNet,用于产生原始音频波[31].由于每次只预测一个采样点,WaveNet语音合成速度较慢.针对合成速度慢的问题,百度提出了Deep Voice[32],其采用模块化神经网络结构来模拟传统参数语音合成过程.虽然Deep Voice已经大大减少了人工特征数量,但仍需要使用音素标记、重音标记、基频等人工特征.为了降低语音合成对语言学知识的依赖,Tacotron[33]采用融合注意力的编码器-解码器网络设计端到端的语音合成模型,直接将输入文本生成语音.Tacotron发布不久后,百度的Deep Voice 2诞生了.Deep Voice 2将Deep Voice中的声码器由Griffin-Lim替换成WaveNet,同时引入说话人向量,以支持多说话人合成[34].与上一代不同,Deep Voice 3[35]采用融合注意力的全卷积编码器-解码器框架,可完全并行计算,合成速度较快.谷歌的Oord A V D等人[36]通过引入一种概率密度蒸馏方法,提出了一种并行 WaveNet 模型来提高语音合成的速度及精度.与此同时,谷歌和加州大学伯克利分校对Tacotron 进行改进,提出了语义合成模型Tacotron2[37].与上一代不同,Tacotron2 采用基于序列到序列的特征预测网络将字符嵌入梅尔标度谱图,并将改进后的WaveNet作为声码器来合成时域波,以提高语音合成精度.现阶段的语音合成系统大多基于Tacotron或Tacotron2实现,虽然效果不错,但在合成音的表现力上,特别是语气和情感方面,仍存在不足. ...
Deep Voice:real-time neural text-to-speech
1
2017
... 针对语音合成,基于深度学习的语音合成逐渐成为主流方法,旨在利用深层神经网络的非线性建模能力,提升语音建模精度.谷歌于 2016 年提出一种基于完全概率和自回归的神经网络模型WaveNet,用于产生原始音频波[31].由于每次只预测一个采样点,WaveNet语音合成速度较慢.针对合成速度慢的问题,百度提出了Deep Voice[32],其采用模块化神经网络结构来模拟传统参数语音合成过程.虽然Deep Voice已经大大减少了人工特征数量,但仍需要使用音素标记、重音标记、基频等人工特征.为了降低语音合成对语言学知识的依赖,Tacotron[33]采用融合注意力的编码器-解码器网络设计端到端的语音合成模型,直接将输入文本生成语音.Tacotron发布不久后,百度的Deep Voice 2诞生了.Deep Voice 2将Deep Voice中的声码器由Griffin-Lim替换成WaveNet,同时引入说话人向量,以支持多说话人合成[34].与上一代不同,Deep Voice 3[35]采用融合注意力的全卷积编码器-解码器框架,可完全并行计算,合成速度较快.谷歌的Oord A V D等人[36]通过引入一种概率密度蒸馏方法,提出了一种并行 WaveNet 模型来提高语音合成的速度及精度.与此同时,谷歌和加州大学伯克利分校对Tacotron 进行改进,提出了语义合成模型Tacotron2[37].与上一代不同,Tacotron2 采用基于序列到序列的特征预测网络将字符嵌入梅尔标度谱图,并将改进后的WaveNet作为声码器来合成时域波,以提高语音合成精度.现阶段的语音合成系统大多基于Tacotron或Tacotron2实现,虽然效果不错,但在合成音的表现力上,特别是语气和情感方面,仍存在不足. ...
Tacotron:towards end-to-end speech synthesis
1
2017
... 针对语音合成,基于深度学习的语音合成逐渐成为主流方法,旨在利用深层神经网络的非线性建模能力,提升语音建模精度.谷歌于 2016 年提出一种基于完全概率和自回归的神经网络模型WaveNet,用于产生原始音频波[31].由于每次只预测一个采样点,WaveNet语音合成速度较慢.针对合成速度慢的问题,百度提出了Deep Voice[32],其采用模块化神经网络结构来模拟传统参数语音合成过程.虽然Deep Voice已经大大减少了人工特征数量,但仍需要使用音素标记、重音标记、基频等人工特征.为了降低语音合成对语言学知识的依赖,Tacotron[33]采用融合注意力的编码器-解码器网络设计端到端的语音合成模型,直接将输入文本生成语音.Tacotron发布不久后,百度的Deep Voice 2诞生了.Deep Voice 2将Deep Voice中的声码器由Griffin-Lim替换成WaveNet,同时引入说话人向量,以支持多说话人合成[34].与上一代不同,Deep Voice 3[35]采用融合注意力的全卷积编码器-解码器框架,可完全并行计算,合成速度较快.谷歌的Oord A V D等人[36]通过引入一种概率密度蒸馏方法,提出了一种并行 WaveNet 模型来提高语音合成的速度及精度.与此同时,谷歌和加州大学伯克利分校对Tacotron 进行改进,提出了语义合成模型Tacotron2[37].与上一代不同,Tacotron2 采用基于序列到序列的特征预测网络将字符嵌入梅尔标度谱图,并将改进后的WaveNet作为声码器来合成时域波,以提高语音合成精度.现阶段的语音合成系统大多基于Tacotron或Tacotron2实现,虽然效果不错,但在合成音的表现力上,特别是语气和情感方面,仍存在不足. ...
Deep Voice 2:multi-speaker neural text-to-speech
1
2017
... 针对语音合成,基于深度学习的语音合成逐渐成为主流方法,旨在利用深层神经网络的非线性建模能力,提升语音建模精度.谷歌于 2016 年提出一种基于完全概率和自回归的神经网络模型WaveNet,用于产生原始音频波[31].由于每次只预测一个采样点,WaveNet语音合成速度较慢.针对合成速度慢的问题,百度提出了Deep Voice[32],其采用模块化神经网络结构来模拟传统参数语音合成过程.虽然Deep Voice已经大大减少了人工特征数量,但仍需要使用音素标记、重音标记、基频等人工特征.为了降低语音合成对语言学知识的依赖,Tacotron[33]采用融合注意力的编码器-解码器网络设计端到端的语音合成模型,直接将输入文本生成语音.Tacotron发布不久后,百度的Deep Voice 2诞生了.Deep Voice 2将Deep Voice中的声码器由Griffin-Lim替换成WaveNet,同时引入说话人向量,以支持多说话人合成[34].与上一代不同,Deep Voice 3[35]采用融合注意力的全卷积编码器-解码器框架,可完全并行计算,合成速度较快.谷歌的Oord A V D等人[36]通过引入一种概率密度蒸馏方法,提出了一种并行 WaveNet 模型来提高语音合成的速度及精度.与此同时,谷歌和加州大学伯克利分校对Tacotron 进行改进,提出了语义合成模型Tacotron2[37].与上一代不同,Tacotron2 采用基于序列到序列的特征预测网络将字符嵌入梅尔标度谱图,并将改进后的WaveNet作为声码器来合成时域波,以提高语音合成精度.现阶段的语音合成系统大多基于Tacotron或Tacotron2实现,虽然效果不错,但在合成音的表现力上,特别是语气和情感方面,仍存在不足. ...
Deep Voice 3:scaling text-to-speech with convolutional sequence learning
1
2018
... 针对语音合成,基于深度学习的语音合成逐渐成为主流方法,旨在利用深层神经网络的非线性建模能力,提升语音建模精度.谷歌于 2016 年提出一种基于完全概率和自回归的神经网络模型WaveNet,用于产生原始音频波[31].由于每次只预测一个采样点,WaveNet语音合成速度较慢.针对合成速度慢的问题,百度提出了Deep Voice[32],其采用模块化神经网络结构来模拟传统参数语音合成过程.虽然Deep Voice已经大大减少了人工特征数量,但仍需要使用音素标记、重音标记、基频等人工特征.为了降低语音合成对语言学知识的依赖,Tacotron[33]采用融合注意力的编码器-解码器网络设计端到端的语音合成模型,直接将输入文本生成语音.Tacotron发布不久后,百度的Deep Voice 2诞生了.Deep Voice 2将Deep Voice中的声码器由Griffin-Lim替换成WaveNet,同时引入说话人向量,以支持多说话人合成[34].与上一代不同,Deep Voice 3[35]采用融合注意力的全卷积编码器-解码器框架,可完全并行计算,合成速度较快.谷歌的Oord A V D等人[36]通过引入一种概率密度蒸馏方法,提出了一种并行 WaveNet 模型来提高语音合成的速度及精度.与此同时,谷歌和加州大学伯克利分校对Tacotron 进行改进,提出了语义合成模型Tacotron2[37].与上一代不同,Tacotron2 采用基于序列到序列的特征预测网络将字符嵌入梅尔标度谱图,并将改进后的WaveNet作为声码器来合成时域波,以提高语音合成精度.现阶段的语音合成系统大多基于Tacotron或Tacotron2实现,虽然效果不错,但在合成音的表现力上,特别是语气和情感方面,仍存在不足. ...
Parallel WaveNet:fast high-fidelity speech synthesis
1
2018
... 针对语音合成,基于深度学习的语音合成逐渐成为主流方法,旨在利用深层神经网络的非线性建模能力,提升语音建模精度.谷歌于 2016 年提出一种基于完全概率和自回归的神经网络模型WaveNet,用于产生原始音频波[31].由于每次只预测一个采样点,WaveNet语音合成速度较慢.针对合成速度慢的问题,百度提出了Deep Voice[32],其采用模块化神经网络结构来模拟传统参数语音合成过程.虽然Deep Voice已经大大减少了人工特征数量,但仍需要使用音素标记、重音标记、基频等人工特征.为了降低语音合成对语言学知识的依赖,Tacotron[33]采用融合注意力的编码器-解码器网络设计端到端的语音合成模型,直接将输入文本生成语音.Tacotron发布不久后,百度的Deep Voice 2诞生了.Deep Voice 2将Deep Voice中的声码器由Griffin-Lim替换成WaveNet,同时引入说话人向量,以支持多说话人合成[34].与上一代不同,Deep Voice 3[35]采用融合注意力的全卷积编码器-解码器框架,可完全并行计算,合成速度较快.谷歌的Oord A V D等人[36]通过引入一种概率密度蒸馏方法,提出了一种并行 WaveNet 模型来提高语音合成的速度及精度.与此同时,谷歌和加州大学伯克利分校对Tacotron 进行改进,提出了语义合成模型Tacotron2[37].与上一代不同,Tacotron2 采用基于序列到序列的特征预测网络将字符嵌入梅尔标度谱图,并将改进后的WaveNet作为声码器来合成时域波,以提高语音合成精度.现阶段的语音合成系统大多基于Tacotron或Tacotron2实现,虽然效果不错,但在合成音的表现力上,特别是语气和情感方面,仍存在不足. ...
Natural TTS synthesis by conditioning WaveNet on mel spectrogram predictions
1
2018
... 针对语音合成,基于深度学习的语音合成逐渐成为主流方法,旨在利用深层神经网络的非线性建模能力,提升语音建模精度.谷歌于 2016 年提出一种基于完全概率和自回归的神经网络模型WaveNet,用于产生原始音频波[31].由于每次只预测一个采样点,WaveNet语音合成速度较慢.针对合成速度慢的问题,百度提出了Deep Voice[32],其采用模块化神经网络结构来模拟传统参数语音合成过程.虽然Deep Voice已经大大减少了人工特征数量,但仍需要使用音素标记、重音标记、基频等人工特征.为了降低语音合成对语言学知识的依赖,Tacotron[33]采用融合注意力的编码器-解码器网络设计端到端的语音合成模型,直接将输入文本生成语音.Tacotron发布不久后,百度的Deep Voice 2诞生了.Deep Voice 2将Deep Voice中的声码器由Griffin-Lim替换成WaveNet,同时引入说话人向量,以支持多说话人合成[34].与上一代不同,Deep Voice 3[35]采用融合注意力的全卷积编码器-解码器框架,可完全并行计算,合成速度较快.谷歌的Oord A V D等人[36]通过引入一种概率密度蒸馏方法,提出了一种并行 WaveNet 模型来提高语音合成的速度及精度.与此同时,谷歌和加州大学伯克利分校对Tacotron 进行改进,提出了语义合成模型Tacotron2[37].与上一代不同,Tacotron2 采用基于序列到序列的特征预测网络将字符嵌入梅尔标度谱图,并将改进后的WaveNet作为声码器来合成时域波,以提高语音合成精度.现阶段的语音合成系统大多基于Tacotron或Tacotron2实现,虽然效果不错,但在合成音的表现力上,特别是语气和情感方面,仍存在不足. ...
Tightly coupled 3D Lidar inertial odometry and mapping
1
2019
... 由于激光雷达能够获得高清的三维环境感知信息,目前激光雷达SLAM是比较成熟的定位导航方法.但是激光雷达具有价格昂贵、寿命短且无法获得语义信息等缺点,因此,激光雷达与其他传感器的融合成为目前SLAM领域的研究热点之一.Ye H等人[38]提出了一种基于紧密耦合的Lidar-IMU融合方法——LIO-mapping.Graeter J 等人[39]提出了一种基于激光与相机的深度信息融合的里程计与光束平差法(bundle adjustment,BA)框架——LIMO.Zhang J 等人[40]将普通的单目相机和其他设备(如Lidar、RGB-D 相机)获得的深度信息相结合,提出了一种基于多传感融合的里程计.Zhang J等人[41]提出了一种视觉雷达里程计的通用框架V-LOAM,该框架探索了每个传感器的优点,并补偿了另一个传感器的缺点,通过视觉估计自身位姿来修正高频点云的畸变,同时基于扫描匹配的激光雷达测距仪来改进运动估计和点云配准,提高定位精度.参考文献[42]提出了一种立体视觉惯性激光雷达SLAM,通过将紧耦合的立体视觉惯性里程计、Lidar 建图、Lidar 增强的闭环检测进行结合,实现实时生成闭环校正的6自由度Lidar姿态及1 cm体素密集地图.参考文献[43]提出了一种融合激光、IMU与单目相机的里程计LIC-Fusion,其可在任意两个传感器间进行在线的空间和时间的标定,并在MSCKF框架下对多传感器状态进行融合,实现位姿估计.为了实现鲁棒性的SLAM,未来的SLAM必然是集成多个传感器的.不同传感器之间具有不同的数据类型、时间戳和坐标系表达式,如何实现快速、高精度的多传感器数据关联是未来多传感器融合SLAM的主要挑战. ...
LIMO:Lidar-Monocular visual odometry
1
2018
... 由于激光雷达能够获得高清的三维环境感知信息,目前激光雷达SLAM是比较成熟的定位导航方法.但是激光雷达具有价格昂贵、寿命短且无法获得语义信息等缺点,因此,激光雷达与其他传感器的融合成为目前SLAM领域的研究热点之一.Ye H等人[38]提出了一种基于紧密耦合的Lidar-IMU融合方法——LIO-mapping.Graeter J 等人[39]提出了一种基于激光与相机的深度信息融合的里程计与光束平差法(bundle adjustment,BA)框架——LIMO.Zhang J 等人[40]将普通的单目相机和其他设备(如Lidar、RGB-D 相机)获得的深度信息相结合,提出了一种基于多传感融合的里程计.Zhang J等人[41]提出了一种视觉雷达里程计的通用框架V-LOAM,该框架探索了每个传感器的优点,并补偿了另一个传感器的缺点,通过视觉估计自身位姿来修正高频点云的畸变,同时基于扫描匹配的激光雷达测距仪来改进运动估计和点云配准,提高定位精度.参考文献[42]提出了一种立体视觉惯性激光雷达SLAM,通过将紧耦合的立体视觉惯性里程计、Lidar 建图、Lidar 增强的闭环检测进行结合,实现实时生成闭环校正的6自由度Lidar姿态及1 cm体素密集地图.参考文献[43]提出了一种融合激光、IMU与单目相机的里程计LIC-Fusion,其可在任意两个传感器间进行在线的空间和时间的标定,并在MSCKF框架下对多传感器状态进行融合,实现位姿估计.为了实现鲁棒性的SLAM,未来的SLAM必然是集成多个传感器的.不同传感器之间具有不同的数据类型、时间戳和坐标系表达式,如何实现快速、高精度的多传感器数据关联是未来多传感器融合SLAM的主要挑战. ...
Real-time depth enhanced monocular odometry
1
2014
... 由于激光雷达能够获得高清的三维环境感知信息,目前激光雷达SLAM是比较成熟的定位导航方法.但是激光雷达具有价格昂贵、寿命短且无法获得语义信息等缺点,因此,激光雷达与其他传感器的融合成为目前SLAM领域的研究热点之一.Ye H等人[38]提出了一种基于紧密耦合的Lidar-IMU融合方法——LIO-mapping.Graeter J 等人[39]提出了一种基于激光与相机的深度信息融合的里程计与光束平差法(bundle adjustment,BA)框架——LIMO.Zhang J 等人[40]将普通的单目相机和其他设备(如Lidar、RGB-D 相机)获得的深度信息相结合,提出了一种基于多传感融合的里程计.Zhang J等人[41]提出了一种视觉雷达里程计的通用框架V-LOAM,该框架探索了每个传感器的优点,并补偿了另一个传感器的缺点,通过视觉估计自身位姿来修正高频点云的畸变,同时基于扫描匹配的激光雷达测距仪来改进运动估计和点云配准,提高定位精度.参考文献[42]提出了一种立体视觉惯性激光雷达SLAM,通过将紧耦合的立体视觉惯性里程计、Lidar 建图、Lidar 增强的闭环检测进行结合,实现实时生成闭环校正的6自由度Lidar姿态及1 cm体素密集地图.参考文献[43]提出了一种融合激光、IMU与单目相机的里程计LIC-Fusion,其可在任意两个传感器间进行在线的空间和时间的标定,并在MSCKF框架下对多传感器状态进行融合,实现位姿估计.为了实现鲁棒性的SLAM,未来的SLAM必然是集成多个传感器的.不同传感器之间具有不同的数据类型、时间戳和坐标系表达式,如何实现快速、高精度的多传感器数据关联是未来多传感器融合SLAM的主要挑战. ...
Visual-Lidar odometry and mapping:low-drift,robust,and fast
1
2015
... 由于激光雷达能够获得高清的三维环境感知信息,目前激光雷达SLAM是比较成熟的定位导航方法.但是激光雷达具有价格昂贵、寿命短且无法获得语义信息等缺点,因此,激光雷达与其他传感器的融合成为目前SLAM领域的研究热点之一.Ye H等人[38]提出了一种基于紧密耦合的Lidar-IMU融合方法——LIO-mapping.Graeter J 等人[39]提出了一种基于激光与相机的深度信息融合的里程计与光束平差法(bundle adjustment,BA)框架——LIMO.Zhang J 等人[40]将普通的单目相机和其他设备(如Lidar、RGB-D 相机)获得的深度信息相结合,提出了一种基于多传感融合的里程计.Zhang J等人[41]提出了一种视觉雷达里程计的通用框架V-LOAM,该框架探索了每个传感器的优点,并补偿了另一个传感器的缺点,通过视觉估计自身位姿来修正高频点云的畸变,同时基于扫描匹配的激光雷达测距仪来改进运动估计和点云配准,提高定位精度.参考文献[42]提出了一种立体视觉惯性激光雷达SLAM,通过将紧耦合的立体视觉惯性里程计、Lidar 建图、Lidar 增强的闭环检测进行结合,实现实时生成闭环校正的6自由度Lidar姿态及1 cm体素密集地图.参考文献[43]提出了一种融合激光、IMU与单目相机的里程计LIC-Fusion,其可在任意两个传感器间进行在线的空间和时间的标定,并在MSCKF框架下对多传感器状态进行融合,实现位姿估计.为了实现鲁棒性的SLAM,未来的SLAM必然是集成多个传感器的.不同传感器之间具有不同的数据类型、时间戳和坐标系表达式,如何实现快速、高精度的多传感器数据关联是未来多传感器融合SLAM的主要挑战. ...
Stereo visual inertial Lidar simultaneous localization and mapping
1
2019
... 由于激光雷达能够获得高清的三维环境感知信息,目前激光雷达SLAM是比较成熟的定位导航方法.但是激光雷达具有价格昂贵、寿命短且无法获得语义信息等缺点,因此,激光雷达与其他传感器的融合成为目前SLAM领域的研究热点之一.Ye H等人[38]提出了一种基于紧密耦合的Lidar-IMU融合方法——LIO-mapping.Graeter J 等人[39]提出了一种基于激光与相机的深度信息融合的里程计与光束平差法(bundle adjustment,BA)框架——LIMO.Zhang J 等人[40]将普通的单目相机和其他设备(如Lidar、RGB-D 相机)获得的深度信息相结合,提出了一种基于多传感融合的里程计.Zhang J等人[41]提出了一种视觉雷达里程计的通用框架V-LOAM,该框架探索了每个传感器的优点,并补偿了另一个传感器的缺点,通过视觉估计自身位姿来修正高频点云的畸变,同时基于扫描匹配的激光雷达测距仪来改进运动估计和点云配准,提高定位精度.参考文献[42]提出了一种立体视觉惯性激光雷达SLAM,通过将紧耦合的立体视觉惯性里程计、Lidar 建图、Lidar 增强的闭环检测进行结合,实现实时生成闭环校正的6自由度Lidar姿态及1 cm体素密集地图.参考文献[43]提出了一种融合激光、IMU与单目相机的里程计LIC-Fusion,其可在任意两个传感器间进行在线的空间和时间的标定,并在MSCKF框架下对多传感器状态进行融合,实现位姿估计.为了实现鲁棒性的SLAM,未来的SLAM必然是集成多个传感器的.不同传感器之间具有不同的数据类型、时间戳和坐标系表达式,如何实现快速、高精度的多传感器数据关联是未来多传感器融合SLAM的主要挑战. ...
LIC-Fusion:Lidar-inertial-camera odometry
1
2019
... 由于激光雷达能够获得高清的三维环境感知信息,目前激光雷达SLAM是比较成熟的定位导航方法.但是激光雷达具有价格昂贵、寿命短且无法获得语义信息等缺点,因此,激光雷达与其他传感器的融合成为目前SLAM领域的研究热点之一.Ye H等人[38]提出了一种基于紧密耦合的Lidar-IMU融合方法——LIO-mapping.Graeter J 等人[39]提出了一种基于激光与相机的深度信息融合的里程计与光束平差法(bundle adjustment,BA)框架——LIMO.Zhang J 等人[40]将普通的单目相机和其他设备(如Lidar、RGB-D 相机)获得的深度信息相结合,提出了一种基于多传感融合的里程计.Zhang J等人[41]提出了一种视觉雷达里程计的通用框架V-LOAM,该框架探索了每个传感器的优点,并补偿了另一个传感器的缺点,通过视觉估计自身位姿来修正高频点云的畸变,同时基于扫描匹配的激光雷达测距仪来改进运动估计和点云配准,提高定位精度.参考文献[42]提出了一种立体视觉惯性激光雷达SLAM,通过将紧耦合的立体视觉惯性里程计、Lidar 建图、Lidar 增强的闭环检测进行结合,实现实时生成闭环校正的6自由度Lidar姿态及1 cm体素密集地图.参考文献[43]提出了一种融合激光、IMU与单目相机的里程计LIC-Fusion,其可在任意两个传感器间进行在线的空间和时间的标定,并在MSCKF框架下对多传感器状态进行融合,实现位姿估计.为了实现鲁棒性的SLAM,未来的SLAM必然是集成多个传感器的.不同传感器之间具有不同的数据类型、时间戳和坐标系表达式,如何实现快速、高精度的多传感器数据关联是未来多传感器融合SLAM的主要挑战. ...
移动机器人路径规划算法综述
1
2018
... 路径规划技术也是机器人研究领域的重要分支.最优路径规划是指依据某个或某些优化准则,在机器人工作空间中找到一条从初始状态到目标状态的最优路径.根据对环境信息的掌握程度不同,可以将机器人路径规划分为全局路径规划和局部路径规划.常见的路径规划算法主要包括人工势场法、A*算法、快速扩展随机树(rapidly-exploring random tree,RRT)、遗传算法(genetic algorithm, GA)、粒子群优化(particle swarm optimization, PSO)算法等[44].公共场合大量的行人会导致环境的高动态变化,这对机器人路径规划会产生极大的干扰.目前,绝大部分机器人路径规划算法尚不能满足高动态的需求. ...
移动机器人路径规划算法综述
1
2018
... 路径规划技术也是机器人研究领域的重要分支.最优路径规划是指依据某个或某些优化准则,在机器人工作空间中找到一条从初始状态到目标状态的最优路径.根据对环境信息的掌握程度不同,可以将机器人路径规划分为全局路径规划和局部路径规划.常见的路径规划算法主要包括人工势场法、A*算法、快速扩展随机树(rapidly-exploring random tree,RRT)、遗传算法(genetic algorithm, GA)、粒子群优化(particle swarm optimization, PSO)算法等[44].公共场合大量的行人会导致环境的高动态变化,这对机器人路径规划会产生极大的干扰.目前,绝大部分机器人路径规划算法尚不能满足高动态的需求. ...
Reinforcement learning with unsupervised auxiliary tasks
1
2017
... 随着人工智能的快速发展,基于强化学习的路径规划成为研究热点.基于强化学习的机器人路径规划演示如图3所示.强化学习不必基于系统平台的动力学模型,而是通过最大化累积奖励来学习最优策略,从而弱化了模型和环境的约束.在机器人导航任务中,奖励稀疏分布于应用场景中,通常只有当机器人达到目的地附近时才会得到一个正的奖励.奖励稀疏导致训练过程中样本利用率较低、算法收敛较慢,因此,无法直接应用各种典型的深度强化学习算法来解决机器人自主导航问题.针对上述挑战,研究者采用设计辅助任务的方式来监督深度卷积网络从环境中学习有用的特征作为状态,从而加速算法的收敛.Jaderberg M等人[45]提出了一种融合多种无监督辅助任务的强化学习模型UNREAL.考虑到在环境中相邻图像间像素的剧烈变化通常对应重要的事件(如转弯),作者提出一种基于像素变化的虚拟奖励,使得机器人在运动过程中不仅接收来自外部环境的奖励,还接收基于像素变化的虚拟奖励.另外,为了确保能顺利到达目标位置,机器人应具有识别目标地点的能力.基于此,作者提出一种基于奖励预测的辅助任务来加快算法的收敛.在模型训练过程中,UNREAL兼顾最大化环境及虚拟奖励以及最小化奖励估计误差,达到提高数据利用效率及训练效果的目标.受UNREAL的启发,Mirowski P等人[46]在A3C框架下提出了一种以深度估计为辅助任务的机器人导航算法.该算法设计融合CNN与LSTM的双分支神经网络结构,从而同时生成深度图与机器人运动策略.现阶段,基于深度强化学习的机器人路径规划主要在模拟环境下展开,仍处于探索试验阶段.与真实场景相比,模拟环境相对简单,导致上述导航算法泛化能力较差.如何提高基于深度强化学习的机器人导航算法的环境适应性是未来亟待解决的问题. ...
Learning to navigate in complex environments
1
2017
... 随着人工智能的快速发展,基于强化学习的路径规划成为研究热点.基于强化学习的机器人路径规划演示如图3所示.强化学习不必基于系统平台的动力学模型,而是通过最大化累积奖励来学习最优策略,从而弱化了模型和环境的约束.在机器人导航任务中,奖励稀疏分布于应用场景中,通常只有当机器人达到目的地附近时才会得到一个正的奖励.奖励稀疏导致训练过程中样本利用率较低、算法收敛较慢,因此,无法直接应用各种典型的深度强化学习算法来解决机器人自主导航问题.针对上述挑战,研究者采用设计辅助任务的方式来监督深度卷积网络从环境中学习有用的特征作为状态,从而加速算法的收敛.Jaderberg M等人[45]提出了一种融合多种无监督辅助任务的强化学习模型UNREAL.考虑到在环境中相邻图像间像素的剧烈变化通常对应重要的事件(如转弯),作者提出一种基于像素变化的虚拟奖励,使得机器人在运动过程中不仅接收来自外部环境的奖励,还接收基于像素变化的虚拟奖励.另外,为了确保能顺利到达目标位置,机器人应具有识别目标地点的能力.基于此,作者提出一种基于奖励预测的辅助任务来加快算法的收敛.在模型训练过程中,UNREAL兼顾最大化环境及虚拟奖励以及最小化奖励估计误差,达到提高数据利用效率及训练效果的目标.受UNREAL的启发,Mirowski P等人[46]在A3C框架下提出了一种以深度估计为辅助任务的机器人导航算法.该算法设计融合CNN与LSTM的双分支神经网络结构,从而同时生成深度图与机器人运动策略.现阶段,基于深度强化学习的机器人路径规划主要在模拟环境下展开,仍处于探索试验阶段.与真实场景相比,模拟环境相对简单,导致上述导航算法泛化能力较差.如何提高基于深度强化学习的机器人导航算法的环境适应性是未来亟待解决的问题. ...