电信科学 ›› 2018, Vol. 34 ›› Issue (2): 1-11.doi: 10.11959/j.issn.1000-0801.2018095

• 视点聚焦 •    下一篇

语音识别技术的研究进展与展望

王海坤,潘嘉,刘聪   

  1. 科大讯飞股份有限公司人工智能研究院,安徽 合肥 230088
  • 修回日期:2018-01-31 出版日期:2018-02-01 发布日期:2018-02-13
  • 作者简介:王海坤(1984-),男,科大讯飞股份有限公司人工智能研究院副院长,牵头研发科大讯飞嵌入式识别系统和远场识别系统,叮咚音箱技术总负责人,主要研究方向为语音识别、麦克风阵列语音信号处理、回声消除、语音交互等。著有 40 多篇发明专利,多项研究成果获得省级以上表彰。|潘嘉(1985-),男,科大讯飞股份有限公司人工智能研究院语音识别组研究主管,科大讯飞学术委员会委员,主要研究方向为语音识别。在深度神经网络领域有极深的造诣,是科大讯飞语音识别系统研发的主要参与者。|刘聪(1984?),男,博士后,科大讯飞股份有限公司人工智能研究院副院长,长期从事语音识别和人工智能等相关领域的研究工作。从2014年底开始,全面负责科大讯飞人脸识别、医学图像识别、视频监控等方向的研究工作,研究成果在多个内部产品中成功应用。2014 年获得北京市科学技术奖一等奖,发表论文10余篇,获得专利10余项。

Research development and forecast of automatic speech recognition technologies

Haikun WANG,Jia PAN,Cong LIU   

  1. AI Research Institute of IFLYTEK Co.,Ltd.,Hefei 230088,China
  • Revised:2018-01-31 Online:2018-02-01 Published:2018-02-13

摘要:

自动语音识别(ASR)技术的目的是让机器能够“听懂”人类的语音,将人类语音信息转化为可读的文字信息,是实现人机交互的关键技术,也是长期以来的研究热点。最近几年,随着深度神经网络的应用,加上海量大数据的使用和云计算的普及,语音识别取得了突飞猛进的进展,在多个行业突破了实用化的门槛,越来越多的语音技术产品进入了人们的日常生活,包括苹果的Siri、亚马逊的Alexa、讯飞语音输入法、叮咚智能音箱等都是其中的典型代表。对语音识别技术的发展情况、最近几年的关键突破性技术进行了介绍,并对语音识别技术的发展趋势做了展望。

关键词: 自动语音识别, 深度神经网络, 声学模型, 语言模型

Abstract:

The purpose of automatic speech recognition (ASR) is to make the machine to be able to “understand” the human speech and transform it to readable text information.ASR is one of the key technologies of human machine interaction and also a hot research domain for a long time.In recent years,due to the application of deep neural networks,the use of big data and the popularity of cloud computing,ASR has made great progress and break through the threshold of application in many industries.More and more products with ASR have entered people’s daily life,such as Apple’s Siri,Amazon’s Alexa,IFLYTEK speech input method and Dingdong intelligent speaker and so on.The development status and key breakthrough technologies in recent years were introduced.Also,a forecast of ASR technologies’ trend of development was given.

Key words: automatic speech recognition, deep neural network, acoustic model, language model

中图分类号: 

No Suggested Reading articles found!