大数据 ›› 2023, Vol. 9 ›› Issue (6): 53-71.doi: 10.11959/j.issn.2096-0271.2022082

• 研究 • 上一篇    下一篇

表现性语音合成综述

唐浩彬1,2, 张旭龙1, 王健宗1, 程宁1, 肖京1   

  1. 1 平安科技(深圳)有限公司,广东 深圳 518063
    2 中国科学技术大学,安徽 合肥 230026
  • 出版日期:2023-11-15 发布日期:2023-11-01
  • 作者简介:唐浩彬(1999- ),男,中国科学技术大学硕士生,平安科技(深圳)有限公司算法工程师,主要研究方向为人工智能、语音识别和语音合成等。
    张旭龙(1988- ),男,博士,平安科技(深圳)有限公司高级算法研究员,主要研究方向为语音合成、语音转换、音乐信息检索、机器学习和深度学习方法在人工智能领域应用。
    王健宗(1983- ),男,博士,平安科技(深圳)有限公司副总工程师,资深人工智能总监,联邦学习技术部总经理。美国佛罗里达大学人工智能博士后,中国计算机学会高级会员,中国计算机学会大数据专家委员会委员,主要研究方向为联邦学习和人工智能等。
    程宁(1981- ),男,博士,平安科技高级专家算法研究员,中国科学院软件所高级工程师,主要研究方向为语音识别、语音合成、自然语言处理等。
    肖京(1972- ),男,博士,中国平安集团首席科学家,2019年吴文俊人工智能杰出贡献奖获得者,中国计算机学会深圳分部副主席,主要研究方向为计算机图形学学科、自动驾驶、3D显示、医疗诊断、联邦学习等。
  • 基金资助:
    广东省重点领域研发计划“新一代人工智能”重大专项(2021B0101400003)

A survey of expressive speech synthesis

Haobin TANG1,2, Xulong ZHANG1, Jianzong WANG1, Ning CHENG1, Jing XIAO1   

  1. 1 Ping An Technology (Shenzhen) Co., Ltd., Shenzhen 518063, China
    2 University of Science and Technology of China, Hefei 230026, China
  • Online:2023-11-15 Published:2023-11-01
  • Supported by:
    The Key Research and Development Program of Guangdong Province(2021B0101400003)

摘要:

语音合成是语音、语言和机器学习领域的一个热门研究课题,旨在合成给定文本的可理解和自然的语音,在工业中有广泛的应用。语音合成的目标之一是合成自然的语音,而目前的语音合成在情感、韵律等方面还有很大的改进空间。对表现性语音合成进行了全面的调查,旨在更好地了解当前的研究现状和未来的趋势。对近年来基于情感及韵律的表现性语音合成进行了全面的总结、比较和分析。首先介绍了普通语音合成的传统实现方式及瓶颈;然后引入表现性语音合成并描述表现性语音合成在情感、韵律等方面为语音合成自然化带来的增益;最后对表现性语音合成进行了展望和总结。

关键词: 语音合成, 表现性语音合成, 机器学习

Abstract:

Speech synthesis is a hot research topic in the field of speech, language and machine learning, which aims to synthesize understandable and natural speech for a given text.It has a wide range of applications in industry.One of the goals of speech synthesis is to make the synthesized speech natural, and there is still a lot of room for improvement in emotion, prosody and other aspects of speech synthesis.A comprehensive survey of expressive speech synthesis was conducted with the aim of better understanding current research status and future trends.A comprehensive summary, comparison and analysis of emotion-based and prosodic speech synthesis in recent years were given.Firstly the traditional way and bottleneck of common speech synthesis were introduced, then expressive speech synthesis was introduced and the benefits of expressive speech synthesis in the aspects of emotion and prosody were described.Finally, the prospect and summary of expressive speech synthesis were presented.

Key words: speech synthesis, expressive speech synthesis, machine learning

中图分类号: 

No Suggested Reading articles found!