查看: 2442|回复: 1

浅谈语音合成技术的发展 [复制链接]

bjjths

军衔等级：

新兵

注册：2008-9-19

发表于 2008-9-19 16:43:55 |显示全部楼层

语音合成（Speech Synthesis）就是人工合成人类的声音。合成声音的系统被称作“语音合成器”（Speech Synthesizer）。这种系统可以主要由硬件实现，也可以主要由App实现。语音合成技术的学名是“文语转换系统”，也常常被称作TTS（text to speech）技术，是指将文本信息转变为语音数据，以语音的方式播放出来的技术。该项技术的目的就是让计算机将文字“读”出来，其追求的目标是计算机“读”出的声音清晰、可懂、自然、具有表现力。
纵观语音合成技术的研究已有二百多年的历史，早在现代电子信号处理技术发明以前，人们就开始试图建造发出人类语音的机器或机械设备，比如Gerbert、Albertus Magnus和Roger Bacon制造的“speaking head”。以后又陆续有人制造出了可以发出元音和辅音的机器。
1930年，贝尔实验室开发了声音编码器。这是一个用键盘操作的电子语音分析器和合成器。1939年，Homer Dudley将其改进的设备在纽约世界博览会上展出。
第一个基于计算机的语音合成系统在50年代后期诞生，第一个完整的TTS系统在1968年完成。从那时起至今，语音合成技术经历了各种各样的技术改进。
真正有实用意义的近代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的，主要是让计算机能够产生高清晰度、高自然度的连续语音。近几十年来国际和国内的研究主要集中在按规则文语转换，即将书面语言转换成语音。在语音合成技术的发展中，早期的研究主要是采用参数合成方法。
值得一提的是1973年Holmes的并联共振峰合成器和1980年Klatt的串/并联共振峰合成器，这两个合成器都可以通过精心调整参数合成出非常自然的语音。而最具代表性的文语转换系统应该是1987年美国DEC企业的DECtalk，该系统采用Klatt的串/并联共振峰合成器，可以通过标准的接口和计算机联网或单独接到电话网上提供各种语音信息服务，它的发音较清晰，并可产生七种不同音色的声音，供用户选择。
但是经过多年的研究与实践表明，由于准确提取共振峰参数比较困难，虽然利用共振峰合成器可以得到许多逼真的合成语音，但是整体合成语音的音质难以达到文语转换系统的实用要求。自八十年代末期至今，语言合成技术又有了新的进展，特别是1990年基音同步叠加（PSOLA）方法的提出，使基于时域波形拼接方法合成的语音的音色和自然度都有了很大的提高。九十年代初，基于PSOLA技术的法语、德语、英语、日语等语种的文语转换系统都已经研制成功。这些系统的自然度比以前基于LPC方法或共振峰合成器的文语合成系统的自然度要高，并且结构简单易于实时实现，有较大的商用前景。
国内的汉语语音合成研究起步较晚，八十年代初期，国内汉语语音合成研究基本与国际上研究同步发展。大致也经历了共振峰合成、LPC合成至应用PSOLA技术的过程。在国家863计划、国家自然科学基金委、国家攻关计划、中国科学院有关项目等支撑下，汉语文语转换系统研究近年来取得了令人举目的进展，其中不乏成功的例子：如1993年中国科学院声学所的KX-PSOLA、清华大学的TH_SPEECH；1995年联想佳音、中国科技大学的KDTALK等系统。这些系统基本上都是采用基于PSOLA方法的时域波形拼接技术，其合成汉语普通话的可懂度、清晰度达到了较高的水平。然而同国外其它语种的文语转换系统一样，这些系统合成的句子及篇章语音机器味较浓，其自然度还不能达到用户可广泛接受的程度，从而制约了这项技术的商品化。
近些年，一种新的基于数据库的语音合成方法得到了更广泛的应用。在这个方法中，合成语句的语音单元是从一个预先录下的语音数据库中挑选出来的，不难想象只要语音数据库足够大，包括了各种可能语境下的语音单元，理论上讲就有可能拼接出任何语句。由于合成的语音基元都是来自自然的原始发音，合成语句的清晰度和自然度都将会非常高。
2001年，北京捷通华声语音技术有限企业推出了具有国际领先水平的TTS世纪版，是国内第一项基于大容量真实录音库和韵律层级分析技术的TTS技术，在自然度和流畅度上达到了一个崭新的水平，新版本的问世标示着中国中文语音合成技术开始进入商品实用化阶段。
语音合成技术研发与技术应用发展趋势同我国计算机技术的普及，网络、通信、广播电视等技术和业务的发展是同步的，可以说正是信息产业的迅猛发展推动了语音合成技术应用领域的发展和突破，进而刺激语音合成技术突飞猛进的发展。
我国在语音合成领域的研究选择了与国外错位发展的策略，并且在逐步缩小与国外关键技术领域的差距，在车载语音装置、计算机声音输入或输出技术、自然语言数据的数字数据处理方法或设备等领域具有了一定的竞争优势。
语音合成技术在下一代语音门户网络、移动通信系统和信息化家庭网络平台的领域都将有广泛的应用。未来的语音合成技术，应将研究重点放在提高合成语音的自然度、丰富合成语音的表现力、降低语音合成技术的复杂度、多语种文语合成上。
使计算机能够真正像人一样的说话，和人类自由地交流，仍然有大量的研究工作要做。今天的文语转换系统只能机械地朗读文章，与生动活泼、感情丰富多彩的人类语言相比差距甚大。但是毋庸置疑，今天的语音合成技术确实已经走出实验室了，其成功的应用及潜在的巨大市场已经让大家看到曙光。

举报本楼

本帖有 1 个回帖，您需要登录后才能浏览登录 | 注册

返回列表

手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图

GMT+8, 2024-11-18 16:37 , Processed in 0.337109 second(s), 15 queries , Gzip On.

Discuz Licensed

		自动登录	找回密码
密码			注册