语音合成技术_服务器

一，语音合成技术原理

语音合成（test to speech）,简称TTS。将文字转化为语音的一种技术，类似于人类的嘴巴，通过不同的音色说出想表达的内容。

在语音合成技术中，主要分为语言分析部分和声学系统部分，也称为前端部分和后端部分，语言分析部分主要是根据输入的文字信息进行分析，生成对应的语言学规格书，想好该怎么读；声学系统部分主要是根据语音分析部分提供的语音学规格书，生成对应的音频，实现发声的功能。

1 语言分析部分

语言分析部分的流程图具体如下，可以简单的描述出语言分析部分主要的工作。

文本结构与语种判断：当需要合成的文本输入后，先要判断是什么语种，例如中文，英文，藏语，维语等，再根据对应语种的语法规则，把整段文字切分为单个的句子，并将切分好的句子传到后面的处理模块。

文本标准化：在输入需要合成的文本中，有阿拉伯数字或字母，需要转化为文字。根据设置好的规则，使合成文本标准化。例如， “请问您是尾号为8967的机主吗？“8967”为阿拉伯数字，需要转化为汉字“八九六七”，这样便于进行文字标音等后续的工作；再如，对于数字的读法，刚才的“8967“为什么没有转化为”八千九百六十七“呢？因为在文本标准化的规则中，设定了”尾号为+数字“的格式规则，这种情况下数字按照这种方式播报。这就是文本标准化中设置的规则。

文本转音素：在汉语的语音合成中，基本上是以拼音对文字标注的，所以我们需要把文字转化为相对应的拼音，但是有些字是多音字，怎么区分当前是哪个读音，就需要通过分词，词性句法分析，判断当前是哪个读音，并且是几声的音调。

例如，“南京市长江大桥”为“nan2jing1shi4zhang3jiang1da4qiao2”或者“南京市长江大桥”“nan2jing1shi4chang2jiang1da4qiao3”。

句读韵律预测：人类在语言表达的时候总是附带着语气与感情，TTS合成的音频是为了模仿真实的人声，所以需要对文本进行韵律预测，什么地方需要停顿，停顿多久，哪个字或者词语需要重读，哪个词需要轻读等，实现声音的高低曲折，抑扬顿挫。

2 ．声学系统部分

声学系统部分目前主要有三种技术实现方式，分别为：波形拼接，参数合成以及端到端的语音合成技术。

1) 波形拼接语音合成

通过前期录制大量的音频，尽可能全的覆盖所有的音节音素，基于统计规则的大语料库拼接成对应的文本音频，所以波形拼接技术通过已有库中的音节进行拼接，实现语音合成的功能。一般此技术需要大量的录音，录音量越大，效果越好，一般做的好的音库，录音量在50小时以上。
优点：音质好，情感真实。

缺点：需要的录音量大，覆盖要求高，字间协同过渡生硬，不平滑，不是很自然。

2) 参数语音合成技术

参数合成技术主要是通过数学方法对已有录音进行频谱特性参数建模，构建文本序列映射到语音特征的映射关系，生成参数合成器。所以当输入一个文本时，先将文本序列映射出对应的音频特征，再通过声学模型（声码器）将音频特征转化为我们听得懂的声音。
优点：录音量小，可多个音色共同训练，字间协同过渡平滑，自然等。

缺点：音质没有波形拼接的好，机械感强，有杂音等。
3) 端到端语音合成技术

端到端语音合成技术是目前比较火的技术，通过神经网络学习的方法，实现直接输入文本或者注音字符

，中间为黑盒部分，然后输出合成音频，对复杂的语言分析部分得到了极大的简化。所以端到端的语音合成技术，大大降低了对语言学知识的要求，且可以实现多种语言的语音合成，不再受语言学知识的限制。通过端到端合成的音频，效果得到的进一步的优化，声音更加贴近真人。
优点：对语言学知识要求降低，合成的音频拟人化程度更高，效果好，录音量小。

缺点：性能大大降低，合成的音频不能人为调优。

以上主要是对语音合成技术原理的简单介绍，也是目前语音合成主流应用的技术。当前的技术也再迭代更新，像端到端技术目前比较火的wavenet，Tacotron，Tacotron2以及deepvoice3等技术，感兴趣的朋友可以自己了解学习。

二，技术边界

目前语音合成技术落地是比较成熟的，比如前面说到的各种播报场景，读小说，读新闻以及现在比较火的人机交互。但是目前的TTS还是存在着一些解决不掉的问题。

1 拟人化

其实当前的TTS拟人化程度已经很高了，但是行业内的人一般都能听出来是否是合成的音频，因为合成音的整体韵律还是比真人要差很多，真人的声音是带有气息感和情感的，TTS合成的音频声音很逼近真人，但是在整体的韵律方面会显得很平稳，不会随着文本内容有大的起伏变化，单个字词可能还会有机械感。

2 情绪化

真人在说话的时候，可以察觉到当前情绪状态，在语言表达时，通过声音就可以知道这个人是否开心，或者沮丧，也会结合表达的内容传达具体的情绪状态。单个TTS音库是做不到，例如在读小说的时候，小说中会有很多的场景，不同的情绪，但是用TTS合成的音频，整体感情和情绪是比较平稳的，没有很大的起伏。目前优化的方式有两种，一是加上背景音乐，不同的场景用不同的背景音乐，淡化合成音的感情情绪，让背景音烘托氛围。二是制作多种情绪下的合成音库，可以在不同的场景调用不同的音库来合成音频。

3 定制化

当前我们听到语音合成厂商合成的音频时，整体效果还是不错的，很多客户会有定制化的需求，例如用自己企业职员的声音制作一个音库，想要达到和语音合成厂商一样的效果，这个是比较难的，目前语音合成厂商的录音员基本上都是专业的播音员，不是任何一个人就可以满足制作音库的标准，如果技术可以达到每一个人的声音都可以到达85%以上的还原，这将应用于更多的场景中。

三，效果指标和技术指标

随着语音合成技术的发展，语音合成（TTS）已经应用于生活中的各个场景，实现了语音合成技术的应用落地。例如，在高铁，机场的语音播报工作，医院的叫号业务，以及现在比较火热的语音交互产品。语音合成的各种应用说明它不仅仅是一项技术，更是一款产品，作为产品，可以用哪些指标来衡量这款产品呢？

下面将介绍两种衡量TTS产品的指标，效果指标和性能指标。
1 效果指标

1) MOS 值

目前关于TTS合成效果的评判标准，行业内一致认可的是mos值测试，找一些业内专家，对合成的音频效果进行打分，分值在1-5分之间，通过平均得到最后的分数，这就是mos值测试。很显然这是一个主观的评分，没有具体的评分标准，这和个人对音色的喜好，对合成音频内容场景的掌握情况，以及对语音合成的了解程度是强相关的，所以算是仁者见仁，智者见智的测试方式。

由于TTS合成效果的评判主观性，导致在一些项目的验收中，不能明确出具体的验收标准，例如在定制音库的项目中，客户想做一个独有的定制音库，最后验收肯定是客户对合成音频效果满意，则成功验收，这是一个很主观的标准，怎么样才算满意呢？对于TTS厂商而言，这是不公平的。所以需要找一些可以量化的标准使得项目可以更好的验收，双方也不会因为合成效果出分歧。这里推荐一条验收标准，可以将语音合成效果量化，分别对原始录音和合成音频进行盲测打分（mos值测试），合成音频的mos值能达到原始录音的85% （数值可以根据项目情况来定）以上，就可验收，这样就可以把验收标准确定下来，且进行了量化。当然打分团队可以是客户和TTS厂商的人，也可以请第三方的人来打分，确保公平。

虽然mos值是一个比较主观的测试方式，但也有一些可评判的标准。例如在合成的音频中，多音字的读法，当前场景下数字的播报方式，英语的播报方式，以及在韵律方面，词语是否连在一起播报，应该重读的地方是否有重读，停顿的地方是否合理，音色是否符合应用于当前的这个场景，都可以在打分的时候做为得分失分的依据。

分享一个简单的评分标准，可作为参考依据。
2) ABX 测评

合成效果对比性测试，选择相同的文本以及相同场景下的音色，用不同的TTS系统合成来对比哪个的合成效果较好，也是人为的主观判断，但是具有一定的对比性，哪一个TTS更适合当前的场景，以及合成的效果更好。

2 性能指标

1) 实时率

在语音合成中，合成方式分为非流式合成和流失合成，非流失合成指的是一次性传入文本，一次性返回合成的文本音频；流式合成指的是文本传输给TTS时，TTS会分段传回合成的音频，这样可以减少语音合成的等待时间，在播报的同时也在合成，不用等到整段音频合成完再进行播报，所以对于语音合成时间的一个指标就是实时率。实时率等于文字合成所需时长除以文字合成的音频总时长，下面是实时率的计算公式：
为什么讲实时率会说到非流失合成和流式合成，因为在流式合成场景中，开始合成的时候也就已经开始播报了，音频合成完成也就播报完成了，不会产生等待的过程，这种过程主要用于语音交互的场景，智能机器人收到语音信号之后，马上就可以给予答复，不会让用户等太久。所以为了确保用户的最佳体验，要求“文字合成所需时长”≤“文字合成出的音频时长”，也就是实时率要小于等于1 。

2) 首包响应时间

在流式合成中，分段合成的音频会传输给客户端或者播放系统，在合成首段音频时，也会耗费时间，这个耗时称为“首包响应时间”。为什么会统计这个时间呢，因为在语音交互中，根据项目经验以及人的容忍程度，当用户说完话时，在1200ms之内，机器人就要开始播报回复，这样就不会感觉有空白时间或者停顿点，如果时间超过1200ms，明显感觉会有一个等待的时间，用户体验不佳，性子急的用户可能就终止了聊天。1200ms的时间不只是TTS语音合成的首包时间，还有ASR（语音识别）和NLU（自然语言理解）所消耗的时间，所以TTS首包响应时间要控制在500ms以内，确保给ASR，NLU留有更多的时间。

3) 并发数

人工智能的发展主要有三个方面，分别为算法，算力，数据，其实讲的性能指标相当于是算力的部分，目前承载算力的服务器有CPU服务器和GPU服务器。前面说到实时率的指标是要小于等于1，那如果实时率远小于1，是不是会对服务器造成浪费呢，因为只要实时率小于等于1，就可以满足用户的需求，让用户体验良好。所以上面说的实时率是针对CPU服务器单核单线程时，或者GPU单卡单线程时，那实时率的公式可以为：
为了资源的最大利用化，我们只需确保实时率接近1，或者等于1就行，没必要远小于1，所以当在单核单线程实时率远小于1时，则可以实现一核二线，一核三线的线程数，使得实时率为1，这个一核“二线”，“三线”，这个“几线”说的就是几并发数，准确说是单核并发数。那这个并发数怎计算呢，举个例子，如果单核单线程的并发数是01，则一核10线程的并发就是1，也是满足需求的，就可以按照这个并发数给客户提供。所以并发数的计算公式如下：
所以当用户需要200线程的语音合成并发数使，按01的实时率，一核十线，只需要20核的cpu服务器，则可以跟客户要求24核的cpu服务器即可满足客户的需求，也为客户节省了成本。

再说一下这个线程和并发的概念，线程，并发算是同一个概念，例如200线并发，指的是需要同时支持200线的语音合成，200线是同时合成音频的，合成内容可以相同也可以不同。

4) 合成100个字需要多少时间（1s能合成多少个字）

有些客户对于实时率，响应时间这些概念是比较模糊的，他会问你们的 TTS合成100个字需要多少时间或者 1s能合成多少个字，所以这个时候为了方便和客户沟通，我们需要知道合成100个字TTS消耗的时间。这个数据是可以大概算出来的，当然也可以直接让测试测出一百字消耗的时间。这里主要讲一下计算的方法。

按照正常的播报速度，1秒可以播报4个字左右，我们就按照四个字计算，100个字的音频，音频时长大概就是25s（100除以4），假如实时率为01，再根据当前的实时率计算公式，算出合成时间为25s，也可以计算出1s合成的字数（100/25）为40个字。

简单介绍了语音合成产品会涉及到的一些参数指标，还有一些测试时需要了解的指标数据，例如cpu占用，内存占用，DPS（单位时间合成的音频总时长）,TPS（单位时间合成的音频任务数）以及TP99，感兴趣的朋友可以查询研究一下，这些数据也主要用于项目poc的测试中，或者TTS产品整体的测试中，可以算是对于TTS产品的一个整体的了解。

四，语音合成厂商

有很多厂商拥有语音合成技术，有互联网大厂，也有一些只专注于人工智能的企业。

科大讯飞科大讯飞的语音合成技术在全球范围内也是数一数二的，合成的音频效果自然度高，讯飞官网挂接的音库是最多的，且涉及很多的场景，以及很多的外语音库。

阿里巴巴在阿里云官网的音库，有几个音库的合成效果非常棒，例如艾夏，合成的音频播报时感觉带有气息感，拟人化程度相当高。

百度百度的语音合成技术还是很强的，但是官网给的合成音库较少，具体不太好评判。

灵伴科技这家公司在语音合成领域是不在忽略的。灵伴的音库合成音效果也是非常的棒，有一个东北大叔的音库，主要是偏东北话，整体的韵律，停顿，重读等掌握的很好，很到位。

标贝科技标贝科技和灵伴科技一样，是语音合成领域不可小觑的两个企业，是因为他们TTS合成的音频效果拟人化程度很高，每个场景的风格也很逼真。

捷通华声捷通华声是一家老牌的人工智能企业，合成的音频效果整体还是不错的，且支持多种语种的音库。

还有些企业没有一一列出来，是因为上面这些企业是在平时项目中，或者TTS技术落地应用上比较多的企业。

五，小结

目前的语音合成已经应用于各种场景，是较成熟可落地的产品，对于合成音的要求，当前的技术已经可以做很好了，满足了市场上绝大部分需求，语音合成技术主要是合成类似于人声的音频，其实当前的技术已完全满足。目前的问题在于不同场景的具体需求的实现，例如不同的数字读法，如何智能的判断当前场景应该是哪种播报方式，以及什么样的语气和情绪更适合当下的场景，多音字如何更好地区分，确保合成的音频尽可能的不出错。当然错误有时候是不可避免的，但是如何在容错范围之内，或者读错之后是否有很好的自学机制，下次播报时就可以读对，具有自我纠错的能力，这些可能是当前产品化时遇到的更多更实际的问题，在产品整体设计的时候，这些是需要考虑的主要问题。

后续会讲述在实际场景中主要遇到的问题以及解决的方案。

分类: 娱乐/明星 >> 广播
解析:

播客节目形式为录播，一般来说都支持订阅可下载到个人MP3来用于日常收听

传统广播由各级广播电台行政主管部门（各地广播电视局）建立和管理，节目通过发送无线信号（中波、短波、调频），听众通过收音机被动接收收听。省级台会准许设立一套卫星广播，传送广播信号。对于各级广播电台信号发送范围广电总局会有限制。传统广播电台播音人员，市级台最低标准是普通话一级乙等以上，省级台以上一甲以上！传统电台是国家和省、市的喉舌，有很强的社会舆论监督作用

网络电台传播方式通过网络流媒体传播，传播范围没有限制。目前网络电台分为两种状态，一种是纯为私人爱好组建的网络电台，这一类网络电台播音人员来自全国各地和一些海外的留学生，他们通过编码器连接所属网络电台的直播服务器，在自己的家中通过一个耳麦+电脑的模式进行播音

另一种是建立有专业电台直播间，播音人员通过在直播间如传统电台主持人一样，使用专业的调音台、电容话筒、音频工作站进行播音。如果北京青檬网络电台、腾讯的QQ电台、45度等等都属于这一类
网络电台的多由个人和有实力的网络公司组建，多为娱乐性质的。节目内容不会过多涉及政治内容

博客属于文字日志，只要是记录个人的文字内容

播客内容主动接受的多一些，受众有选择权，但互动性差

传统广播属于被动接受，对于节目没有多大的选择权，节目是按照节目时间表严格执行的，你想听哪档节目就必须在那个时间收听，过了时间就听不到了。

网络广播属于半被动接受，节目同样严格执行节目时间表，但非节目时间可以听往期节目录音

A、功能方面：可同时对多个终端广播不同的节目，不仅完全现实现了传统广播系统的功能，且终端具有文件点播、U盘播放和录音、终端与终端之间双向对讲等多项功能。
B、音质方面：其音频采集使用接近CD音质(441K,16bit)，更适合于音乐欣赏和听力训练，如高考、大学英语四六级考试听力播放，每个发音都清晰可辨，不再为含混不清的声音所困扰。
C、传输方面：音频传输距离无限延伸，可运行在跨网关的局域网和Internet网上，支持大范围的重要型应用，从主校区到分校区集中控制广播，从公司总部到各个地区分部的同声广播，实现快速、可靠的信息沟通。
D、可靠性方面：可使用双服务器提供双重保险，如一方故障，另一方可接管终端，确保系统关键功能正常运作。终端采用工业级芯片，全天24小时工作，不受网络病毒侵扰。
E、AVH网络广播系统具备如下特点：数字化、个性化、网络化、自动化、人性化、智能化、小工程、零维护。其中个性化、自动化是AVH网络广播系统最显著的特点。
F、终端个性化：基于数字数据网络，每个语音终端都有独立的IP地址，完全实现点对点的个性化节目。
G、管理网络化：播放列表制作与编排、领导讲话、节目定时播放都可以通过网络远程 *** 作。
H、自动化播放： *** 作人员预先编排好节目播放表，指定播放终端、播放节目、播放时间，服务器将自动进行播放，无人值守。
I、人性化 *** 作：人性化的图形菜单界面、中文提示 *** 作的无线智能播控手机，控制节目播放。人性化的 *** 作，轻松简便，提高了 *** 作人员的效率。
J、工程简单：AVH网络广播对于已经铺设好网络的场所，只需要增加服务器与安装终端即可。如果没有铺设网线，数据网络的工程量也相对简单，只需要铺设网线即可。一旦建设，数字广播系统与计算机网络系统可以共用，减少多网重复建设。
K、维护量小：AVH网络广播在物理上与传统网络共用，所以并不在传统网络维护之外增加额外的维护工作。在应用上，系统可设置独立网段与计算机系统分隔，各语音终端嵌入式系统程序固化，不会受到病毒感染。系统整体稳定可靠，维护工作简单易行。

　TTS</B>是Text To Speech的缩写，即“从文本到语音”。它是同时运用语言学和心理学的杰出之作，在内置芯片的支持之下，通过神经网络的设计，把文字智能地转化为自然语音流。TTS技术对文本文件进行实时转换，转换时间之短可以秒计算。在其特有智能语音控制器作用下，文本输出的语音音律流畅，使得听者在听取信息时感觉自然，毫无机器语音输出的冷漠与生涩感。TTS语音合成技术即将覆盖国标一、二级汉字，具有英文接口，自动识别中、英文，支持中英文混读。所有声音采用真人普通话为标准发音，实现了120-150个汉字/秒的快速语音合成，朗读速度达3-4个汉字/秒，使用户可以听到清晰悦耳的音质和连贯流畅的语调。现在有少部分MP3随身听具有了TTS功能。
TTS是语音合成应用的一种，它将储存于电脑中的文件，如帮助文件或者网页，转换成自然语音输出。TTS可以帮助有视觉障碍的人阅读计算机上的信息，或者只是简单的用来增加文本文档的可读性。现在的TTL应用包括语音驱动的邮件以及声音敏感系统。TTS经常与声音识别程序一起使用。现在有很多TTS的产品，包括Read Please 2000， Proverbe Speech Unit，以及Next Up Technology的TextAloud。朗讯、 Elan、以及 AT&T都有自己的语音合成产品。
除了TTS软件之外，很多商家还提供硬件产品，其中包括以色列WizCom Technologies公司的 Quick Link Pen，它是一个笔状的可以扫描也可以阅读文字的设备；还有Ostrich Software公司的Road Runner，一个手持的可以阅读ASCII文本的设备；另外还有美国DEC公司的DecTalk TTS，它是可以替代声卡的外部硬件设备，它包含一个内部软件设备，可以与个人电脑自己的声卡协同工作。 TTS文语转换用途很广，包括电子邮件的阅读、IVR系统的语音提示等等，目前IVR系统已广泛应用于各个行业（如电信、交通运输等）。
TTS所用的关键技术就是语音合成(SpeechSynthesis)。早期的TTS一般采用专用的芯片实现，如德州仪器公司的TMS50C10/TMS50C57、飞利浦的PH84H36等，但主要用在家用电器或儿童玩具中。
而基于微机应用的TTS一般用纯软件实现，主要包括以下几部分：
●文本分析-对输入文本进行语言学分析，逐句进行词汇的、语法的和语义的分析，以确定句子的低层结构和每个字的音素的组成，包括文本的断句、字词切分、多音字的处理、数字的处理、缩略语的处理等。
●语音合成-把处理好的文本所对应的单字或短语从语音合成库中提取，把语言学描述转化成言语波形。
●韵律处理-合成音质(Qualityof Synthetic Speech)是指语音合成系统所输出的语音的质量，一般从清晰度(或可懂度)、自然度和连贯性等方面进行主观评价。清晰度是正确听辨有意义词语的百分率；自然度用来评价合成语音音质是否接近人说话的声音，合成词语的语调是否自然；连贯性用来评价合成语句是否流畅。
要合成出高质量的语音，所采用的算法是极为复杂的，因此对机器的要求也非常高。算法的复杂度决定了目前微机并发进行多通道TTS的系统容量。
在一般的CTI应用系统中，都会有IVR（交互式语音应答系统）。IVR系统是呼叫中心的重要组成部分，通过IVR系统，用户可以利用音频按健电话输入信息，从系统中获得预先录制的数字或合成语音信息。具有TTS功能的IVR可以加快服务速度，节约服务成本，使IVR为呼叫者提供724小时的服务。
目前常见的IVR系统大都是通用的工控机平台上插入语音板卡组成，并支持中文语音合成TTS等技术。
一个典型的包含TTS服务的电话服务流程可分为：
用户电话拨入，系统IVR响应，获得用户按键等信息。
IVR根据用户的按键信息，向数据库服务器申请相关数据。
数据库服务器返回文本数据给IVR。
IVR通过其TCP通讯接口，将需要合成的文本信息发送给TTS服务器。
TTS服务器将用户文本合成的语音数据分段通过TCP通讯接口发送给IVR服务器。
IVR服务器把分段语音数据组装成为独立的语音文件。
IVR播放相应的语音文件给电话用户。
一般的公网接入（IVR）大都采用工控机+语音板卡，而合成的语音数据则通过局域网传给IVR。这种结构只适用于简单的应用场合。包括中文语音处理和语音合成，利用中文韵律等相关知识对中文语句进行分词、词性判断、注音、数字符号转换，语音合成通过查询中文语音库得到语音。目前中文TTS系统，比较著名的有：IBM，Microsoft，Fujitsu，科大讯飞，捷通华声等研究的系统。目前比较关键的就是中文韵律处理、符号数字、多音字、构词方面有较多的问题，需要不断研究，使得中文语音合成的自然化程度较高。CTI技术使电信和计算机相互融合，克服了传统电信和计算机服务相对单一的缺点，将两者完美结合了起来。其应用领域非常广泛，任何需要语音、数据通信，特别是那些希望把计算机网与通信网结合起来完成语音数据信息交换的系统都会用到CTI技术。
TTS即语音合成技术(Text To Speech)，它涉及声学、语言学、数学信号处理技术、多媒体技术等多个学科技术，是中文信息处理领域的一项前沿技术，实现把计算机中任意出现的文字转换成自然流畅的语音输出。
TTS在CTI系统中可以应用在IVR（交互式语音应答）服务器上，以提供语音交互式平台，为用户电话来访提供语音提示，引导用户选择服务内容和输入电话事务所需的数据，并接受用户在电话拨号键盘上输入的信息，实现对计算机数据库等信息资料的交互式访问。
在IVR中应用TTS可以自动将文本信息转换为语音文件，或者实时地将文本信息合成语音并通过电话发布。实现文本与语音自动双向转换，以达到人与系统的自动交互，随时随地为客户服务。维护人员不必再人工录音，只须将电子文档引入系统中，系统可以自动将电子文档转换为语音信息播放给客户。数据库中存放的大量数据，无需事先进行录音，能够随时根据查询条件查出并合成语音进行播报，从而大大减少了座席人员的工作负担。
那么应如何将TTS功能附加到CTI应用中呢？某些比较先进的交换平台，已经在交换机的内部实现了TTS的功能，并作为标准接口的一部分对外提供，业务开发商只需要简单的调用他们即可以在业务中使用该功能。
对于未实现TTS功能的PBX，就需要业务开发商自己去选择合适的平台，在此基础上进行二次开发，即调用所选TTS平台提供的标准接口，实现语音合成功能。
目前CTI已经成为全球发展最为迅猛的产业之一，每年以50%的速度增长，CTI如同计算机产业一样是一个金字塔形的产业链，从上到下会以至少20倍的幅度增值。TTS作为一种诱人的新技术，如果能很好的嵌入到增值业务的应用中去，必将形成一个更好的应用前景。
杭州音通软件有限公司是由国家教育部和浙江省人民政府联办并依托浙江大学而成立的高新技术公司，音通公司主要致力于计算机语音技术的研发并逐步开拓语音识别、语音流媒体传输等其它语音领域的研究。其核心技术（Intone＿TTS）是具有自主知识产权的中文语音合成技术，在由浙江省科技厅组织的鉴定中被专家一致鉴定为国内领先地位，并已申请多项国家专利。
Intone_TTS是一套把文本信息转换为语音信息的开发工具包，为系统集成商、软件开发商提供了完备的接口函数和编程示例，使用户能够灵活的进行调用，并集成到其它应用系统中。接口需要语音合成运行库的支持，适合多种开发环境。开发者可以根据具体的应用场合进行选择。
它能够对所有的汉字、英文、阿拉伯数字进行语音合成；
支持繁体字及多音字的编辑；
合成效果：自然、平滑；
规范的函数调用接口，同时支持微软SAPI的调用；支持同步调用和异步调用方式；
支持PCM Wave，uLaw/aLaw Wave，ADPCM，Dialogic Vox等多种语音格式；
支持GB2312码（简体中文）、BIG5码（繁体）、UNICODE码；
支持多路通道同时合成；
支持Dialogic、东进、三汇等主流语音板卡； TTS就是Text To Speech，文本转语音，文本朗读，差不多是一个意思。在语音系统开发中经常要用到。
目前市场上的TTS很多，实现方式也各式各样，有的很昂贵，如科大讯飞，据说当初得到863计划的资助，有很高的技术；有的相对便宜，如捷通华声, InfoTalk；也有免费的，如微软的TTS产品。
相对于ASR（Automatic Speech Recognition，自动语音识别）来说，实现一个TTS产品所需要的技术难度不算大，在我看来也就是个力气活。
要是让我们来做一个能够把汉语句子朗读出来的TTS，我们会怎么做呢？
有一种最简单的TTS，就是把每个字都念出来，你会问，岂不要录制6千多个汉字的语音？幸运的是，汉语的音节很少，很多同音字。我们最多只是需要录制：声母数×韵母数×4，（其实不是每个读音都有4声），这样算来，最多只需要录制几百个语音就可以了。
在合成的时候需要一张汉字对应拼音的对照表，汉字拼音输入法也依赖这张表，可以在网上找到，不过通常没有4声音调，大不了自己加上，呵呵，要不怎么说是力气活呢。
这样做出来的TTS效果也还可以，特别是朗读一些没有特别含义的如姓名，家庭住址，股票代码等汉语句子，听起来足够清晰。这要归功于我们伟大的母语通常都是单音节，从古代的时候开始，每个汉字就有一个词，表达一个意思。而且汉字不同于英语，英语里面很多连读，音调节奏变化很大，汉字就简单多了。
当然，你仍然要处理一些细节，比如多音字，把“银行”读成“yin xing”就不对了；再比如，标点符号的处理，数字、字母的处理，这些问题对于写过很多程序的你，当然不难了。
国内的一些语音板卡带的TTS，不管是卖钱的还是免费的，大体都是这样做出来的，也就是这样的效果。
如果要把TTS的效果弄好一点，再来点力气活，把基本的词录制成语音，如常见的两字词，四字成语等，再做个词库和语音库的对照表，每次需要合成时到词库里面找。这样以词为单位，比以字为单位，效果自然是好多了。当然，这里面还是有个技术，就是分词的技术，要把复杂的句子断成合理的词序列，也有点技术。这也要怪新文化那些先驱们，当初倡导白话文，引进西文的横排格式、标点符号的时候，没有引进西文中的空格分词。不过即使分词算法那么不高效，不那么准确，也问题不大，如前面所说，汉字是单音节词，把声音合起来，大体上不会有错。
当然，科大讯飞的力气活又干的多了些，据说已经进化到以常用句子为单位来录音了，大家可以想像，这要耗费更多的力气，换来更好的效果。
至于增加一些衔接处的“词料”，弄一些修饰性的音调，我认为是无关紧要的，对整体的效果改进不是太大。
市面上商品化TTS一般还支持粤语，请个粤语播音员录音，把上面的力气活重做一遍就是了。
再说句题外话，很多人觉得录音最好找电台、电视台的播音员，其实找个你周围的女同事来录制，只要吐字清晰就可以了。在某种情况下，寻常声音比字正腔圆的新闻联播来得可爱。
再来说说文本的标识，对于复杂文本，某些内容程序没有办法处理，需要标识出来。比如，单纯的数字“128”，是应该念成“一百二十八”还是“一二八”？解决办法通常是加入XML标注，如微软的TTS："<context ID = "number_cardinal">128</context>"念成“一百二十八”，"<context ID = "number_digit">128</context>"将念成“一二八”。TTS引擎可以去解释这些标注。遗憾的是，语音XML标注并没有形成大家都完全认可的标准，基本上是各自一套。
再说说TTS应用编程，微软的TTS编程接口叫SAPI，是COM接口，开发起来还是有点麻烦，还好MSDN的网站上资料很全面。微软的TTS虽然免费，但其中文角色目前是个男声，声音略嫌混浊，感觉不爽。
国内一般的厂家提供API调用接口，相对比较简单，可以方便地嵌入应用程序中去。
商品化的TTS还有个并发许可限制，就是限制同时合成的并发线程数，我觉得这个限制用处不大。无论哪种TTS，都可以将文本文件转换成语音文件，供语音卡播放。大部分应用句子比较短小，一般不会超过100个汉字，合成的时间是非常短的，弄个线程专门负责合成，其它应用向该线程请求就是了，万一句子很长，把它分解成多个短句子就是了，播放的速度总是比合成的速度慢。
也很多应用是脱机合成，没有实时性要求，就更不必买多个许可了。
更多情况下，我们甚至没有必要购买TTS，比如语音开发中常见的费用催缴，拨通后播放：“尊敬的客户，您本月的费用是：212元”，前面部分对所有客户都一样，录一个语音文件就是了，而数字的合成是很简单的，你只要录制好10个数字语音，再加上十，百，千，万，再加上金钱的单位“元”。
TTS(Training+Tool+Scheme)超越计划
针对目前成长型企业遇到的人力资源问题，立体化解决人力资源瓶颈、通过企业与专家共建、实现人才强企的人力资源方向的重大智业项目。为企业培养人力资源高级管理人才，提供先进人力资源管理工具，并协助企业建立现代人力资源战略规划。通过“培训（Training）+工具（Tool）+方案（Scheme）”的办法，为企业系统解决人力资源难点问题，进而搭建科学、完善的人力资源管理体系。
TTS TIANJIN TERMINAL SURCHARGE
天津港口附加费。09年从日韩经过的船所收的一个费用

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zz/13449177.html

语音合成技术

发表评论

评论列表（0条）