# 百度大脑文字朗读 前面我们已经学习了一些原生插件,例如文字朗读,但在国内的部分学校网络不太好,也会出现无法朗读的情况。所以喵家这里针对国内情况,加入了百度大脑的文字朗读,以适应国内的渣渣网速情况。使用方式实质与MIT的文字朗读一样。 ## 简介 文字朗读是最基础的人工智能插件。在我们日常生活中,例如排队叫号,车站报播,高铁报站等等,或者是比较智能的机器人,与人的语音交互,都是以文字朗读为技术底层进行实现的。 文字朗读作用就是:将文字转换成语音,本文字朗读插件,除了支持中文朗读,还支持其他各国语言朗读 ## 原理 ![](./images/c01_13.png) 文字朗读,也称语音合成,它也被称为文本转换技术(TTS)。它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的口语输出的技术。国内文字朗读做得比较出色的两家是科大讯飞与百度。 文字朗读的几个发展阶段 在文字朗读发展的最早阶段,机器是根据文字所对应的字音读出来,这样逐字朗读出来是毫无感情可言,听起来完全就是一个机器人机械式进行朗读。嗯,这种是最没有技术含量的。 下一阶段,单元挑选拼接合成阶段。简单来说,将一个简单的句子分解成多个元素,这些元素一般是可以符合人的常理进行理解的。举了例子,将“小喵科技专注中小学图形化人工智能编程”,里面包含的元素有,“小喵科技”,“中小学”,“人工智能”,“编程”等。此阶段的技术的瓶颈在于语音合成数据库的元素。一旦语音数据库不包含这个元素,它还是被逐字的读出来。此阶段的缺点依旧是朗读没有感情。 再下一个阶段,基于HMM的参数语音合成。简单来说解决朗读没有感情这个问题,通过庞大的语料库,进行手工信息标注(网上经常有人调侃,人工智能背后是极其枯燥的人工不智能的人力标注出来的素材),上下特征,参数提取等,进行HMM训练。得出模型后,将输入的文本进行参数调整,最终输出有感情,抑扬顿挫的语音。 ![](./images/c01_15.png) 现今阶段,基于深度学习的语音合成。可以简单理解为,在HMM的基础上,它的模型能力更强,效率更高。 ## 实验条件 - 安装好Kittenblock - 电脑可以播放声音(记得调整好音量) - 畅顺的网络(文字朗读是通过云端服务器实现,用的是MIT的服务器) (除此外,您无需购买小喵任何硬件套件,人工智能,小喵真的是做到普惠,希望各位老师多多支持!) PS:Kittenblock软件安装过程很简单,这里不再作介绍,具体参照: http://learn.kittenbot.cn/ 的Kittenblock教程分栏 ![](./images/c01_16.png) ## 插件加载 双击打开Kittenblock,左下角加载插件 ![](./images/c01_01.png) 选择百度大脑插件 ![](baidutts/01.png) ## 插件成功加载 ![](baidutts/02.png) ## 积木块具体介绍 百度的语音合成,可以朗读中文和英文(英文朗读起来口音不太自然),相比MIT的文字朗读,百度是国内的服务器,在国内使用会比较畅顺。 - 朗读嗓音设置(朗读人物设置) 有4种嗓音可以选择 ![](baidutts/03.png) - 朗读内容设置 内容可以填入中文,或者英文(英文朗读效果不太好) ![](baidutts/04.png) ## 示例程序 使用非常简单,保证电脑在联网状态下,分别点击两个积木块,就可以发出声音 ![](baidutts/05.png)