他呆了一瞬,才打开新闻,拉下去细看。
整篇新闻的口吻带有一种明明很激动却强自抑制的感觉,这小编也真是厉害,用特别理性客观的文字把回声从上到下夸了一个遍,还不着痕迹地介绍了新软件的各种功能。
软件的名字很普通,就叫回声配音,和之前一模一样。
只不过之前的回声配音是个网页程序,这回有了客户端。
“基于这种划时代语音合成技术,回声科技目前仅发布‘回声配音’一项产品,仅仅是这一款软件,已经展现出令人震惊的功能效果。这一技术的后续开发非常值得期待。”
邵逸明看完软件,强压着内心的惊疑不定,去应用商店下载了手机a。
移动端的a设计非常简单,就是输入一段文字转换成语音,带有简单的参数调试功能。
ai配音对硬件的要求相当高,手机端不能一次转换太多内容,一次输入仅限五十字。
邵逸明第一时间想到那个刚刚通过海选的动画剧本,随意从剧本中拉出一句词输入进去。
文字输入完毕,蹦出挑选音色的选项,预置音色有最基本的童音、少年、青年、中年、老年,每一样都分男女。
点击某个音色,就直接输出声音。
仅仅是一句简短的对话,邵逸明点开每一个音色来回听了三遍,越听越觉得难以置信。
是语音合成,真正的语音合成。
和软件唱歌不一样,语音合成不是简单的声音排列组合,还需要自然语言处理,识别文字语义等等。现在,程序识别出了某句话的语义,根据语义配置了合理的起伏、韵律和声调,然后播放出来。
逼真程度之高,就像是有一个真人在手机里说话一样!
程序的表达不一定最动听,但绝对是符合语境的,让人找不出违和感。
换句话说,软件不具有顶尖配音演员的实力,但是却具有普通配音演员的能力。
邵逸明强自镇定,安慰自己说平平无奇,没有灵魂。别怕别怕。
机器终归是机器,就算能配音,也只是套路化模仿人的语气,配不出有力量的情感表达。就像是演技拙劣的演员非要去演戏
他随便选了一个音色,点击确认,来到了下一个页面——情感选择。
下面有四个滑条,分别是喜悦、激动、愤怒、恐惧。
邵逸明滑动这四个滑条的时候,感觉异常不真实,就好像在滑动图片的rbg滑条一样。
滑动之后,实时生成的语音果然出现了微妙的语气变化。
这一页下面还有一样小字“登陆电脑客户端,调节更多情感维度,还可以自行设计维度模型,保存参数建立情感滤镜。”
邵逸明犹豫了一下,没有理会,点击确定来到下一个页面。
这一步的名字叫“音频液化”,选择一个参数,在屏幕上生成一条曲线,手指涂抹就可以改变曲线的形状,纵轴是该项参数,横轴是时间。
音量是一条直线,用手指向上抹出一个小山包,山包对应的时间段的音量就会发生变化。
语调是曲线,可以用手指涂抹直接改变声调的上扬或下抑。
语气轻重是折线,可以制造强调声或轻声。
发声位置,可以调出气音、鼻音、胸腔共鸣、丹田发声不同的效果。
还有音高、语速等等各种各样的参数。原本“平平无奇没有灵魂”的普通对话,可以在这个界面往千奇百怪的方向去调整,输出令人叹为观止的多样性成果。
第四步就是最后一步,完成这一步之后,系统就生成了3文件。
邵逸明听了一遍又一遍,最后靠在椅子上,用手盖住脸,长叹一口气。
除了音色有些出入,这整句话和他所设想的一模一样。
过了半天,他终于找到理由安慰自己“……第四步也太复杂了,选择困难症怕不是能玩一年。要是都这么一句话一句话地调,猴年马月才能完成一段配音?”
厉害归厉害,效率反而降低了。
这个想法刚一冒出来,a页面弹出提示“是否感觉参数太细致,建立音频太麻烦,耗时过长?下载c客户端,体验高效率ai配音。”
邵逸明立刻捕捉到关键点c端的功能更加强大?
这个手机端时时刻刻都在给c端打广告,很明显只是c端的一个推广试验版。
移动a已经强大如斯,c端的完整功能该有多么恐怖?
邵逸明立刻起身,连回家都等不及,找了家最近的网吧,开机直接下载软件。
比起手机端的简易,c端显得过于臃肿了。光纤网速下,软件下载了整整一个小时,又安装了半个小时,才总算弄好。
这是个付费软件,全功能试用一周,简单功能试用一个月。
邵逸明迫不及待地点进去,发现它比起手机端的确是强大了不少。
文本输入方式变成了导入文本文件,没有五十个字的限制,一次可以导入数千字的文本。
他直接登陆云盘把自己的剧本下载下来,从里面选了一小段导入进去。
文本读入后,显示在左侧的空白框里,系统自动识别文本格式,广告词、小说、剧本,都会有不同的排列方式,对应不同的窗口布局。就像s一样,根据画画、修图、平面设计不同的功能,会有不同的窗口预设。
文本一导入,软件就蹦出提示,“监测到您的文本类型为剧本,是否切换为广播剧模式?”
切换之后,整个窗口布局大变样,被分成了五个模块。
左上是文本时间轴,一行一句文本,对应着音频时间线。左下是角色窗口,从剧本中自动识别出的几个角色已经整整齐齐排列在里面,点开之后是自定义角色卡,包括该角色的音色、情感滤镜、语速语气等等。
右上是属性编辑器,右下是音效素材库。
整个页面最下方是一条多轨道时间轴,可以对音频进行整体的编辑。
这么一看,这个软件就已经专业得不行,ui设计功力不逊于adobe系列。
第一步依旧是选择音色,但不再直接输出音频,而是选好音色后,填到角色卡里。
邵逸明选完第一个角色的音色就悟了,他应该先把这些角色卡填满,然后再去调整生成的音频参数。
除了常规的语速语气等,角色卡里还有“情感滤镜”选项,可以选预置的,也可以自定义。自定义窗口里足有二十多个情感维度,开心、同情、嫉妒、失望……二十多个滑条看得人眼花缭乱。
一个角色不可能永远高兴或永远悲伤,邵逸明填完第一个角色,想了想,复制出一份,在角色名字后面加了个括号(低落),微调了一下参数,换了一个滤镜,用来表示该角色不开心时的状态。
很快,各个角色以及它们的复制体建立完毕,可以开始编辑详细语句了。
每一句的可编辑参数都显示在右侧属性编辑器里,和角色卡里的参数几乎一模一样,也有情感滤镜选项。邵逸明立刻意识到,所谓的角色卡,其实就是一个参数模型。
属性编辑器里,唯一和角色卡不一样的,就是音频液化曲线,像手机a一样,可以对某一个句子的不同时间点,进行最细微的调整。
编辑完角色、编辑完语句,软件自动合成音频,这段音频显示在右下方的音效素材库里,可以拖入多轨道编辑器进行剪辑。音效素材库链接到云端,用户可以从中下载所需要的任何音效。当然,也可以自己导入。
到这里为止,这个软件只是普通的配音软件而已,功能无非是模仿人类的声音,细化了各种可调参数。
用这个软件来做广播剧的话,只要设定好角色,输入剧本就可以输出音频。但这样做出来的广播剧非常“标准化”,用邵逸明的话说就是“平平无奇、没有灵魂。”
如果对广播剧进行精细化的微调,可以达成很好的效果,甚至能调出专业配音都达不到的水平,但那样又太慢了,要一点一点抠到天荒地老。
邵逸明心想,这个软件是不是有点鸡肋?一键生成的作品比较粗糙,精细制作的效率又不如人工配音。
当然,可以用这个软件生成大量粗糙的ugc作品,人们对ugc作品的要求一向很低,就像网友自己利用游戏制作的电影,再粗糙也有粉丝。
但它也只能用大量粗糙作品填充低端音频市场,或者出一两部极其精细的“神作”,真正的中端精品内容,还是只能由gc产出。
这个想法才刚冒出来,邵逸明突然发现,软件里还有一个功能。
“ai换声,这是什么?”
他一下子打了个激灵,想到ai换脸、ai换人……“草,不会是我想的那样吧?”
还真就是他想的那样。
ai换声的功能是,可以自己为某个角色配音,ai系统会学习他的声学数据,换成系统预置音色。类似于变声器的功能,但不是实时变声。
弄懂这个功能之后,他直接摘下耳机,坐在椅子上,喃喃道“补齐了。”
软件的最后一个缺陷也补齐了。
精细制作效率低?不,我们可以ai换声。嫌调参数麻烦,就自己配音,再换成角色的声音。
邵逸明是做音频内容运营的,他一下子就想出了,这个软件发布后,广播剧的制作模式将会发生多么翻天覆地的改变。
在低端市场,只要设定好角色、输入剧本、适当添加音效,就可以一键生成广播剧。这种广播剧比较套路化,该有的语气声调样样不缺,但比较缺乏表现力。这就像是一部演技很差的偶像剧。
在中端市场,依旧是按照上述模式生成广播剧,但在比较关键、比较需要表达力的篇幅上,可以由配音演员进行配音,再替换成角色的声音。全程配音替换也可以,总之,只要一个配音演员够了,一个人就能完成一整个剧组的工作。这种广播剧就像是偶尔演技爆发的普通电视剧。
在高端市场,用软件对广播剧进行不厌其烦的精细微调,可以完成非常高级的表达。这种广播剧,大概就像演技爆棚的大电影,普遍意义上的“神作”。
一部广播剧所需要的人才依旧是三种——编剧、导演、配音,但团队急剧缩水,最多只需要三个人。
一名编剧足以自己完成一部低端剧集,再加上一名配音,可以完成中端或高端剧集,如果编剧本身就是配音那更好了。至于导演,可有可无。
两个人能做,一个人也能做,超高效率的广播剧内容产出,这就是、这就是……
“这就是付费音频的ugc模式……”