文/牛老师商业评论,微信公众号:niubsir
随着大数据和计算力的突飞猛进,近年来语音以及人工智能技术得到飞速发展,并且已经应用到了产品之中,其中一个体现就是百度新闻客户端以及手机百度均低调的上线了一项新功能,前者可以语音播报新闻,自动读取摘要进行朗读,后者的小说频道可以用在线“磁性男声”来朗读小说内容,声音合成摆脱平铺直叙,情感效果更丰富。
要做到这些并不容易,目前普遍使用的技术是语音把一整段文字平铺直叙的念出来,但百度这次的技术核心在于:它加入了情感因素,听起来更加自然,朗读的新闻经过智能提取摘要,将重要信息播报出来,另外还实现了不同场景的不同声音,情境化做的更好。
百度率先将这一技术应用产品,势必会引起语音行业新一轮激烈的竞争,要知道这个行业有传统的龙头老大科大讯飞,还有腾讯等大佬,以及互联网语音识别的新贵云知声,整个语音行业的产品应用正在呈加速状态。
从历史上来看,语言合成技术的研究已有二百多年的历史,但是真正有实用意义的是随着计算机技术和数字信号处理技术的发展而发展起来的,近几十年来国际和国内的研究主要集中在按规则文语转换,即将书面语言转换成口头语言。通俗点说,就是早年学习机里的课文朗诵,以及Kindle读书功能,虽然可以解放双手,但是声音听起来十分生涩,一点都不自然。
这些产品的束缚根源在于技术的限制,目前国内外大多数语音合成研究是针对文语转换系统,只能以某种朗读风格将书面语言转换成口语输出,缺乏不同年龄、性别特征及语气、语速的表现,更不用说赋予个人的感情色彩。但随着用户需求的不断增长,对人机交互提出了更高的要求,提高合成语音的自然度是文字转语音的当务之急。
百度情感语音技术的突破之处是,它改变了语料的生成和录音模式,大大提升了数据规模,同时探索出了一个基于大数据和机器学习的全新的语音合成技术框架。其中有一个关键是,大量的富有情感的音库的收集和制作。将语料以段落、篇章为单位,使句子之间的联系更加紧密连贯,则发音人很容易根据语义信息,适当地加入情感,使得录制语音更加自然。
这些自然方式体现在韵律,平仄,层次,语气,重音,断句,停顿,转折等等,让平淡如水的朗读变成绘声绘色的讲故事。
其技术难点在于,需要有足够的数据来支撑语义上下文信息,中文在使用上变化无穷,应用方式繁多,而百度多年在大数据和深度学习技术上积累,正好可以构建文本与语音之间的深层次对应关系,生成富有表现力的模型,解决发音平淡的问题。而反观国内其他厂商科大讯飞、腾讯、云知声等企业以往的方式比较落后,需要对语料进行手工标注,费时费力,这种过于依赖手工和经验规则的方法,需要耗费大量的人力进行语料库标注,而人力的限制就在于,无法让语料库达到更高的规模,限制语音情感表现。
除此之外,该技术还有两项核心优势,首先就是通过自然语言处理技术来提取摘要,这得益于百度大数据词库语库的积累,以及自然预言和机器学习算法库的经验。通过提取的字数多少,设置不同程度的摘要,这有点类似于腾讯此前的财经消息机器人写作,同样是对文章精要的提炼,组成一段完整的文字。只不过,百度语音实现了全领域(财经,社会,科技,娱乐,体育…)机器自主写作,大概可以达到200字的程度。
其次是语音的个性化,在摘要的提取上,推荐机制进行个性匹配,在不同场景下提供不同的声音,为用户提供更契合、更感兴趣的新闻,从技术、产品、体验和场景上提升阅读体验。
更让人憧憬的还有,随着语音情感化和人工智能的实际应用,未来这一技术很有可能会成为Siri那样的虚拟助手,它不仅能明白用户需求,还能给用户更多情感化的交互,忘却机器人的冰冷,成为媲美甚至超越苹果Siri、微软Cortana的人工智能助手。
---------------我是分割线-----------
作者:牛老师商业评论;微信号:niubsir;微信公众号“吹牛”;转载请保留版权内容。合作请加微信immarconiu。
|