宁德生活圈

网站首页 互联网 > 正文

未来百度地图会有更多的AI能力和语音交互能力

2021-09-22 01:07:16 互联网 来源:
导读 美国天才科学作家詹姆斯弗莱乔斯(James Flajos)用标题《智能语音时代》描述了语音技术对人们的影响。他的副标题是非常有趣的——商业竞

美国天才科学作家詹姆斯弗莱乔斯(James Flajos)用标题《智能语音时代》描述了语音技术对人们的影响。他的副标题是非常有趣的——商业竞争、技术创新和虚拟永生。在他看来,每隔十年左右,人们与科技互动的方式就会发生根本性的变化。数十亿美元的财富将“等待”定义新时代范式的公司,而落后者将破产。

语音正在成为影响现实的通用遥控器,成为几乎可以控制任何技术设备的手段。Voice打破了世界上一些最有价值公司的商业模式,为新的应用创造了机会。

这一次,百度地图用语音定制展示了品牌营销和技术积累的双重能力。其中,未来ToB和ToC领域的语音技术也有广阔的应用空间。

一个

品牌创新。

过去,地图行业经常通过明星语音包找到明星平台,推出品牌活动。

这个策略真的很有效。事实上,汤唯和林志玲都很受用户欢迎。但是,我们要知道,明星粉丝的圈子毕竟有限,明星的声音可能只会吸引一部分粉丝用户。如果我们想真正扩大圈子,实现营销突围,我们可能不得不采取一些其他的策略。

不过有意思的是,9月19日,百度地图发布了语音定制功能,直接推出了用户定制的专属语音包。

定制非常简单。打开百度地图App,醒来“打个盹”说“录我的语音”,或者在百度地图首页点击“出行助手”进入“语音定制”,即可开启语音定制之旅。在安静的环境下,按照百度地图指南,读出卡通、电影台词等有趣的录音文字,等待20分钟左右,就可以拥有自己专属的语音包。

最后可以用自己的语音包替换其他明星语音包,可以在百度地图景区的智能语音导航、智能语音交互、导航等所有场景中使用。

让用户在使用地图的时候听听自己的声音,对于大家来说可能是一个有趣的尝试。这次尝试的有趣之处在于:

1、满足新鲜感;明星语音已经是市面上大部分手机地图的常规操作。由于传播机制的不同,人们经常会听自己的声音,记录自己的声音也不同。这种“奇耻大辱”的感觉往往比明星的声音更有意思。

2.打破循环;毕竟明星声音只是部分粉丝群体使用,但大家对自己的声音感兴趣,所以不会花一分钱请明星为自己代言,也不会针对少数粉丝用户,而是直接用技术手段覆盖所有用户群体。这个策略可以用四个或者两个来形容。

可以说,这不仅仅是一次营销活动,更是一次技术演示。两者结合得很好,

很少有品牌营销能真正释放技术能力,但百度地图这次做到了。它让技术和营销变得软硬兼施。

语音技术的飞跃。

该功能主要采用百度的原创风格转移技术Meitron模型。

风格转移的概念源于图像场的概念,简单来说就是将一幅画的艺术风格运用到另一幅画中。

其实也叫“语音克隆”、“多说话人”、“风格转换”、“语音转换”。

知道发音的风格转移是非常困难的。

因为深度网络很难进行语音处理。一方面,它不像图像和文本领域的研究那样热门;另一方面,语音中包含的信息很难编码到高维隐藏空间中。一个语音时间序列混合了以下信息:说话人特征(如一个人的音色、音调等。);语言内容(语音内容);副语言特征(如情感等。).

2017年,美国有一篇关于风格转移的学术论文,名为《Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis》。

百度地图采用的Meitron模型主要有三个方面的特点:说话人音色转换、多情感朗读和韵律风格转移,大大降低了个性化语音合成的定制门槛。

要知道,在以前,录制星图的声音是非常麻烦的。以高德地图林志玲读音为例,其制作分为两部分。

是根据录音录制的一段语音内容。另一方面,高德当时找人,跟踪了林志玲几个月,亲自录音,并对原始声音文件进行处理,提取数字特征。然后,采用通用完善的模式合成技术对元音、辅音和声调进行采样,通过算法实现文语转换。

这是2014年明星语音生成的处理方案。看完——,你大概会觉得录一个音太难了。

但是,在Meitron模型下情况就不一样了。这种模式背后的技术支撑是百度大脑语音技术的赋能。人工智能的加持使得地图语音包的制作从每月的水平。

别到分钟级别的突破性进展。

该模型是目前行业领先的语音合成技术。用手机即可完美复刻说话者的音色,风格,情绪等。

关键是,仅仅只需要20分钟就能全部生成。也就是说,未来不管是什么明星,他们的语音只需要在Meitron模型里跑20分钟,基本就能生成一个完整的导航语音包。

语音合成能力越强,其实也说明未来人机交互、语义理解的可能性越大,机器阅读的能力越强。

短短5年时间,AI加持下的语音技术可谓突飞猛进。百度大脑的实力可见一斑。

未来商业的结合点

这次品牌营销其实也是百度语音技术的一次能力展示,它未来在ToB侧、ToC侧都可以有更多结合之处。

比如深度神经网络技术,提供高度拟人、流畅自然的语音合成服务,让客户的应用、设备开口说话,更具个性。

1、教育和阅读类产品:让课程和讲解变得更生动

通过阅读类APP阅读小说或新闻时,如果使用语音合成技术为用户提供多种发音人的朗读功能,释放双手和双眼,获得更极致的阅读体验。

2、生活和服务类产品:让服务交互效率得以提升

语音合成还可应用于打车软件、餐饮叫号、排队软件等场景,通过语音合成进行订单播报,让用户便捷获得通知信息。面部识别则是可以展开顾客识别、订单校对。

3、智能硬件类产品:让人机活动变得更鲜活有趣

可集成到儿童故事机、智能机器人、平板设备等智能硬件设备,使用户与设备的交互更自然、更亲切。

当然,对百度地图自身而言,这次语音合成技术的使用使其人工智能地图的称谓名副其实——所谓人工智能地图指的是,在AI赋能下,地图在交互体验、位置信息、出行服务以及出行决策等方面产生了重大变革。

对ToC用户来说,未来的百度地图会具备更多AI能力和语音交互能力,它在使用过程中会变得更便捷、更智能,比如说,结合用户的使用习惯和当前的场景,通过用户画像、深度学习等能力,给每个用户带来个性化信息和服务推荐。

对ToB用户而言,未来的百度地图同样可以运用AI能力和语音交互能力,为客户和商家基于语音的地理位置服务,结合人口分布、客流分析、设施分布等多项大数据分析服务;面向规划、房产、商业、零售等行业提供解决方案。

当“你应我答”的模式出现,在人与人之间、人与机器之间,交谈就绝不只是一种纯粹依靠逻辑展开的过程。语言永远不是脱离内容的外壳,人都会被语言影响或打动。

未来,我们与无处不在的机器构成的世界,将是一个前所未见的更加丰富多彩的感性世界。

詹姆斯· 弗拉霍斯有这样一个设想:

在云时代,“只要简单地加上一个麦克风和一个Wi-Fi芯片,任何装置都能实现语音驱动。从浴室的水龙头到孩子玩的布娃娃,任何装置都能利用分布在全球的几千台计算机所提供的计算能力。”这几乎意味着“万物能言”的童话世界真的实现了。

在这样的世界之中,商业逻辑和产品逻辑也将有着更多改变。语音可能真的要成为地图等产品的入口之一。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。

免责声明: 本文由用户上传,如有侵权请联系删除!


标签: