你的位置:首页 > 公司产品

科技巨头们为什么如此渴求语音数据?

更新:2018/6/22 10:53:38      点击:
  • 提交订单    
介绍
科技巨头们为什么如此渴求语音数据?
亚马逊Echo让人工智能家庭助理走进现实。运用过Echo内置的Alexa语音助理的用户都会被她的魅力所折服:“她”不仅能打专车,还能叫外卖,乃至可以完成高一的数学家庭作业。亚马逊乃至声称,每天有超过5000人对Alexa示爱。
但与此同时,Alexa的用户也都知道:除非你用缓慢的语速清晰地说出自己的指令,否则她很有可能对你说:“抱歉,我无法回答这个问题。”有一位用户在亚马逊网站上写道:“我实在是对她又爱又恨。” 但这位用户仍然给了Alexa五星好评。“你很快就会学会经过她能了解的方式与之交流,就像跟刚会走路的孩子说话一样。”
语音辨认在过去几年完成了巨大进步,但仍不足以让这项技能融入平时日子,敞开人机互动的新时代,让咱们与汽车、洗衣机、电视机等所有电子产品展开语音交流。尽管语音辨认已经取得了长足进步,但多数人仍会沿袭手势操作和触摸界面。在可预见的未来,这种趋势恐怕难以改动。
妨碍究竟安在?一定程度上源于这种技能背后的人工智能仍有改进空间。数据缺乏也相同也是一大问题——不一样言语、不一样口音、不一样方言的语音数据尤其匮乏。倘若是在嘈杂的环境中,运用效果更是大打折扣。
所以,亚马逊、苹果、微软和中国的baidu都在国际范围内广泛搜集海量的人类语音数据。微软已经在多地建设了专门的部门,录制志愿者在家居环境中的对话内容。亚马逊每个小时都会将Alexa收到的海量语音恳求上传到巨大的数据库。baidu也在中国各地搜集方言数据。在此之后,他们都会运用这些数据教给电脑如何分析、了解、响应不一样的语音指令和语音恳求。
真正的应战在于寻找一种方式来捕捉自然状态下的真实对话。baidu加州桑尼韦尔人工实验室负责人亚当·科茨(Adam Coates)表明,就算是95%的准确率也不足以满足人们的需求。“咱们的目标是将错误率降低到1%。”他说,“只有到达这种水平,咱们才能相信机器可以了解咱们的话。这将是革命性的。”
不久以前,语音辨认还非常粗糙。在2006年的一次演示中,微软早期在Windows中配备的一项技能乃至把“mom”听成了“aunt”。当苹果五年前推出Siri时,这款个人助理相同因为无法返回正确答案或听不清问题而备受嘲笑。在被问及吉莉安·安德森(Gillian Anderson)是不是英国人时,Siri竟然给出了一份英国饭馆的列表。
微软现在表明,该公司的语音引擎错误率乃至可以比美专业速录员。广州美菱空调维修点Siri也勉强取得了人们的尊重,Alexa更是让咱们窥见了未来。
这种进步很大程度上归功于神经网络技能的发展,这是一种模拟人脑结构的人工智能技能. 神经网络无需明确的指令便可自学各种内容,但通常需要辅以巨大而多样的数据。语音辨认引擎取得的数据越多,就越能了解不一样的声响,也就更加接近在众多言语环境中完成自然对话的目标。
正因如此,科技巨头才争相在国际各地搜集不一样的语音数据。“咱们的体系取得的数据越多,表现就越好。”baidu首席科学家吴恩达说,“正因如此,语音辨认才是一项资本密集型业务。没有多少安排拥有如此巨大的数据。”
高科技职业20世纪90年代开始重视语音辨认技能时,微软等公司依靠的都是来自Linguistics Data Consortium等研究机构供给的公共数据——这个创立于1992年的语音和文本数据库取得了美国政府的支持,总部位于美国宾夕法尼亚大学。
后来,科技公司开始搜集自己的语音数据,其中一些来自志愿者朗读的各种内容。现在,随着语音控制软件逐步受到人们欢迎,他们也经过自己的产品和服务搜集了许多数据。
当你让自己的手机搜索信息、播放歌曲或导航途径时,这些内容很可能会被某家公司录制下来。当你向Alexa询问天气和最近的橄榄球赛比分时,她便会运用这些内容改进其自然言语了解能力(尽管在你叫她的姓名之前,Alexa不会倾听你的对话。)“根据产品设计,你运用得越多,Alexa就越聪明。”Alexa资深首席科学家尼克·斯特罗姆(Nikko Strom)说。
亚马逊Echo智能音箱  其中的关键应战是让这项技能熟悉不一样的言语、口音和方言。这一点在中国体现得尤为明显。为了搜集中国各地的方言数据,baidu在本年春节期间启动的一项营销计划,推出了方言对话项目。该公司向用户承诺,假如他们为该项目作出贡献,今后便可运用自己的方言与baidu展开互动。短短两周内,该公司就录制了超过1000小时的方言数据。许多人完全免费供给这些数据,因为他们都对自己的方言感到自豪。一位四川的高中教师对该项目十分热衷,他乃至让全班同学用四川话录制了1000多首古诗。
别的一大应战是让语音辨认技能在嘈杂的环境中辨认语音指令——包括酒吧和体育场等人声鼎沸的环境。微软也在Xbox上部署了一款名为Voice Studio的应用,专门搜集人们在玩游戏或看电影时的对话信息。为了吸引用户贡献自己在玩游戏过程中的对话内容,该公司为参加其中的用户供给了各式各样的奖励,包括点卡和游戏道具。该项目在巴西展开了大力推广,当地团队还在Xbox主页上着重推广这款应用。他们随后运用这些数据开发了巴西葡萄牙语版的Cortana语音助理,并于本年早些时候发布。
各路企业还在为特定的环境设计语音辨认体系。微软一直在测验一项技能,以便在不受机场广播信息干扰的情况下回答旅行者的问题。该公司的技能还被用于麦当劳汽车穿梭餐厅的自动点餐体系。这套体系可以忽略嘈杂的汽车音响、孩子们的叫声和各式各样的口头语,从中提取出复杂的指令,乃至连调味品也不会错过。亚马逊也在汽车上展开测验,期望Alexa可以适应道路上的各种噪音。
在各大企业争相搜集数据的过程中,他们也在努力改进技能,期望运用更少的数据完成更好的语音辨认效果。微软首席语音科学家黄雪冬已经在该公司从事了20多年的语音辨认技能开发工作,他表明,麦当劳正在测验的技能比其他体系更加精确,但运用的数据却更少。“即便数据量不是最大的,仍然可以完成技能打破。”
google历来崇奉“少便是多”的理念,因此该公司开发了一种技能,期望运用不知所云的声响来构建文字和短语。借助该公司的语音辨认体系,他们期望经过一项改动来解决各种不一样的问题。google拼接了数万段时长仅有2至5秒的语音片段。该公司研究员弗朗索瓦兹·比伦法斯(Francoise Beaufays)表明,这一过程所需的计算资源更少,但却更容易测验和修改。
baidu也在开发更加高效的算法,只需学习一种言语便可简化别的12种言语的学习难度。在学习只有数万人掌握的语种时,这种技能显得至关重要——因为很难针对这么的言语搜集巨大的数据。
在被问及何时才能经过自然言语与数字助理交流,并得到满意的答案时,就连吴恩达这么的顶尖科学家也无法给出确切答案。即便是对最高水平的神经网络学家而言,这项技能仍然有许多谜团有待解开。有许多工作只能经过不断试错来改进,没有人敢保证某项技能调整可能产生什么样的后果。根据现有的技能和办法,这一过程大约要耗费数年时间。
但吴恩达、黄雪冬和比伦法斯等科学家都表明,咱们永远无法知道何时可以完成打破,何时能让Alexa和Siri与人类展开真正的对话。
更多