2019年数字个人助理的智能评级
我们很高兴介绍2019年数字个人助理准确性研究的更新。在最新版本的研究中,我们在七种不同的设备上测试了4999个查询:
- 亚莉克莎
- 回声显示
- Cortana
- 谷歌谷歌主页上的助手
- 谷歌谷歌Home Hub上的助理
- 谷歌智能手机上的助手
- Siri
在2019年版的研究中,我们将比较这些私人助理回答信息问题的准确性。我们还将展示这些结果与去年(2018年5月1日发布)的版本有何变化。你可以点击这里查看2018年的研究报告。
2019年突出的主要发现
谷歌Assistant(在智能手机上)仍然回答了最多的问题,并且有最高的完整和正确的回答比例。谷歌Home排名第二,谷歌Home Hub排名第三。Cortana现在在尝试回答大多数问题方面处于领先地位。
Alexa试图回答的问题数量持续增长,而答案的准确性只有小幅下降。Siri的准确率下降了大约12%。
如果您对任何背景都不感兴趣,而只是想查看测试结果,请跳转到名为“哪个私人助理最聪明?”
我们在7种不同的数字个人助理设备上测试了4999个查询,看看哪个性能最好。
什么是数码个人助理?
数字个人助理是一种驻留在云端的基于软件的服务,旨在帮助最终用户在线完成任务。这些任务包括回答问题、管理日程安排、家庭控制、播放音乐等等。有时也被称为个人数字助理,或简称为个人助理,市场上的主要例子有谷歌Assistant、亚马逊Alexa、Siri(来自苹果)和微软的小娜。
人们会问数字个人助理的问题吗?
在深入研究我们的结果之前,我们有必要问一下,谷歌Home、Amazon Echo等设备的主要用途是不是获取问题的答案。事实证明,微软的一项新研究(由Search Engine Land撰写在这里)显示,搜索快速事实是数字个人助理的头号用途!
测试结构
我们收集了4999个问题问每位私人助理。然后,我们向七个设备中的每一个设备都问了一套相同的问题,并注意到许多可能的答案类别,包括:
- 如果助理口头回答
- 是否从数据库(如知识图谱)接收答案
- 如果答案来自第三方来源(“根据维基百科……”)
- 助理不理解查询的频率是多少
- 当设备试图响应查询,但却出错时
所有的个人助理都包括帮助用户采取行动的功能(比如预订餐厅、订购鲜花、预订机票),但这项研究没有测试这些功能。我们专注于从知识的角度测试哪一个是最聪明的。
数字个人助理的首要用途是快速搜索事实。
哪个私人助理最聪明?
我们2019年研究的基本结果是:
结果是这样定义的:
1.试图回答。这意味着个人助理认为它理解了问题,并做出了明确的努力来提供回答。这不包括回答是“我还在学习”或“对不起,我不知道”的结果,也不包括试图回答但听到的查询是错误的回答(后一种情况被单独分类,因为它表明语言技能的限制,而不是知识)。下面将对此定义进行扩展。
2.完全正确地回答。这意味着所提出的确切问题得到了直接而全面的回答。例如,如果私人助理被问到“亚伯拉罕·林肯多大了?”但回答了他的出生日期,那就不能被认为是完全正确的回答。
如果这个问题只是用其他方式部分地回答了,那么它也不能算作是完全正确地回答了。换句话说,用户是否在不需要进一步思考或研究的情况下获得了他们在问题中要求的100%的信息?
以下是2017年和2019年尝试回答的比较(注:我们在2017年没有在智能手机上运行谷歌助手,这就是为什么这只显示在2018年):
Alexa、Cortana和谷歌Home在2019年都试图回答比2018年更多的问题。谷歌Assistant(智能手机)的排名略有下降,Siri的排名保持不变。
现在,让我们来看看完整性和准确性的比较:
有趣的是,在去年的研究中,每个私人助理的准确性都有所下降。这表明,目前的技术可能正在达到其峰值能力。下一个大幅提升可能需要新一代算法。这是所有主要参与者肯定都在努力的事情。
请注意,100%完整正确地回答要求完整而直接地回答问题。事实证明,一个问题有很多不同的方式不能100%完全正确地回答:
- 这个问题可能有多个可能的答案,比如,“美洲虎能跑多快?”
- 个人助理不会忽略它不理解的查询,而是选择将查询映射到它认为在主题上“接近”用户所要求的内容。
- 助手可能会提供部分正确的回答。
- 助理可能会用一个笑话来回应。
- 助理可能只是简单地回答错误的问题(这种情况很少见)。
在下面的详细分析中查看有关错误性质的更多信息。
以下是2019年更新的一些总结:
- 谷歌Assistant(在智能手机上)仍然回答了最多的问题,并且有最高比例的问题得到了完整和正确的回答。
- Alexa的问题被完全正确回答的比例第二高。
- 就尝试回答的问题的百分比而言,该市场的增长似乎已经停滞。
Alexa、Cortana和谷歌Home在2019年都试图回答比2018年更多的问题。
探究私人助理所犯的错误类型
那么,私人助理简单地给出错误答案的几率有多大呢?让我们快速浏览一下:
目前,Siri的错误回答最多,Echo Show位居第二。请注意,这两家公司都没有建立在爬行网络上的数据库。
Alexa和Siri的许多“错误”都来自结构不佳或模糊的查询,比如“纽约拉什莫尔博物馆(the Rushmore, New York)出现在哪些电影中?”在Alexa和Siri中产生错误回答的查询中,超过三分之一来自同样晦涩的查询。
在对测试的7个数字个人助理的错误回答进行广泛分析后,我们发现基本上,所有的错误在本质上都是显而易见的。换句话说,当用户听到/看到响应时,他们就会知道他们收到了一个错误的答案。
换句话说,我们没有看到任何错误的答案会从根本上误导用户。这方面的一个例子是这样的场景:用户询问“一英寸有多少厘米?”并收到响应,“一英寸有2.7厘米。”(正确答案是2.54。)
错误答案的例子
在我们的测试中,我们问所有的私人助理:“棕熊队上次赢得斯坦利杯是什么时候?”Siri是这样回答的:
如你所见,Siri的回答是棕熊队在斯坦利杯系列赛中赢得的最后一场比赛,但接着说系列赛现在是3比3。这个测试查询是在2019年10月5日执行的——圣路易斯队在2019年6月12日赢得了第七场比赛。
接下来,让我们看看谷歌Assistant中的一个示例,使用查询“最古老的城市是哪个?”
谷歌助理似乎押上了这个。请注意,当在谷歌(网络搜索)中输入这个查询时,它提供的答案是大马士革被认为是持续居住时间最长的城市。这不是百分之百正确,但比完全没有响应更接近。
在Alexa上,这里有一个查询错误的例子,“谁是《海底总动员》的声音?”
最后,科塔娜被问到:“加州的销售税是多少?”这是我们得到的:
正如你所看到的,Cortana并没有正确理解这个问题,只是回答了一些关于加州的泛泛信息。
有趣的是,在去年的研究中,每个私人助理的准确性都有所下降。这表明,目前的技术可能正在达到峰值能力。
特色片段和数字个人助理
研究的另一个领域是每个个人助理对特色片段的支持程度。精选片段是由数字个人助理或搜索引擎提供的答案,这些答案来自第三方。它们通常是可识别的,因为数字个人助理或搜索引擎将提供明确的第三方信息来源。数字个人助理使用特色片段作为信息来源,帮助回答用户的问题。
让我们来看看数据:
对于谷歌Assistant(智能手机)和Cortana,特色片段的使用减少了。这表明搜索引擎都在尝试更多的数据来源。
对于谷歌Assistant(智能手机)和Cortana,特色片段的使用减少了。
哪个私人助理最有趣?
所有的私人助理都会在回答特定问题时讲笑话。下面是我们在4999个查询测试中遇到的问题的总结:
今年,Alexa和Siri并列最多。以下是2019年考试中的笑话例子,第一个笑话是Alexa:
下面是Siri的一个例子:
下一个例子来自Cortana:
下面是谷歌Assistant(智能手机)的一个例子:
在这些程序中加入笑话是有道理的,因为用户确实倾向于问一些相当无聊的问题。讲笑话也让数字私人助理有了一点个性。
Alexa和Siri的笑话最多。
总结
小娜目前在回答最多问题方面处于领先地位。然而,谷歌助手(智能手机上)仍然是全面正确回答问题的领导者。Alexa试图回答的问题数量持续增加,但准确率只有小幅下降。
但总体而言,进展在一定程度上停滞不前。我们不再看到任何参与者取得重大进展。这可能表明目前使用的算法类型已经达到了它们的极限。下一个重大飞跃可能需要一种新的方法。
本次测试没有涵盖的一个主要领域是每个个人助理与其他应用程序和服务的整体连通性。这在评价私人助理时至关重要。所有玩家都应该努力连接尽可能多的高质量应用和服务提供商,因为这将对它们的有效性产生重大影响。
披露:作者家中有多个谷歌Home和Amazon Echo设备。此外,Perficient Digital还为其客户在谷歌应用程序上构建了亚马逊技能和行动。