作为Web 2.0概念的提出者之一,著名科技媒体O'Reilly出版社的 CEO Tim O'Reilly 在本文中谈了他对下一代用户界面的思考:亚马逊的Alexa证明,语音交互也能做得很好;但是,对话界面并不能解决所有的AI问题;未来人机交互将会是人与智能代理的交互,应用人性化的设计,将对话分解成更小的域,在这些域内,认真思考如何使用"fit and finish"原则 ,能够让界面直观、交互完整。
  
    (文/Tim O'Reilly)每过一段时间就会出现一种产品,改变人们对用户界面可能性的期待。Mac、万维网和iPhone就是这样。Alexa属于改变游戏规则的精英。Siri尽管引起了新潮流,但是自己却没能克服困难。Google Now和Cortana也没能做到,尽管它们有许多令人惊奇的能力以及不错的使用率。(Mary Meeker报告说,现在移动端的谷歌搜索中有20%是通过语音完成的,而Google Now卡片是每一位安卓用户体验的重要组成部分。)但是,Alexa已经做到很多其他产品没能做到的事情,在我看来,它是对话时代的第一个成功的产品。
  让我用与Alexa的一次对话向你解释我为什么会这么说。
  我在厨房做饭,双手不得空。“Alexa,播放Hamilton。”“播放Hamilton的原版录音……”“Alexa,声音大一点。”“Alexa,定时播放30分钟”。[当Alexa在回复时,音乐音量减小,但仍听得见。]“定时播放30分钟。” [音量又增大了]......“Alexa,这是什么歌?” [在Alexa回复时音量再次减小,然后又恢复到先前的音量。]“Guns and Ships,演唱者是Leslie Odom, Jr.、 Daveed Diggs、Christopher Jackson,出自Hamilton的百老汇版”……[手机响了。]“ Alexa,暂停播放。” [我赶紧洗手,多希望Alexa是我的手机界面啊!][挂掉电话后。]“Alexa,恢复播放。”“Alexa,还剩多少时间?”“大约还有9分钟50秒。”
  这次对话可以表明:
  

  • Alexa一直在听,所以完全不用手去操作的。一旦你习惯了对空气说话就能唤醒设备让其回应你,你就会觉得用手指操作屏幕就跟手机没有触摸屏一样奇怪。

  • Alexa能沉着处理某些情况。我可以“堆叠”多个交互,并且让它较为准确地猜测各个交互分别属于哪一个情境。它知道,“暂停”指的是音乐,而“还剩多少时间?”指的是定时播放。

  • 我并不需要知道许多可能的交互。我只是猜测这些交互可行,尝试它们,发现它们的确可以做到。例如,当我打电话给一个朋友时,我发现我可以问Alexa现在正在放什么。然后它正确回复我了,除了它自己也不知道正在播放的音乐是什么的时候。

  • 播放的声音减小,让Alexa在新的交互时回复的声音盖过播放的声音,这一细微的设计体现了“fit and finish”的原则,有助于新的UI范式的发展。

  现在,我再来对比与手机上的Google对话交互的情况。
  首先,默认情况下,谷歌在大多数手机上都不是实时在听的。你必须点击麦克风图标,把它切换到音频输入。这不仅是一个电源问题——与亚马逊的Echo不同,手机需要考虑电池寿命——还有隐私问题。我曾经与Alphabet的一名高管交谈,我说亚马逊的Echo相当于是从谷歌盗走了一个火种。他回答说,“你能想象如果是谷歌一直监听你的生活,会有多大的影响吗?”他说的有一定的道理。但未来就是这样。有人突破障碍,做到不可思议的事情,然后这件事就会被每个人所接受。我认为,我们现在就处于这样的时候,一直监听的设备已经出现。
  至少在我的Nexus 6P,谷歌已经给了始终启用监听模式的选择。苹果在iPhone 6中也让Siri有了这样的功能。但是,在默认设置下监听功能不是开启的,我怀疑它最终会开启。
  那么我们先假装我能语音唤醒谷歌,然后再与我的Nexus 6P进行同样的交互。
  “好吧,谷歌,播放Hamilton。”“Hamilton是一部关于美国国Alexander Hamilton的音乐剧,音乐、歌词和书的作者是Lin-Manuel Miranda。”[失败。即使是有“播放”这样明显的指令,回复的却是谷歌搜索的结果,没有回复“不在你的音乐库中”。于是,我再试一次。]“好吧,谷歌,播放Bob Dylan。” [打开了Google Play,开始从我音乐库里播放Bob Dylan。] “好了,谷歌,暂停”。好吧,从现在开始,我还是宁愿用触摸屏与它进行交互。
  但是,让我在音乐播放时再试试其他可能的操作。“好吧,谷歌,正在播放的歌曲是什么?” “Obviously 5 Believers。”回答正确。但是,一旦谷歌回答了我关于歌曲问题,Google Play就不在前台了。其他的一些应用程序或者模式回答了我的问题。所以,我甚至不能点一下屏幕来暂停或者跳过正在播放的音乐。我必须先回到Google Play的界面。可即使我这样做了,我也无法暂停或停止播放,我的屏幕弹出“Try Unlimited”窗口。我点击“No,Thanks”,然后我才可以看到并按下暂停键。
  这真是糟糕的交互设计,把平台提供商的目标置于我之上。但是,即使是没有中间的屏幕,你也可以看到,切换模式(对话代理将控制权交给一个老派的智能手机app)把不必要的复杂性添加进了界面。对话代理需要保持在前台,拦截请求,并将它们转交给相应的app(如果需要的话,将它们翻译成app的语言,这样用户就不必切换模式)。
  让我们回到与谷歌的交互中去。音乐正在播放。我可以定时播放吗?“好吧,谷歌,定时播放10分钟。” [音乐完全停止,而时钟应用打开,给我调出了倒数计时器]音乐继续播放,但现在的时钟应用在前台。而当我问:“好吧,谷歌,还剩多少时间?”这个问题既没有转交给Google Play,也没有给时钟。相反,谷歌读给我听有关地球有还能存在多久的计算结果。
  我要明确指出:谷歌的基本能力是远远超过Alexa的。我可以问谷歌Alexa不可能会回答的问题。“好吧,谷歌,从我这里去Palo Alto有多远?”“交通很拥挤,所以需要1小时10分钟。”而且,由于其庞大的存储数据量以及我手机上的实时传感器,加上其在AI有最先进的技术,我认为谷歌能够做到很多事情,而这些对于Alexa是不可能的。但正因如此,谷歌应该研究Alexa的对话UI并且赶超它。
  人性化的设计,让技术显得更智能

  谷歌的语音界面和app之间的的用户交互流程简直是灾难。每一个应用程序都希望拥有控制权,因为语音代理从来没有被授权作为用户体验的指挥者。我被迫在语音和触屏模式之间进行不必要的切换。而当语音代理不知道该怎么办时,它就会经常执行不相关的操作。 (Alexa偶尔也会这么做,但是频率低得多。我宁愿谷歌回复说:“我不知道怎样回答你刚才提的问题。”)
  除了创建一个连贯的纯语音交互,Alexa的发明者巧妙地将可能性空间划分为多个域,每个域都有一系列可理解的相关任务和问题,这些都在语音代理的能力范围之内。不同于以“你可以问我任何问题”开始却常常以失败结束的语音代理(Siri),或是试图猜测我可能想要什么却显示出我不需要的信息的代理(Google Now),亚马逊在信息架构上做得很好。让我们深入思考音乐,以及关键交互的设计。那天气呢?厨房定时器?我们可以做些什么来使设备更有趣?(“Alexa,给我讲个笑话。”)Alexa体现出了人性化设计,这使得它表现得比实际上更加智能。
  我们将越来越多地设计智能代理界面,而Alexa的发明者为这个时代带来了重要见解。请记住,你的代理基本上是愚蠢的,是人类把它放在已知的情境下,使其有限的能力能足够应对,然后用户可以轻松了解它的功能。
  人机交互每隔一段时间就有重大的飞跃。下一代的语音界面就是那些飞跃之一。人类将会与那些能够听懂我们说话、还能回复的设备进行交互(这些设备也将能够看到我们,并根据它们识别的人个性化自己的行为)。它们将能更好地处理各种各样的表达意图,而不是将我们限制在触摸、点击或滑动等定义单一的操作之内。
  最近总有人说,对话界面的炒作有些过头了。基于文本消息的机器人平台的创始人Ted Livingston说,“Bot没有对话功能会更好。”
  我不同意这种观点。我使用亚马逊Echo Alexa的体验,让我相信相反的观点。当然,Alexa不是chatbot,而是嵌入有特定用途的设备中的一种强大的基于语音的服务。它证明只要设计正确,对话界面是确实可行的。
  这让我想问:Alexa将会做什么?
  未来的人机交互将是人与智能代理的交互

  Alexa让我们体验了一把未来,就像谷歌在世纪之交时所做的那样。当时,我们仍处于大数据时代和云时代的早期,谷歌被看作是一个局外人,专门生产令人惊奇却又游离在行业主流之外的产品。几年过后,谷歌成为主流,改写了游戏规则。
  我十年前在所谓Web 2.0方面所做的工作,可以看做是我从谷歌(以及Web应用程序、平台和服务的其他先驱)那里获得的思考。最终,这些经验被视为每一家公司的必修课,一家公司要么改变自己,要么走向灭亡。在当时,Jeff Jarvis写了一本书,叫《What Would Google Do?》(谷歌将带来什么?)书的封面是这样介绍的:“一本在当今互联网驱动的市场上生存和成功不可缺少的手册。”也就是说,如果你不知道谷歌如何成功,那你就完了!而现在,我觉得Alexa也是这样。
  
  如果你正在做家庭消费电子产品——电视机、音乐系统、恒温器、安全系统、WiFi路由器、洗碗机或洗衣机,你应该问自己:Alexa将会做什么?如果你是一名汽车行业的高管,打算把一个大触摸屏安装在即将完成的模型上,而不是专注于语音控制,那你应该问自己:Alexa将会做什么?如果你是一家软件公司,你应该考虑与软件交互的设备在未来将会是对话式的,然后问自己“Alexa将会做什么?”如果你是一家餐厅或者咖啡馆,并且有自己的app让人们提前订购并付款,你应该问“Alexa将会做什么?”
  幸运的是,亚马逊不仅为Alexa的用户还为Alexa的开发者提供了一系列工具。App开发人员可以使用Alexa的技能工具箱(Skills Kit)添加“技能”,比如,一旦你添加了Lyft技能,你就可以说:“Alexa,让Lyft给我叫一辆车。”使用Alexa的语音服务,开发人员可以将语音命令添加到自己的应用程序。(谷歌和微软也有语音API。)
  不幸的是,亚马逊没有设计API。所以你必须认真研究亚马逊设计Alexa界面的方式,在设计自己的语音应用时,不断地问自己: Alexa将会做什么?保留过多触摸屏时代的思维的设计者,他们没有很好地理解语音界面,很可能建造出糟糕的混合式用户界面,就像我之前使用的谷歌语音助理一样,打消了我想用语音界面使用我安卓手机的念头。
  
  我最近与Facebook的一名高级技术负责人讨论过Alexa将会做什么?我当时指出,Facebook用AI来管理我的动态消息,通过观察我的行为能猜测我最想看到什么样的故事。但是,我并不总是想看同样的事情,我顶多是会想要听一个歌手的其他歌曲,毕竟他的曲目有限。有时候我会想听服务给我选择的音乐,但是我通常有自己的选择。所以,Facebook也是一样,不要试图从我朋友发布的所有消息中决定我想看什么,而是要给我选择表达我自己的意图。
  Facebook如果有和Alexa同样的界面,我会说:“Facebook,显示我朋友的更新”,然后AI就会工作,不是去推测我的喜好,而是将个人更新和新故事的链接分开。下一次,我可能会说:“Facebook,显示我朋友发的与政治相关的链接,”或是“Facebook,给我看搞笑视频。”这样的AI是基于我的选择提供服务,而不是试图取代我的选择。
  现在,如果我想让Facebook做到以上任何事情,我只能再花一段日子来训练算法,避免点赞或是点击我不想看到的链接类型,而只选择我想要的类型。我还不能随意切换!
  Alexa让我们知道,不要试图用对话界面解决所有的AI问题,我们要做的是应用人性化设计智能,将对话分解成更小的域从而可以产生令人满意的结果。而这些域内,花费大量时间思考如何"fit and finish"原则 ,要让界面直观、交互完整。
  来源:https://www.linkedin.com/pulse/what-would-alexa-do-tim-o-reilly
作者:Tim O'Reilly
译者:张冬君