Siri的多重角色
人工智能、语音定位搜索、人机交互界面,苹果未来颠覆电视生态的关键点。在苹果创始人史蒂夫·乔布斯去世前一天,伴随iPhone4S一同面世的Siri虚拟个人助理,试图扮演多个关键角色。
主笔◎尚进
“我们在讨论你,而不是我。”Eliza说。Siri回答道:“你认为是就是吧。”Eliza诞生于1966年,来自麻省理工学院约瑟夫·魏岑鲍姆(Joseph Weizenbaum)的模拟心理治疗BASIC程序,被视作自然语言机器处理的鼻祖之一。而Siri则出生于2011年10月4日,被内置于iPhone 4S。两个开发年代相距45年的智能语音识别系统,在游戏开发者乔丹·米切纳(Jordan Mechner)的测试台上,很奇妙地进行了一阵对话。尽管Eliza和Siri的机器间调情,并没有碰撞出什么火花,但是却完成了智能语音识别历史上的接力,一种语言控制与智能识别之间的新界面传承。
即便到2011年底,Siri还只是iPhone4S独有的一项功能,并且暂时还只能识别英语、德语和法语,但谁也无法否定作为语音识别系统的Siri,被嵌入到苹果流行消费电子产品后,将会爆发出的用户力量。语音控制作为操作界面的新指令思维,正如同已经离世的史蒂夫·乔布斯早先对收购Siri母公司说的那样:“我们收购的不是搜索公司,而是人工智能公司。”
对于计算机科学历史而言,人工智能几乎近似一项终极突破,语言识别则更近似人工智能识别的敲门砖。很多人将人工语音辨识的历史上溯到1952年的贝尔实验室,其实真正取得大规模技术突破集中在上世纪90年代,依靠32位处理器的速度优势和浮点运算,出现了诸如IBM的ViaVoice和DARPA计划。Siri的起点也来自那个时代。1999年,Siri早期创始人之一亚当·奇耶(Adam Cheyer)在斯坦福研究院SRI国际人工智能中心启动了一项与机器智能语音交流的研究课题。当时美国国防部高级研究所将一项名为CALO的人工智能转化为生产助手研究项目,委托给了SRI国际人工智能中心,恰恰是后来Siri的联合创始人兼工程副总裁亚当·奇耶,当时以研究员的身份提交了一份利用无线带宽发展智能搜索和人工智能网络的文档。此后,作为CALO项目的首席架构师,亚当·奇耶和作为首席技术官的汤姆·格鲁伯(Tom Gruber)一步步组合人工智能和语义网,并且在2007年CALO项目结束后,独立成立了Siri开发公司,逐步将之前累积的技术试验成果付诸于产品化。当时亚当·奇耶为Siri下的定义是:“它是各种技术的整合,包括对话、自然语言理解、视觉、演说、机器学习、制订计划、理性思考。”而与Siri有些血缘关系的还有一家更为彪悍的语音识别开发公司Nuance,也派生自斯坦福研究院SRI国际人工智能中心,并且Siri在2009年就从早期的Vlingo技术平台,切换到了Nuance内核。
在2010年4月,苹果以大约2亿美元的价格买下Siri之前,Siri就已经出现在苹果应用软件商店,当时只能运行于iPhone 3GS上。对于使用者的语音提问,并没有使用耗费iPhone运算能力的模拟语音回答,而是以文字的方式。在被苹果收购后,Siri很快就停止了Android和Symbian客户端的开发,并且静悄悄地从苹果应用软件下架了。直到iPhone4S正式发布,作为内置应用的新杀手锏,Siri才掀掉了神秘面纱。只需要打开Siri应用倾诉,语音识别和智能检索系统就会找到最合适的答案,并且可以直接控制iPhone内的其他功能开启。
作为新的人机交互方式,Siri的语音识别控制界面就如同2007年初苹果发布iPhone时的多点触摸屏幕一样,具备了革新操控方式的潜质。可以根据语音中的关键词,以及所处的地理位置等信息要素,猜出来控制者的命令,并且具备一定的学习能力。如果回首把鼠标、电磁手写板、红外眼球追踪、电容多点触摸屏幕、任天堂的Wii感应器和微软Kinect体感游戏,一系列付诸于信息系统上的人机交互方式串联,不难看出来Siri的战略意义。尤其是被加载于苹果iPhone这样的强势产品上。“Siri作为苹果产品上的虚拟个人助理,无疑从交互界面控制上是极具开创性的,这是一个有可能改变世界的东西。在技术上,Siri至少领先竞争对手两年,因为我们不是单纯的语音识别,我们是可商用的人工智能技术。”Siri的联合创始人诺曼·温纳斯基(Norman Winarsky)在iPhone4S发布后如此说。而对于Google而言,Siri的人工智能检索能力,则开启了另一扇搜索之门。
为了让Siri能够运行在iPhone4S以外的设备上,破解团体Applidium进行了一系列的欺骗性试验,通过复制iPhone4S主机标识符向苹果服务器欺骗性连接,外界才第一次窥视到Siri的秘密。Siri并没有使用常规的GET请求数据包,而是使用每次都夹杂主机标识符的ACE命令。Siri会先捕捉用户原始的语音,然后在iPhone4S机内进行Speex音频编码压缩,之后再传递到Siri服务器上,Siri核心的人工智能服务器再进行运算。如果使用者的提问有明确的答案,Siri会直接排列组合回应,没有好的回答时,则去扫描Quora等问答类知识分享网站,迫不得已绝不连接Google和Bing等公共搜索引擎。
使用者越多,搜索结果越精确,这一直是Google在搜索质量上远远领先于任何竞争对手的根本。而一直以互联网门外汉角色拼杀的苹果,完全可以慢慢借助Siri累积下的庞大检索请求,形成自己的搜索微观权重体系。也正是基于这种对Siri涉足搜索的紧张感,让Google开始高薪去Nuance挖人,毕竟Siri同Nuance有着千丝万缕的关联,想要绕开史蒂夫·乔布斯在世时为Siri设置的诸多专利保护,只能依靠Nuance的老专家们对Siri的技术记忆。Google董事长埃里克·施密特在回应美国参议院司法小组对于Google是否构成反垄断时,一直不认为苹果是一种威胁,并且承认Google在搜索领域占据市场主导地位。但是在11月初,埃里克·施密特迫不及待地改口了。根据参议院司法小组公布的书面答复,埃里克·施密特在谈及苹果时,反复强调Siri的重大进步,Siri作为一种搜索工具的有效性让Google有措手不及的感觉。埃里克·施密特对于Siri的评价无疑有点添油加醋的味道,但对于从iPhone4到iPhone4S并不猛烈的升级而言,Siri几乎成了iPhone4S在高画质摄像头和A5处理器之外,为数不多的亮点。《福布斯》杂志大卫·考塞的《Siri还威胁不到Google》评论道:“苹果的封闭系统传统,被视作Siri威胁Google搜索的最大障碍,苹果甚至为了热销iPhone4S,不让iPhone4在升级iOS5后开启Siri功能。”
Google自己其实也有语音识别项目Voice Actions,并且早已付诸于语音搜索之上。可苹果iPhone作为强势手持信息终端,谁也不敢忽视,尤其是Google的Android系统一直在怂恿制造商们与苹果iPhone正面竞争。也正是基于对苹果封闭生态的挑衅,Dexetra的黑客团体,模仿Siri的产品形态,快速开发了基于Android开放生态的恶搞性产品Iris。充分利用Google现成的语音搜索识别,再去搜索引擎和维基百科上检索答案,并不如Siri那样简洁准确,但Iris至少证明了在没有付诸于专利和访问授权限制的开放互联网生态下,Siri是可以被复制的。抱有类似观点的还包括亚马逊,在看到Siri和苹果的语音智能控制界面趋势后,亚马逊旗下的Yarmuth Dion公司很快收购了Yap,试图要利用Yap在语音邮件转换文字上的特长,追赶Siri。
不要忘记Siri联合创始人诺曼·温纳斯基对于Siri领先两年的论调,2012年夏天将会发布的iPad3,甚至未来新一代的Macbook电脑上,Siri在苹果产品线中将无处不在。而真正的潜在杀手锏,很有可能会被聚焦于被乔布斯称为自己小爱好的Apple TV上。乔布斯在病榻上一直念念不忘对传记作者沃尔特·艾萨克森抱怨电视的难用,并且曾经提及自己找到了破解目前电视工业生态的方法。而Siri在iPhone4S上充满趣味性的表现,已经暗示了从技术上实现语音控制电视内容选择的可行性,密布按钮的遥控器完全可以被一张唠叨的嘴所替代。毕竟在庞大的有线电视海量内容之外,还有YouTube、Hulu、Metacafe等视频网站的数据源头,足够Siri抓取。■