3月27日,“2017 新智元开源·生态 AI 技术峰会”在北京召开,人工智能界产学研创投领袖齐聚一堂,共商AI大计。在AI技术峰会现场,百度度秘事业部总经理景鲲作为演讲嘉宾,畅谈对话式人工智能的应用与未来。
景鲲现场介绍了人机交互的进化里程,并表示第三代操作系统是机器学习人类的语言,用自然语言进行人机交互。景鲲表示,百度DuerOS就是将机器的使用门槛降低,让机器学会人类的语言。
在对话式人工智能的落地方面,景鲲为现场来宾介绍了百度的经验,并分享了“定战略、聚人才、储技术、找场景”四大关键。景鲲表示担任产品经理的AI人才需要两方面特质:一方面,要坚信人工智能是未来发展方向毫不动摇;另一方面,他知道在推进AI的现实场景落地时有多么困难。
景鲲直言,虽然百度在AI领域技术积累深厚,处于世界领先地位,但在AI具体垂类落地、增强用户认知方面,仍需要相关企业共同协作,携手打造AI生态。“人工智能最大的挑战在于增强用户认知,对此,百度愿意全免费授权,开放资源,与其他企业一起共同将对话式AI场景落地。”
对于DuerOS的下一步动作,景鲲也向与会嘉宾进行预告——3月30日,百度“万物语,智慧芯” DuerOS智慧芯片战略合作发布会将在上海举办,会上,DuerOS将会发布智慧芯片,并与ARM、上海汉枫电子科技有限公司、紫光展锐等厂商达成战略合作,共同打造一站式智能语音交互解决方案,进一步将人工智能赋能传统制造业,助力产业升级,完善智能物联网生态。
以下为演讲全文:
景鲲:今天我想跟大家分享一些我们对对话式人工智能的现状和未来的想法。今天的分享将以百度做一个例子,在整个过程中我们遇到了什么困难,我们又是怎么一步步走到这儿的。所以,希望跟大家多交流一下我们的整体技术储备和战略。
首先,我们放一个视频。
景鲲:这个电影大家应该都看过了,《Her》,很多人很喜欢这个电影,它讲的是一个人工智能的故事,主人公戴一个耳机,加上一个手机,就可以和Her进行沟通。
我们今天想说的对话式人工智能,那么什么是对话式人工智能,怎么定义对话式人工智能。刚才的小影片就是老百姓心中的对话式人工智能。其实我们在所有的科幻片里都会看到这样的对话式人工智能:有的时候跟机器对话,有的时候跟计算机对话,有的时候跟耳机对话,甚至跟虚拟对话,这是我们心中想象的对话式人工智能。我们的愿景就是做成这样的对话式人工智能。
在这条路上我们是不是已经走得很长了呢?我们回想十几年前跟计算机对话沟通的方式:之前在PC上我们还在学计算机的语言,有的人学五笔,而对话式人工智能解决的问题就是让机器学会人的语言,让机器能够用人的语言跟人交流沟通。所以,对话式人工智能就是希望让机器学会人的语言,用更自然的方式跟人进行沟通。
如果我们看科技的发展,从PC时代到无线时代再到AI时代,人类都在用不同的方式跟机器进行沟通。第一代我们用鼠标、键盘的机器语言跟设备进行沟通,那个时候代表的操作系统是Windows。第二代我们用手指跟机器进行互动沟通,这个时候代表的操作系统是iOS和安卓。现在百度在做的事情是第三代的人工智能操作系统,我们希望用户用对话的方式跟设备进行沟通。每一代操作系统都给用户交互带来革命性改变,但是他们发展趋势都趋同——交互方式变的越来越自然。从原来的机器语言到变成半机器的语言,到变成机器学习人的语言,使用门槛越来越低,从原来的我们要去学机器语言,到机器适应我们,到机器懂我们的语言。随着使用门槛越来越低,越来越多的受众会用这种最自然的方式跟设备进行沟通。
所以,我们希望做的第三代人工智能操作系统就是把门槛降下来,百度让人们最便利的获取信息,找到所求。什么是平等?平等就是每个人有信息需求的时候,可以用他最自然的方式,在任何地方获取信息、找到所求。
为什么我们觉得对话式人工智能值得做呢?跟大家分享一下这个数据,手机百度最下面有一个按钮叫“按住说话”,我们发现人类在用自然语言跟设备进行沟通的需求越来越强,过去一年百度语音日活达到百分之百的增长,而且这种增长是几年连续的增长。可见,用户已经在用语音跟设备对话。
对话式人工智能如何落地,我想分享关于此的一些看法。刚才大家都说的人工智能的定义,现在我们来分享一下,在推进人工智能落地的路上有哪几件事情一定要做对,这些事情如果不提出来可能很多人会忽略。
今天在座的很多是创业者,很多是大公司的投资人。从百度的角度来看,有哪些事情是一定要做对才能推进人工智能技术落地的呢?第一个是定战略。第二是聚人才。第三主技术。第四是搞产品。定战略的事情很多人都容易忽略,我们来看一个公司是不是真的在做人工智能,应该看它的组织架构,组织架构是最影响人工智能落地效率的。看看现在市面上其他公司的组织架构,可以发现,如果是一个创业公司,应该很清楚是All in的;如果是一个大公司,它的组织架构是否把人工智能做一个业务来发展,这非常关键,只有当它做成一个业务来发展,尤其是一个独立事业部的时候组织效率特别高。所以,今年百度度秘、智能驾驶等都成立了一个固定事业部,作为一个独立的业务部门来开展工作。
第二,聚人才。人工智能的人才现在非常贵,同时现在人工智能的人才也不是那么多,我们希望抓住最棒的人才,最棒的人才就分布在中国和美国。从百度的角度来讲,基本上人工智能顶尖的人才都聚集在百度。
再提一句,除了刚才机器学习的顶尖人才,还有非常非常稀缺就是AI的产品经理,这种人才,我用一个词来形容,必须是要有“分裂式人格”的人工智能人才。这种分裂式人格是指他一方面非常非常坚信未来就是这样,无论是谁推广我都觉得未来就是这样。另外一个他一定要知道现在落地有多困难,AI跟用户的认知究竟差距多大。同时又对愿景十分期待又有技术能力的“分裂式人格”的人才,才可能把整个AI的业务推进好。
第三,技术。很多时候我们会遇到一些人,他们认为“我大概做过几年机器学习,我大概就能做一些相关技术”,其实AI相关的技术做起来没那么简单。比如包括DuerOS,也已经进行两三年的技术储备了,不是随便一个公司说我大概能做这件事情就能做的。整个百度AI的技术从最开始基础的机器学习PaddlePaddle,到PaddlePaddle之上的语音、自然语言处理、图像技术、用户画像,每一项技术在十年前就有了,大概都是储备五六年以上。所以,人工智能做好必须把相应的技术基础覆盖好。比如我们的Deep Speech2入选2016年麻省理工评审的十大突破技术,比如OCR技术也获得很多的荣誉,我们PaddlePaddle成为整个中国首个开源的深度学习平台,所以,整个技术方面储备很重要。
最下面找场景,这是最关键的,很多技术最后结束在找场景,AI一定要找好一个比较好的落地场景。从对话式人工智能的角度来讲,场景真的非常重要,通用式的对话式的AI太难了,现在做起来挑战非常大。所以,必须要分场景。好的场景,第一个,它是要符合用户交互习惯的一个场景,如果用户在这个设备上,在这个场景里讲什么键盘,讲什么触摸式的手段,其实在这个场景下是不适用的。第二,场景适合当下技术的应用,只有这样才能做出一个好的产品。第三,对话式人工智能要满足对话式的需求。
我稍微往后退一点,分享一些我们的经验,我们今年1月份在美国拉斯维加斯推出了对话式人工智能操作系统。如果看整个对话式人工智能操作系统的演进过程是很漫长的,所以,它的储备需要很长的时间。我们2014年7月份正式推出了对话式人工智能的项目,大概到2015年正式对外发布,这是第一个时期,初创期。
第二,任何的人工智能公司,说想突破点什么,就要先打一个问号,这个时候要问一个团队是不是在这个领域有足够储备,有没有找到一个好场景直接切进来。这些都不容易,要储备好,一鼓作气。所以,第二个阶段在培育期,就是能够获得足够多的数据,能够让系统足够的聪明。为什么刚才提到的手机百度下面一个按钮叫“按住说话”,是因为我们缺用户正常交谈的数据,原来的搜索上我们看到绝大多数是关键词的数据,非常非常多的query 数据,是用户说“北京 天气”这样的数据,这样的数据跟人们在对话中的数据不一样的,我们平时说话的时候更多是口语化,我们很兴奋的发现当你加了一个语音的搜索之后,用户会更多的用自然语言的方式跟搜索引擎进行交互,这些都是原来搜索引擎没有的,只有整合这些数据才进入到第三个阶段,在这个场景里加速突破。所以,DuerOS的战略很简单,当我们整个能力足够强之后我们要分场景突破,当我们的能力和虚拟的设备和场景相结合,赋予这些设备场景能力,很多设备和场景已经有对话需求了,只是原来我们没有想到。
我举个具体的例子,我们最近做了很多活动,发布很多产品。我爸爸眼睛不太好,他说你做了这么多设备,这么多产品,为什么不做空调?把空调弄一个语音的交互多好。我说我想一想,空调交互,他说我给你讲一下我有多需要,每次我出差去宾馆的时候,由于我眼睛花我根本看不清楚空调上冷、热、除尘这些小的图标,所以,每次我都打电话让服务员帮我调一下。如果你能做一个语音对话,我就能跟空调说“制热25度”就好了。所以,很多小的场景、每个设备都有它语音对话的需求,我们把这些需求捞出来,就好了。
我把一个通用型的对话能力放到一个小场景里能解决什么样问题,能做到什么效率?刚才说到做通用的人工智能太难了,帮我放在一个具体的垂类里,这个问题就变的易如反掌。帮我放一下这个视频,这是用对话的方式找一个饭店。
景鲲:这个视频是我们一年前做的效果。当我们把通用式的对话式人工智能系统放到具体垂类时,这种效果很容易做到。所以,当很难的通用式人工智能放到场景的时候,很多问题变成可解的,我们觉得有很大的应用空间。
还有一个观点,对话式人工智能推进过程中,技术都是基础,端到端的用户满足才是关键。什么叫端到端的用户满足?就是我们很多用户需求不止是需要一个语音识别准确率90、95、97、99,他们需要端到端的满足,播一个音乐是不是真的有音乐资源,我让你找一个餐厅你是不是能真正理解我说话,我让你找一个天气是不是真的能把天气找出来,我让你查一个股票价格是不是真的有数据。真正用户关心的往往是忽略基础技术,而是端到端的满足。所以,从整个对话产品来讲,功能性、性能、体验都是用户端到端立体的需求。
如果从百度的优势来讲,我们希望把这种优势很开放的提供给合作伙伴,我们希望把丰富的信息和服务生态,作为一种基础能力,让所有人都在这个基础上做一个比较好的场景化的对话式人工智能。
百度本来就是一个搜索起家的公司,我们的信息生态、服务生态能力非常强,从类目到功能的这些能力都会分场景提供。刚才说海量数据非常重要,用户要的是端到端的满足,所以,是不是有数据、有所有的音乐、有所有的有声资源,这是用户真正要的端到端的满足,百度的数据和信息分析能力我们开放的提供给所有的合作伙伴们。
最后一点跟大家分享的是挑战更大的是用户的认知,什么时候让老百姓觉得这个产品好用,甚至没有人把它当成人工智能产品,是不是能大家一起推动市场、让用户认知到人工智能里比原来体验好,这是非常非常重要的。
从推动整个产业的角度,我们会把它分成不同的合作伙伴来看,比如芯片模组方,开发者,企业应用,内容资源方,大家都要一起来推动这个产业。稍微提前剧透一下,大概本周四,我们会和ARM等发布一个智能的芯片,推动产业的发展,把这种基础的能力集成到很多设备上,我们搭建一个平台,让合作团队在平台上做相应的对话式人工智能。同样,我们也希望能够和更多合作伙伴合作。
整个总结起来,对话式人工智能的挑战非常大,除了技术、数据、人才之外,推动用户的认知也非常重要,在这个过程中我们愿意分享我们所有的经验给大家,我们也希望把百度的能力开放给大家,让大家把对话式人工智能做的更好。所以,我们会全免费授权;我们会提供端到端解决的能力,大家直接就得到百度的所有信息和服务内容;我们为大家提供商业化变现的方式。所以,我们会把所有的能力作为一种基础能力,第三代操作系统开放给大家,来推动整个对话式人工智能的落地。今天很高兴跟大家分享。