早上,王(wáng)爷爷吃完饭,机器人“小(xiǎo)明(míng)”赶紧提醒王爷爷要在半小时之内吃(chī)药,吃完药王(wáng)爷爷坐在(zài)电视机前,“小(xiǎo)明”告诉王爷爷老花镜(jìng)在茶几(jǐ)的第一个抽(chōu)屉中。午休过后,王爷(yé)爷要出(chū)门散(sàn)步,“小明”告诉王爷爷外面只有10度,需要(yào)穿(chuān)外套,并拿上伞。
以上(shàng)的情景绝对不只是畅(chàng)想,随着老龄化和少(shǎo)子化程(chéng)度的加深,机器人(rén)会越(yuè)来越(yuè)多走进老年人家庭(tíng),成为(wéi)智能养老(lǎo)小助(zhù)手。但是每(měi)个老人的脾气、性格、需求各不相同,因此要求机器人能够不断学(xué)习,理解老人(rén)的隐性需求,真正能够陪伴老(lǎo)人。如何满足这些个性化的需求(qiú)?从(cóng)人工(gōng)智(zhì)能的角度分析,就要让机器人不(bú)断学习,认识老人的家庭环境,理(lǐ)解老(lǎo)人的需求(qiú),但是目(mù)前,不管是从机器(qì)视觉方面,还是自然语言理解(jiě)方面都面临巨大(dà)的挑战。
在英特尔中国研究院2018年(nián)媒体(tǐ)开放日上,英(yīng)特尔的(de)研究(jiū)人员从计算机视觉、自然语言识别、强化(huà)学习等领域分享了英特(tè)尔的研究成(chéng)果,让我们看到未(wèi)来机器人的发展方(fāng)向。
目前的技术瓶(píng)颈
机(jī)器人进入家(jiā)庭,首先(xiān)需要认(rèn)识主人,只有认识了主人才能进行(háng)全方位的服(fú)务,比如主人习惯什么时(shí)候起床,如果起床晚了是否需要进行提(tí)醒?喜欢吃什么(me)食物,当家里没有了是否需(xū)要提(tí)醒子女购买?对于主人和重要物品,目前是基(jī)于(yú)深度学习,进行大量训练(liàn)进行识别,但是即使进行了大量训练,可能(néng)有时候(hòu)还(hái)会出错,比如针对老花(huā)镜进行(háng)了(le)一(yī)万张图(tú)片的(de)训练,人(rén)工智能(néng)还(hái)是有(yǒu)可能(néng)认错主人的老花镜。
另(lìng)外,由(yóu)于每(měi)个家庭的需求不同,机器人无法进行预编译处理,需要个性化定制。比如有些(xiē)人喜欢静,家(jiā)里不能随便走动(dòng),有些人喜欢动,需(xū)要随时满(mǎn)足(zú)主人的(de)呼唤。主人的起床(chuáng)时间不同,无法预(yù)先编(biān)程,需要根据个人的特点进行观察。因此(cǐ),做好机器人不仅需要(yào)人(rén)脸识别、底层(céng)语义分(fèn)析(xī),还需要高层(céng)语义分析(xī),从而(ér)让机器人的智能程(chéng)度满足(zú)个性化需(xū)求。
进入家(jiā)庭后(hòu)需(xū)要自主学习
现在(zài)的人脸识别一(yī)般是对(duì)正脸(liǎn)进行识别,对于侧(cè)脸识别可能(néng)就没有那么灵了,如果在家中机器人只(zhī)能识别(bié)正(zhèng)脸将会发生很(hěn)多尴尬,用户的交互体验也会大打折扣(kòu),因(yīn)此有人想出了通过人体特征进行辨识,比如衣服,但是当主人换了衣服机器(qì)人又(yòu)无法(fǎ)辨识。英特尔所采取的方(fāng)式是将人脸特征和人体特征(zhēng)相结合,人体特征不需要预(yù)先把人各种(zhǒng)各样的衣服都要看一遍或者(zhě)姿态看一遍才(cái)能认,通过人体特征认(rèn)人,而是通过人脸(liǎn)开始不断地自我学习,机器人刚开始(shǐ)通(tōng)过人脸识别主人,经(jīng)过一周(zhōu)的(de)交(jiāo)互和观(guān)察,可以从各个角度(dù)把主人准(zhǔn)确地识别出来。
因为(wéi)主人可能会(huì)换衣服,机器人(rén)还会发生错(cuò)误,这时候机器人(rén)需要和主人主动(dòng)交互,把可能的错误进(jìn)行确认,这(zhè)是自我学习的认人功能。同时,英特(tè)尔还研发(fā)了一些自适应物体识别,比如:药瓶,通过对(duì)一帧的(de)图像(xiàng)标注之后,把(bǎ)物体在(zài)线(xiàn)建一个模型,后续可以把这个物体(tǐ)的边界准确的(de)分割出来,这等于认识物体是可以通过向用户学(xué)习的过程实现。
portant;" />
机器人的主动学习和强(qiáng)化(huà)学习
让(ràng)机(jī)器人理解:“昨天我在(zài)客厅里(lǐ)吃药,药(yào)瓶去哪(nǎ)里了?”
在家庭(tíng)生活中,王爷爷可能问机器人:昨(zuó)天我(wǒ)在客(kè)厅里吃药,药瓶去哪(nǎ)里了?这个(gè)问(wèn)题貌似非常简单,可能三岁小朋友也能理解,但是对(duì)机器人来(lái)说里(lǐ)面有(yǒu)很难跨越的技术鸿沟。其中王爷爷是对人的识别(bié),吃药(yào)是动作识别(bié),药瓶是物(wù)体识别,这些(xiē)需要底层识别模块来实现。再看“昨天”和“客(kè)厅(tīng)”这两个关(guān)键(jiàn)词,客厅(tīng)是对空间的理解(jiě),昨天是对时间信的理解(jiě)。如何让机器人理(lǐ)解这句话?首先最底层要(yào)进行人物识别、物(wù)体识(shí)别、情绪检(jiǎn)测、动作(zuò)检测,接下来,有一个三维(wéi)语义环境,就是把底层检测到的信息和物理环境对应起来,比如人在什么(me)位置(zhì),物体在什么位置(zhì),这件事发生在什么位置,这些信息只有在三维语义环境的(de)模(mó)块(kuài)中对应上,机器人才能(néng)够(gòu)理解事件发生的意义。
英特尔利用三维语义环境和个性化(huà)知(zhī)识库这两个模块来(lái)解决这些问题,从底层(céng)的感(gǎn)知模块走到应用,但是底层的感知模块不可能做到(dào)百分之百精准。这个错(cuò)误会往上层传播,到了空间层,我(wǒ)们希望把底层(céng)的这些信息打上空(kōng)间智能的标签,位置跟空间相对的情况,包括(kuò)跟空间的三维建(jiàn)模,都是在这一层次进行的(de)。理想的(de)情况(kuàng)机器(qì)人到了家里,马(mǎ)上建立空间模型,并且能够理解空间(jiān)的(de)含义。到了知识库(kù)层面,能(néng)够很好的记忆这(zhè)个知识,基于这个知识进行推理、应用,但(dàn)是目前的技术还(hái)存在(zài)问题,不可能做到百分之百精准。
三维语义环境所做的是从感知层(céng)得到信息(xī),比如药瓶的位置,用坐标(biāo)的方式标记(jì)出来(lái),接下来空间智能(néng)要(yào)理解这个空(kōng)间是客厅还是餐厅(tīng),到 这一层次才能(néng)跟人交流(liú),进而判断(duàn)出客厅,然后(hòu)顺利(lì)在客厅找到药瓶。可以看出,空间智能主要(yào)的工作是(shì)快速对空间进行建模,并理解这(zhè)个空间。关于个性化的知识图谱,主要功能是记忆和推(tuī)理,所(suǒ)面临的最大挑战来自于我们想记录的知(zhī)识。人类知识分两(liǎng)块:一块是稳(wěn)定的知识,就像谷歌和Facebook力图想存的知(zhī)识,谷(gǔ)歌叫Google Graph,这些知识可(kě)以事先做好,并(bìng)且经过专家(jiā)审核;另外一种(zhǒng)是个(gè)性化(huà)知(zhī)识,是动态变化的,机(jī)器人(rén)来到家庭之前无法提前获取,为了获取这样的知识(shí),我们的挑战必(bì)须(xū)要有一(yī)个合适(shì)的(de)知识表示(shì),合适的知识推理,而(ér)且这个知识图谱要能容忍底层产生(shēng)的错误(wù)。
强化(huà)学(xué)习让机器人能够完成主动(dòng)服务(wù)
当机器(qì)人能够理解语言的时候,说明机(jī)器人(rén)已经具备(bèi)了和(hé)人沟通的能力,但是(shì)想要实现(xiàn)真(zhēn)正的照顾别人,机(jī)器(qì)人(rén)需要更深的理解能(néng)力,不光(guāng)是(shì)被动地去服务,还(hái)能主(zhǔ)动(dòng)的猜(cāi)测主人的意图。从王爷爷的例子来看,当(dāng)王爷爷需要药瓶时机器人可以拿给他是一种情况,如果机器人(rén)看(kàn)到王爷(yé)爷在找(zhǎo)东(dōng)西,能够猜测他想找药(yào)瓶还是找水,就能提供(gòng)主动服务。这里会用到强化学习,它教给机器人三个(gè)功(gōng)能:一是如何学习新(xīn)的能力;二是如何做的一(yī)次(cì)比一(yī)次好(hǎo);三是如(rú)何(hé)主动(dòng)地提(tí)供正确服务。
关于一次比一(yī)次做的好这一(yī)点,需(xū)要通过小样本的强化(huà)学习来解(jiě)决。我们希望机器人一(yī)次比一次(cì)做得好(hǎo),需要猜测,而(ér)猜(cāi)测本身(shēn)也是需要优化(huà)的。猜测的(de)目的主要有两方(fāng)面,一是有时候(hòu)不能进行(háng)标注,比如王爷爷走向桌子可能是找水,走向柜子可(kě)能是找药,但是这个事情无法去标注,机器人需要去主动采集样(yàng)本,通(tōng)过回报自(zì)己进行(háng)标注。强(qiáng)化学习需要不断(duàn)探索和优化,从而让(ràng)机器(qì)人更加智能。
当然(rán),机器人的学习还(hái)面临巨大的(de)挑战,比(bǐ)如:人的关节都是全向关(guān)节,而机器人不能做到这一(yī)点,每一个关(guān)节(jiē)只能向一个方(fāng)向旋转。如果(guǒ)我们(men)希望把人的(de)一个动作映射到机器(qì)人上,需(xū)要做一个推广,使它(tā)能够(gòu)适(shì)应机器人独(dú)特的运动特(tè)性。另外,我(wǒ)们应用时还(hái)要考虑(lǜ)到(dào)采样(yàng)成(chéng)本的预算,当学(xué)习一个新的性(xìng)能时(shí),机器人必须一次学会。我(wǒ)们需要考虑采样成本和(hé)比较更高级的需求,来达(dá)到对于实际机器人学(xué)习来(lái)说可用(yòng)的程度。
关于人(rén)工智能会替代人类的(de)说法(fǎ)已经深入人心,曾(céng)经引(yǐn)来一波恐慌(huāng),听完英特尔研究院的(de)工程师讲(jiǎng)解,笔者觉得(dé)那个时代(dài)还(hái)很遥远,机器人需要经过(guò)漫长(zhǎng)的自(zì)我学习才能达到(dào)熟练(liàn)理(lǐ)解空(kōng)间和语义的阶段,要实现真(zhēn)正的智能似乎还需要计算(suàn)能力和存储能力的进一步的提高(gāo),硬件技术(shù)和(hé)软件算法还(hái)需(xū)要很大的进步空间。