要(yào)说AI技术里什么最(zuì)火,机器视觉绝(jué)对算一个;而要说机器(qì)视(shì)觉技术里什(shí)么最火,大概毫无争议就属(shǔ)3D机器视觉了。
所谓3D机器视(shì)觉,是指在(zài)一般的机器视觉技术的基础上,加(jiā)入对立体空间中三维模(mó)型的(de)理解。这项技术不仅涉及(jí)AI,而是(shì)一门机(jī)器视觉、图(tú)形学与数(shù)据感知技术的交叉学(xué)科。想想也知道(dào),让机器认识3D画面是非常有价值的。毕竟人的视觉理解(jiě)就是3D的,想要让(ràng)AI尽量(liàng)贴近真人的(de)感知方式,3D是必须攻克的(de)难题。
在(zài)产(chǎn)业场景上,3D机器视觉是无(wú)人驾(jià)驶和高精地图(tú)的重(chóng)要技术条(tiáo)件(jiàn),在VR/AR上应用也非常广泛,而(ér)无人机航拍(pāi)与(yǔ)测绘也离不开这(zhè)门技术。在苹果把3D结构光技术(shù)炒火了之后,手机中的3D机器视觉也已经成(chéng)为(wéi)兵家必争之地——假如说,这些厉害的技术(shù)都是赛(sài)车,那么3D机器(qì)视觉(jiào)就是他(tā)们(men)在路(lù)上都(dōu)会(huì)遇到的收费站(zhàn)……
今(jīn)天(tiān)在机(jī)器视觉顶(dǐng)会中,差不多(duō)会有半壁江山(shān)那么多的论文都是跟3D有关。前沿探索(suǒ)可谓疯狂进行。然(rán)而重点来了,关于这一领域(yù),似(sì)乎大部分(fèn)吃瓜群(qún)众还是只知道(dào)一个结构光而已。
有哪些三维图像+机(jī)器(qì)视觉的新技术趋势,今(jīn)天正(zhèng)隐藏在未(wèi)知迷雾中眺望这个世界?今天我们来说几种很有(yǒu)科(kē)幻感的技术(shù)突破点。说不(bú)定这(zhè)些(xiē)能(néng)力明年就会(huì)出现在你的手机、VR设备和无人(rén)机中,又或许即将成为某个被资本疯狂亲(qīn)吻的创业热潮。
超大场景的3D数(shù)据感(gǎn)知
3D机器视觉包括很(hěn)多方面(miàn),既有(yǒu)让智能体去理解3D数(shù)据,也(yě)包括如何通(tōng)过机器视觉(jiào)的解决(jué)方案,去获取(qǔ)3D模型数据(jù)。
传统意义上的3D数据(jù)获取,或者称其为3D感知技术,一般来说可以利用多角度拍照或者深度传感器的方式实现3D数据收集(jí)。这种技术的局限(xiàn)在于,收集(jí)的3D数据不能太大。
然(rán)而在3D资(zī)料要求(qiú)不断升级的今天,对于超大场景的3D数据感知(zhī),正在成为一个热(rè)门议题。比如无人驾(jià)驶中使用的城(chéng)市(shì)高精地图,就可以看做一个(gè)个超大(dà)3D场(chǎng)景的拼接。智能城市(shì)领(lǐng)域运用到的很多城市数(shù)据推(tuī)演(yǎn),也要根植于对城市3D场景的收集。
portant;" />
机器视觉正在为超大场景的3D数据感知提供很多新的方法(fǎ)。比如自动化的成像方法,像视觉SLAM在线(xiàn)处理连续帧的图像,实现实时重建巨大3D场景。再(zài)比(bǐ)如说对航拍数(shù)据进行点云分割和点(diǎn)云数据的语义理解,帮助快速低成本获(huò)取城市3D数据。
总体来看,今天超(chāo)大场景的3D数据感知,有(yǒu)三个主要应用方向,很(hěn)可能分别成为各自技术领域中新的投(tóu)资和创业热点:
1、建筑物的3D高精度模型,运用在工程监理、智能设计、物流和智(zhì)能城市领域。
2、高精地图与3D数据感(gǎn)知(zhī)的结合,这是无人(rén)驾驶的重要(yào)一环。
3、室(shì)内外一体的3D建(jiàn)模,这对于智能(néng)家(jiā)居设计、环境监控(kòng)、VR/AR体验来说都有(yǒu)重要(yào)帮助。
手机(jī)与3D视觉进入蜜月期
3D结构(gòu)光,今(jīn)天(tiān)已经当之无愧成为(wéi)了(le)高端手机的标配,成为了继双摄、三摄与屏(píng)下指纹之后(hòu)又一个手机行业争抢(qiǎng)的(de)热点(diǎn)。
然而手机(jī)上的3D视觉技(jì)术远不止于结构光,从算法、传感硬(yìng)件,到(dào)影像系统(tǒng)解决方案,都可能成为手机(jī)与3D视觉(jiào)进(jìn)一(yī)步耦(ǒu)合的(de)关(guān)键因素。
今(jīn)天来看,有3个相关趋势(shì)非(fēi)常可(kě)能成为明年的热点。一个是基于芯片(piàn)端进行的3D视觉算法加(jiā)速,这很(hěn)可能成为(wéi)手机AI的下一个进化方向。第二个是高纠(jiū)错(cuò)能(néng)力的3D视觉算法将会普及(jí),在终端实现3D数据收集和本地(dì)建(jiàn)模将(jiāng)会成为新的热点。第三个是后置摄像头加入(rù)3D视觉解决方案指日可(kě)待。
从(cóng)芯(xīn)片端,到开发平台,再到数据(jù)集、传感系统,3D机器视觉(jiào)正在多个领域影响手机战场的走向,在这些领域储(chǔ)备技术武器,也(yě)很可能成为(wéi)明年手机战场(chǎng)厮杀(shā)的关键节点。
portant;" />
AR/VR中的位姿估(gū)计技术
为什么我们在(zài)玩(wán)AR体验(yàn)的时候(hòu),经常会觉得手(shǒu)机(jī)里的东(dōng)西(xī)放在摄像头视野中(zhōng)并不(bú)真实,像是(shì)漂浮在地板(bǎn)上一样。
这(zhè)就是因为(wéi)位(wèi)姿估计算法不够(gòu)精准,无法正确定(dìng)位物体的空间关系。在机(jī)器(qì)视觉技术(shù)的(de)进化下,今天很多位姿估(gū)计技术正在同步进化。比如基于(yú)动态特征(zhēng)提取算法,达成的动作定位今天已经比较成熟。
这东西听(tīng)起来挺玄乎,到底是(shì)干啥(shá)用的呢?它的最大应用(yòng)场景,就是在VR/AR正确处理场景中动态(tài)物体的(de)空间关系和(hé)运动轨迹(jì)。比(bǐ)如你在(zài)VR里玩踢球游(yóu)戏,球应该在什么位置挨踢,以什么轨(guǐ)迹撞墙,都有(yǒu)赖于位(wèi)姿估(gū)计算法来校准。
在机器(qì)视觉算法的帮助(zhù)下,更精细的(de)位姿估计正在到来,而这也加速了(le)成熟(shú)MR体(tǐ)验的到来。另一方面(miàn),在VR设(shè)备或者手机当中,基于(yú)摄像头与传感器协同(tóng)运(yùn)作来完(wán)成位姿估计,也是沉浸(jìn)技术(shù)中即将发生的一个亮点。
portant;" />
通过散乱(luàn)数据达(dá)成(chéng)三(sān)维(wéi)建模(mó)
3D机器(qì)视(shì)觉(jiào)的最重要任何,肯定是基于数据来实现3D建模。这个应用(yòng)在(zài)产业端十分重要,地理信息系统(tǒng)、勘探(tàn)、工程,以(yǐ)及无人驾驶,都需要(yào)大量的3D建模工作来参与。
而消费者级(jí)的3D建模今天也在到(dào)来,我们已经可以看到在手(shǒu)机端(duān)通过3D结构光来完成数据收集,从而达成3D建模的(de)玩法。
跟(gēn)3D感(gǎn)知一样(yàng),3D建模也是利(lì)用(yòng)摄像头或者传感器(qì)来收集(jí)数据,最终通过(guò)不同的解决方案完成建模(mó)。
然而这个领域还是有很多问题等待解决。比如说,今天我们进行3D建模时(shí),还需要非常痛苦的一点点收集数据,必须保证数(shù)据(jù)的对齐(qí)和精准排列。否(fǒu)则出来的3D模型就是杂乱无章的。这(zhè)显(xiǎn)然让大众完3D建模(mó)的热情(qíng)减退(tuì),并且给很(hěn)多工程(chéng)级项目增添了非常多难度(dù)。
AI的到来,正(zhèng)在帮助(zhù)这种情况有所改(gǎi)变。在深度学习(xí)算法的帮助下,机器视觉领(lǐng)域正在研究如何在散乱、不规则、巨大数量的数(shù)据(jù)中完成3D建模。这需要对抗生成(chéng)以(yǐ)及先验(yàn)表示等(děng)非常多的方案,但带来的效(xiào)果非常值得期待。
portant;" />
比(bǐ)如说今天已经有3D建模(mó)方案(àn),在深度学习的帮助下实现对密林(lín)的重建。然而其用来进(jìn)行点云建模的图像数(shù)据中,有很多(duō)被树叶遮挡的部分。这(zhè)时候就可以用AI来增(zēng)强3D建(jiàn)模的先验知识,主动“脑(nǎo)补(bǔ)”出遮挡(dǎng)物(wù)背后的(de)真实(shí)样子(zǐ)。
不仅是修复遮挡模型和瑕(xiá)疵(cī)数据,机器(qì)视(shì)觉(jiào)技术与3D建模(mó)的融合,还可以让很多(duō)无(wú)人设备具有更雪亮(liàng)的“眼睛”。比如无人驾驶汽车,或许(xǔ)可(kě)以基于(yú)“大(dà)脑(nǎo)”中的3D建模算法,来脑补(bǔ)智(zhì)能(néng)摄(shè)像头尚未发现的(de)环境(jìng)。这点在复杂(zá)立交桥和停(tíng)车场中格(gé)外有用(yòng)。
在消费者端,3D建模与机器视觉的(de)结合也将带(dài)来新的想象力,比如消(xiāo)费者可以根据照片来重建精准的3D模型(xíng),或者傻(shǎ)瓜(guā)式完成建模要(yào)用(yòng)的数据收集。让(ràng)不(bú)那么专业的人也能建设出专业的(de)3D模型,这个改变背后(hòu)的想象力(lì)惊人(rén)。
更好的深度传感器解决方案
还有一个机器视(shì)觉技术和3D的(de)交(jiāo)汇(huì),主(zhǔ)要发生在(zài)无人机(jī)领域。
无(wú)人机今天进(jìn)行测绘和航拍时,必须附带对空间的理解能力,否则拍照不准事小,撞了南墙事大。而这个能力主(zhǔ)要来自于摄像头和传感(gǎn)器进行空(kōng)间阅读。
随着消费级(jí)无(wú)人机的不断升级(jí),人们对(duì)无人机拍摄效果要求也不断升高。无人机(jī)必须不(bú)断在更远的(de)距离(lí)、更极端的天气、更(gèng)复杂的运动中拍(pāi)摄画面。然而传(chuán)统的传(chuán)感系统解决方(fāng)案已经快要跟(gēn)不上用户(hù)的(de)期许。
今天(tiān)的消费级(jí)无人机,一般采取两(liǎng)种感知解(jiě)决方案(àn),一种是双目(mù)视觉技术,比如大疆的某些产品(pǐn);一种是结构光传感器,比如微软(ruǎn)的Kinect。而这两种主流(liú)方案都是有一定局限(xiàn)的,比如感知(zhī)范(fàn)围都(dōu)有限,难以完成远距(jù)离作业。再比如双目视觉技术在黑夜中会失(shī)灵(líng),所以无(wú)人机夜拍一(yī)直(zhí)是个(gè)大坑,然而结构光技(jì)术应对不来强光,一(yī)到中午无人机就(jiù)石乐志也是很心塞的。
更(gèng)好的解决(jué)方案,在于(yú)将传感器(qì)与(yǔ)智能摄像头结合起(qǐ)来,达成可(kě)以适应不同天候与天气,并且可以长(zhǎng)距离感知的新型传感系统解决方案。
今天,用(yòng)机器视觉技术(shù)中的很多算法,协调不同(tóng)的传感设备工作,让无人机变成“多(duō)眼无人机(jī)”,正(zhèng)在成为流行的(de)解(jiě)决方案。机(jī)器视觉算(suàn)法(fǎ)大量加入无人机传感(gǎn)器(qì),还(hái)可能带来轨迹拍摄能力提升,让无人机获得拍(pāi)摄整体环境,或者精准捕捉动态物体(tǐ),比如说运动中的动物和车辆的能力。
以上几个技术趋势,都(dōu)可(kě)能(néng)成为机器(qì)视觉和图形(xíng)学应用的下一步(bù)热点。这个领域看似偏门,事实上却能影响今(jīn)天科技市场(chǎng)中(zhōng)的风吹草(cǎo)动。
让(ràng)机器看到立(lì)体世界的游戏(xì)才刚刚开始,机器(qì)与人类在某一天可以用同样的视角相互凝(níng)视,或许才(cái)是这个故事的终点。