2021年12月2日

百度AR核心技术行业价值探索与应用实践

作者 讲解员

增强现实(AugmentedReality,AR)是一种将虚拟信息与真实世界巧妙融合的技术。早在20世纪90年代,波音公司的研究人员创造出这一词汇,描绘了将提示信息在视野中叠加展现的图景,以引导机械师有序地完成日常操作,降低出错几率。近年来,随着新一代信息技术的高速发展与移动终端设备的普及,AR技术已经逐渐从理论研究阶段走向落地应用阶段,获得了各行各业的广泛关注。《“十三五”国家科技创新规划》明确指出,将虚拟现实与增强现实技术作为新一代信息技术中的重要分支,着力实现关键技术突破、培育增强现实产业。百度基于在计算机视觉、计算机图形学等人工智能领域的技术领先优势与海量数据处理能力,逐步构建了以人像感知、物理空间感知、虚实融合渲染等核心能力为基座的AR技术体系,聚焦虚拟形象生成、视觉定位与增强两大技术方向,致力于探索AR技术在营销文娱、智慧出行和智能工业等行业中的创新应用,并取得规模化社会效益和经济效益。

虚拟形象生成技术及价值应用

随着移动通信技术的不断发展,人与人之间沟通交流的媒介也在不断发生变化。在3G时代,人们频繁地通过打电话或发短信进行沟通,这种方式下人与通信设备之间的人机交互,主要以语音和文本为载体。进入4G时代,网络带宽和传输速率的增加、带宽成本的降低,为图片、流媒体传输的实时性提供了保障,人们可以通过视频更直接地对话和交流,大幅降低了机器的输入感,让人机交互的形态更为丰富;同时也催生了短视频、直播等行业的蓬勃兴起。5G时代的到来,伴随着通信技术的又一次革命,也必将带来人与人、人与机器之间交互方式的新变革。在AR虚实融合的世界里,叠加到真实场景中的虚拟内容多种多样,最为重要的是可以作为用户替身的虚拟形象,它是人与人互动的全新载体。而要做到这一点,需要塑造出虚拟形象的外形和内神。人工智能技术让虚拟形象的生产成本和互动表现力实现了跨越式发展,虚拟形象也成为人工智能的一种化身。百度将人像感知、融合渲染等AR能力应用于虚拟形象生成,将原本活跃于二次元的虚拟形象与真实的人和世界关联起来,建立更生动形象的情感纽带,以其独特的亲和力和表现力,逐渐获得多元化的市场青睐。在直播行业,虚拟形象成为了部分网红主播的专属代理,形成独特的差异化风格;在RPG(角色扮演类)游戏中,个性化拟真的虚拟形象成为吸引玩家的一大亮点,带来更强的参与感、互动感;在新闻传媒和在线教育领域,虚拟形象替代真人主持、讲师,大大提升了标准化视频的生产效率;在金融、政务、商场等领域,智能客服已经开始大显身手。

虚拟形象的定义

 由于虚拟形象已高频地出现在了诸多生活场景中,这一概念对于普通大众其实并不陌生,但在具体讨论其涉及的技术内涵和产品外沿之前,需要首先给虚拟形象一个具象化的定义。虚拟形象是拟人类形象在虚拟空间的表达,是替代真人实现交互行为的重要载体。从虚拟形象生成的技术路径来看,包含了模型形象、交互驱动、智能互动三个层面,这三个层面层层递进,共同构建了虚拟形象的有机整体。模型形象指的就是模型展示出来第一眼被看到的样子,包括网格形状、贴图材质、配件配饰等。虚拟形象的视觉表现力和亲和力很大程度上都是由模型形象这一层面来负责展现的。交互互动指的是虚拟形象的可驱动性,在模型上需要有对应的表情基底配合,在算法上需要适应不同类型的输入(如视觉驱动、文本/语音驱动等)以实现形象驱动。智能互动则是虚拟形象的内核,它给提线木偶式的虚拟形象注入灵魂。结合语义理解和情绪识别的智能对话系统,能够在适合的场景下给出正确的输入相应,从而准确有效地完成情感和信息的传递任务。

虚拟形象生成的关键技术

为了在模型形象、交互驱动、智能互动这三个层面完整地呈现出虚拟形象,其背后的图形几何处理技术和人工智能算法是不可或缺的。在图形几何处理上,通过对单张照片进行多维度 人像感知以生成可驱动的虚拟形象,是建立人与虚拟形象连接的关键,也是提升虚拟形象快速建模能力的有效工具;在人工智能算法上,本文重点围绕语音转表情序列技术展开来加以说明。

(1)基于人像感知的虚拟形象生成

基于单张照片生成虚拟形象是指对真人单张照片进行人像感知,获取多维度个性化信息,而后将信息进行转换表达到虚拟形象空间,从而获取到基于照片人像感知的虚拟形象。该过程通常包含基于照片的人脸重建、人脸风格化、光照肤色估计、发型配件感知等多个技术环节,从而在脸型、五官、皮肤纹理、发型、配饰等多个细节上对输入照片中的人脸进行感知和重建,进而获得理想的个性化虚拟形象。虚拟形象既有着与输入图片人脸的相似性,同时也兼具卡通风格,在发型、肤色、眼睛等细节上也较好地感知到了输入图片。基于单张照片的人脸重建一直是学术界的研究热点,从Blanz和Vetter提出3DMM方法开始,基于脸型表情基底插值的方式实现人脸重建就成为了学术界的一个主流方向。由于该方法需要构建拓扑一致的一系列脸型表情作为基底,且基底的表达能力即为该方法的最高重建表达水平,因此,前后有众多学者进行了人脸基底库的构建研究,其中典型的有BaselFaceModel[4]、Facewarehouse、Facescape等。基于人脸基底库,一系列重建算法也陆续被提出。ZhuX.等提出3DDFA,该方法将输入图片与归一化投影坐标编码PNCC特征共同作为神经网络输入,设计双流CNN网络以解决大角度侧脸或遮挡等人脸对齐较为困难的重建问题。除了单纯依赖设计网络架构和loss外,可微渲染的引入也让人脸重建能力上了新的台阶,WuF.等将可微渲染参与到深度学习架构中,利用正脸和两张侧脸照片生成得到了精度更高的重建结果。基于基底加权式的人脸刻画只能对人脸的大体形状进行刻画,而对于皱纹、卧蚕、法令纹等细节缺乏深度刻画能力。CaoC.等在初步重建的基础上,利用局部皱纹回归算法,实现了皱纹等细节的高质量单目实时感知与重建。在人脸风格化上,ShiT.等提出了一种基于输入人脸照片的游戏角色自动生成方法。该方法可以通过面部相似度度量和大量具有语义的面部参数的搜索以实现游戏角色创建。利用经典的分类感知算法,我们即可实现对肤色纹理、发型、配饰等的分类感知。

(2)语音智能驱动技术

 在各类AR场景中,虚拟形象可以通过源于真实世界的文本、语音、视频等多种输入方式实现虚拟形象动画驱动。虚拟形象的驱动可分为直接驱动和间接驱动两种驱动方案。间接驱动是将输入源先转化为2D人脸关键点,再根据关键点通过传统方法求解动画序列的表情驱动系数。直接驱动是利用时序GAN等深度学习方案,直接将输入源转化为动画序列的表情驱动系数(VoiceToAnimation,VTA)。VougioukasK.等提出了一种基于时序GAN的语音驱动动画合成技术,ThiesJ.等提出了一种基于RNN混合形状系数回归的语音动画合成技术。图4中给出了一种典型的基于时序GAN的深度学习框架。该框架中包含一个生成器负责生成序列帧表情动画驱动系数,另外还有三个判别器,分别用来做单帧驱动系数判别、多帧驱动系数判别和动画语音同步性判别。

虚拟形象的增强现实应用

虚拟形象的主要应用可分为养成类与功能类两大场景。养成类场景偏向于强调虚拟形象的相似性和智能属性,它可以作为真人偶像的化身,始终以最完美的表现力和情绪状态为粉丝提供贴身陪伴;也可以替代真人出镜,成为普通用户在虚拟世界游走的名片。而功能场景则要求虚拟形象取代真人,持续、高效地完成任务类的工作,比如银行的虚拟业务员、政务大厅的虚拟助理等。功能场景强调功能的顺利交互,虚拟形象的价值在于让原本冰冷的机器服务变得亲切自然。这类AR场景下个性化虚拟形象与现实空间的融合增强,不仅能够让交流主体的形象代理响应式出现,而且有效地提升了场景对话的社交临场感和娱乐性。图5是两种不同风格的虚拟形象(拟真风格与卡通风格)在商场中的导览应用实例。在实际应用中,卡通风格的虚拟形象充分彰显了活泼与灵动;而依据真人特征生成的拟真形象,结合ASR(自动语音识别)技术和智能语音对话系统,即可实现用户与虚拟形象之间的自然语言交互,更突出个性化与陪伴属性。建模完成的虚拟形象增强式地叠加在真实场景空间,则是通过空间感知能力与融合渲染能力联合实现。不止于人与人之间的交互关联,百度在此基础上构建的视觉定位与增强现实服务(VisualPositioningandAugmentingService,以下简称VPAS)也成为备受关注的AR应用,在越来越多的行业场景落地。

VPAS 技术的特性及应用

VPAS技术提供基于视觉的定位方案VPS,跟我们熟悉的GPS(GlobalPositioningSystem)是对应的。但VPS适用的场景更多,理论上室内室外均可以应用,而GPS原理限制只能适用于室外;VPAS技术可以返回6自由度的位姿估计的结果,较GPS定位技术返回的三维位置结果以外还可以返回3自由度的朝向信息,这是AR应用必需的信息。因此,VPAS技术与GPS技术具有互补性。与其他室内定位技术,比如Wi-Fi/蓝牙等定位技术进行比较,VPAS具有不依赖场景硬件部署的特点,推广方便成本低。VPAS的这些特性催生了很多新的应用领域,典型应用场景包括小场景多用户AR交互,商场室内AR导航导览与AR街景等多种视觉定位与增强信息结合的应用场景。(1)小场景多用户AR交互VPAS的端云架构与视觉的定位能力可以将用户统一在一个持久化的数字地图空间内,提供可交互的AR体验。用户使用智能设备创作的信息被记录在AR数字地图中,当用户的智能设备再次扫描到相同场景,通过重定位技术可以再次开启以往的创作内容,并且保留原内容的坐标、方向信息,这极大地扩大了AR的应用场景。典型的应用场景包括远程AR协作,ARcloudanchor等。远程AR协作可在工业场景下进行AR维修等操作;ARcloudanchor允许用户共享自己的基于位置的AR内容,其他授权用户在用摄像头扫描同一位置的时候,可以得到统一的AR内容体验。(2)商场室内AR导航导览基于视觉的定位方法可以解决GPS室内无法定位的问题。与蓝牙、Wi-Fi等定位方案相比较,VPAS不需要额外的硬件发射与接收设备的支持,支持的场景更加广泛。VPAS技术的具有位置与朝向的6自由度定位能力,为增强现实应用提供必要的支持。最典型的应用就是商场等室内场景的AR导航导览,将功能性、互动性、娱乐性有机结合,提升用户体验的同时,为商场创造全新的商业价值载体。(3)大场景城市级AR应用VPAS的空间定位能力可以为智慧城市、AR街景等大场景应用提供核心支持。通过大数据的收集与城市级的数字地图构建,可以实现物理城市与数字城市之间虚拟与实时交互的融合机制,为各行各业提供统一的AR 交互平台,为地区用户在同一个数据平台提供多源化的增强现实服务。比如 Google 的地图视觉导航与苹果公司的城市街景AR 服务location anchor,这些都是城市级视觉定位与增强现实技术的典型应用场景。

百度 AR 技术在各行业应用案例

虚拟主持人:与央视主持人同台献礼

 2019年,基于百度大脑AI能力打造的虚拟主持人“小灵”首次亮相央视。小灵采用了百度深度学习模型框架,基于大量面部特征数据实现了国内首例“唇动”系数预测,并通过ARSLAM技术与央视主持人、优秀青年代表同台交互、对答如流,完成了一场特别的主持。

智慧景区:VPAS复现圆明园大水法

百度大脑计算机视觉技术与AR技术的交叉融合,深度理解景区场景。基于百度DuMixAR视觉定位与增强现实服务VPAS,实现环境识别与虚拟场景的覆盖、大场景物理世界的交互。当用户走进圆明园景区大水法遗址,百度地图即可准确识别出地理位置信息,透过手机屏幕将大水法的盛时景象还原并与现实场景精准重叠,仿佛带领用户踏上一场穿越之旅,可广泛应用于文化遗址的AR复建、大场景重构等。

智能工业:工业AR降本增效

百度工业视觉智能平台融合智能感知跟踪、语义SLAM等AR能力,推出包含培训考核、远程协助、巡检点检等产品的工业AR解决方案,以虚实融合的展现、交互方式,将数字信息与工业设备和场景有机结合。操作人员可以在任意环境下通过1:1还原的虚拟模型完成实操培训,对复杂机械设备进行拆解、反复学习操作原理,在降低企业培训成本的同时大大提升新员工的培训效率;AR远程协助则是将AR标注能力与RTC实时音视频通话方案结合,专家通过手机、AR眼镜、PC等终端设备实时同步现场情况,用AR标注指导操作人员完成故障定点与维修指导,在新冠肺炎疫情期间有效帮助工业制造业企业解决了运维难题。

AR 关键技术的日益进展正在逐渐改变人与人、人与世界之间的交互方式。以虚拟形象生成、视觉定位与增强等AR技术为代表的应用落地,正在不断推进虚拟数字世界与真实空间的叠加融合,不但与人们的日常生活愈发息息相关,也将在产业智能化升级的进程中发挥出越来越重要的作用。

 

智慧展馆里智慧讲解的标配:导览系统  自动讲解器  分区讲解系统