移动增强现实博物馆导览应用研究
增强现实(Augmented Reality,AR)是一种将计算机生成的虚拟信息与用户周围的真实场景相融合以增强用户对周围环境感知能力的技术。近年来随着手持设备性能的提高,增强现实技术逐渐被移植到手持设备上。在手持设备上实现增强现实技术,即移动增强现实技术,越来越受到人们的关注。现有的博物馆导览方式提供的信息不够丰富,人机交互方式不够人性化。本文将移动增强现实技术引入到博物馆导览中,构建了一种新型博物馆导览系统。与现有的博物馆导览方式相比,本文所提出的系统提供的展品信息更丰富、全面,人机交互方式更加自然,而且无需租借任何设备,能够更广泛的适用于博物馆导览应用中。
本文的主要研究工作如下:
(1)从用户的角度出发,分析了移动增强现实博物馆导览系统的功能需求,对系统的总体架构进行了设计。针对智能手机的多样性,提出了服务器端和手机端相结合的双模式展品识别架构,能给用户提供更多使用选择。
(2)研究了移动增强现实博物馆导览系统展品识别功能的实现方法。在服务器端采用了词汇树结合图像匹配的方法实现海量展品的精确识别;在手机端采用视觉词袋结合支持向量机的方法实现少量展品实时识别,采用了空间位置约束的方法来减少待识别展品的个数。两种展品识别模式通过视觉定位的技术连接起来,不需要安装任何辅助定位设备。
(3)研究了移动增强现实博物馆导览系统跟踪注册功能的实现方法。在手机端实现了基于自然特征的无标跟踪注册方法。
(4)开发了移动增强现实博物馆导览系统原型,并对其进行实验测试。实验结果表明,将移动增强现实技术应用于博物馆导览是可行且实用的。
一、研究背景及意义
博物馆是收集、保存最能有效地说明自然现象及人类生活的资料,并使之用于增进人们的知识和启蒙教育的机构。随着科学技术的迅猛发展,人类社会已经进入了一个数字时代,博物馆信息化建设也在不断发展,新的展览方式和管理手段将不断应用,未来的博物馆建设将朝着数字化、网络化、智能化方向发展,为新技术的应用,提供了一片广阔的发展天地。目前,博物馆可看的展品虽多,但是能展示给游客的信息量却很少,许多展品背后都蕴藏着一些非常有趣的信息,这些信息大多从导游的讲解中获取。由于导游的缺乏及费用问题,参观者大都只能走马观花,游览质量不高。现阶段,博物馆采用的导览方式主要分为如下几种方式:
(1)解说员导览方式。依赖于导览解说人员的讲解水平。参观人员必须随导览解说人员同步参观,不能自由游览,而且可能造成人员拥挤,给参观人员带来不便。
(2)数码按键语音导览方式。客户端配备的是一个外形如同手机的手持数字讲解器。游客可通过小键盘按键操作,选择要讲解的目标,播放预先存储的讲解内容。这种方式无需在博物馆内安装调试,适用面最广,是目前被采用的主流方式。
(3)RFID自动感应导览方式。这种类型在数码按键式的基础上增加了自动识别的功能,解决了手动输入识别信息的麻烦。但是,这种方式需要在博物馆内安装辅助设备,如蓝牙、红外发射器及RFID标签等。并非所有的博物馆都能够允许在馆内安装这些设备,因而极大限制了这一方式的推广和使用。
上述导览方式都存在人机交互方式不够人性化、提供的信息不够丰富、用户需要租借设备等问题,不能很好地满足用户的个性化导览需求。近年来随着计算机技术的发展,增强现实技术逐渐走入人们的生活,其能够将计算机生成的虚拟环境与用户周围的真实场景相融合,增强和扩展用户对周围环境的感知,为用户提供一种更为人性化的人机交互方式。同时,手持设备性能的提高使增强现实技术得到了更为广泛的应用。以智能手机为代表的移动增强现实除了具备增强现实技术本身的优点外,还具备便携性、互联性和易用性等优点,将有广阔的发展前景。本文移动增强现实主要是指基于智能手机平台的移动增强现实。
综上所述,将移动增强现实技术应用于博物馆导览中,能很好地满足用户的个性化导览需求,不仅能给用户带来更为人性化的人机交互方式,而且语音导览能够更加形象、立体、直观地向用户展示与展品相关的各种信息,如文字介绍,图片资料、语音解说、视频及三维模型等。
二、博物馆导览系统研究现状
(1)国外研究现状
早在1998年,Burgard等人就开发出了一种交互式的博物馆参观导航机器人。2004年,Li-Der等人开发了一个以PDA
为平台的多媒体博物馆导览系统。利用安装在展品旁的红外发射器,将展品ID发送到PDA上,PDA通过接收到的红外信
号检测出当前的展品ID,并自动获取与该展品相关信息。与传统的基于录音磁带的方式相比,该系统除了能提供声音解说信息外,还能提供图片、视频等其他多媒体信息。2005年,Adriano Alberti等人在开发了一套基于视觉的博物馆导览系统,能对对博物馆绘画展品进行识别,识别算法利用了图像的色相、边缘、亮度等特征。系统为C/S架构,PDA作为客户端,PC作为服务器端,网络连接采用Wi Fi。PDA拍摄展品照片上传至服务器端进行识别。2005年,Herbert Bay等人
在Table PC上开发了一套交互式博物馆导览系统。该系统采用特征匹配的方法对展品进行识别。为了提高系统识别速度,需要在展厅内安装蓝牙发射器来定位用户当前所在区域来减少待识别展品个数。2007年,Bruns等提出了名为“Phone Guide”的博物馆导览系统,该系统采用轻量级的两层神经网络算法对展品的进行识别,识别算法完全在手机端运行,不需要高性能服务器及网络连接。与Herbert Bay等人提出的系统相似,“Phone Guide”同样需要在展厅内安装蓝牙发射器,通过手机接收蓝牙信号定位用户当前所在区域,减少待识别展品个数,提高识别速度。2008年,Jihyun等人在
UMPC(Ultra Mobile Personal Computer)上实现了增强现实博物馆导览系统,该系统采用超声波感应器及电子罗盘进行全局姿态跟踪,局部姿态跟踪则采用视觉的方式,主要有边缘跟踪和特征点跟踪。2008年 ,Miyashita等 人介 绍 了 个 无 标 志 点 、 混 合 跟 踪 方 法 , 在Ultra-Mobile-PC上实现了增强现实博物馆导览系统,跟踪技术采用Inside-Out无标跟踪方式,利用传感器跟踪方式解决标识物纹理过少不利于跟踪问题。无标跟踪采用的是商用的Unifeye SDK。
(2)国内研究现状
目前国内在基于增强现实的博物馆导览方面的研究还处于起步的阶段。2009年,成都电子科技大学杜凤仪等人对增强现实在博物馆导览中的应用进行了初步研究,设计了基于视频透视技术和人工标志物的增强现实技术的博物馆展示系统。该系统采用了人工标志物的跟踪注册算法的。2009年,北京理工大学郭俊伟等人构建出基于便携式PC的移动博物馆导览系统。该系统分离线处理和在线处理两个阶段:在离线阶段,建立展品的关键帧数据库,利用仿射变换生成大量图像样本,用随机树方法对样本进行有监督学习,建立特征库和随机树分类器。在线阶段采用基于随机树的模式识别分类算法建立关键帧的特征匹配集合,选取具有最多内点数的候选关键帧,采用RANSAC方法计算单应矩阵完成跟踪注册。
三、博物馆导览系统分析与设计
系统功能需求
功能需求描述了产品为了满足它的存在的根本理由而必须执行的一些动作。为了能运用移动增强现实技术给游客提供个性化的导览服务,本文将构建的移动增强现实系统系统应具备以下几个功能:
(1)用户用手机对着展品进行拍摄,在获得了展品的图像信息之后,系统能通过计算机视觉中的物体识别技术从展品集合范围中识别出当前用户感兴趣的展品是哪一个。
(2)在成功识别出当前用户的感兴趣展品后,系统能为用户提供与这一展品相关的多媒体辅助信息,如视频、音频讲解信息以及相关的图片信息等。
(3)根据展品的特点和用户的实际需要,系统能将三维模型叠加到展品上,能让用户对展品有进一步了解。如在破损的文物上叠加复原了的三维模型,能让用户对展品有更加生动、直观的认识。
(4)博物馆游览人数众多,系统必须支持多用户在线使用,同时应尽量减小用户数激增对整个系统性能的影响。
(5)博物馆展品相关的图像、音频、视频、三维模型等多媒体信息数据量是非常惊人的。系统必须能够存储和快速检索这些海量信息。
(6)博物馆管理人员能对展品集合以及相关的多媒体增强信息进行变更,如进行新增、修改、删除等操作。
系统总体架构设计
西门子公司研究院在2003年开发了AR Phone系统,该系统是基于C/S架构,手机实时拍摄视频帧通过Blue Tooth上传到远程服务器,远程服务器通过上传上来的视频帧计算手机摄像头当前的姿态,然后将虚拟的三维模型按照位姿渲染到视频帧上,最后回传到手机端显示。受限于手机网络通信速度和手机视频处理速度,响应时间需要2~16秒,延时时间过长,而且依赖于网络环境,实用价值不高。为了给用户带来更好的使用体验,跟踪注册当尽量优化和改进跟踪注册算法,使其完全能在用户的手机端运行,本文系统跟踪注册部分完全在手机端运行,因此下文将主要介绍展品识别部分的系统架构。目前,移动视觉识别系统架构主要分为以下两类:
(1)在手机端进行识别的系统。这类系统数量不多,比较有代表的是BauhausUniversity设计的Phone Guide系统,该系统主要用于博物馆展品导览,还处在实验阶段。系统采用轻量级的两层神经网络算法实现对展品的识别,能识别155件展品,识别率为95%,大约1秒能识别一个展品,由于识别速度较快能对物品进行实时识别。采用接受蓝牙信号ID的方式对用户所在区域进行定位的方法来减少识别物品的个数,提高识别率。该类系统的优点是网络通信少,能够对物品实时识别,缺点是识别的物品数量少,而且还需要安装额外的定位设备,如蓝牙信号发射器。而且在单个手机终端上能承载的信息量非常有限,显然能提供的信息不够丰富。
(2)在服务器端进行识别的系统,这类系统目前已经可以商业应用,目前已有5个提供移动视觉搜索服务的公司:分别是Google Goggles, Amazon Snaptell, NokiaPoint&Find和kooaba。其中Google Goggles是该类系统的典型代表,是一个里程碑式的应用程序,Goggles可以识别文字,书籍,商标、艺术品等物品。该类系统的优点是识别物品的种类非多,缺点是受网络通信延迟以及大数据量识别算法的影响,识别速度较慢,识别一个物品要花费3秒以上的时间,很难满足实时性的要求,而且即使实现了实时识别,如Nokia Point&Find,持续的网络通信带来的上网流量也给用户带来不小的话费开支。为了能让系统支持多用户,承载海量展品信息。本文的系统总体采用了C/S结构。系统主要由智能手机、高性能服务器和展品信息数据库组成。手机通过3G或者Wi Fi无线网络网络与远程服务器通信。展品信息数据库中存储了展品相关的文字、图片、三维模型、音频和视频等多媒体信息,供用户检索。用户用手机拍摄感兴趣展品的照片,系统能自动识别展品,根据识别结果,检索展品信息数据库,根据用户需求,获取该展品的多媒体信息,最后将这些信息通
过智能手机呈现给用户。除满足多用户同时使用这一要求外,本文在设计系统时对智能手机的多样性进行了考虑。目前智能手机的种类繁多、功能和处理能力的差异性较大。为了保证系统能够适用于各种性能智能手机,提高系统的兼容性,本文设计了两种使用模式,这样设计能充分利用手机端和服务器端的软硬件资源,综合手机端识别和服务器端识别两类移动视觉识别系统的优点,能提供给用户更多选择,给用户带来更好的使用体验。
模式一,在服务器端对展品进行识别。主要针对性能较差无法在手机端运行识别算法的手机。用户通过手机拍摄一张感兴趣展品的照片,手机端程序会自动连接服务器将照片上传到服务器端,服务器运行识别程序对照片进行识别,输出展品编号。将展品编号与信息数据库中该展品的相关增强信息相对应,并最终将其呈现在手机屏幕上。
模式二,在手机端对展品进行实时识别。主要是针对性能较好的手机。不同于Phone Guide系统通过检测蓝牙信号ID
定位用户当前所在区域。本文将展品与区域进行关联,存储在展品信息数据库中,这样游客仅需使用一次模式一,便能定位自己当前所在区域,下载该区域对应的识别配置文件到手机上,在手机端对该区域内展品进行实时识别。由于采用了这种基于视觉的定位技术,无需在馆内安装任何辅助设备。模式二能对展品进行实时识别,且不需要频繁的网络通信,用户体验效果更好。该模式将复杂的计算机视觉处理运算转移到每个用户的手机上,因此,能有效减轻服务器负载,便于实现多用户扩展。
综上所述,第一种模式是通过上传照片的方式在服务器端对物品进行识别;第二种模式是通过采用第一种模式反馈的识别结果来确定用户所在的区域,下载区域识别配置文件,在手机端对该区域物品进行实时识别。第一种模式是第二种模式的前提条件,第二种模式是第一种模式的补充,第二种模式能在手机端实时识别,而且不需要频繁的网络通信,用户体验要比第一种方式更好。