2022.02.28

【微分享】索尼黑科技——为元宇宙带来全新可能的体积空间捕捉技术

“建立在坚实技术基础上的创意娱乐公司”索尼,始终以“人”为本,在前沿技术领域不断探索进取。后疫情时代,索尼黑科技正式确立了3R战略(真实(Reality)、实时(Real-time)和远程(Remote),致力于为内容创作赋能,共同开创前所未有的娱乐表达方式。 “索尼黑科技”专栏将定期为您介绍最具代表性的索尼技术创新成果,探索如何“用创意和科技的力量感动世界”。本期将为您带来的是——索尼的体积空间捕捉技术。

体积空间捕捉技术可以将人、物体或地点转换为三维数字信息并将其再现为高质量的图像。这是一项可以捕捉整个现实世界并支持从任何视角观看的自由视角视频技术。 除了提供新的视频体验外,它还可能成为一种新的内容制作方法。 有望突破常规视频制作的界限,应用在娱乐领域的各个方面。针对这项技术,我们采访了索尼研发中心从事体积空间捕捉技术算法开发的两位工程师。

受访人资料:

受访人资料

从体育广播扩展到娱乐领域的新型沉浸式视频内容

Q:我们听说自由视角视频技术已被广泛应用于视频制作过程当中。

广田:随着虚拟现实(VR)技术的发展,近几年来自由视角视频技术一直应用于体育广播行业,最近也开始应用于视频内容制作领域。尤其是全向可视化技术,相信很多人都已经通过各公司提供的在线服务等体验过360度全景影像技术。

在此背景之下,全向可视化技术在包括成像、生产、传输和显示的综合视频生产工作流程中变得更加重要。纵观全向可视化技术商业化的其他发展,MPEG(Moving Picture Experts Group,运动图像专家组)作为制定视频标准的组织,现已完成了360度视频格式的标准制定。并且MPEG-I第三部分中的全方位媒体格式(OMAF)已经开始被创作者用来制作各种新的沉浸式视频内容。因此,我们也在积极参与各种针对视频制作方面的倡议。

Q:通过这项技术可以创造什么样的价值?

广田 :随着自由视角技术的发展,我们相信“自由视角”与“现实”将成为关键因素。我们目前正在开发的体积空间捕捉技术旨在超越全向可视化。这项技术最初用于体育广播,现在已经扩展到娱乐领域,视频内容创作者认为其可以为音乐会和商业广告带来新的价值。充分利用索尼现有的业务和成像/视频技术资产,我们能够捕捉到低成本、高质量的自由视角视频,从而创造一个从专业人士到普通客户都能获益的新业务模式。

体积空间捕捉技术预计将应用于娱乐和体育等各个领域
体积空间捕捉技术预计将应用于娱乐和体育等各个领域

营造身临其境的感觉

Q:目前还存在哪些问题?

广田:在目前的全向可视化技术中,你可以通过戴上头盔,转动头部来观察你周围360度的环境,但你不能在物体周围移动并从后面查看。这是其与用CG创建的VR内容的主要区别。一个更灵活的视角对于让用户沉浸在VR环境中至关重要。为了提供身临其境的体验,需要提高视频本身的基本画质,如分辨率和帧速率。而这又需要处理大量的数据,所以我认为我们在视频和显示方面都有很多工作要做。

Q:你将如何去解决这些问题?

菅野:运用自由视角视频技术,我们可以通过在被摄对象周围放置多个摄像机进行拍摄来生成三维模型。体积空间捕捉技术最大的特点是能够在没有实际摄像机的地方,根据捕捉到的三维模型,从一个虚拟的视点生成图像。创建一个虚拟视角涉及到校准多个摄像机,生成拍摄主体的三维模型,对三维模型进行纹理映射以及生成摄影作品等多个过程。与大量摄像机紧挨着排成一排的子弹时间视频相比,我们从分散的摄像机中创建三维数字信息来生成视频,使视频创作者和观众能够更加自由和交互地操控他们的视角。

广田:目前,我们专注于捕捉、显示和传输的技术开发。可以说,索尼的独特优势在于将这三个领域结合起来实现新的价值。

捕捉、显示和传输的技术开发

汇集了索尼所有的图像信号处理技术

Q:捕获过程涉及哪些核心技术?

广田:当然,何为最佳的拍摄系统取决于拍摄对象。虽然在学术领域有一些利用庞大的系统使用数百个摄像头的示例,但从商业角度来看,这不够现实。目前使用体积空间捕捉技术的拍摄系统专门用于拍摄相对较小的区域,并且或多或少需要拍摄对象站在指定的地方。 因此,它们不太适合捕捉四处走动的音乐艺术家或大量同时表演的人群。

相比之下,我们针对娱乐业的拍摄系统是独一无二的,它可以在相对较大的区域内捕捉到一个或多个四处走动、跳舞或做一些其他类型表演的人。 为了进一步提升这一点,我们不断对传感器和镜头、用于同步多个摄像机的系统、摄像机和灯光布置以及色键背景材料等等进行开发和理论验证试验。

Q:听说你们开了一家新的摄影工作室!

广田:没错。我们于 2020 年 1 月在索尼总部开设了日本最大的体积捕捉工作室,并配备了我们所积累的技术。我们在这个工作室拍摄的第一个内容是花式跳绳游戏,其中包括两条向相反方向摆动的跳绳。为了充分利用工作室独特的5米拍摄区域,五人参与的花式跳绳游戏成为了最佳选择。高速移动的细绳对于拍摄和信号处理极具挑战性,但拍摄取得了巨大成功。我们展示了该技术不仅在视觉表达方面,而且在运动分析方面也有潜力。今后,我们的目标是与公司内外的各方合作,加快技术开发和业务验证。

拍摄于日本最大的摄影工作室之一(索尼总部)  (与专业的跳绳团队J-TRAP合作。)

拍摄于日本最大的摄影工作室之一(索尼总部)

(与专业的跳绳团队J-TRAP合作。)

Q:拍摄时遇到过什么样的挑战?

广田:同步多个摄像机是体积空间捕捉技术的挑战所在。 所有摄像机都需要同时拍摄并传输/聚合图像使其成为 3D影像。 因此,我们一直在开发和评估我们的硬件和软件,例如引入具有全局快门的图像传感器,尝试将信号同时分配到每个摄像机的方法以及在聚合数据时运用重新同步摄像机的方式等等。

追求播放质量,制作更逼真的图像

Q:你在展示上面临什么样的挑战?

广田:利用体积空间捕捉技术需要使用 3D 计算机视觉来创建没有摄像头的虚拟视点,这个过程就是渲染。 这里的问题是人们有时称之为“恐怖谷”*的不自然感。 索尼通过结合先进的 2D 图像处理技术与机器学习技术,解决了这个问题。 这些可能是人造图像,但最终显示的图像质量才是最重要的。

*译者注:恐怖谷理论由日本机器人学家森昌弘提出,该理论认为:由于机器人与人类在外表、动作上相似,所以人类亦会对机器人产生正面的情感;而当机器人与人类的相似程度达到一个特定程度的时候,人类对他们的反应便会突然变得极其负面和反感,哪怕机器人与人类只有一点点的差别,都会显得非常显眼刺目,从而整个机器人有非常僵硬恐怖的感觉。

菅野:我们现在使用的摄像机数量是最初的四倍多,并且随着显示设备的分辨率从 2K 发展到 4K 和 8K,生成的图像更加逼真,开发至今,可捕获对象的移动范围和数量也大大提高。

广田:我们视频的呈现质量之高,会让你认为它们真的是在你的视角用摄像机拍摄的,这很明显超越了当下的体积空间捕捉技术,并且收到了创作者们的一致好评。我们将不断提升我们技术的独特优势,同时也会追求高质量的图像和更高的易用性。

左图是标准摄像机拍摄的视频,右图是用索尼体积空间捕捉技术拍摄的视频
左图是标准摄像机拍摄的视频,右图是用索尼体积空间捕捉技术拍摄的视频

Q:传输方面又有哪些挑战?

广田:我们系统的另一个优势是可以实时的执行从捕获到内容分发的所有工作。大多摄像机拍摄的未压缩数据量最高到100 GB/秒,因此目前在本地计算机上进行数据处理是很不现实的。而为了灵活的保有强大的计算资源,我们开发了独特的具有高度可拓展性的云处理系统。通过此系统,用户可以实时自由选择艺术家直播的现场表演的观看角度,并享受更多的互动。此系统有望应用于下一代的通信方法。

Q:听说你和索尼音乐娱乐在娱乐领域有合作?

广田:通过这种体积空间捕捉技术,我们现在能够将人物和地点捕捉为 3D 数据,并将它们再现为高质量图像。我们一直在与索尼音乐娱乐日本 (SMEJ)的合作,探索该技术的实际使用方法。他们通过提供例如概念验证的场所来协助我们。能够与娱乐领域的人一起尝试新用途并开发技术无疑是索尼最大的优势之一。

菅野: 当我们付出心血制作的内容投影到演唱会会场的大屏幕上时,我能感受到观众们涌动的热情。同样,能够如此近距离的观看专业艺术家的舞台,也激发了我们不断向前的决心。看到我们的技术用于娱乐舞台,我真的十分感动。而当我在演唱会和电视转播之后看到推特上有很多人问到背景视频和如何让其旋转的问题时,我同样感到非常的开心。

Q:您在未来的目标是什么?

菅野:我们的研究小组不断进行研发,以实现我们 “在真实空间里进行完全数字化掌控(捕获、显示和传输)3D 空间的技术”的使命。我们如今致力于实时分发自由视角视频。以前的自由视角技术虽然也允许传输录制的内容,但我们未来想要实现的是能够在远程位置看到对象并与其交谈,并实现实时自由改变视角。在此之后,我们希望创建一种视频体验,让用户可以远程共享空间、互动,并能真正感受到与他人在一起的感觉。

广田:可以提供大容量通信的5G技术开始推出后,我们正在迎来一个任何人都可以体验VR内容的时代。 当各个领域的技术成熟时,我们自然而然地能够自由地捕捉和分享 3D 体验,就像我们现在对 2D 图像和视频所做的那样。

索尼正致力于将该技术应用于智能手机的AR内容
索尼正致力于将该技术应用于智能手机的AR内容

图片