(相关资料图)
书生·天际可实现大规模场景的三维实景建模
书生·天际实现4K分辨率离线渲染、1K分辨率实时渲染 在高质量实景重构的基础上,书生·天际首次在城市区域和地标建筑两个维度上提供丰富的超越重建能力。
在书生·天际中编辑地标建筑 首创CityNeRF技术,“生成”城市书生·天际高性能的内核,是上海 AI 实验室首创的CityNeRF技术。2021年12月,上海AI实验室提出CityNeRF,将卫星与近景等多种不同高度的影像进行有效融合,率先把NeRF建模技术从物体级拓展到城市级。这项工作的提出超前于Google的BlockNeRF和卡内基梅隆大学的MegaNeRF。随后,上海AI实验室进一步研发出基于网格(Grid)表征和NeRF表征相结合的双支模型结构,支持模型的多层级拓展的第二代CityNeRF技术,为城市级NeRF大范围无限扩展建模奠定了技术基础。 为实现从NeRF到第二代CityNeRF的技术突破,上海AI实验室创新性提出了“算法+计算系统+算子”全套创新的“解题思路”,使大范围、高精度、可编辑的城市级实景三维大模型变为现实。 针对大规模城市级场景的NeRF建模,书生·天际采用了基于网格(Grid)表征的双支结构模型,包含一个网格端和一个NeRF端。网格端(Grid branch)将场景分解成地面特征平面和垂直特征轴,NeRF端(NeRF branch)采用轻量MLP网络重建训练视角。为减少渲染计算量,书生·天际可有效地跳过空白空间,降低九成以上采样量,同时还采用提前终止渲染的方式提高计算效率。 在训练阶段,书生·天际采取渐进式的训练策略逐步增大训练图像的分辨率。每个阶段训练后,还会加入形变损耗(distortion loss)来约束每条光束上点权重的分布,以得到更加干净紧凑的场景密度。
基于网格(Grid)表征的双支结构模型 针对三维实景重构所面临的海量计算任务,书生·天际采用了并行训练、数据集分块、分布式渲染3个计算加速方案,大幅度提升了计算效率。在并行系统中,并行策略组件(BranchParallel、PlaneParallel、ChannelParallel、DataParallel)进行混合,实现了超过200B参数量的城市级NeRF高效训练。 城市级场景的生成,输入数据规模通常达到100TB级别规模,针对大规模数据加载与预处理问题,“书生·天际”把数据分块,通过两层数据集重排,使得运算负载更均衡。渲染速度是影响基于NeRF的城市级三维实景的实际体验的关键因素,为了从系统层面充分提高渲染效率,书生·天际在渲染前先做多分支模型的分支合并。渲染引擎还根据城市级场景的特点,提出了一种运行时动态加载模型参数的策略,可以使实时渲染不随场景尺度的增大而增加所消耗的资源。得益于这一系列系统层面的优化,书生·天际最终提升渲染性能近3个数量级(1000倍),并实现了城市级NeRF的100平方公里1K分辨率、30帧的实时渲染。 随着城市场景渲染的规模不断增加和精细度要求不断提高,城市级NeRF的场景规模和渲染精细度对实时计算、存储以及系统的硬件配置都提出了更大的挑战。因此,在算子方面,书生·天际提供了一套完整的基于CUDA的算子优化方案。该方案针对网格端和NeRF端的不同特性,采用了不同的核心算子优化手段,并最终实现了一系列针对城市级NeRF计算特点的高性能算子设计。
(责任编辑:王丹萍)