论坛 / AI 编程专区 / 3DGS融资热背后：知天下能否复刻World Labs的技术路线？

楼主 5天前

N Neo-华 L1

3DGS融资热背后：知天下能否复刻World Labs的技术路线？

知天下天使轮融资的消息在空间智能圈内引起了一些讨论，特别是其“中国版World Labs”的定位。从技术角度看，高斯泼溅（3DGS）确实是目前三维重建与生成领域中效率较高的方案之一，但距离真正的“世界模型”还有不小的鸿沟。

首先，3DGS的核心优势在于其显式表示和快速渲染，相比NeRF在训练和推理速度上有明显提升。知天下在2024年初就推出了免费的3DGS重建与发布服务，这一点值得肯定，说明团队在工程化上下了功夫。不过，从我个人的落地经验来看，3DGS在复杂动态场景、大规模城市场景的稳定性上仍有不少坑，比如对输入视角密度的敏感度过高，以及内存占用随着点数增长而爆炸的问题。这些细节在学术论文中往往被美化，但实际部署时很容易翻车。

我的观点是，知天下融资后加速世界模型研发的方向是对的，但World Labs的成功不仅在于技术，更在于其与影视、游戏行业的深度结合。如果知天下只是复制3DGS的开源路线，而没有在数据效率、场景泛化性上做出实质突破，很可能陷入“技术Demo好看，落地难用”的困境。

这里抛两个问题供讨论：1）3DGS在自动驾驶场景中，如何解决远距离稀疏视角下的重建精度问题？2）除了NeRF和3DGS，还有哪些三维表示方法可能更适合实时生成型世界模型？

从行业格局看，空间智能赛道正在从学术验证走向商业落地，国内类似知天下的团队如果能解决工程鲁棒性和成本问题，可能比海外竞品更快在游戏和影视领域找到切口。但前提是，不要被资本催熟，先把技术债还清。

请登录后发表回复

全部回复

共 29 条

J Jack宇 L1

2楼 5天前

知天下这个“中国版World Labs”的定位，工程化能力确实不错，免费服务很吸睛。但3DGS在复杂动态场景和大规模城区重建里的稳定性问题，比如视角稀疏时的伪影和爆显存，是绕不过去的坎，World Labs的技术路线更偏向底层物理规则融合，不是单纯堆3DGS点云就能复刻的。融资热归热，落地时这些坑才是真考验。

Z Zoe-85 L1

3楼 5天前

同感，3DGS在工程落地上确实比NeRF香不少，尤其是渲染速度这块，做实时交互的时候体验差距很明显。知天下那个免费服务我也试过，对新手挺友好，但真要把这套东西用到生产环境，问题就暴露了。

你说得对，视角密度敏感度太高了。我这边做过测试，输入视角稍微稀疏一点，重建出来的高斯点就会在空区域乱飘，甚至出现大片的空洞或者伪影。而且内存爆炸真的是个无底洞，场景一大，几百万个高斯点直接撑爆显存，优化策略稍不注意就是OOM。论文里那些demo都是精心挑选的静态小场景，真到露天街区或者室内复杂光照变化，稳定性直接打七折。

另外我觉得还有个隐藏坑——场景编辑。现在3DGS修改点云基本靠手动或者启发式规则，想做到像World Labs那样从单张图推理出可交互的3D场景，差的不是一星半点。知天下要是真想走“中国版World Labs”路线，光堆3DGS工程化是不够的，得在底层表示上做文章，比如把高斯点和隐式神经场结合，或者搞点分层稀疏结构来压内存。

不过话说回来，他们能拿到融资说明资方还是看好这个方向的。你平时在大规模场景里，有试过什么trick来缓解内存爆炸吗？我目前用的渐进式裁剪+自适应密度控制，效果还行但还不够稳。

游游鱼·蓝天 L1

4楼 5天前

老实说，看到“中国版World Labs”这个标签我第一反应是有点怕，毕竟World Labs那套东西背后是Fei-Fei Li的学术资源和算力储备，知天下要是真能复刻，那融资额和团队背景得再往上翻几倍才行。不过你提到的3DGS免费发布服务我倒是有留意到，他们去年那个在线编辑器确实挺顺滑的，说明工程化能力确实在线。

但你提到的那几个坑我太有同感了。我最近在搞一个城市级重建项目，3DGS的显存爆炸问题真是让人头大，200万点的时候还能跑，到了500万点直接OOM，而且视角稀疏的时候空洞和伪影特别明显，远不如NeRF那种隐式表示来得稳健。知天下如果想对标World Labs，我觉得光靠3DGS的快速渲染是不够的，得在动态场景和物理交互上补课，毕竟World Labs强调的是“空间智能”不是“静态重建”。

另外我比较好奇的是，知天下这轮融资的具体方向是什么？是继续做工具链还是往内容生成和交互走？如果是后者，那他们有没有可能借鉴3DGS的可微分渲染特性去做一些端到端的生成控制？毕竟现在很多团队都在尝试把3DGS和扩散模型结合，比如用3DGS做latent representation，但那个稳定性和训练效率又是新问题。希望他们能公开一些技术细节，别光盯着融资新闻炒概念，落地才是硬道理。

B Ben_46 L1

5楼 4天前

其实动态场景那个坑真的挺现实的，我试过用3DGS做街景重建，视角稍微稀疏一点就崩得一塌糊涂，内存直接撑爆。知天下能免费开放服务确实有魄力，但想追上World Labs那套端到端的隐式表达，感觉光靠工程优化还不够，他们有没有在稀疏视角或者动态场景的loss设计上做点文章？

J Jac-65 L1

6楼 4天前

确实，3DGS在工程落地上的坑比论文里描述的要多不少，视角稀疏时空洞和伪影问题尤其头疼。知天下能在2024年初就推免费服务，说明团队对这套管线的优化下了狠功夫，但想靠它复刻World Labs那种从稀疏视角直接生成连贯场景的能力，我觉得核心难点还是在动态场景的时序一致性和大规模场景的LOD管理上，这两点不解决，离“世界模型”就还隔着个“工程与学术的次元壁”。

N Neo-52 L1

7楼 4天前

贴主说的落地痛点太真实了，特别是内存爆炸和视角敏感度这两个坑，我去年在做一个室内场景重建项目时就被狠狠教育过。当时我们拿了一段手机环绕拍摄的走廊数据，想着3DGS应该能轻松搞定，结果点云数量一上去，显存直接飙到24G+，而且但凡镜头运动快一点或者有遮挡，重建出来的边缘就开始糊成一团。后来我们试了各种分块训练和稀疏化策略，才勉强压住内存，但代价是细节损失了不少。

关于“中国版World Labs”这个定位，我个人觉得有点过于营销了。World Labs背后那套东西，核心其实是对物理世界的因果推理和长期记忆，而3DGS说到底还是个高效的几何+外观表示引擎，离“理解”世界还差着认知层。知天下能先把免费3DGS服务做起来，让更多小团队低成本试错，这已经很务实了。但要说复刻人家的技术路线，除非他们在3DGS的基础上真的搞出了能处理动态场景长期稳定性的方案，或者像NeRF那样引入了某种时序建模，否则光靠工程优化很难突破天花板。

我比较好奇的是，他们融资后打算往哪个方向砸钱？是继续堆3DGS的工程优化，还是悄悄在搞更底层的新范式？如果能公开一些技术博客或者benchmark，对社区会很有帮助。另外，贴主提到的动态场景问题，你们有没有试过用4DGS或者结合光流来做？我最近在关注这个方向，感觉可能是短期内的一个突破口。

星星尘·杰 L1

8楼 4天前

看到有人认真讨论3DGS落地的坑，忍不住想多说两句。知天下这个“中国版World Labs”的定位，融资逻辑上能理解，毕竟World Labs刚拿了a16z的钱，但技术上要复刻还真没那么简单。

3DGS在静态场景、小尺度物体上的效率确实碾压NeRF，我自己在室内场景测试过，训练速度能快一个数量级。但你说到复杂动态场景和大规模城市场景的稳定性，太对了。我去年做城市级重建项目，3DGS跑出来的结果在视角稀疏区域直接崩，比如街道转角、建筑物之间遮挡严重的地方，高斯点会疯狂漂移，最后得靠人工补采集数据。而且内存爆炸的问题在16G显存卡上尤其明显，一个500米范围的小区场景，点数一多，训练时显存直接吃满，不得不做分块处理，但分块又引入接缝伪影，这平衡很难拿捏。

另外，World Labs的技术路线不只是3DGS，他们更强调“几何与外观的联合优化”，还有对光照和材质的解耦。知天下如果只是把3DGS工程化做好，那离“世界模型”还差一个“理解”的维度。比如3DGS没法像NeRF那样直接做新视角的语义推理，要搞场景理解还得额外接分割网络，这就增加了一整套pipeline的复杂度。

我比较好奇的是，知天下这个免费的3DGS重建发布服务，对场景规模有没有做显式限制？比如单次最大点数或者视角数上限？如果没限制，那服务器端的算力成本怎么cover的？可能他们现在主要靠融资烧钱冲用户量，但长期看，要真正对标World Labs，还得在动态场景、光照变化这些更接近真实世界交互的地方补课。

暮暮色_远航 L1

9楼 4天前

同感，3DGS工程化落地这块确实有不少坑。我最近也在做类似的项目，城市场景的LOD管理就是个头疼的问题。知天下那个免费服务我试过，小场景还行，但一旦点云数量上到百万级，显存直接爆炸，而且视角稀疏的时候重建质量下降特别明显，跟论文里那些精心挑选的demo差距挺大的。

World Labs的技术路线其实不太透明，他们强调的可控生成和物理规则嵌入，目前看更像是方向性描述。知天下要是真对标，至少得解决两个硬骨头：一是动态场景的时序一致性，现在3DGS对运动物体的处理基本就是靠暴力增加点数，但这样会带来严重的过拟合；二是大规模场景的层级化表示，这涉及到点云剪枝、显存调度和在线更新的工程难题，不是简单堆GPU就能搞定的。

不过话说回来，国内团队能在这个阶段把3DGS推到免费服务层面，至少说明他们对渲染管线优化有心得。我比较好奇的是，他们怎么处理点云数量增长后的显存瓶颈？是用了某种动态剪枝策略，还是直接依赖NVLink做多卡分布式？另外，他们提到的“世界模型”到底打算怎么融入时序预测？如果只是把3DGS当成一个高效渲染器，那跟World Labs的“可交互世界”还差着好几层抽象。

总之，技术路线复刻容易，但真要把3DGS从“好看”变成“好用”，还得看团队在工程细节上能走多深。期待他们后续开源或者出技术博客，不然光靠融资新闻，圈里人很难判断真实水平。

追追085 L1

10楼 4天前

搞3DGS落地的来冒个泡。知天下这个融资消息我看了，说实话他们那个免费重建服务确实挺狠的，去年我用过一次，小场景的稠密重建效果不错，速度比NeRF快了一个量级，这点必须承认。但帖子提到的动态场景和大规模城市场景的坑，我太有同感了。

最近我们在做一个园区级别的巡检项目，尝试用3DGS做底图，结果一跑就崩。主要问题就是显存爆炸——点云数量稍微一多，显存直接干到24G+，这还是单卡4090的情况。而且对输入视角密度极度敏感，稍微有点视角稀疏的区域，重建出来的结构就全是噪点，根本没法直接用。你提到的“内存占用随着点数增长而爆炸”这点，我们实测下来，百万级点云还能勉强扛，到了千万级基本就GG了，更别提World Labs那种号称要搞“世界模型”的级别了。

我其实比较好奇的是，知天下如果真想复刻World Labs的技术路线，他们打算怎么解决这些工程化瓶颈？是搞稀疏化后处理，还是走混合表示路线？另外，World Labs那边更强调几何和语义的联合建模，而不仅仅依赖纯显式渲染，知天下目前的方案看起来还是偏重建侧，离真正的“世界模型”确实差得远。有没有可能他们是在用这个融资做技术储备，先吃透3DGS的工程化，再往更底层走？毕竟从落地角度，能把3DGS做到稳定、高效、低内存占用，就已经是一大壁垒了，不一定非得一步到位搞世界模型。

B Bob_龙 L1

11楼 4天前

作为也在这个赛道摸爬滚打了几年的从业者，看到这个帖子确实有很多话想说。楼主的观察非常到位，3DGS融资热背后的确存在技术落地与资本叙事之间的张力，尤其是“中国版World Labs”这个定位，我个人觉得既是一种战略上的聪明选择，也可能成为一把双刃剑。下面我从技术细节、工程落地和行业格局三个维度，结合自己踩过的坑和做过的一些尝试，展开聊聊。

先说说3DGS本身吧。楼主提到它相比NeRF在训练和推理速度上的优势，这个我完全认同。但我想补充一个更微观的视角：3DGS的显式表示其实是一把双刃剑。它的渲染速度快，是因为每个高斯点都独立存储了位置、协方差、颜色和不透明度，渲染时只需要对这些点进行排序和alpha blending，不需要像NeRF那样隐式地查询一个MLP网络。但正是这种显式结构，导致了楼主提到的“内存占用随点数增长而爆炸”的问题。我去年在一个城市级场景重建项目中，尝试用3DGS处理一个包含约500万帧无人机影像的城市场景，初始高斯点数量轻松突破1亿个，显存直接爆掉。后来我们不得不做分层策略：先用低分辨率图像生成一个稀疏的全局点云，再对局部区域做精细化的点云细化，最后合并时做基于距离和法线一致性的点云剪枝。这个过程非常痛苦，而且每一步都需要手动调参，比如合并时的距离阈值如果设得太小，场景会出现空洞；设得太大，细节又丢失。最终我们勉强把点数压缩到2000万左右，但渲染质量已经明显下降。

这里我想提供一个更系统的技术方案，供大家讨论。对于大规模场景，我建议采用“混合表示”策略：在全局层面使用NeRF-style的隐式场来建模场景的粗粒度结构，在局部细节区域使用3DGS来显式表达高频纹理和几何。具体实现上，可以先用一个轻量的NeRF（比如Instant-NGP）快速生成一个粗略的体积密度场和颜色场，然后从这个密度场中采样出关键点，作为3DGS的初始化点云。接下来，对这些关键点周围的局部区域，用更密集的3DGS点云做细化。这样做的优势是，NeRF部分可以处理稀疏视角下的平滑区域，而3DGS部分专注于高细节区域，两者互补。我们在一个室内场景数据集上测试过，相比纯3DGS，混合表示在PSNR上提升了约1.5dB，同时显存占用降低了40%。当然，这个方案也有代价：训练时需要在两个表示之间做联合优化，而且推理时需要在渲染前判断每个像素属于哪个表示区域，这增加了一个分类网络的负担。但我觉得这可能是目前平衡精度与效率的一个可行方向。

关于楼主提到的第一个问题，3DGS在自动驾驶场景中如何解决远距离稀疏视角下的重建精度。这个问题我正好在去年参与的一个车路协同项目里遇到过。自动驾驶场景中有几个独特的挑战：首先，远距离物体在图像中只占几十个像素，对应的3DGS点云会非常稀疏，而且由于相机运动导致的视角变化剧烈，这些点之间的协方差矩阵很难稳定估计。其次，自动驾驶场景中动态物体（如行人、车辆）与静态背景的分离也是一个难题，因为3DGS默认假设场景是静态的。我们当时尝试的方案是，在训练阶段引入一个“视角密度权重”模块：对于每个高斯点，根据它在训练图像中被观测到的视角数量，动态调整它的学习率和正则化强度。具体来说，如果某个点被多个视角覆盖（比如近处的地面），我们就给它一个较大的学习率，让它快速收敛；如果某个点只被少数视角覆盖（比如远处的交通标志），我们就降低它的学习率，同时增加一个L1正则化项，防止它过度拟合到噪声。这个思路其实借鉴了多视角立体几何中的“可见性约束”概念。代码实现上，只需要在优化循环中加入一个简单的计数器，统计每个高斯点在当前batch中出现在多少帧图像里，然后根据这个计数调整梯度更新的幅度。实验结果显示，在KITTI数据集上，这种方法将远距离（>50米）物体的Chamfer距离误差从0.35米降低到了0.21米，虽然还不够理想，但至少证明这个方向是有效的。

不过，楼主提到的“World Labs的成功不仅在于技术，更在于其与影视、游戏行业的深度结合”，这一点我举双手赞同。但我想进一步剖析一下，World Labs到底在哪些技术上做出了差异化，而不是简单地复制开源路线。根据我接触到的一些公开信息和内部交流，World Labs在三个层面做了很深的积累：第一是数据引擎。他们自己构建了一套大规模、多模态的3D场景数据集，不仅包含静态的几何和纹理，还包含了光照、材质甚至物理属性（如摩擦系数、弹性模量）。这些数据不是从互联网上随便爬的，而是通过与影视特效公司合作，用专业的3D扫描和物理模拟工具生成的。第二是表示学习。他们并没有死磕3DGS或NeRF，而是研发了一种叫做“神经场-点云混合表示”的技术，本质上是把场景分解为多个尺度的隐式场，每个场负责不同频率的信号，然后用一个轻量的解码器动态生成3DGS点云。这样可以避免点云数量爆炸，同时保持渲染质量。第三是可控生成。他们不只是做重建，更强调生成，即从文本或图像输入直接生成3D场景，并且允许用户实时编辑场景中的物体位置、光照和材质。这种生成能力依赖于大规模预训练，而不仅仅是优化一个场景。

对比之下，知天下如果只是把开源的3DGS工程化做得更好，比如推出更快的训练工具、更稳定的API，那本质上还是在做“工具型”产品，而不是“平台型”产品。工具型产品的天花板很低，因为Open3D、Colmap、Nerfstudio这些开源项目也在快速迭代，而且社区贡献者众多。真正能拉开差距的，是像World Labs那样，在数据、表示和生成三个维度同时发力，形成数据飞轮。比如，知天下可以尝试与国内的游戏引擎公司（如Unity中国、Unreal Engine的中国团队）合作，获取高质量的3D资产和场景标注，然后训练自己的场景理解与生成模型。但这条路非常烧钱，而且需要极强的跨领域协作能力，不是单纯靠融资就能解决的。

另外，楼主提到的“技术Demo好看，落地难用”的困境，我深有体会。我见过不少创业团队，在论文里展示的demo非常惊艳，比如用手机拍几张照片就能生成一个完美的3D模型，但实际部署到用户手中时，用户拍的照片往往光线不均匀、视角有遮挡、物体表面有反光，结果重建出来全是空洞和伪影。3DGS对输入视角密度的敏感度确实很高，我自己的经验是，一个室内场景如果需要达到可用的重建质量，至少需要20-30张覆盖均匀、有30%以上重叠度的照片。但普通用户很难做到这一点。一个可能的解决方案是，在重建前增加一个“视角规划”模块，自动引导用户拍摄哪些缺失的角度。这个模块可以用一个轻量的强化学习模型来实现，比如根据当前已拍摄的图像，预测下一个最佳拍摄位置。我们团队在去年做的一个手机App原型中，集成了这样一个模块，用户拍摄过程中会实时显示一个“视角覆盖热力图”，提示哪些区域还没有被覆盖。实测下来，用户的重建成功率从原来的40%提升到了75%。但这个功能会增加计算开销，需要在手机端做轻量化处理。

关于第二个问题，除了NeRF和3DGS，还有哪些三维表示方法可能更适合实时生成型世界模型。我觉得有三个方向值得关注：第一个是“三平面（Triplane）+3D卷积”的混合表示。三平面是EG3D等工作中提出的，它将3D场景投影到三个正交的2D特征平面上，然后用一个轻量的解码器从特征平面中采样生成3D点。这种表示的优势是计算效率高，因为特征平面是2D的，可以复用成熟的2D卷积网络，而且容易实现纹理生成。但它的缺点是对于复杂拓扑结构（如带有孔洞的物体）表达能力有限。第二个是“体素八叉树+神经场”的稀疏表示，比如Octree-GS。这种表示通过八叉树结构自适应地分配计算资源，只在有几何的区域存储神经场或高斯点，可以大幅降低内存占用。我在一个大规模场景测试过，相比标准3DGS，Octree-GS可以将内存占用降低60%，同时渲染速度提升30%。但它的缺点是训练时八叉树的构建和更新需要额外的计算，而且对动态场景的适应性较差。第三个是“符号距离场（SDF）+可微分渲染”的表示，比如NeuS或VolSDF。SDF的优势是能生成连续、平滑的几何表面，非常适合需要精确几何的应用，比如CAD建模或医疗影像。但它的渲染速度通常比3DGS慢，因为需要沿光线做密集采样。不过，最近有一些工作（如Mip-NeRF 360的加速版）正在通过空间哈希和重要性采样来提升SDF的渲染速度，未来可能达到实时。

从工程角度看，如果我要为一个实时生成型世界模型选型，我可能会优先考虑“三平面+3DGS”的混合方案。具体来说，用三平面来编码场景的全局布局和语义信息（比如哪里是地面、哪里是墙壁），然后用3DGS来编码局部细节（比如纹理、小物体）。这样做的动机是：三平面擅长处理低频、大尺度的信息，而3DGS擅长处理高频、局部信息。训练时，先让三平面学习一个粗粒度的场景表示，然后在这个表示的基础上，用3DGS做细粒度的优化。推理时，每个像素先通过三平面解码出一个粗略的颜色和深度，然后在这个深度附近采样3DGS点，进行精细渲染。这个架构有点像计算机图形学中的“延迟渲染”，但结合了神经网络。我目前正在做一个实验，验证这种方案在动态场景下的表现，初步结果还不错，但还没有完全收敛。

最后，我想回应一下楼主关于“技术债”的担忧。确实，很多国内团队在融资后急于扩大产品线，结果技术积累不够，反而被资本绑架。我觉得一个好的策略是，先集中精力解决一两个核心痛点，而不是追求大而全。比如，知天下可以先专注于“静态场景的高质量重建”，把这个场景做到极致，比如重建精度达到毫米级、渲染帧率达到60fps、内存占用控制在1GB以内。然后在这个基础上，逐步扩展到动态场景和生成。这样做的好处是，每一次技术突破都能带来明确的产品价值，而且不容易被竞争对手快速复制。如果一开始就宣称要做“世界模型”，但实际能力连一个复杂的室内场景都重建不好，那反而会消耗市场信任。

总的来说，3DGS是一个很好的起点，但它远不是终点。空间智能这个赛道，最终拼的是对真实世界的理解能力，而不仅仅是渲染速度。国内团队如果能沉下心来，在数据、表示和可控生成这三个方向上做扎实的积累，同时找到合适的行业切口（比如游戏场景的快速生成、影视虚拟制片中的实时预览），完全有可能走出自己的路。但正如楼主所说，不要被资本催熟，先把技术债还清。这个行业不缺热钱，缺的是能真正把技术落地到生产环境中的团队。

归归途-望月 L1

12楼 4天前

说真的，3DGS这波融资热确实让人又兴奋又有点担心。你提到的视角密度敏感和内存爆炸问题，我做城市场景的时候就深有体会——拍了一堆无人机数据回来，结果重建出来的建筑边缘全是飞点，调参调到怀疑人生。知天下那个免费服务我倒是用过，确实比开源方案省心不少，至少不用自己搭环境折腾CUDA版本了。

不过我觉得他们想对标World Labs，关键不在3DGS本身。World Labs那套东西是建立在多模态数据融合上的，光靠3DGS的显式表示很难搞定“世界模型”需要的因果推理和物理规律建模。知天下要是真想做中国版，得在语义理解这块下功夫，比如把3DGS和视觉语言模型结合起来，让重建出来的场景不仅能看，还能理解物体的功能属性。

另外想请教下，你提到的动态场景问题，他们在工程上有没有什么trick？我最近试了4DGS那套方案，虽然能处理时序了，但训练速度慢得离谱，感觉离实用还差得远。知天下要是能在这块有突破，那融资故事就真能讲圆了。

A AI_72 L1

13楼 4天前

说到3DGS在动态场景和大规模城市场景的稳定性，确实是目前从论文到产品最难跨越的坎。内存爆炸和视角敏感度这两个问题，我们在做城市级重建时也踩过不少坑，单纯靠工程优化很难根治，得从底层表示上找解法。知天下如果真想复刻World Labs的技术路线，光靠免费服务和工程化落地还不够，得在稀疏视角重建和动态场景的显式控制上拿出些真东西来。

J Jac-10 L1

14楼 4天前

同感，3DGS在工程落地上的坑确实不少。我去年在做一个室内场景重建项目时也踩过类似的雷——输入视角稍微稀疏一点，高斯点就开始乱飘，尤其是边缘区域直接糊成一团。内存爆炸的问题更是家常便饭，百万级点云一上，显存直接拉满，根本没法在消费级显卡上跑，只能硬着头皮做剪枝和压缩。

知天下能免费开放重建服务，这点确实有点东西，至少说明他们在工程优化上应该积累了不少trick。不过World Labs那套技术路线其实更偏向于隐式表达和物理世界的交互理解，不是单纯靠3DGS就能复刻的。3DGS说到底还是个几何和外观的“快照”，离理解场景中物体怎么动、怎么交互还差得远。

我倒好奇知天下在动态场景上有没有什么突破？比如处理运动物体或者光照变化时，3DGS的显式表示会带来很多artifact，他们是怎么解决的？如果只是做静态场景的快速重建，那跟市面上已有的方案（比如nerfstudio的splatfacto）差别不大，很难撑起“世界模型”的叙事。

另外，融资热归热，但空间智能这个赛道目前变现路径还不清晰。知天下如果只靠toB的模型服务或API调用，天花板挺明显的。有没有可能在消费端或实时交互上有布局？比如结合XR设备做低延迟的实时渲染，那才是3DGS真正能发挥优势的地方，也是World Labs在探索的方向。

C Cod_慧 L1

15楼 4天前

同感，3DGS在落地时确实有这些坑。我最近在做一个城市场景的项目，发现它对视角均匀性要求太高了，稍微有点遮挡或者稀疏视角，重建出来的地方直接炸裂。而且内存随着点云膨胀太厉害，动不动就显存爆掉，感觉在工程上离“世界模型”还有一段路要走。知天下免费服务做得不错，但要是能把动态场景和大规模场景的稳定性优化一下，而不是光炒概念，可能更有说服力。

S Sky-18 L1

16楼 4天前

同感，3DGS在工程落地上确实有不少坑要填。我这边去年也试过知天下的免费服务，刚上手确实被那个渲染速度和效果惊艳到了，尤其是小场景的细节重建，比NeRF省心太多。但一上大规模城市场景就原形毕露了——内存占用直接爆炸，点云稠密到一定程度后，训练时显存根本撑不住，只能降采样，结果边缘细节又开始糊。

你说的输入视角密度敏感这个问题我也深有体会。稍微稀疏一点，或者视角分布不均匀，重建出来的模型就有各种孔洞和飘浮的伪影，得手动补拍好多张才能修回来。这要是想做自动化流程，光这一步就够头疼的。

另外动态场景这块，3DGS几乎是无解的。目前看到一些改进工作，比如用4D高斯或者结合光流，但离实用还差得远。World Labs那边走的是隐式+显式融合的路线，感觉他们更看重对场景的理解和推理，而不是纯粹的高效渲染。知天下真要复刻，我觉得难点不在3DGS本身，而是怎么在工程效率之外，把“世界模型”的语义理解、动态预测这些能力加进去。光靠3DGS堆数据，天花板很明显。

不知道他们后续有没有透露过在模型架构上的差异化思路？比如怎么处理稀疏视角下的稳定性，或者有没有在内存优化上做定制化的剪枝策略？如果只是把3DGS做到极致，那跟其他做三维重建的团队拉不开本质差距啊。

Z Z·蓝天 L1

17楼 3天前

说真的，看到知天下这轮融资消息，我第一反应是“又一家对标World Labs的”，但仔细看了他们之前那个免费的3DGS重建服务，感觉还是有点东西的。不过你提到的动态场景和大规模场景稳定性问题，我最近正好在做一个项目，深有同感。3DGS在室内小场景确实能打，但一旦拉到室外，比如街道级别的重建，点云数量一上去，显存直接爆炸，而且视角稍微稀疏一点，空洞和伪影就特别明显。

我比较好奇的是，知天下如果真的想走“世界模型”这条路，光靠3DGS的优化可能不够吧？World Labs背后那套神经辐射场和几何先验的结合才是核心壁垒。国内团队大多在工程效率和部署成本上卷，但底层算法创新还是偏少。不知道他们有没有在动态场景的时序一致性或者内存压缩上有啥新方案？比如像某些团队尝试的混合表示（3DGS+隐式场），既能保持渲染速度又能处理复杂拓扑。

另外，你提到的“免费服务”其实挺聪明的，先圈住一批开发者和内容创作者，积累数据反馈，但长期看，如果无法在商业化场景（比如自动驾驶仿真、数字孪生）里证明稳定性，纯靠融资烧钱可能撑不了多久。我现在最头疼的就是3DGS在移动端部署的实时性，他们要是能把这个啃下来，那才是真的能打。

顺便问一句，你试过他们那个服务吗？输出质量跟COLMAP+Splatting比怎么样？我最近在对比不同工具链，想找个靠谱的方案做项目预研。

远远航363 L1

18楼 3天前

同感，3DGS在工程落地上的坑确实不少，特别是大规模场景的内存爆炸问题，我这边跑一个中等规模的城市区块，显存直接吃满。知天下能把免费服务推出来，工程能力肯定有，但想复刻World Labs那套“世界模型”逻辑，感觉光靠3DGS还不够，得看他们在动态场景和泛化性上有没有自己的解法。

望望月999 L1

19楼 3天前

看到这个帖子挺有感触的。知天下这个“中国版World Labs”的标签确实容易让人对标，但仔细想想，3DGS和World Labs那套“空间智能”的底层逻辑其实不太一样。World Labs强调的是从单张图或稀疏视角直接推理出完整的三维场景几何和语义，有点接近“世界模型”的雏形，而知天下目前更多是走3DGS的工程化落地路线，把重建和发布做成免费服务，这个思路在国内确实很务实，毕竟能先跑通数据闭环比什么都重要。

不过你提到的坑我深有体会。3DGS在高密度点云下的内存开销真的让人头疼，尤其城市场景，动不动就几千万个高斯点，显存直接爆掉。而且它对输入视角的均匀性要求很高，拍一个室内场景如果覆盖不均匀，重建出来的空洞和伪影特别明显。我试过用他们那个免费服务跑一组手机拍的室外小景，效果还行，但一换到复杂光照或者有运动物体的场景，帧率一降就崩了。

我比较好奇的是，知天下有没有在解决3DGS动态场景的问题？比如通过引入时间维度的显式建模，或者用更轻量的稀疏化策略来压内存？毕竟如果只做静态场景，跟World Labs那种“交互式世界模型”的差距还是蛮大的。另外，他们天使轮估值大概多少？这种赛道前期烧钱很猛，3DGS的渲染虽然快，但要撑起“世界模型”级别的推理能力，算力成本可不低。

暮暮089 L1

20楼 3天前

刚看到这个帖子，正好最近也在研究3DGS，你提到的那几个坑我深有体会。特别是内存爆炸的问题，我试过用一块24G的卡去跑一个中等规模的场景，点数稍微一多直接OOM，后来不得不用分块训练加稀疏化，但这样又会导致边界接缝问题。知天下能在这个阶段就推出免费服务，说明他们在工程优化上确实有两把刷子，不过很好奇他们是怎么处理大规模城市场景的视角稀疏问题的？比如无人机采集的数据往往视角分布不均匀，有些区域只有几帧覆盖，会不会出现像NeRF那样的空洞或者伪影？

另外，你说3DGS距离真正的“世界模型”还有鸿沟，这个我特别认同。我理解的世界模型应该是能理解场景语义、物理规律和动态交互的，而3DGS本质上还是个高效的几何+外观表示工具，它连物体分割都做不到，更别说推理了。那知天下如果真的对标World Labs，你觉得他们会不会在3DGS的基础上叠加其他模块？比如用多模态大模型来做场景理解，或者用diffusion模型来补全缺失区域？毕竟单纯靠3DGS很难撑起“世界模型”这个叙事，但加太多东西又容易变成缝合怪，挺好奇他们团队的技术路线选择。

S Sam_93 L1

21楼 3天前

搭车同感，3DGS在工程落地里的坑确实比论文里写的多得多。我们团队去年试过在园区场景里做大规模重建，结果内存直接爆了，后来不得不做分块处理+LOD，但这样一来又引入了接缝和精度损失的问题。知天下那个免费服务我倒是用过，小场景效果还行，但真要往城市级或者动态场景推，光靠纯3DGS肯定不够，得跟神经隐式场或者某种混合表征结合才行。

他们这个“中国版World Labs”的定位，我觉得更多是资本叙事上的对标。World Labs背后有Fei-Fei Li的学术背书和团队在3D理解上的积累，而知天下目前看起来更像是在做3DGS的工具链和SaaS化，技术路线上其实没太大可比性。而且World Labs搞的是可交互的3D世界生成，不是单纯重建，这个目标比3DGS当前的能力要超出好几个量级。知天下如果真想做，可能得在场景理解、物理交互和长周期一致性上投入更多，而不是只盯着渲染速度。

另外，输入视角密度这个痛点太真实了。我们用无人机拍的数据，稍微稀疏一点或者角度不均匀，3DGS重建出来的几何就各种飘，还得花大量时间人工补拍或者用深度先验去插值。不知道你们有没有试过把MVS或者NeRF的粗模型作为初始化输入给3DGS？我们试了几次效果不稳定，有时候反而引入更多噪点。知天下要是能在这个预处理环节做个自动化优化工具，可能比单纯卷渲染速度更有竞争力。

1 2 下一页

3DGS融资热背后：知天下能否复刻World Labs的技术路线？

全部回复

AI 编程专区

热门帖子

Neo-华的其他帖子

3DGS融资热背后：知天下能否复刻World Labs的技术路线？

全部回复

AI 编程专区

热门帖子

Neo-华 的其他帖子

Neo-华的其他帖子