军事瞭望网

让建站和SEO变得简单

让不懂建站的用户快速建站,让会建站的提高建站效率!

军事历史 你的位置:军事瞭望网 > 军事历史 > 1600万视频解锁“空间智能”?智源3D生成模子See3D全套开源

1600万视频解锁“空间智能”?智源3D生成模子See3D全套开源

发布日期:2024-12-14 05:43    点击次数:170

剪辑:剪辑部 HYZ

【新智元导读】上周,李飞飞空间智能首个3D生成模子刚刚交卷。这边,国内来自智源的See3D模子,在学习了无标注的1600万个视频之后,重建出全新的3D寰宇,限度令东谈主咋舌。

近日,知名AI学者、斯坦福大学讲明注解李飞飞团队World Labs推出首个「空间智能」模子,仅输入单张图片,即可生成一个传神的3D寰宇,这被认为是迈向空间智能的第一步。

真实同期,国内智源商讨院推出了首个诳骗大领域无标注的互联网视频学习的3D生成模子See3D——See Video, Get 3D。

不同于传统依赖相机参数(pose-condition)的3D生成模子,See3D领受全新的视觉条目(visual-condition)手艺,仅依赖视频中的视觉陈迹,生成相机标的可控且几何一致的多视角图像。

这一治安不依赖于奋斗的3D或相机标注,有时高效地从各样化、易获取的互联网视频中学习3D先验。

See3D不仅撑捏零样本和绽开寰宇的3D生成,还无需微调即可膨胀3D剪辑、名义重建等任务,展现出在多种3D创作应用中的凡俗适用性。

See3D撑捏从文本、单视图和寥落视图到3D的生成,同期还可撑捏3D剪辑与高斯渲染

关联的模子、代码、Demo均已开源,更多手艺细节请参考See3D论文。

论文地址: https://arxiv.org/abs/2412.06699

名堂地址:https://vision.baai.ac.cn/see3d

限度展示

1. 解锁3D互动寰宇:输入图片,生成千里浸式可交互3D场景,及时探索真确空间结构。

及时3D交互(备注:为了兑推行时交互式渲染,刻下对3D模子和渲染过程进行了简化,离线渲染真确限度更佳)

2. 基于寥落图片的3D重建:输入寥落的(3-6张)图片,模子可生成一个笼统化的3D场景。

3. 绽开寰宇3D生成:左证文本教导,生成一副艺术化的图片,基于此图片,模子可生成一个编造化的3D场景。

4. 基于单视图的3D生成:输入一张真确场景图片,模子可生成一个传神的3D场景。

商讨动机

3D数据具有好意思满的几何结构和相机信息,有时提供丰富的多视角信息,是磨砺3D模子最平直的遴荐。然则,现存治安常常依赖东谈主工想象(designed artists)、立体匹配(stereo matching)或开拓规复结构(Structure from Motion, SfM)等手艺来汇集这些数据。

尽管经过多年发展,刻下3D数据的累积领域也曾有限,举例DLV3D(0.01M)、RealEstate10K(0.08M)、MVImgNet(0.22M)和Objaverse(0.8M)。这些数据的会聚过程不仅耗时且资本奋斗,还可能难以实施,导致其数据领域难以扩展,无法闲散大领域应用的需求。

与此不同,东谈主类视觉系统无需依赖特定的3D表征,仅通过纠合多视角的不雅察即可建设对3D寰宇的瓦解。单帧图像难以兑现这少许,而视频因其自然包含多视角关联性和相机开拓信息,具备揭示3D结构的后劲。

更迫切的是,视频开端凡俗且易于获取,具有高度的可扩展性。基于此,See3D建议「See Video, Get 3D」的理念,旨在通过视频中的多视图信息,让模子像东谈主类雷同,学习并推理物理寰宇的三维结构,而非平直建模其几何阵势。

治安先容

为了兑现可扩展的3D生成,See3D提供了一套系统化的贬责有野心,具体包括:

1. 数据集

团队建议了一个视频数据筛选经由,自动去除源视频中多视角不一致或不雅察视角不充分的视频,构建了一个高质料、各样化的大领域多视角图像数据集WebVi3D。该数据集涵盖来自1600万个视频片断的3.2亿帧图像,可通过自动化经由随互联网视频量的增长而不断扩充。

WebVi3D数据集样本展示

2. 模子

标注大领域视频数据的相机信息资本极高,且在穷乏显式3D几何或相机标注的情况下,从视频中学习通用3D先验是更具挑战的任务。

为贬责这一问题,See3D引入了一种新的视觉条目——通过向掩码视频数据添加时候依赖噪声,生成一种爽直的2D归纳视觉信号。

这一视觉信号撑捏可扩展的多视图扩散模子(MVD)磨砺,幸免对相机条目的依赖,兑现了「仅通过视以为到3D」的主见,绕过了奋斗的3D标注。

See3D治安展示

3. 3D生成框架

See3D学到的3D先验有时使一系列3D创作应用成为可能,包括基于单视图的3D生成、寥落视图重建以及绽开寰宇场景中的3D剪辑等, 撑捏在物体级与场景级复杂相机轨迹下的长序列视图的生成。

基于See3D的多视图生成

上风

1. 数据扩展性

模子的磨砺数据源自海量互联网视频,相较于传统3D数据集,构建的多视图数据集(16M)在领域上兑现了数目级的普及。跟着互联网的捏续发展,该数据集可捏续扩充,进一步增强模子才气的袒护领域。

2. 相机可控性

模子可撑捏在职意复杂的相机轨迹下的场景生成,既不错兑现场景级别的漫游,也能聚焦于场景内特定的物体细节,提供纯真各样的视角操控才气。

3. 几何一致性

模子可撑捏长序列新视角的生成,保捏前后帧视图的几何一致性,并受命真确三维几何的物理划定。即使视角轨迹发生变化,复返时场景也曾保捏高传神和一致性。

回首

通过扩大数据集领域,See3D为打破3D生成的手艺瓶颈提供了新的想路,所学习到的3D先验为一系列3D创作应用提供了撑捏。

但愿这项职责有时激发3D商讨社区对大领域无相机标注数据的关爱,幸免奋斗的3D数据会聚资本,同期放松与现存巨大闭源3D贬责有野心之间的差距。



Powered by 军事瞭望网 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群系统 © 2013-2024