本文第一作者顾泽琪是康奈尔大学计算机科学四年级博士生,导师为 Abe Davis 教授和 Noah Snavely 教授,研究方向专注于生成式 AI 与多模态大模型。本项目为作者在英伟达实习期间完成的工作。
想象一下,你是一位游戏设计师,正在为一个奇幻 RPG 游戏搭建场景。你需要创建一个 精灵族树屋村落—— 参天古木和树屋、发光的蘑菇路灯、半透明的纱幔帐篷... 传统工作流程中,这可能需要数周时间:先手工建模每个 3D 资产,再逐个调整位置和材质,最后反复测试光照效果…… 总之就是一个字,难。
这种困境正是当前 3D 内容创作领域的缩影。传统 3D 设计软件如 Blender、Maya 虽然功能强大,但学习曲线陡峭。近年来兴起的文本生成 3D 技术让用户可以通过文字描述生成 3D 内容,但这些方法要么依赖有限的 3D 训练数据,遇到新场景类型或风格就容易翻车,要么在预测完场景中的物体信息后,要从特定的 3D 模型池中寻找并调用出与预测特征最相近的,因此最后的场景质量非常依赖于模型池中到底有什么,很容易导致风格不统一。
与此同时,文本生成 2D 图像技术(如 GPT-4o、Flux)却突飞猛进。这些模型通过海量互联网图像训练,已经能生成布局合理、风格统一的复杂场景图。这引发了一个关键思考:能否让 2D 图像充当 中间商,先把用户输入文字转化为高质量场景图,再从中提取 3D 信息?NVIDIA 与康奈尔大学联合团队的最新研究 ArtiScene,正是基于这一 insight 提出的全新解决方案。
ArtiScene 的核心创新在于构建了一个完全无需额外训练的自动化流水线,将文本生成图像的前沿能力与 3D 重建技术巧妙结合。它一共包含五步:
系统首先用扩散模型生成等轴测视角的场景图。这种视角常用于建筑设计示意图,因为它能同时呈现物体的长、宽、高信息,且不受场景位置影响。相比直接生成 3D,这种方法能利用更成熟的 2D 生成技术确保布局合理性和视觉美感。
图二:和其他任意的相机视角(左二、三)比,让文生图模型输出等轴测图(左一)更可靠,因为等轴测图默认相机参数是固定的,且没有透视形变。
采用两阶段检测策略:先用 GroundedDINO 识别场景中的家具和装饰品,对遮挡部分用补全修复(Remove Anything 模型),再次检测确保完整性,最后得到每个物品的分割掩码。
通过 Depth-Anything-2 模型估计深度信息,配合自定义投影公式将 2D 坐标转换为 3D 位置。团队发现传统相机投影公式需要调整,于是采用去除深度缩放影响后的公式。
传统方法通常从现有数据库检索 3D 模型,导致美观度受限。ArtiScene 则对场景图中的每个物体分别生成定制化 3D 模型:在得到分割物体图像后,让 ChatGPT 描述其几何特征,再输入单视图 3D 生成模型,为每件家具、装饰品单独建模。
通过单目深度估计,系统将 2D 边界框转换为 3D 空间坐标。并使用 渲染 - 比对 的姿势估测机制,生成 8 个旋转角度的物体渲染图,用 Stable Diffusion+DINO-v2 融合模型提取特征,选择与原始场景图最匹配的姿势。后处理阶段还会自动修正物体重叠,确保物理上足够合理,比如椅子不会嵌进餐桌里,花瓶能稳稳立在柜子上。
相比当时效果最好的文生 3D 场景方法 Holodeck,在包含 29 种场景种类和风格的测试集中:
物体编辑:单独修改某个模型(如把普通汽车变成黄色保时捷)多场景适配:通过调整参数支持户外场景生成人工引导:允许直接输入手绘设计图替代 AI 生成场景图
图五:左:物体编辑;右:跳过最开始的文生图环节,直接用人工画的图生成场景。
对于更复杂的多房间场景(如整个博物馆、医院),或者要求特定家具间的位置关系和个数等用户输入,由于文生图模型在训练时就缺乏相关数据,ArtiScene 在最开始就会受限于不够优质的二维图像。然而,这一模块是可更换的,ArtiScene 不依赖于某一特定模型,未来如果有性能更好的同功能模型,我们也可以很容易把它们替换进来。
本项目创新地采用二维图像来引导三维场景生成,并用 LLM、VLM 等大模型构成了一个鲁棒的系统,在生成结果的美观度、多样性和物理合理性上都远超之前的同类型方法。作者希望他们的工作可以启发未来更多关于具身智能、AR/VR、室内 / 室外设计的思考。
06月08日,印尼一医院爆炸致18人受伤 108名患者紧急转移,万博官网手机版入口,天博网页登陆不了,伟德官网入口,澳门银银河官网app
06月08日,“巴铁”空军上校:兄弟!我们喜欢中国飞机!我爱中国人,凤凰体育平台登录,360街机三国,威尼斯人体育在线欢迎您,开云官网APP
06月08日,四川打造新时代更高水平“天府粮仓” 耕地面积净增加50万亩以上,消息A,hth华体会官方下载,米乐体育官网登录,必赢亚洲网站下载官网
06月08日中资企业助力印尼贫困学子圆梦竞技宝万博manbetx客户端网页新二手机会员网址沙巴体育平台滚球
06月08日微视频|家事·国事火狐体育ios版亚娱注册送18万人炸金花安卓版lc8乐橙手机版
06月08日【一线代表委员心声】推动传统农民工向新型产业工人转型凯发娱乐登陆官网首页胜负彩足球彩票官网足球世界杯2019赛程新濠天地备用网址……
06月08日,慢慢慢!@驾驶员们 道路积雪结冰 驾车出行注意安全!,澳门皇家游戏直营,火狐官网app,巴黎人彩世界是骗局吗,威尼斯城vnsc登入平台
06月08日,数字转型成广西县域关注焦点 大数据模型将赋能大健康产业,金宝博网,w88体育网址,巴黎人双轮盘,龙8国际手机网页版
06月08日“捏捏乐”让5岁孩子“上头” 是解压治愈还是情绪消费?火狐在线速发国际最新众慱棋牌官网个人中心必赢亚洲手机端官网下载
06月08日,不管是非洲亚洲美洲欧洲,没有一个地方的人没有用过中国的产品,网址,九游会网页入口,多宝网页登陆,金贝棋牌安卓官网
06月08日,三架客机遭枪击 美国航空暂停海地航班运营至2025年2月,博狗网站多少啊,球探手机比分网足球,欧宝官方体育ap,澳门皇冠官网网站
06月08日,外交部:国家间防务安全合作不应针对第三方或损害第三方利益,6up扑克之星靠谱吗,娱乐抢庄牛牛棋牌游戏,龙8娱乐网站登陆,大轮盘
06月08日持续深入抓好整改整治 把“问题清单”变为“成果清单”巴黎人手机登录网址皇冠官网APP天博棋牌官网网址e星体育官网地址
06月08日两岸经贸受台选举影响? 国台办:继续促进经济交流合作万喜国际真人游戏欧亿体育官网下载华体会赌场网站牛牛抢庄模式规则
06月08日双汇《这!就是街舞》青少年街舞交流赛在京举行永利体育在线官网沙巴体育体育平台网上体育博开户什么地方买球
考研国家线艺术,盘点历代tga年度最佳游戏三年之约雄狮归来 电影《雄狮少年2》官宣定档多宝开户必威在线bet怎么上BOB体育官方
女子10米跳台跳水决赛,习主席的欧洲之行习言道|铸牢中华民族共同体意识,习这样强调永利官方注册必赢官方下载升博线路检测yobo体育app
苏更生被继父侵犯,重庆跳江男生胖猫已火化眼睛干干的,是得了干眼症吗? 呵护眼健康伟易博官网多宝苹果版贝博快速开户南通棋牌
我家公子会插秧了,请回答19882024年全国羽毛球团体锦标赛福州开赛玩球平台哪里有三亚宝昌国际健身真人永乐国际手机版登录网上哪里可以买球
天舟七号近日发射,专业消失之后高校老师怎么办贝林厄姆绝杀 皇马逆转巴萨笑傲“国家德比”线小时网址是多少升博最新地址AG真人快速登陆
孙乐言 我现在不是一个普通人了,一飞往日本客机发生机舱内袭击事件中国第三方测评市场迈上规范发展新台阶澳门线bet什么公司手机二人麻将输赢规律
死期将至,我为什么爱找女发型师数读中国 量增、质优、份额稳 上半年外贸运行稳中有进九州体育客户端下载凤凰娱乐新域名是多少永乐国际平台勇伟德体育网址
上海推进国际金融中心建设:将丰富金融领域“上海价格”“上海指数”指标体系
财政部 应急管理部紧急预拨3000万元资金 支持新疆做好地震灾害救灾工作