传统的文本转3D生成技术,虽说能产出外观极为逼真的模型,可对于物理结构是否合理却缺乏考量。这些看起来精美的模型,往往只能在VR环境或游戏场景里展示,若想依据其结构在现实世界中实际搭建,基本是行不通的。就像经典游戏《我的世界》或者《乐高》,玩家在游戏里搭建的内容大多仅停留在视觉呈现层面,要是没有设计师专门针对现实可行性做优化,这些设计根本无法在现实生活中落地实现。
然而,“BRICKGPT”系统恰好能填补这一不足,它可以生成符合真实世界物理定律、能够实际搭建的3D结构,测试结果显示其有效率达100%,稳定性更是高达98.8%。该系统主要依托大语言模型(即经过微调的LLaMA-3.2-Instruct-1B模型),并结合团队专门构建的大规模数据集StableText2Brick——这个数据集包含四万七千多个稳定的积木结构,覆盖两万八千多种独特的3D物体——从而一步生成完整且可建造的积木结构。
有意思的是,“BRICKGPT”把3D建模的流程转变成大模型所擅长的“文本生成”任务,简单来说就是通过积木结构文本化(用特定文本表示每个模块)、模型微调、带有物理约束的推理生成这几个步骤;而且在搭建过程里,要是模型出现不稳定的情况,系统会自动识别并回退到上一步,直到模型稳定为止。据了解,整个搭建过程仅需几十秒。此外,还能借助文字描述给生成的积木添加纹理或颜色,让它更逼真、更美观。利用“BRICKGPT”生成的3D结构,不管是人工操作还是机械臂,都能按照系统给出的方法一步步完成模型搭建,这进一步体现了该系统生成模型的有效性和可靠性。
ICCV会议,全称为International Conference on Computer Vision(国际计算机视觉大会),是计算机视觉领域的顶级学术会议之一,与CVPR、ECCV一同被称作视觉领域的三大顶会。该会议的研究范畴覆盖了计算机视觉的各个前沿方向,比如图像与视频理解、三维重建及场景建模、目标检测与跟踪、自动驾驶和机器人视觉等。
今年这场会议吸引了来自全球94个国家和地区的顶尖人才参与。特别值得关注的是,ICCV 2025的论文提交作者里,中国学者的占比居然达到了一半,而且在获奖人员中也能看到不少中国学者的身影。从2019年的17%到2025年的50%,这一变化清晰地表明,越来越多的中国学者在计算机领域脱颖而出,中国在相关领域也正逐步迈向领先位置。
值得一提的是,在“BRICKGPT”的创作团队里,我们也看到了不少年轻华人学者的身影,其中就包括清华大学校友朱俊彦以及本科毕业于北京大学的Kangle Deng等人。
ICCV是计算机领域颇具代表性的国际会议,近年来,中国学者的参与度日益提升。可以预见,在未来的AI领域,将有更多中国学者与开发者脱颖而出,为AI技术的发展和广泛应用添砖加瓦。