66安卓网:绿色免费的软件下载站! 手机游戏| 街机游戏| 新游| 人气手游| 最新更新

小红书公开了InstanceAssemble的源代码

来源: 66安卓网 日期:2026-04-25 05:06:07
首页热门资讯软件教程 → 小红书公开了InstanceAssemble的源代码

今日,小红书与复旦大学携手合作,共同推出了布局控制生成(Layout-to-Image)领域的突破性方案InstanceAssemble。该方案借助创新的“实例组装注意力”机制,成功实现了从简单到复杂、稀疏到密集布局的精准图像生成,相关研究成果已被NeurIPS 2025收录。

AI绘画技术在近年来发展迅速,从早期的“文字生成图像”(Text-to-Image)逐渐向“布局控制生成”(Layout-to-Image)方向演进,后者能够依据用户提供的空间布局限制条件(比如边界框Bounding Boxes、分割掩码Masks或者骨架图),生成与之相匹配的图像。

“布局控制生成”技术的难点之一,在于如何使AI精准依照用户指定的位置与内容来生成图像,存在布局对齐不精确、语义脱节或是计算成本过高的问题。

复旦大学与小红书联合推出的InstanceAssemble新技术,能够精准控制图像中每个物体的布局,这一成果标志着AI绘画迈入了“可精准构图”的全新阶段。

该技术依托当下主流的扩散变换器架构,创造性地推出“实例拼装注意力”机制。用户仅需给出各个物体的边界框位置与内容描述,AI即可在相应位置生成契合语义的图像内容。不管是简单的少量物体,还是密集复杂的场景,InstanceAssemble都能维持高精度的布局对齐与语义一致性。

值得一提的是,这项技术还运用轻量级适配手段来降低使用门槛,不需要重新训练整个模型,仅借助约7100万个参数(额外参数占比约3.46%),就能完成对Stable Diffusion3-Medium模型的适配,而适配Flux.1模型时,额外参数占比更是低至0.84%。

在实验过程中,InstanceAssemble 在涵盖 90 万个实例的密集布局数据集上展现出出色的性能,其表现显著优于现有的各类方法。

研究团队为了更精准地评估布局与图像的匹配度,还构建了包含5000张图像和90000个实例的“Denselayout”基准测试集,同时提出了全新的“Layout Grounding Score”(LGS)评估指标。

实验结果显示,InstanceAssemble在不同布局条件下都有着出色的表现,即便训练过程中仅采用稀疏布局(实例数量≤10),其在密集布局(实例数量≥10)场景下依然能维持稳定可靠的性能。

这项技术已开源,代码和预训练模型可在 GitHub 获取,为设计、广告和内容创作等领域的应用提供了强大支持。

相关资讯
相关下载
游戏攻略
更多+