昨日,Meta发布了一种使用自回归结构化语言模型重建场景的方法SceneScript。该方法使用场景语言编码器-解码器架构,直接从编码的视觉数据中推断出一组结构化的语言命令。为了训练SceneScript,作者生成并发布了一个大规模的合成数据集,名为Aria Synthetic Environments,包含10万个高质量的室内场景,其中包括以自我中心场景漫游的真实感和地面真实标注的渲染图像。
论文地址:https://arxiv.org/abs/2403.13064


扫码打开当前页

山鲸AI丶鲸喜官
之前