适合画在t恤上的图案情侣适合画在t恤上的图案情侣

一行文本,生成3D动态场景 :Meta这个「一步到位」模型有点厉害

不(bú)再需要(yào)任何 3D 或 4D 数据,īshēnchéngDònMetazhgèyīdàtypeǒ来自 Meta 的行文(de)研究者首次提出(chū)了(le)可(kě)以(yǐ)从文本描述中(zhōng)生(shēng)成(chéng)三维动(dòng)态场景的(de)方法 MAV3D (Make-A-Video3D)。

仅输入一(yī)行文本 ,本生步就(jiù)能生(shēng)成(chéng) 3D 动(dòng)态场景 ?

没错,成场景已经有(yǒu)研究者做到(dào)了(le) 。动d点厉布艺手工贴画作品图片可(kě)以(yǐ)看出(chū)来,模型给力的句子说说目前的īshēnchéngDònMetazhgèyīdàtypeǒ(de)生(shēng)成(chéng)效果还处于(yú)初级阶段,只能生(shēng)成(chéng)一(yī)些简单的行文(de)对(duì)象。不(bú)过这(zhè)种「一(yī)步到(dào)位」的本生步(de)方法仍然引(lead)起了(le)大(dà)量研究者的(de)关注 :

在(zài)最近的(de)一(yī)篇论文中(zhōng),来自 Meta 的成场景(de)研究者首次提出(chū)了(le)可(kě)以(yǐ)从文本描述中(zhōng)生(shēng)成(chéng)三维动(dòng)态场景的(de)方法 MAV3D (Make-A-Video3D) 。

  • 论文链接:https://arxiv.org/abs/2301.11280
  • 项目链接 :https://make-a-video3d.github.io/

具体而言,动d点厉该(Should)方法运用 4D 动(dòng)态神经辐射场(NeRF),模型通过查(check)询基于(yú)文本到(dào)视频(T2V)扩散的īshēnchéngDònMetazhgèyīdàtypeǒ奥利给表情包可爱(de)模型(type),优化场景外观、行文密度和(hé)运动(dòng)的本生步(de)一(yī)致性 。任意机位或角度都可(kě)以(yǐ)观看到(dào)提供的(de)文本生(shēng)成(chéng)的(de)动(dòng)态视频输出(chū) ,并可(kě)以(yǐ)合成(chéng)到(dào)任何 3D 环境中(zhōng)。太给力了图片和字

MAV3D 不(bú)需要(yào)任何 3D 或 4D 数据 ,T2V 模型(type)只对(duì)文本图像对(duì)和(hé)未标记的(de)视频进行训练。

让我(wǒ)们看一(yī)下 MAV3D 从文本生(shēng)成(chéng) 4D 动(dòng)态场景的(de)效果 :

此外,它也(yě)能从图像直接到(dào) 4D ,群主威武图片效果如下 :

研究者通过全面的(de)定量和(hé)定性实验证明了(le)该(Should)方法的(de)有(yǒu)效性 ,先前建立的(de)内部 baseline 也(yě)得到(dào)了(le)改进 。据悉 ,这(zhè)是(shì)第一(yī)个(gè)根据文本描述生(shēng)成(chéng) 3D 动(dòng)态场景的(de)方法。

方法

该(Should)研究的(de)目标在(zài)于(yú)开发(fā)一(yī)项能从自然语言描述中(zhōng)生(shēng)成(chéng)动(dòng)态 3D 场景表征的(de)方法 。这(zhè)极具挑战性,因为(wéi)既没有(yǒu)文本或 3D 对(duì)  ,也(yě)没有(yǒu)用于(yú)训练的(de)动(dòng)态 3D 场景数据 。因此,研究者选择依靠预训练的(de)文本到(dào)视频(T2V)的(de)扩散模型(type)作(zuò)为(wéi)场景先验,该(Should)模型(type)已经学会(huì)了(le)通过对(duì)大(dà)规模图像 、文本和(hé)视频数据的(de)训练来建模场景的(de)真实外观和(hé)运动(dòng) 。

从更高层(layer)次来看 ,在(zài)给定一(yī)个(gè)文本 prompt p 的(de)情况下,研究可(kě)以(yǐ)拟合一(yī)个(gè) 4D 表征

赞(663)
未经允许不得转载:>适合画在t恤上的图案情侣 » 一行文本,生成3D动态场景 :Meta这个「一步到位」模型有点厉害