您当前的位: 首页 > 宏观 > > 内容页

Nvidia公布新文本转视频模型 基于Stable Diffusion开发!

来源:站长之家 2023-04-20 18:15:37


(相关资料图)

编程客栈()4月20日 消息:Nvidia公布了其基于Stable Diffusion 模型开发的文本转视频模型—— Nvidia Video LDM。Nvidia通过对现有模型的微调,大大减少了生成视频的过程和时间。

该模型增加了一个时间维度,可以在多个帧上实现时间对齐的图像合成。该团队训练了一个视频模型,以512x1024像素的分辨率生成几分钟的汽车行驶视频,在大多数基准测试中达到SOTA。

注:图片来自Nvidia Video LDM项目截图

除了这个与自动驾驶研究特别相关的演示之外,研究人员还展示了如何将现有的Standroidable Diffusion 型转换为视频模型。

该团队在微调步骤中用视频数据短时间训练Stable Diffusion,然后在网络中每个现有空间层后面添加额外的时间层,并用视频数据对其进行训练。此外,该团队还训练了时间稳定的放大器,以根据文本提示生成1,280x2,048分辨率的视频。

以 Stable Diffusion 作为视频模型的基础,团队无需从头开始训练新模型,可以从现有的能力和方法中获益。例如,尽管使用的 WebVid-10M 数据集仅包含真实世界的视gHflZh频,基于底编程层的Stable Diffusion模型,该模型也可以生成艺术视频。所有视频的长度都在3.8到4.7秒之间——具体取决于帧速率。

研究团队还该展示如何使用 Dreambooth 对视频模型进行个性化设置。,生成包含不属于原始训练数据的对象的视频。这为内容创作者开辟了新的可能性,他们可以使用 DreamBooth 进行视频创作。

注:Dreambooth 是对整个神经网络所有层权重进行调整,会将输入的图像训练进 Stable Diffusion 模型,它的本质是先复制了源模型,在源模型的基础上做了微调(fine编程客栈tunning)并独立形成了一个新模型。

Nvidia Video LDM项目页面上有更多示例,不过该模型目前尚未对外开放。

项目网址:https://research.nvidia.com/labs/toronto-ai/VideoLDM/

关键词:
Nvidia公布新文本转视频模型 基于Stable Diffusion开发!

编程客栈()4月20日消息:Nvidia公布了其基于StableDiffusion模型开发的文本转视频模型——NvidiaVideoLDM。Nvid

2023-04-20
全球观热点:淘宝网拟新增“海外直邮”服务

4月20日消息,淘宝网日前发布淘宝网关于海外直邮相关规则变更公示通知。公告称,为了保障消费者海淘购物海外发货确定性,提升消费者购物体验,

2023-04-20
节油更给力?2023款锐骐实力究竟如何呢

锐不可当,骐开得“省”。4月17日,2023款锐骐(参数|询价)焕新上市,新车共推出18款配置车型,有2 4L自然吸气汽油发动机和2 4T柴油发动机两套

2023-04-20
世界动态:《互联网保险消费者洞察报告》:主力消费人群转向“新青年” 行业呈智能化、个性化、普适化趋势

21世纪经济报道记者申俊涵北京报道“科技变革确实会带来一时的狂欢,但只有当科技服务用户、解决实际问题,才能真正改变世界。”4月18日,在20

2023-04-20
假期首日旅客集中出行 铁路预计发送旅客1830万人次|世界新视野

据我国国家铁路集团有限公司音讯,5月1日,全国铁路迎来客流出行顶峰,估计发送旅客1830万人次,较2019年同期添加6 1%,客流以节日探亲和游览

2023-04-20
阜阳上榜“中国快递示范城市”创建名单 环球热点评

近日,国家邮政局发布《关于第三批“中国快递示范城市”评选结果的批复》,同意河北省廊坊市等16个城市开展第三批“中国快递示范城市”创建工

2023-04-20

Copyright ©  2015-2022 华中数据网版权所有  备案号:京ICP备12018864号-26   联系邮箱:2 913 236 @qq.com