百度推出视频生成模型UniVG 可处理各种文本和图像的组合输入--头条在线-头条新闻网

站长之家（ChinaZ.com）1月19日消息:百度推出的UniVG是一款视频生成模型，其特点在于针对高自由度和低自由度两种任务分别采用不同的生成方式，以更好地平衡两者之间的关系。

项目地址：https://top.aibase.com/tool/univg

项目演示页面:https://univg-baidu.github.io/

视频生成技术基于“扩散”原理的方法近来在学术和产业界引起广泛关注，并取得显著成就。然而，目前这一领域主要集中在单一目标或单一任务的视频生成上，例如根据文本、图片或它们的组合生成视频。但这样的方法并不能完全满足真实世界多变的应用需求。用户通常需要更灵活的输入方式，如单独使用图像或文本，或将二者结合起来。

为了解决这一问题，百度提出了UniVG，一种“统一模态视频生成系统”，能够处理各种文本和图像的组合输入。该系统重新定义了视频生成模型中的多项任务，将它们划分为“高自由度生成”和“低自由度生成”两大类。在高自由度视频生成方面，采用了“多条件交叉注意力”技术，以生成与输入的图像或文本语义高度一致的视频。而在低自由度视频生成方面，引入了“偏置高斯噪声”，这种方法相较于传统的完全随机高斯噪声更能有效地保留输入条件的原始内容。

技术性能方面，UniVG在MSR-VTT视频数据库上表现出色，获得了最低的帧间视频差异性度量（Frame Video Distance， FVD）。这一成绩不仅超越了当前的开源方法，还与业界领先的闭源方法Gen2不相上下，显示出了卓越的实用价值和技术优势。

扫一扫打开手机网站

微信扫一扫关注我们

百度推出视频生成模型UniVG 可处理各种文本和图像的组合输入

来源: 站长之家

评论列表()

联系我们

微信扫一扫关注我们

给这篇文章的作者打赏

来源: 站长之家

为您推荐

政策“组合拳”红利不断 全年外贸回稳向上

大模型进入科研 人工智能辅助要从可用走向可信

AI生成的合成图像泛滥且真假难辨 政策监管势在必行

高光谱综合观测卫星首批图像成果发布 太空“火眼金睛”有何本领？

复旦团队发布国内首个类ChatGPT模型MOSS，邀公众参与内测

海关部门三方面“组合拳”力促外贸保稳提质

评论列表()

联系我们

微信扫一扫关注我们

政策“组合拳”红利不断　全年外贸回稳向上

大模型进入科研人工智能辅助要从可用走向可信

AI生成的合成图像泛滥且真假难辨政策监管势在必行

高光谱综合观测卫星首批图像成果发布太空“火眼金睛”有何本领？