科学家开发 DIRFA：输入图片和音频，可生成说话视频--头条在线-头条新闻网

IT之家 11 月 17 日消息，来自新加坡南洋理工大学（NTU Singapore）的科研团队近日开发出了 DIRFA 工具，用户给一张图片以及音频内容，可以自动生成 3D 视频，并实现口型和声音的同步协调。

DIRFA 的全称为 DIverse yet Realistic Facial Animations，训练了超过 6000 多人的 100 万个视频片段，音频片段来自一个名为 VoxCeleb2 数据集的开源数据库，并关联面部表情和头部运动。

研究人员表示，DIRFA 可能会在包括医疗保健在内的各个行业和领域带来新的应用，因为它可以实现更复杂和逼真的虚拟助手和聊天机器人，从而改善用户体验。

DIRFA 还可以作为言语或面部残疾人士的强大工具，帮助他们通过富有表现力的头像或数字表示来传达他们的想法和情感，从而增强他们的沟通能力。

IT之家附上论文参考地址：Rongliang Wu, Yingchen Yu, Fangneng Zhan, Jiahui Zhang, Xiaoqin Zhang, Shijian Lu. Audio-driven talking face generation with diverse yet realistic facial animations. Pattern Recognition, 2023; 144: 109865 DOI: 10.1016/j.patcog.2023.109865

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

扫一扫打开手机网站

微信扫一扫关注我们

科学家开发 DIRFA：输入图片和音频，可生成说话视频

来源: IT之家

评论列表()

联系我们

微信扫一扫关注我们

给这篇文章的作者打赏

来源: IT之家

为您推荐

科学家发现约80亿年前快速射电暴信号

3000多种！科学家绘制迄今最全人脑细胞图谱

20.96℃ ！创新高！科学家警告→

国际科学家团队公布引力波背景辐射划时代发现

中美科学家联合研究：“海岸卫士”全球红树林生境破碎

科学家揭示地球大陆地壳成分演化历史

评论列表()

联系我们

微信扫一扫关注我们