欢迎来到进口食品商务网!

微软的人工智能工具可以将照片变成人们交谈和唱歌的逼真视频

2024-04-21 13:59 来源:得道网

微软亚洲研究院近日发布了一款名为VASA-1的新型实验性人工智能工具,该工具可以拍摄一个人的静止图像或素描,并利用现有的音频文件,实时创造出一张栩栩如生的会说话的脸。它有能力为现有的静止图像生成面部表情和头部动作,并为演讲或歌曲生成适当的嘴唇动作。研究人员在项目页面上上传了大量的例子,结果看起来很好,可以让人们误以为它们是真实的。

虽然例子中的嘴唇和头部动作在仔细检查后仍然看起来有点机器人,而且不同步,但很明显,这项技术可能被滥用,可以轻松快速地创建真人的深度假视频。研究人员自己也意识到了这种潜力,并决定不发布“在线演示、API、产品、额外的实现细节或任何相关产品”,直到他们确定他们的技术“将被负责任地按照适当的法规使用”。然而,他们没有说他们是否计划实施某些保障措施,以防止不良行为者将其用于邪恶目的,例如制作深度虚假色情或虚假信息活动。

研究人员相信他们的技术有很多好处,尽管它有被滥用的可能。他们说,这可以用来提高教育的公平性,也可以改善那些有交流障碍的人的可访问性,也许可以给他们一个可以代替他们交流的化身。他们说,它还可以为那些需要它的人提供陪伴和治疗支持,暗示VASA-1可以用于提供人们可以交谈的人工智能角色的程序。

根据与公告一起发表的论文,VASA-1是在VoxCeleb2数据集上进行训练的,该数据集包含从YouTube视频中提取的“6112名名人的100多万条话语”。尽管该工具是在真实的面孔上进行训练的,但它也适用于像蒙娜丽莎这样的艺术照片,研究人员有趣地将这些照片与安妮·海瑟薇(Anne Hathaway)演唱的Lil Wayne的《狗仔队》(Paparazzi)的音频文件结合起来。它是如此令人愉快,值得一看,即使你怀疑这样的技术能做什么。

此嵌入内容在您所在地区不可用。

这篇文章包含会员链接;如果您点击这样的链接并进行购买,我们可能会赚取佣金。

 

中国进口商网声明:未经许可,不得转载。