欢迎来到进口食品商务网!

微软VASA技术可以使用一张照片和一个音轨创建逼真的深度伪造

2024-04-22 15:59 来源:得道网

镜花水月:微软亚洲研究院发布了一份白皮书,介绍其正在开发的生成式人工智能应用程序。这个程序被称为VASA-1,它可以通过一张人脸图像和一段人声配乐来制作非常逼真的视频。更令人印象深刻的是,该软件可以实时生成视频和交换面孔。

视觉情感技能动画器(VASA)是一种机器学习框架,可以分析面部照片,然后将其动画为声音,使嘴唇和嘴巴的动作与音频同步。它还能模拟面部表情、头部动作,甚至是看不见的身体动作。

就像所有的生成式人工智能一样,它并不完美。机器在识别手指或牙齿等细节方面仍然存在问题。仔细观察角色的牙齿,你会发现它们的大小和形状都在变化,就像手风琴一样。这是相对微妙的,似乎波动取决于在动画中正在进行的运动量。

还有一些看起来不太对的举止。很难用语言来表达。这更像是你的大脑记录了说话者的一些东西。然而,只有在仔细观察下才会发现。对于不经意的观察者来说,这些面孔可以被当作人类说话的录音。

研究人员演示中使用的人脸也是使用StyleGAN2或DALL-E-3人工智能生成的。然而,该系统可以处理任何图像——真实的或生成的。它甚至可以使彩绘或手绘的面孔动起来。《蒙娜丽莎》的脸唱着安妮·海瑟薇在柯南·奥布莱恩节目中演唱的“狗仔队”歌曲,真是太搞笑了。

抛开玩笑不谈,人们有理由担心,坏人可能会利用这项技术传播宣传,或者试图冒充人们的家人来欺骗人们。考虑到许多社交媒体用户在他们的账户上发布家庭成员的照片,有人很容易抓取照片并模仿该家庭成员。他们甚至可以将其与语音克隆技术结合起来,使其更具说服力。

微软的研究团队承认滥用的可能性,但除了仔细的视频分析之外,没有提供足够的解决方案。它指向前面提到的工件,而忽略了它正在进行的研究和持续的系统改进。该团队防止滥用的唯一切实努力是不将其公开发布。

研究人员表示:“我们没有计划发布在线演示、API、产品、额外的实施细节或任何相关产品,直到我们确定这项技术将按照适当的规定被负责任地使用。”

不过,这项技术确实有一些有趣而合法的实际应用。一种是使用VASA来创建逼真的视频化身,在本地实时渲染,消除了对带宽消耗的视频馈送的需求。苹果已经在做类似的事情,在Vision Pro上提供空间人物角色。

在arXiv存储库上发布的白皮书中查看技术细节。微软网站上也有更多的演示。

 

中国进口商网声明:未经许可,不得转载。