微软VASA技术可以使用一张照片和一个音轨创建逼真的深度伪造_科技_分类专题

镜花水月:微软亚洲研究院发布了一份白皮书，介绍其正在开发的生成式人工智能应用程序。这个程序被称为VASA-1，它可以通过一张人脸图像和一段人声配乐来制作非常逼真的视频。更令人印象深刻的是，该软件可以实时生成视频和交换面孔。

视觉情感技能动画器(VASA)是一种机器学习框架，可以分析面部照片，然后将其动画为声音，使嘴唇和嘴巴的动作与音频同步。它还能模拟面部表情、头部动作，甚至是看不见的身体动作。

就像所有的生成式人工智能一样，它并不完美。机器在识别手指或牙齿等细节方面仍然存在问题。仔细观察角色的牙齿，你会发现它们的大小和形状都在变化，就像手风琴一样。这是相对微妙的，似乎波动取决于在动画中正在进行的运动量。

还有一些看起来不太对的举止。很难用语言来表达。这更像是你的大脑记录了说话者的一些东西。然而，只有在仔细观察下才会发现。对于不经意的观察者来说，这些面孔可以被当作人类说话的录音。

研究人员演示中使用的人脸也是使用StyleGAN2或DALL-E-3人工智能生成的。然而，该系统可以处理任何图像——真实的或生成的。它甚至可以使彩绘或手绘的面孔动起来。《蒙娜丽莎》的脸唱着安妮·海瑟薇在柯南·奥布莱恩节目中演唱的“狗仔队”歌曲，真是太搞笑了。

抛开玩笑不谈，人们有理由担心，坏人可能会利用这项技术传播宣传，或者试图冒充人们的家人来欺骗人们。考虑到许多社交媒体用户在他们的账户上发布家庭成员的照片，有人很容易抓取照片并模仿该家庭成员。他们甚至可以将其与语音克隆技术结合起来，使其更具说服力。

微软的研究团队承认滥用的可能性，但除了仔细的视频分析之外，没有提供足够的解决方案。它指向前面提到的工件，而忽略了它正在进行的研究和持续的系统改进。该团队防止滥用的唯一切实努力是不将其公开发布。

研究人员表示:“我们没有计划发布在线演示、API、产品、额外的实施细节或任何相关产品，直到我们确定这项技术将按照适当的规定被负责任地使用。”

不过，这项技术确实有一些有趣而合法的实际应用。一种是使用VASA来创建逼真的视频化身，在本地实时渲染，消除了对带宽消耗的视频馈送的需求。苹果已经在做类似的事情，在Vision Pro上提供空间人物角色。

在arXiv存储库上发布的白皮书中查看技术细节。微软网站上也有更多的演示。

中国进口商网声明：未经许可，不得转载。

热门产品招商

欢迎来到进口食品商务网！