2024-06-10 21:09 来源:本站编辑
麻省理工学院计算机科学与人工智能实验室(CSAIL)和谷歌研究院的研究人员可能刚刚完成了数字魔法——以扩散模型的形式,可以改变图像中物体的材料属性。
该系统被称为“炼金术士”,允许用户改变真实照片和人工智能生成照片的四个属性:粗糙度、金属度、反照率(物体的初始基色)和透明度。作为一种图像到图像的扩散模型,人们可以输入任何照片,然后在-1到1的连续比例内调整每个属性,以创建新的视觉效果。这些照片编辑功能可能会扩展到改进视频游戏中的模型,扩展人工智能在视觉效果方面的能力,并丰富机器人训练数据。
《炼金术士》背后的魔力始于去噪扩散模型:在实践中,研究人员使用了Stable diffusion 1.5,这是一种文本到图像的模型,因其逼真的效果和编辑能力而受到称赞。之前的工作是建立在流行的模型上,使用户能够进行更高级的更改,比如交换对象或改变图像的深度。相比之下,CSAIL和Google Research的方法将该模型应用于关注底层属性,通过独特的基于滑块的界面修改对象材料属性的更精细的细节,从而优于同类产品。
虽然之前的扩散系统可以从帽子里拉出一只兔子作为图像,但炼金术士可以将同一动物变成半透明的。该系统还可以使橡皮鸭看起来像金属一样,去除金鱼的金色色调,并使旧鞋发光。像Photoshop这样的程序也有类似的功能,但这个模型可以以更直接的方式改变材料属性。例如,在广泛使用的应用程序中,修改照片的金属外观需要几个步骤。
麻省理工学院电子工程和计算机科学博士生praffull Sharma说:“当你看着自己创造的图像时,结果往往与你想象的不完全一样。”他是CSAIL的附属机构,也是一篇描述这项工作的新论文的主要作者。“你想在编辑时控制图片,但图像编辑器中的现有控件无法更改材料。通过Alchemist,我们利用了从文本到图像模型输出的真实感,并梳理出一个滑块控件,允许我们在提供初始图片后修改特定属性。”
“文本到图像生成模型使日常用户能够像写句子一样毫不费力地生成图像。然而,控制这些模型可能具有挑战性,”卡内基梅隆大学助理教授朱俊彦说,他没有参与这篇论文。
“虽然制作花瓶很简单,但合成具有特定材料属性(如透明度和粗糙度)的花瓶需要用户花费数小时尝试不同的文本提示和随机种子。这可能令人沮丧,特别是对于需要精确工作的专业用户。Alchemist为这一挑战提供了一个实用的解决方案,通过精确控制输入图像的材料,同时利用大规模扩散模型的数据驱动先验,激励未来的工作将生成模型无缝地整合到现有的常用内容创建软件界面中,”Zhu继续说道。
《炼金术士》的设计能力可以帮助调整电子游戏中不同模型的外观。在这个领域应用这种扩散模型可以帮助创造者加速他们的设计过程,完善纹理以适应关卡的玩法。此外,Sharma和他的团队的项目可以帮助改变平面设计元素、视频和电影效果,以增强真实感,并精确地实现所需的材料外观。
该方法还可以为操作等任务优化机器人训练数据。通过向机器介绍更多的纹理,他们可以更好地理解他们在现实世界中掌握的各种物品。Alchemist甚至可以潜在地帮助图像分类,分析神经网络无法识别图像的物质变化的地方。
该团队的工作在忠实地只编辑所请求的感兴趣的对象方面超过了类似的模型。例如,当用户提示不同的模型将海豚调整到最大透明度时,只有炼金术士在不编辑海洋背景的情况下实现了这一壮举。当研究人员在与他们的比较方法相同的数据上训练可比较的扩散模型InstructPix2Pix时,他们发现炼金术士获得了更高的准确性分数。同样,一项用户研究显示,麻省理工学院的模型更受青睐,被认为比同类模型更逼真。
根据研究人员的说法,收集真实数据是不切实际的。相反,他们在一个合成数据集上训练他们的模型,随机编辑1200个材料的材料属性,这些材料应用于Blender(一个流行的计算机图形设计工具)中100个公开可用的独特3D对象。
“到目前为止,对生成式人工智能图像合成的控制一直受到文本所能描述的内容的限制,”麻省理工学院电子工程与计算机科学系(EECS)的阿玛尔·博斯(Amar Bose)计算机教授、CSAIL成员、该论文的资深作者fr
“炼金术士是一种使机器学习和扩散模型对CGI社区和平面设计师实用和有用的技术,”谷歌研究高级软件工程师和合著者马克·马修斯补充道。“没有它,你就会陷入这种无法控制的随机性。这可能会有一段时间很有趣,但在某些时候,你需要完成真正的工作,并让它服从创造性的愿景。”
Sharma的最新项目是在他领导唯物主义研究一年后进行的,唯物主义是一种机器学习方法,可以识别图像中的相似材料。之前的工作展示了人工智能模型如何改进他们的材料理解技能,就像炼金术士一样,是在Blender的3D模型合成数据集上进行微调的。
尽管如此,炼金术士目前仍有一些限制。该模型难以正确推断光照,因此偶尔无法跟随用户的输入。夏尔马指出,这种方法有时也会产生物理上令人难以置信的透明度。例如,想象一只手的一部分在一个麦片盒里——在炼金术士这个属性的最大设置下,你会看到一个没有手指伸进去的透明容器。
研究人员希望扩展这样的模型如何在场景级别上改善图形的3D资产。此外,“炼金术士”可以帮助从图像中推断材料的性质。根据夏尔马的说法,这种类型的工作可以在未来解开物体的视觉和机械特征之间的联系。
麻省理工学院EECS教授和CSAIL成员William T. Freeman也是资深作者,他与Varun Jampani、谷歌研究科学家李元真博士、贾徐辉和Dmitry Lagun一起参与了该研究。该小组的工作将在6月的CVPR上得到重点介绍。
更多信息:praffull Sharma等人,炼金术士:材料特性的参数控制与扩散模型(2024)由麻省理工学院提供
本文由麻省理工学院新闻(web.mit.edu/newsoffice/)转载,这是一个报道麻省理工学院研究、创新和教学新闻的热门网站。
引用:有限公司 受控扩散模型可以改变2024年5月28日从https://techxplore.com/news/2024-05-diffusion-material-properties-images.html获取的图像(2024年5月28日)中物体的材料属性 作品受版权保护。除为私人学习或研究目的而进行的任何公平交易外,未经书面许可,不得转载任何部分。的有限公司 内容仅供参考之用。