欢迎来到进口食品商务网!

一个人工智能抓取工具是压倒性的网站流量

2024-04-19 11:00 来源:本站编辑

他开发了一种工具,可以在互联网上搜集图片,为像“稳定扩散”这样的人工智能图像生成器提供动力。他告诉那些希望他停止的网站所有者,他们必须主动选择退出,而且他们正在与不可避免的人工智能崛起作斗争,这是“可悲的”。

图像抓取工具img2dataset的创建者罗曼·博蒙特(Romain Beaumont)在其GitHub页面上说:“很遗憾,你们中的一些人不了解人工智能和开放人工智能的潜力,因此决定与之抗争。”“未来几年,你将有很多机会受益于人工智能。我希望你能早点看到这一点。作为创作者,你有更多的机会从中受益。”

Img2dataset是博蒙特在GitHub上分享的一个免费工具,它允许用户自动下载和调整url列表的大小。结果是一个图像数据集,用于训练图像生成AI模型,如Open AI的DALL-E、开源的稳定扩散模型和谷歌的Imagen。Beaumont也是LAION-5B的开源贡献者,LAION-5B是世界上最大的图像数据集之一,包含超过50亿张图像,由Imagen和Stable Diffusion使用。

Img2dataset将尝试从任何网站抓取图像,除非网站所有者添加https标题,如“X-Robots-Tag: noai”和“X-Robots-Tag: noindex”。这意味着网站所有者(他们中的许多人可能甚至不知道img2dataset的存在)有责任选择退出而不是选择加入。

周日,特伦斯·伊登(Terence Eden)在Github页面上发表了一条评论,称该工具“打击”了他的几个网站,并要求将其设置为可选加入。

“我不明白为什么我有责任在我的网站上添加一个新的标题,选择退出这个工具,”Eden说。“请问你能改变默认行为,这样它只会在设置了X-Robots-Tag: YesAI的网站上工作吗?”

博蒙特回答说:“如果你不希望人们从你的网站上看到图片,最好的办法就是关闭它。”博蒙特没有回应置评请求。

当Eden和其他Github评论者反驳时,Beaumont说,让img2dataset选择加入而不是选择退出是“不道德的”。

他在Github网站上说:“让少数人阻止大多数人分享他们的图像,阻止他们从上一代人工智能工具中获益,这绝对是不道德的。”“同意显然不是不道德的。如果你愿意,你可以同意任何事情。似乎你在没有征得他人同意的情况下,就试图为数百万人做决定。”

Eden在一封电子邮件中告诉Motherboard,他注意到img2dataset正在抓取他的网站openbench,该网站邀请用户上传来自世界各地的纪念长凳的照片和位置。目前,openbench已经映射了27,629个长凳,并托管了250GB的照片。

“我注意到这一点,是因为我收到了主机发来的警报,说网站受到了持续的攻击,”伊登说。“我不得不花钱扩大我的服务器,为出口流量支付额外费用,并花了我周末的一部分时间来阻止这个特定机器人造成的滥用。”

博蒙特还为img2dataset进行了辩护,他将其与谷歌对所有在线网站进行索引的方式进行了比较,从而为其搜索引擎提供动力,这对任何想要搜索互联网的人都有利。

“我直接受益于搜索引擎,因为它们为我带来了有用的流量,”Eden告诉Motherboard。“但更重要的是,谷歌的bot很有礼貌,不会攻击我的网站。大多数机器人都遵守robots.txt指令。罗曼的工具没有。它似乎是故意设置无视指令网站所有者已经到位。坦率地说,这并没有给我带来任何直接的好处。”一个“robots.txt”文件告诉搜索引擎爬虫,比如b谷歌,爬虫可以访问网站的哪一部分,以防止它超载网站的请求。

最近人工智能工具的流行引发了与互联网一样古老的关于同意和所有权的问题。b谷歌的精选片段从一些网站中提取了最有价值的内容,使它们实际上过时了。Facebook通过新闻故事最大化了其News Feed的参与度,然后垄断了大部分广告收入,挤压了媒体公司(澳大利亚等一些国家现在要求Facebook为此向媒体公司付费)。

像ChatGPT和Stable Diffusion这样的工具之所以有效,是因为它们已经收集了大量的互联网内容:文章、论坛帖子、艺术、照片等,用户在网上与朋友或粉丝分享,甚至没有机会选择退出。这些数据中的大部分早于Open AI、Stability AI或LAION数据集的存在。

新一批人工智能公司的负责人认为,他们的技术可能取代美国80%的工作岗位,并对社会构成“巨大风险”。我们应该对这些说法持怀疑态度,但同样值得注意的是,那些开发他们认为具有颠覆性的工具的人,从来没有问过那些为人工智能提供动力的互联网用户,他们是否希望为这项技术提供动力。

关注人工智能趋势的大公司并不愚蠢。高管们看到了人工智能的新收入潜力,他们希望从中分一杯羹。上周,Reddit表示,它正在改变其API,这样谷歌、OpenAI和其他公司就不能再免费抓取它了。几天后,Stack Overflow也做了同样的事情,ChatGPT有一天可能会取代它成为程序员的主要资源。埃隆·马斯克(Elon Musk)威胁要起诉Open AI从Twitter上获取数据。

这是一个简单的逻辑:为什么这些公司要坐视新一代的技术从他们身上榨取数据,以便开发出日后可以与他们竞争的工具呢?为什么这些公司要免费提供这些数据呢?

在人工智能慢慢崛起的整个过程中,像Eden这样的个人互联网用户一直在问同样的问题。他们只是没有一个简单的方法来反击。

“每天都有成千上万的工具发布,”伊登说。“难道我要玩打地鼠游戏,然后关掉每一个新出现的游戏吗?这是一种期望人们表现的反常方式。这些机器人花费了人们的时间和金钱,却没有提供任何切实的好处……同意是道德的基石。建立在非自愿获得的数据基础上的数据集对该模型的所有者和用户来说存在明显的风险。”


中国进口商网声明:未经许可,不得转载。