没有授权也阻止不了,多家AI公司绕过网络标准抓取出版商网站内容

发布时间:2024-06-24  

6 月 24 日消息,据路透社上周六报道,专注于“内容许可”领域的初创公司 TollBit 近日向新闻出版商发出警告称,多家公司正在规避出版商用来阻止抓取内容的常见网络标准,并将抓取的内容用于训练生成式 系统。

本文引用地址:

这一消息是在 搜索初创公司 Perplexity 与媒体《福布斯》之间就同一网络标准公开争执的背景下发出的。当前,科技和媒体公司之间正在就生成式 时代的内容价值展开更广泛的辩论。

Tollbit 将自己定位为内容匮乏的 AI 公司与愿意与他们达成重大许可协议的出版商之间的“媒人”。

IT之家注:《福布斯》曾指责 Perplexity 在 AI 生成的摘要中剽窃其报道内容,然而前者并未标注消息来源,也没有获得《福布斯》的许可。

另外,《连线》(Wired)杂志上周也发表了一篇调查报道并指出,Perpexity 可能绕过了(新闻出版商设置的)“机器人排除协议(Robots Exclusion Protocol)”或其他阻止网络爬虫的程序。

图源 Pexels

自称代表 2000 多家美国出版商的贸易组织“新闻媒体联盟”也对这一行为表示担忧 ——AI 公司对出版商设置的“禁止抓取”机制或“robots.txt”等工具置若罔闻。该组织主席 Danielle Coffey 表示,“如果 AI 公司无法停止大规模抓取的话,我们就无法通过有价值的内容获利,也无法为记者们支付报酬。”

Tollbit 表示,Perplexity 并不是唯一无视出版商网站“禁止抓取”机制的违规者。根据其分析,“大量”AI 平台绕过了这一机制,而该机制为 AI 平台抓取自家内容设置了一份“白名单”—— 指示其网站哪些部分可以被抓取。

“这意味着,来自多个来源(而不仅仅是一家公司)的 AI 平台正在选择绕过 robots.txt 协议来从网站中检索内容,”TollBit 写道,“我们获取的出版商日志越多,这种模式出现的次数就越多。”

包括《纽约时报》在内的一些出版商已就这些侵权行为起诉 AI 公司。其他出版商则与公司签署了许可协议,AI 公司们也愿意为内容付费,尽管双方往往对材料的价值存在分歧。许多 AI 开发者认为,他们免费获取内容并未违反任何法律。


文章来源于:电子产品世界    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

我们与500+贴片厂合作,完美满足客户的定制需求。为品牌提供定制化的推广方案、专属产品特色页,多渠道推广,SEM/SEO精准营销以及与公众号的联合推广...详细>>

利用葫芦芯平台的卓越技术服务和新产品推广能力,原厂代理能轻松打入消费物联网(IOT)、信息与通信(ICT)、汽车及新能源汽车、工业自动化及工业物联网、装备及功率电子...详细>>

充分利用其强大的电子元器件采购流量,创新性地为这些物料提供了一个全新的窗口。我们的高效数字营销技术,不仅可以助你轻松识别与连接到需求方,更能够极大地提高“闲置物料”的处理能力,通过葫芦芯平台...详细>>

我们的目标很明确:构建一个全方位的半导体产业生态系统。成为一家全球领先的半导体互联网生态公司。目前,我们已成功打造了智能汽车、智能家居、大健康医疗、机器人和材料等五大生态领域。更为重要的是...详细>>

我们深知加工与定制类服务商的价值和重要性,因此,我们倾力为您提供最顶尖的营销资源。在我们的平台上,您可以直接接触到100万的研发工程师和采购工程师,以及10万的活跃客户群体...详细>>

凭借我们强大的专业流量和尖端的互联网数字营销技术,我们承诺为原厂提供免费的产品资料推广服务。无论是最新的资讯、技术动态还是创新产品,都可以通过我们的平台迅速传达给目标客户...详细>>

我们不止于将线索转化为潜在客户。葫芦芯平台致力于形成业务闭环,从引流、宣传到最终销售,全程跟进,确保每一个potential lead都得到妥善处理,从而大幅提高转化率。不仅如此...详细>>