保护您的Joomla内容免受AI爬虫侵害
Joomla也不例外,人工智能的发展趋势,有一些扩展可以让您与之连接并使用它来创建内容,但也许您不希望您的内
容被用来喂养这个庞大的知识库。
问问自己您的网站是否被用来训练人工智能。您可以在以下网站上测试: https://haveibeentrained.com/ 并决定是否要将您的网站留给人工智能。
了解现状
几家主要报纸和新闻机构:金融时报、Axel Springer、美联社、西班牙集团Prisa(El Pais)... 已经签署了扩大权利的协议,允许人工智能集成。然而,关于潜在后果的担忧仍然存在,包括科技巨头如谷歌的搜索引擎影响。尽管声称这些集成无关,但将Gemini集成到Chrome中引起了担忧。
技术措施
通过robots.txt
可以通过robots.txt文件来实现安全措施。
以下是内容创作者如何阻止AI爬虫的方法
# Disable OpenAI bots
User-agent: ChatGPT-UserDisallow: /
User-agent: GPTBot
Disallow: /
GPTBot为OpenAI的爬虫提供动力,而ChatGPT-User为ChatGPT插件服务。
应同时阻止GPTBot和ChatGPT-User的IP范围。
对于Common Crawl
User-agent: CCBot
Disallow: /
以及IP范围
38.107.191.66至38.107.191.119
为了规范而不是阻止,已经建立了文本和数据挖掘保留协议(TDMRep)。该协议由报头管理,使内容创作者可以指定有关其内容的政策和权利。
有关TDM保留协议(TDMRep)的详细实施说明,请参阅W3C文档
https://w3c.github.io/tdm-reservation-protocol/spec/
TDM保留协议(TDMRep)为表达版权所有者选择提供了补充技术。
这些技术旨在适应不同的情况和出版商的技术技能。
原始服务器上的TDM文件
这项技术涉及在源服务器上的/.well-known仓库中托管一个名为tdmrep.json的TDM文件。
tdmrep.json文件包含一个JSON对象数组,每个对象代表一条规则。
每条规则包含以下属性
- location:匹配服务器上托管文件路径的模式。
- tdm-reservation:与模式关联的TDM预留值。
- tdm-policy:与模式关联的可选TDM策略值。
TDM代理可以评估Web资源的URL与tdmrep.json文件中的模式,以确定TDM预留和策略。
HTML元数据
出版商可以使用HTML元数据标签在其网页的
部分中表达他们的TDM选择。tdm-reservation元标签用于指示是否预留了TDM权利。
tdm-policy元标签可以用来提供一个指向与内容关联的TDM策略的URL。
TDM代理可以解析HTML元数据以确定TDM预留和策略。
这些技术允许权利所有者声明他们关于TDM权利的选择,并提供有关与其内容相关的TDM策略的信息。通过使用这些技术,TDM代理可以调整其抓取行为或与权利所有者建立单独的协议,以确保遵守TDM权利和许可。
作为Joomla框架内数字内容的守护者,内容创作者必须积极管理其内容对AI爬虫的可用性。虽然像robots.txt这样的技术措施可以提供即时缓解,但TDMRep等协议的实施确保了对内容控制的微妙方法,在可访问性与保护之间取得平衡。通过保持信息并利用可用的工具,使用Joomla的内容创作者可以在人工智能驱动的内容索引不断发展的环境中导航,同时保护其知识产权。
发表在Joomla社区杂志上的一些文章代表了作者对特定主题的个人观点或经验,可能不符合Joomla项目的官方立场。
通过接受,您将访问 https://magazine.joomla.net.cn/ 之外的第三方外部服务
评论 2
robots.txt仅仅是对爬虫不索引网站的礼貌请求。它不会被强制执行,不应依赖它来保证任何事情。
实际上,我应该明确指出这是在 robots.txt 中的“礼貌请求”,因为阻止 IP 地址是一种相当直接的方法。TDM 预约协议提供了一种替代方案。您需要自行判断每种解决方案的有效性。感谢 Brian 的澄清。