robots.txt : SEO优化和安全
某些机器人对网站健康友好;robots.txt文件就是其中之一。它将帮助我们更好地在搜索引擎中排名。然而,也需要采取一些安全措施。
当您查看网站根目录时,您会找到一个名为robots.txt的文件。如果没有这个文件,请将可能的robots.txt.dist文件重命名为robots.txt。如果没有这两个文件,请将下面的代码复制到一个文本文件中,并将其保存为robots.txt,存放在网站的根目录下。
默认内容
User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
上述代码中没有提到的所有内容默认为"allow",这意味着该内容可以被索引。
这个文件有什么作用?
robots.txt文件被搜索引擎的软件(称为“机器人”)读取,以确定它们可以索引什么,即可以复制到其搜索结果页面。如果您查看上面的代码,您会看到“Disallow: /administrator/”,这表示不要索引指向Joomla!®网站管理页面的任何页面。毕竟,通过Google(仅举一例)进入您的管理页面是多么糟糕的事情。
为了确保没有管理页面的页面被索引,您可以使用如下配置的搜索
inurl:/administrator/ inurl:votre-domaine
对于Joomla!网站,实际上没有必要索引指向上述提到的任何目录的URL。
注意:在Joomla!的早期版本(直到3.x版本),还有一个Disallow: /images/行,但如果您希望您的图片能够被搜索引擎中的图片搜索索引,则需要将其删除。这是一个额外的排名来源。
SEO优化
正如我们所看到的,robots.txt文件将包含搜索引擎可以或不能索引的内容。
知道文件将由机器人处理,我们可以在其中提及其站点地图。如果您使用类似于xmap的组件,请获取xmap提供的URL,并将以下行添加到您的robots.txt文件中(您可以通过FTP软件或控制面板进行编辑)。
User-agent: *
Sitemap: http://votre-site/index.php?option=com_xmap&view=xml&tmpl=component&id=1
User-agent: * 表示以下行将涉及所有搜索引擎
带宽优化
也许您正在查看您网站的访问统计;如果看到来自中国的大量连接,您可能希望阻止……百度。这是中国的Google:通过礼貌地告诉它不要再索引您的网站,它会继续前进。这样做可以减少您带宽的消耗,您的服务器可以将其能力用于您的用户。
为此,您将禁止某些搜索引擎
User-agent: Baiduspider
Disallow: /
User-agent: Baiduspider-image
Disallow: /
User-agent: Baiduspider-mobile
Disallow: /
User-agent: Baiduspider-video
Disallow: /
User-agent: Baiduspider-news
Disallow: /
User-agent: Baiduspider-favo
Disallow: /
User-agent: Baiduspider-sfkr
Disallow: /
User-agent: Baiduspider-cpro
Disallow: /
第一行(User-agent:)针对特定的搜索引擎。第二行(Disallow: /)表示它不能索引任何内容。
假设您的网站正在建设中,您可以写
User-agent: *
Disallow: /
以阻止所有搜索引擎索引网站。一旦您的网站准备就绪,请务必删除这两行。
安全性
您可能想写一些类似的行
User-agent: *
Disallow: /secret_folder
您将要求搜索引擎不要索引指向您的秘密文件夹的URL。他们会这样做。
然而,并非所有机器人都是“友好的”;一些机器人可能会想“嘿,嘿,如果我去http://votre-site.com/secret_folder,可能会有一些有趣的东西可以探索。”事实上,机器人不仅仅是搜索引擎,还可能是具有不良目的的脚本。
同样,别忘了robots.txt文件在理论上可以从http://votre-site.com/robots.txt的URL完全访问。作为一个文本文件,如果没有采取保护措施,文件将在浏览器中显示,那时,一个人可能会说“嘿,嘿,他们试图隐藏一个文件夹……让我们看看……”然后在浏览器的地址栏中输入http://votre-site.com/secret-folder。
为了娱乐(为了乐趣),我经常遇到会员专享页面,未受保护的包含报告、统计数据的页面,外网……通过在robots.txt文件中放置disallow,网站管理员将特定文件夹或文件的存在暴露给了所有人。
为了保护自己,与其在robots.txt文件中放置disallow: /secret_folder/,不如在/secret_folder/文件夹中创建一个名为.htaccess的文件。此文件将包含以下行
<IfModule mod_headers.c>
Header set X-Robots-Tag "noindex, nofollow"
</IfModule>
此代码将自动在文件夹中所有网页中插入标签。生成的代码如下。
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
对于搜索引擎来说,结果是相同的:禁止索引此页。好处是不在robots.txt文件中提及文件夹的存在。
注意:我谈论的是文件夹,但这也完全适用于脚本(例如 Disallow: /phpinfo.php);别笑了,我见过一个在商业网站上,它等着被黑客攻击。
如果您想了解更多关于这个话题的信息:http://robots-txt.com/
《Joomla社区杂志》上发布的一些文章代表了作者对特定主题的个人观点或经验,可能不与Joomla项目的官方立场一致
通过接受,您将访问https://magazine.joomla.net.cn/外部第三方提供的服务
评论