编写 Robots.txt 文件的快速指南

你如何查阅一本庞大的教科书? 筛选索引。 好吧:有一个元素是您网站的真实摘要......

Robots.txt:编程代码必然会变得越来越复杂
编程代码将变得越来越复杂

与搜索引擎蜘蛛取得联系的唯一途径,或者 履带, 是通过一个名为 的robots.txt. 或更好。 当您向 Google 提交您的网站建议时,它会面临大量的信息。

你如何查阅一本如此庞大的教科书,以至于你觉得你永远找不到你需要的一切? 您咨询 索引. 那么:robots.txt 文件是您网站的索引。

这是一个易于填写的文档,它告诉搜索引擎爬虫要查找的内容。 简而言之:您将帮助他了解您的网站是由什么组成的,以便算法可以为您提供与您所做的工作一致的排名。

任何人都可以编写 robots.txt 文件吗?

简短的回答是肯定的。 诚实的回答是否定的。 尽管 robots.txt 文件的语法非常简单,其组成也只有几行,但最好还是依靠知道该把手放在哪里的专家网站管理员的照顾。 毕竟,一个小错误就足以影响您网站的定位,因此甚至在开始之前就让所有 SEO 操作停止。

在开始之前,请了解一件事: 任何人都可以通过在域后写入 /robots.txt 来查阅任何站点的 robots.txt 文件. 你甚至可以咨询谷歌的!

您无需下载特殊软件即可编写此类文件。 事实上,使用记事本并以 .txt 格式保存就足够了。

让我们一起写一个robots.txt:标题

让我们从头开始,因为这样做总是合乎逻辑的。 文件的开头,或者更确切地说是标题,完全是蜘蛛的名字,前面是一个始终相同的小词。 假设您希望被 Google 注意到。 所以第一行将是:

用户代理:Googlebot

这个非常短的字符串告诉谷歌,它肯定会对后面的所有内容感兴趣。 如果您希望所有读取此类文件的抓取工具都能够查阅文档,请将 Googlebot 替换为简单的 *、a 星号.

现在您已经指出了哪个蜘蛛,即 WHO,您需要指出 还有他必须阅读的内容.

根据定义,每一行代码对应于机器的一个动作。 不用说,robots.txt 文件中的每个命令都对应于机器不应该做的事情。 这是让你写出真正有效的关键。 我们正在谈论 DISALLOW 命令。

什么是禁止命令?

Il 禁止命令 允许您通过排除进行推理。 换句话说,当说先说不该做的事时——好吧,你是在排除推理。 除了 disallow 之外还有 allow,这是块的例外。

如果你想写一个好的机器人文件,你必须反过来想,所以你必须告诉谷歌它不应该读什么。 如果你写:

禁止:

蜘蛛将读取您的整个网站,没有任何刹车。

如果在“Disallow:”之后插入一个斜杠(因此 Disallow: /),该站点将不会被搜索引擎输入,句号。

不允许:/目录/

将单词目录替换为您希望从蜘蛛视图中拒绝的文件夹。 您可以对特定文件执行相同的操作。

不允许:/myfile.html

注意 标点符号和字母, 大写或小写。 这种类型的文件高度重视这些“琐事”,但它们有很大的不同。

你为什么要阻止谷歌阅读你网站的大部分内容? 当您编写此类文件时,重要的是要了解哪些文件不应出现在搜索引擎上,但不要滥用它们。 但是,请注意,任何知道该特定文件确切地址的人都可以在任何情况下访问它。

什么是允许命令?

在文件中,您可以使用以下命令添加例外 允许. 语法是相同的,但它会为 DISALLOW 创建一些例外,这将允许为蜘蛛打开有趣的探索空间。

一个小样本文件:

用户代理:Googlebot

不允许:/图片/

允许:/images/holidays.jpg

基本上我们告诉 Googlebot 不要考虑图像文件夹,除了其中的特定照片,即来自假期的照片。

伙计们,就是这样。 我们编写了第一个 robots.txt 文件。 当然,我们要为实际网站做的事情可能会略有不同,但差别不大。 如有疑问,请始终向专业网站管理员寻求建议。 我们建议您首先尝试自己编写,然后将其发送给他进行检查,以便掌握基础知识并更好地了解您的网站是如何工作的。

robots.txt 和站点地图之间有什么关联?

站点地图是由特殊插件生成的文件,其中包含站点上的所有链接。 当蜘蛛进入站点时,它首先读取机器人,然后爬取站点。 如果机器人在抓取过程中找到站点地图地址,整个过程就会容易得多。

在上面的代码中添加以下内容:

网站地图: http://www.ilnomedeltuositobellissimo.com/sitemap.xml

在结论

所有机器人文件都是相同的。 这意味着为 Google 编写的 Robots 文件也适用于 Bing,并且遵循相同的语法。

组织良好的 robots.txt 文件允许您 节省爬虫时间. 不要气馁:这是迈向成功的第一步!

Robots.txt:谷歌是互联网上最强大的搜索引擎
谷歌是互联网上最强大的搜索引擎