编写 Robots.txt 文件的快速指南
你如何查阅一本庞大的教科书? 筛选索引。 好吧:有一个元素是您网站的真实摘要......
与搜索引擎蜘蛛取得联系的唯一途径,或者 履带, 是通过一个名为 的robots.txt. 或更好。 当您向 Google 提交您的网站建议时,它会面临大量的信息。
你如何查阅一本如此庞大的教科书,以至于你觉得你永远找不到你需要的一切? 您咨询 索引. 那么:robots.txt 文件是您网站的索引。
这是一个易于填写的文档,它告诉搜索引擎爬虫要查找的内容。 简而言之:您将帮助他了解您的网站是由什么组成的,以便算法可以为您提供与您所做的工作一致的排名。
任何人都可以编写 robots.txt 文件吗?
简短的回答是肯定的。 诚实的回答是否定的。 尽管 robots.txt 文件的语法非常简单,其组成也只有几行,但最好还是依靠知道该把手放在哪里的专家网站管理员的照顾。 毕竟,一个小错误就足以影响您网站的定位,因此甚至在开始之前就让所有 SEO 操作停止。
在开始之前,请了解一件事: 任何人都可以通过在域后写入 /robots.txt 来查阅任何站点的 robots.txt 文件. 你甚至可以咨询谷歌的!
您无需下载特殊软件即可编写此类文件。 事实上,使用记事本并以 .txt 格式保存就足够了。
让我们一起写一个robots.txt:标题
让我们从头开始,因为这样做总是合乎逻辑的。 文件的开头,或者更确切地说是标题,完全是蜘蛛的名字,前面是一个始终相同的小词。 假设您希望被 Google 注意到。 所以第一行将是:
用户代理:Googlebot
这个非常短的字符串告诉谷歌,它肯定会对后面的所有内容感兴趣。 如果您希望所有读取此类文件的抓取工具都能够查阅文档,请将 Googlebot 替换为简单的 *、a 星号.
现在您已经指出了哪个蜘蛛,即 WHO,您需要指出 还有他必须阅读的内容.
根据定义,每一行代码对应于机器的一个动作。 不用说,robots.txt 文件中的每个命令都对应于机器不应该做的事情。 这是让你写出真正有效的关键。 我们正在谈论 DISALLOW 命令。
什么是禁止命令?
Il 禁止命令 允许您通过排除进行推理。 换句话说,当说先说不该做的事时——好吧,你是在排除推理。 除了 disallow 之外还有 allow,这是块的例外。
如果你想写一个好的机器人文件,你必须反过来想,所以你必须告诉谷歌它不应该读什么。 如果你写:
禁止:
蜘蛛将读取您的整个网站,没有任何刹车。
如果在“Disallow:”之后插入一个斜杠(因此 Disallow: /),该站点将不会被搜索引擎输入,句号。
不允许:/目录/
将单词目录替换为您希望从蜘蛛视图中拒绝的文件夹。 您可以对特定文件执行相同的操作。
不允许:/myfile.html
注意 标点符号和字母, 大写或小写。 这种类型的文件高度重视这些“琐事”,但它们有很大的不同。
你为什么要阻止谷歌阅读你网站的大部分内容? 当您编写此类文件时,重要的是要了解哪些文件不应出现在搜索引擎上,但不要滥用它们。 但是,请注意,任何知道该特定文件确切地址的人都可以在任何情况下访问它。
什么是允许命令?
在文件中,您可以使用以下命令添加例外 允许. 语法是相同的,但它会为 DISALLOW 创建一些例外,这将允许为蜘蛛打开有趣的探索空间。
一个小样本文件:
用户代理:Googlebot
不允许:/图片/
允许:/images/holidays.jpg
基本上我们告诉 Googlebot 不要考虑图像文件夹,除了其中的特定照片,即来自假期的照片。
伙计们,就是这样。 我们编写了第一个 robots.txt 文件。 当然,我们要为实际网站做的事情可能会略有不同,但差别不大。 如有疑问,请始终向专业网站管理员寻求建议。 我们建议您首先尝试自己编写,然后将其发送给他进行检查,以便掌握基础知识并更好地了解您的网站是如何工作的。
robots.txt 和站点地图之间有什么关联?
站点地图是由特殊插件生成的文件,其中包含站点上的所有链接。 当蜘蛛进入站点时,它首先读取机器人,然后爬取站点。 如果机器人在抓取过程中找到站点地图地址,整个过程就会容易得多。
在上面的代码中添加以下内容:
在结论
所有机器人文件都是相同的。 这意味着为 Google 编写的 Robots 文件也适用于 Bing,并且遵循相同的语法。
组织良好的 robots.txt 文件允许您 节省爬虫时间. 不要气馁:这是迈向成功的第一步!
您也可能对。。。有兴趣:
“以病人为中心”:伟大的希望和参议院的会议
专家和政治家将于 15 月 XNUMX 日在罗马探讨医疗器械创新对欧洲医疗保健的重要性这一主题
阿尔贝托·尼科里尼districtbiomedicale.it、BioMed News 和 Radio Pico 的编辑