robot.txt与sitemap.xml

一:为什么要写robots.txt?如何完成一个robots.txt?

蜘蛛访问网站首先查看的是robots.txt文件,那么我们能够将网站地图设置进去,更有利于蜘蛛索引最新的信息,而少走许多冤枉路。写好robots文件,把需要禁止收录的内容写好,这样节省你自己网站的流量,同时也减少了蜘蛛的工作量,最后网站地图的地址也需要在robots.txt中指定。sitemap对网站的收录有非常重要的影响!!!

1、创建一个名为 robots.txt 的文件。

robot.txt创建的格式和位置规则:

  • 文件必须命名为 robots.txt。
  • 网站只能有 1 个 robots.txt 文件。
  • robots.txt 文件必须位于其要应用到的网站主机的根目录下。

2、向 robots.txt 文件添加规则

robots.txt书写规则:

  • user-agent:标识相应规则适用于哪些抓取工具。
  • allow:可抓取的网址路径。
  • disallow:不可抓取的网址路径。
  • sitemap:站点地图的完整网址。  
allow: *
disallow: /

这个最简单的robots.txt文件表示:禁止抓取整个网站

wordpress网站的一个robots.txt配置示例:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /*/comment-page-*
Disallow: /*?replytocom=*
Disallow: /category/*/page/
Disallow: /tag/*/page/
Disallow: /*/trackback
Disallow: /feed
Disallow: /*/feed
Disallow: /comments/feed
Disallow: /?s=*
Disallow: /*/?s=*\
Disallow: /attachment/
Disallow: /*?*

Sitemap: https://www.uperli.com/sitemap.xml

 

一:sitemap的作用及其写法

             Sitemap 的作用是方便网站管理员通知搜索引擎网站上可供抓取的网页;网络抓取工具通常会通过网站内部和其他网站上的链接查找网页。sitemap 会提供此数据以便允许支持 Sitemap 的抓取工具抓取 Sitemap 提供的所有网址,并了解使用相关元数据的网址。使用 Sitemap协议并不能保证网页会包含在搜索引擎中,但可向网络抓取工具提供一些提示以便它们更有效地抓取网站。

sitemap.xml文件示例:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <url>
      <loc>http://www.example.com/</loc>
      <lastmod>2005-01-01</lastmod>
      <changefreq>monthly</changefreq>
      <priority>0.8</priority>
   </url>
</urlset> 
属性   描述
<urlset> 必填     

封装文件并引用当前协议标准。

<url> 必填

每个 URL 条目的父标记。其余标记是此标记的子标记。

<loc> 必填

页面的网址。如果您的 Web 服务器需要,此 URL 必须以协议(如 http)开头,并以尾部斜杠结尾。此值必须小于 2,048 个字符。

<lastmod> 自选

上次修改文件的日期。此日期应采用W3C 日期时间格式。此格式允许您根据需要省略时间部分,并使用 YYYY-MM-DD。

请注意,此标记与服务器可以返回的 If-Modified-Since (304) 标头是分开的,并且搜索引擎可能会以不同的方式使用来自两个源的信息。

<changefreq> 自选

页面更改的频率。此值向搜索引擎提供常规信息,并且可能与搜索引擎抓取网页的频率并不完全相关。有效值为:

  • 总是
  • 小时
  • 日常
  • 周刊
  • 每月
  • 每年
  • 从不

值”始终”应用于描述每次访问时更改的文档。值”从不”应用于描述已存档的 URL。

请注意,此标记的值被视为提示,而不是命令。尽管搜索引擎抓取工具在做出决定时可能会考虑这些信息,但抓取标记为”每小时”的网页的频率可能低于此频率,并且他们可能会更频繁地抓取标记为”每年”的网页。抓取工具可能会定期抓取标记为”从不”的网页,以便处理对这些网页的意外更改。

<

priority>

自选

此网址相对于您网站上其他网址的优先级。有效值范围为 0.0 到 1.0。此值不会影响您的网页与其他网站上的网页的比较方式,只会让搜索引擎知道您认为哪些网页对抓取工具最重要。

页面的默认优先级为 0.5。

请注意,您为网页分配的优先级不太可能影响您的网址在搜索引擎结果页中的位置。搜索引擎可能会在同一网站上的网址之间进行选择时使用此信息,因此您可以使用此标记来增加您最重要的网页出现在搜索索引中的可能性。

另外,请注意,为网站上的所有网址分配高优先级不太可能对您有所帮助。由于优先级是相对的,因此它仅用于在站点上的网址之间进行选择。

加入网站又两个页面,一个为:https://www.uperli.com/、另一个为:https://www.uperli.com/1.html,则我们可以写最简单的siremap.xml网站地图如下:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <url>
      <loc>https://www.uperli.com/</loc>
   </url>
   <url>
      <loc>https://www.uperli.com/1.html</loc>
   </url> </urlset>

同理有,有n多个页面可以直接这个复制代码,然后只用修改loc中的网址即可完成!

 

发表评论