如何制作网站地图并规范robots协议内容
约 1511 字大约 5 分钟
2025-07-31
网站地图的制作在seo优化中也是占据很重要一部分的,网站地图制作好了有利于蜘蛛对我们网站信息的检索与抓取,告诉搜索引擎哪个页面是重要的页面,相当于给了搜索引擎一个方向盘,以及更新的频率,即告诉搜索引擎间隔多长时间应该来访一次;让蜘蛛在网站里分清主次目录以及更加精确的抓取文章,蜘蛛会长时间逗留在XML地图里,以便及时的抓取信息,给搜索引擎蜘蛛的爬行提供一个路径,快速准确的抓取网站内容。
如果你的网站收录遇到了问题,不妨分析一下日志,梳理一下你的网站地图,但是更应该在网站搭建好后就建立对应的网站地图。
sitemap 和** Sitemaps**(大写 S 加复数 s) 的区别。Sitemap 为简单的站点地图翻译,而当我们指出是 Sitemaps 的时候,其意味着该站点地图是已经严格遵守 sitemap 协议所定义的 XML 格式所建立的。
参考错误案例:http://www.qq.com/sitemap_index.xml
11年的地图,基本上不重视
有问题
http://linyixian.58.com/sitemap.xml
有问题 (二级域名建议每个都有单独的xml地图)
http://www.seowhy.com/sitemap.txt
同行业:https://www.jiamengfei.com/sitemap.xml
基本上https://www.jiamengfei.com/sitemap_1.xml
案例:
品牌官网,收录420000+ 不得不分析网站的链接,地图结构。
参考:https://www.apple.com/robots.txt
Sitemap: https://www.apple.com/shop/sitemap.xml
Sitemap: https://www.apple.com/sitemap.xml
Sitemap: https://www.apple.com/newsroom/sitemap.xml
Sitemap: https://www.apple.com/retail/sitemap/sitemap.xml
Sitemap: https://www.apple.com/today/sitemap-index.xml 很强大
a 直接列URL
b 分目录来列出URL
c 分国家的进行URL列举
2**、再瞅瞅****shop/sitemap.xml ,**主要特点
a 继续是xml文件
b 依然按照国家来进行细分
c 把每一个国家的URL再单独设置一个独立的XML文件(这个很重要)
具体到中国香港的XML文件以后,居然还细分了一级XML
a 按照浏览产品详情来分 browse
b 按照浏览产品的图片来分 images
c 按照购买详情页来分 Buy
d一类分一个,接下去就是把每一个XML都列出详细的URL了
基本上苹果的XML算是结束了,我们再回顾一下:
A XML文件,有三个大的XML文件,一个在根目录,一个在目录/shop/ 一个在目录/newsroom/
B 根目录相对比较传统的设置,不一样的在后面的shop 目录以及newsroom目录
C shop目录,根据所在国家进行细分,并且国家下面根据网站功能再细分,最后才到具体的URL。
<url>
<loc>http://www.uedsc.com/tag/net</loc>
<lastmod>2015-02-27T01:12:09+00:00</lastmod>
<changefreq>weekly</changefreq>
<priority>0.3</priority>
</url>
语法很简单。其中priority是指相对于其他页面的优先权,changefreq则是指内容更新的频率。有了这些设置,就等于告诉搜索引擎机器人,你的网站的更新情况如何,以及希望搜索引擎优先收录哪些内容。
格式说明
1、首尾格式
如下:
<?xml version="1.0"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
这两句代码类似Html标签是死的。照抄即可。文件最后会有</urlset>
2、<loc></loc>
这两个标签中间的地址必填。格式为:http://www.tekuba.net/share,此网址应以协议开始(例如:http)并以斜线结尾。此值应少于 2048 个字符。
3、<lastmod>
可选标签 标签含义:该文件上次修改的日期。此日期应采用 W3C Datetime 格式。如果需要的话,此格式允许省略时间部分,而仅使用 YYYY-MM-DD。 列子:2014-07-16。
一 般来说这个很重要。Google的机器人会在索引此链接前先和上次索引记录的最后更新时间进行 比较,如果时间一样就会跳过不再索引。所以如果你的链接内容基于上次Google索引时的内容有所改变,应该更新该时间,让Google下次索引时会重新 对该链接内容进行分析和提取关键字。
4、<changefreq>
可选标签 标签含义:页面可能发生更改的频率。此值为搜索引擎提供一般性信息,可能与搜索引擎抓取页面的频率不完全相关。有效值为:
always
hourly
daily
weekly
monthly
yearly
never
值“always”应当用于描述每次访问时都会改变的文档。而值“never”应当用于描述已存档网址。
5、<priority>
可 选标签 此网址的优先级与您网站上其他网址的优先级相关。有效值范围从 0.0 到 1.0。此值不会影响您的网页与其他网站上网页的比较结果,只是告诉搜索引擎您认为您的那个网页最重要,从而它们对您页面的抓取可以按照您最喜欢的方式进 行排序。一个网页的默认优先级为 0.6。
xml文件必须是utf-8的编码格式,可以用记事本打开xml然后另存为时选择编码(或转换器)为UTF-8。了解这些标签的作用我们就可以根据自己网站的情况做出适合自己站点sitemap.xml。
Sitemap.xml制作完成后,就需要将xml文件提交到相关搜索引擎。
更新: 2020-04-21 10:29:22
原文: <https://www.yuque.com/seoers/uyyd4f/mi1fzu>