你是否也遇到这样的问题:
网站建设很久,天天去查询,谷歌就是一直不收录?再问建站公司,建站公司说多发文章,原创文章越多越好。(其实他们也没有办法)
网站上线很久,收录很少?甚至只有首页收录了,其他页面一点动静都没有。每天发的文章都没有收录,心里很恼火。
如果你也有这样的困惑,那就花点时间看完这篇文章。
如果这个文章对你有用,请点击关注,安迪还有一百多篇干货等着分享,希望你能和我一起成长。
有一次B2C建站三个月了,谷歌零收入,最后发现居然是在建站设计的时候,被我设置为robots屏蔽了搜索请求,所以千万要记得在网站上线之后第一时间开放搜索。
安迪也的确憨憨过很长一段时间。
这次的案例,是国内一家公司给企业建站,两个月过去,百度和谷歌都是零收录。
企业去问建站公司,建站公司开始是推脱,说这是搜索引擎的问题,也可能一个月才收录。
第二次再去问的时候,建站公司说:你耐心等待就好了,还没到一个月。不是我们的问题。
第三次,企业发现网站没有放置sitemap的时候,要求建站公司上架robots.txt和sitemap.xml,建站公司说上架了。
结果一个礼拜过去,所有的文件还是没有上架,依旧零收录。
这时候没有办法,企业制作了sitemap和robots上传到服务器根目录,结果爬虫爬取报错。
最后没有办法,企业找到我们澳洲公司,请求我们解决收录的问题。
经过一晚上的排查,取了客户的google账号,调查了google search console的结果。一番调查和取证后,逐个排查问题,最后Don发现问题可能出在robots.txt的编写上面。
于是我们手工制作了robots和sitemap文件,再次上传到客户服务器。
在澳洲凌晨时候排查解决了爬虫的正确爬取问题,国内又提交到百度站长,请求爬虫调取网站数据。
最后在百度做了爬取测试,发现一切正常。
所以问题找到了,我们用自己手工编写的问题解决了收录问题。
最后用自己的High DR 外链,链接到企业官网首页,加速了爬虫爬取速度。

这就是爬取结果。

小结:大家都知道sitemap重要,谷歌也把sitemap做为高级SEO内容提供专业教程。
光头Brian也做了sitemap的专栏
实际上,大家使用sitemap的时候,要么手工更新忘了更新内容
要么用工具,会导致网站速度减慢
还有的时候,sitemap可以教会我们很多知识。
2012年的时候,经常被黑客光顾。有一次一个月入几百刀的小网站一个礼拜颗粒无收,排查了很久,发现sitemap记录的文章更新时间停留在出去旅游之前。— 被乘虚而入了?于是花了时间把DNS改写,转移服务器,总算解决问题。
废话不多说,来看看sitemap是怎么一回事
sitemap有什么优点呢?
1.为搜索引擎蜘蛛提供可以浏览整个网站的链接简单的体现出网站的整体框架出来给搜索引擎看;
2.为搜索引擎蜘蛛提供一些链接,指向动态页面或者采用其他方法比较难以到达的页面;
3.为网站访问者指明方向,并帮助迷失的访问者找到他们想看的页面。
4.如果访问者试图访问网站所在域内并不存在的URL,那么这个访问者就会被301转到“无法找到文件”的错误页面,而网站地图可以作为该页面的“准”内容
如何优化站点地图
一:采用silo结构
层级不要超过三级页面

二、优化title标签,meta标签里的keywords和description

三、不要有断链的情况,注意层级和链接的延续性
四、及时更新sitemap
如果上架大批量文章,不及时更新的话,搜索引擎的蜘蛛爬取会失败。
如何提交给搜索引擎
百度提交入口:
打开百度站长平台,点击左边的”链接提交”,之后在链接提交那里选择我们要 添百度地图的域名

选择“自动推送”中的”sitemap”,之后在空白框中输入网站地图的链接地址。提交输入验证码就可以了,在下面有一下状态,显示正常说明我们的提交己经成功。

Google提交入口:
- 使用站点地图报告提交站点地图。

- 使用ping工具:https://www.google.com/ping?sitemap=FULL_URL_OF_SITEMAP
- 将下面这行内容插入到 robots.txt 文件中的任意位置,指定站点地图的路径。google会在下次抓取 robots.txt 文件时找到该站点地图:
Sitemap: https://example.com/mysitemap.xml
sitemap的起源
Sitemap 是一个网站的全部URL列表,应该自动不定期更新这个列表,以使得使用 sitemap 的第三方搜索引擎可以在规则内及时的发现你的新的URL.
sitemap的xml版本,最早是google提出,相对于txt版本而言,xml里面用语法写好了网站中的所有网页地址及其它相关数据(更新的时间、频率以及相对于网站上其他网址的重要程度等)
站点地图格式,搜索引擎支持多种站点地图格式:
- XML
- RSS、mRSS 和 Atom 1.0
- 文本 txt格式
Google 支持所有格式的标准站点地图协议,但目前不支持在站点地图中使用 <priority> 属性。
XML
下方是一个非常基本的 XML 站点地图,其中仅包含 1 个网址的位置信息:

文本
如果niche站点地图只包含简单的网页网址,那么我们可以向 Google 提供简单的文本文件(每行只包含一个网址)。例如:
http://www.andypeng.com/file1.html
http://www.andypeng.com/file2.html
需要特别指出的
1.txt会保存为其他编码格式,一定要是使用 UTF-8 编码文件进行编码。
2.请勿在站点地图文件中添加除网址以外的任何其他内容。
除了正常给搜索引擎的爬虫读取的xml版本,还有各种给人看到站点地图。
比如skype中文版的简介版本:

比如新浪门户网站的复杂版本,为了方便链接,做了一级和二级入口:

更复杂的比如hao123的经典全局地图:

可惜hao123已经卖给百度了,又是一个站长成功套现的经典案例。
除了给人看的优秀网站地图,实际上剩下的就是给机器识别用的地图。
那有什么办法可以快速制作sitemap网站地图吗?
自己如果要生产站点地图,怎么手写?
当然,随处可见的在线地图生成器,比如百度排行首位的niche终极站点:网站地图地图帮
这种工具站做好了也是很吸引流量的,蚊子再少也是肉。
里面除了可以一键生成站点地图

运行2023天,在线4人,服务于4,404,072用户,生成8,116,882次网站地图。
还可以download sitemap,一键下载三种版本。

除了手工创建地图,如果站点地图超过100个文件呢?如果是10000个网页呢?那就只能交给工具啦
如果要创建的站点地图包含的网址不到几十个,我可以手动创建站点地图。
如果要创建的站点地图包含的网址超过几十个,请务必自动生成站点地图。
还有一种是给RSS生成站点地图的工具,主要是用在RSS订阅上,现在已经很少人使用RSS,都转移到公众号了。
还有一种站群专用的地图生成器,可以批量生成网站地图。
关于站点地图的一些误区
一、站点地图只是url链接。
实际上,谷歌也在高级SEO技巧里面提到,站点地图也可以承载多媒体资源。
我们可以使用站点地图提供与特定类型的网页内容(包括视频、图片和新闻内容)有关的信息。例如:
- 站点地图视频条目可以指定视频的时长、类别以及适合哪些年龄段的受众。
- 站点地图图片条目中可包含图片主题、类型和许可。
- 站点地图新闻条目中可包含报道标题和发布日期。
二、所有的网站都需要站点地图
大部分的情况下,站点地图都是需要的,但是对于以下的情况来说,这个sitemap并非必需品。
以下情况下,您可能不需要站点地图:
- 网站规模“较小”。规模较小是指网站上的网页数不超过 500 个。(只有我们认为需要纳入搜索结果中的网页才会计入此总数。)
- 网站已在内部全面建立链接。这意味着,Google 可以沿着首页的链接找到我们niche网站上的所有重要网页。
- 想在搜索结果中显示的媒体文件(视频、图片)或新闻网页不多。站点地图可帮助 Google 找到并了解您网站上的视频和图片文件或新闻报道。但如果站长不希望这些内容出现在图片、视频或新闻搜索结果中,则可能不需要站点地图。
那什么情况需要站点地图呢?
在以下情况下,niche站点是一定需要站点地图的:
- 网站规模很大,指的是超过几百篇文章的那种大型图文网站。在这种情况下,Google 网页抓取工具更有可能在抓取时漏掉部分新网页或最近更新的网页。
- 网站有大量内容页归档,这些内容页之间互不关联或缺少有效链接。有一些链接可能没有被关联到,大型网站通常会丢失直接的链接,导致很多网页根本没有索引记录。
- 网站为新网站且指向该网站的外部链接不多,特别是新的网站,没有索引记录,就要主动提供给google,让它来爬取和。Googlebot 及其他网页抓取工具是通过跟踪网页之间的链接来抓取网页的。因此,如果没有其他网站链接到您的网页,Google 可能不会发现我们小小的网页。
- 网站包含大量富媒体内容(视频、图片)或显示在 Google 新闻中。如果提供了站点地图,在适当情况下,Google 能将站点地图中的其他信息纳入搜索范围。
请注意,站点地图的大小不得超过 50 MB。
如果超过50M,你也已经是超级高手级别了。
解决办法是分割站点地图,以及管理多个站点地图。
拆分较大的站点地图
如果站点地图大于 50MB,则需要将较大的站点地图拆分成多个站点地图。使用站点地图索引文件同时提交多个站点地图。 站点地图索引文件的 XML 格式与站点地图文件的 XML 格式非常相似。 站点地图索引文件使用以下 XML 标记:
- sitemapindex – 文件头尾的父标记
- sitemap – 文件中列出的每个站点地图的父标记(sitemapindex 标记的子级)
- loc – 站点地图的位置(sitemap 标记的子级)
示例如下:

管理多个网站的站点地图
比如我们这种站长拥有多个网站,完全可以创建一个或多个站点地图,其中包含我们所有经过验证的网站对应的网址,然后将这个/这些站点地图保存到同一位置,从而简化站点地图的创建和提交过程。所有网站都必须在 Search Console 中经过验证。 可以选用:
包含多个网站(包括不同网域中的网站)网址的单个站点地图。例如,位于 http://host1.example.com/sitemap.xml 的站点地图可以包含以下网址。
http://host1.example.com
http://host2.example.com
http://host3.example.com
http://host1.example1.com
http://host1.example.cn
位于同一位置的多个站点地图(每个网站各一个)。
更高级别的涉及到主要有三类,目前和我们niche站关系不是很大:
视频站点地图和替代方案、
图片站点地图、
Google 新闻站点地图。
使用建议:
百度:建议使用 HTML 格式和TXT格式的网站地图。
Google:建议使用 XML 格式的网站地图。
Yahoo:建议使用 TXT 格式的网站地图。
QA:一般提交sitemap多久会收录?
sitemap数据提交后,一般在1小时内会被百度处理。
谷歌是当场处理,所以可以当场验证。
收录时间依据权重影响爬虫的排名而定