通过优化robot的方式,加速谷歌收录我们的网站

前段时间不是讲这个博客网站录入到google的google search console 站点了吗, 现在通过site:www.hancher.top确实能看到我的网站了。

但是,我发现,我的新内容,google收录的很慢,即使增加了主动提交url的功能,也还是很慢。

问题与解决

然后我在查看google站点后台的时候,发现我们是能看到google的爬虫爬取我们网站的记录的。

位置:设置 -> 抓取统计信息(打开报告) -> 按响应统计 -> 成功(200) , 然后就能看到爬虫爬取我们网站的记录了。

结果我发现,谷歌爬取我们网站,每天只有一定的次数(3-20次左右),而其中大部分次数都被js,css,图片等内容占用了,导致我们新内容,google爬取不到。

谷歌每天的爬取链接情况

仔细分析就能发现,除了2月21日的那一天爬到了我的文章外,其他的爬取的都是js,css,图片等无效内容,严重干扰了谷歌对我们文章的收录。

所以,我们要通过robots.txt的方式,告诉google,哪些内容能爬,哪些内容不爬,来提升google对我们文章的收录效率。

robots.txt 文件规定了搜索引擎抓取工具可以访问您网站上的哪些网址。 此文件主要用于避免您的网站收到过多请求

下面是我的优化后的robots.txt配置:

1
2
3
4
5
User-agent: *
Disallow: /*.js$
Disallow: /*.css$

Sitemap: https://www.hancher.top/sitemap.xml

注意,按照谷歌官方的说法,js等也是一个网页的重要组成部分, 如非必要,建议不要禁止js的爬取。

所以我们这里的配置是一个临时举措,等google将我们的网站内容全部收录后,可以再把js等内容放开。

JavaScript SEO 基础知识

对了,robots.txt文件更新后,要记得到谷歌官网提交一下,否则google不会及时更新。
重新添加网站地图

更新robots的爬虫效果:
只爬文章

参考

如何编写和提交 robots.txt 文件


通过优化robot的方式,加速谷歌收录我们的网站
https://www.hancher.top/2025/02/25/site-google-optimize-robot/
作者
寒澈
发布于
2025年2月25日
更新于
2025年2月28日
许可协议