通过优化robot的方式,加速谷歌收录我们的网站
前段时间不是讲这个博客网站录入到google的google search console 站点了吗, 现在通过site:www.hancher.top
确实能看到我的网站了。
但是,我发现,我的新内容,google收录的很慢,即使增加了主动提交url的功能,也还是很慢。
问题与解决
然后我在查看google站点后台的时候,发现我们是能看到google的爬虫爬取我们网站的记录的。
位置:设置 -> 抓取统计信息(打开报告) -> 按响应统计 -> 成功(200) , 然后就能看到爬虫爬取我们网站的记录了。
结果我发现,谷歌爬取我们网站,每天只有一定的次数(3-20次左右),而其中大部分次数都被js,css,图片等内容占用了,导致我们新内容,google爬取不到。
仔细分析就能发现,除了2月21日的那一天爬到了我的文章外,其他的爬取的都是js,css,图片等无效内容,严重干扰了谷歌对我们文章的收录。
所以,我们要通过robots.txt
的方式,告诉google,哪些内容能爬,哪些内容不爬,来提升google对我们文章的收录效率。
robots.txt 文件规定了搜索引擎抓取工具可以访问您网站上的哪些网址。 此文件主要用于避免您的网站收到过多请求
下面是我的优化后的robots.txt配置:
1 |
|
注意,按照谷歌官方的说法,js等也是一个网页的重要组成部分, 如非必要,建议不要禁止js的爬取。
所以我们这里的配置是一个临时举措,等google将我们的网站内容全部收录后,可以再把js等内容放开。
对了,robots.txt文件更新后,要记得到谷歌官网提交一下,否则google不会及时更新。
更新robots的爬虫效果:
参考
通过优化robot的方式,加速谷歌收录我们的网站
https://www.hancher.top/2025/02/25/site-google-optimize-robot/